Dengan demikian, bahkan konfigurasi model kecerdasan buatan berkinerja terbaik yang mereka uji, GPT-4-Turbo milik OpenAI, hanya mencapai rasio jawaban benar sebesar 79% meskipun telah membaca keseluruhan profil dan sering mengalami "halusinasi" berupa angka atau kejadian yang tidak nyata.
"Tingkat kinerja seperti itu sama sekali tidak dapat diterima," kata Anand Kannappan, salah satu pendiri Patronus AI. "Tingkat jawaban yang benar perlu jauh lebih tinggi agar dapat diotomatisasi dan siap produksi."
Temuan ini menyoroti beberapa tantangan yang dihadapi model AI karena perusahaan besar, terutama dalam industri yang sangat diatur seperti keuangan, berupaya untuk menggabungkan teknologi canggih ke dalam operasi mereka, baik itu layanan pelanggan atau penelitian.
"Ilusi" data keuangan
Kemampuan untuk mengekstrak angka-angka penting dengan cepat dan melakukan analisis laporan keuangan telah dilihat sebagai salah satu aplikasi paling menjanjikan untuk chatbot sejak ChatGPT dirilis akhir tahun lalu.
Pengajuan SEC berisi data penting, dan jika bot dapat meringkas secara akurat atau menjawab pertanyaan tentang isinya dengan cepat, hal itu dapat memberi pengguna keunggulan dalam industri keuangan yang kompetitif.
Selama setahun terakhir, Bloomberg LP telah mengembangkan model AI-nya sendiri untuk data keuangan, dan para profesor sekolah bisnis telah mempelajari apakah ChatGPT dapat menganalisis berita utama keuangan.
Sementara itu, JPMorgan juga sedang mengembangkan alat investasi otomatis bertenaga AI. Proyeksi McKinsey baru-baru ini menyebutkan bahwa AI generatif dapat mendorong industri perbankan hingga triliunan dolar per tahun.
Namun, perjalanan masih panjang. Ketika Microsoft pertama kali meluncurkan Bing Chat dengan GPT OpenAI, mereka menggunakan chatbot tersebut untuk meringkas siaran pers pendapatan dengan cepat. Para pengamat segera menyadari bahwa angka-angka yang dihasilkan AI tersebut bias atau bahkan direkayasa.
Data yang sama, jawaban yang berbeda
Salah satu tantangan dalam mengintegrasikan LLM ke dalam produk dunia nyata adalah bahwa algoritma tidak bersifat deterministik, artinya algoritma tidak dijamin menghasilkan hasil yang sama dengan input yang sama. Hal ini berarti perusahaan perlu melakukan pengujian yang lebih ketat untuk memastikan AI berfungsi dengan benar, tidak menyimpang dari topik, dan memberikan hasil yang andal.
Patronus AI menyusun lebih dari 10.000 pertanyaan dan jawaban yang diambil dari laporan SEC dari perusahaan-perusahaan besar yang terdaftar di bursa, yang disebut FinanceBench. Dataset ini mencakup jawaban yang benar serta lokasi persis di setiap berkas untuk menemukannya.
Tidak semua jawaban dapat diambil langsung dari teks dan beberapa pertanyaan memerlukan perhitungan atau penalaran ringan.
Subset tes yang terdiri dari 150 pertanyaan melibatkan empat model LLM: GPT-4 dan GPT-4-Turbo milik OpenAI, Claude 2 milik Anthropic, dan Llama 2 milik Meta.
Akibatnya, GPT-4-Turbo, ketika diberi akses ke arsip dasar SEC, hanya mencapai tingkat akurasi sebesar 85% (dibandingkan dengan 88% ketika tidak memiliki akses ke data), meskipun manusia mengarahkan mouse ke teks yang tepat agar AI dapat menemukan jawabannya.
Llama 2, model AI sumber terbuka yang dikembangkan oleh Meta, memiliki jumlah “halusinasi” tertinggi, yaitu 70% jawaban salah dan hanya 19% jawaban benar ketika diberikan akses ke sebagian dokumen yang mendasarinya.
Claude 2 dari Anthropic berkinerja baik ketika diberikan "konteks panjang", yang menyertakan hampir seluruh dokumen SEC yang relevan beserta pertanyaannya. Claude 2 mampu menjawab 75% pertanyaan yang diajukan, menjawab 21% dengan salah, dan menolak menjawab 3%. GPT-4-Turbo juga berkinerja baik dalam konteks panjang, menjawab 79% pertanyaan dengan benar dan 17% dengan salah.
(Menurut CNBC)
Perlombaan Big Tech untuk Berinvestasi pada Startup AI
Teknologi AI Merevolusi Startup E-Commerce
AI berhasil mengubah pikiran manusia menjadi gambar realistis untuk pertama kalinya
[iklan_2]
Sumber
Komentar (0)