Dementsprechend erreichte sogar die von ihnen getestete Konfiguration eines künstlichen Intelligenzmodells mit der besten Leistung, GPT-4-Turbo von OpenAI, trotz des Lesens des gesamten Profils nur eine richtige Antwortrate von 79 % und erlebte häufig „Halluzinationen“ von unwirklichen Zahlen oder Ereignissen.
„Diese Leistungsrate ist völlig inakzeptabel“, sagte Anand Kannappan, Mitbegründer von Patronus AI. „Die richtige Antwortrate muss viel höher sein, um automatisiert und produktionsreif zu sein.“
Die Ergebnisse verdeutlichen einige der Herausforderungen, vor denen KI-Modelle stehen, da große Unternehmen, insbesondere in stark regulierten Branchen wie dem Finanzwesen, versuchen, fortschrittliche Technologien in ihre Betriebsabläufe zu integrieren, sei es im Kundendienst oder in der Forschung.
Finanzdaten-"Illusion"
Die Fähigkeit, schnell Kennzahlen zu extrahieren und Bilanzanalysen durchzuführen, gilt seit der Veröffentlichung von ChatGPT Ende letzten Jahres als eine der vielversprechendsten Anwendungen für Chatbots.
SEC-Anmeldungen enthalten wichtige Daten. Wenn ein Bot deren Inhalt präzise zusammenfassen oder Fragen dazu schnell beantworten kann, könnte dies den Benutzern einen Vorteil in der wettbewerbsintensiven Finanzbranche verschaffen.
Im vergangenen Jahr hat Bloomberg LP ein eigenes KI-Modell für Finanzdaten entwickelt und Professoren von Business Schools haben untersucht, ob ChatGPT Finanzschlagzeilen analysieren kann.
JPMorgan entwickelt inzwischen ein KI-gestütztes automatisiertes Anlagetool. Eine aktuelle McKinsey-Prognose besagt, dass generative KI dem Bankensektor jährlich Billionen von Dollar einbringen könnte.
Doch bis dahin ist es noch ein weiter Weg. Als Microsoft Bing Chat mit OpenAIs GPT startete, nutzte es den Chatbot, um Pressemitteilungen zu den Ergebnissen schnell zusammenzufassen. Beobachter bemerkten schnell, dass die von der KI ausgegebenen Zahlen verzerrt oder sogar gefälscht waren.
Gleiche Daten, unterschiedliche Antworten
Eine der Herausforderungen bei der Integration von LLM in reale Produkte besteht darin, dass Algorithmen nicht deterministisch sind. Das bedeutet, dass sie bei gleichen Eingaben nicht garantiert die gleichen Ergebnisse liefern. Unternehmen müssen daher strengere Tests durchführen, um sicherzustellen, dass KI korrekt funktioniert, nicht vom Thema abweicht und zuverlässige Ergebnisse liefert.
Patronus AI hat einen Satz von über 10.000 Fragen und Antworten aus SEC-Anmeldungen großer börsennotierter Unternehmen erstellt, genannt FinanceBench. Der Datensatz enthält die richtigen Antworten sowie die genaue Position in der jeweiligen Datei, um sie zu finden.
Nicht alle Antworten können direkt aus dem Text entnommen werden und manche Fragen erfordern Berechnungen oder leichtes logisches Denken.
Der 150 Fragen umfassende Teiltest umfasste vier LLM-Modelle: GPT-4 und GPT-4-Turbo von OpenAI, Claude 2 von Anthropic und Llama 2 von Meta.
Als GPT-4-Turbo Zugriff auf die zugrunde liegenden Unterlagen der SEC erhielt, erreichte es daher lediglich eine Genauigkeitsrate von 85 % (im Vergleich zu 88 %, wenn es keinen Zugriff auf die Daten hatte), obwohl ein Mensch mit der Maus auf den genauen Text zeigte, damit die KI die Antwort finden konnte.
Llama 2, ein von Meta entwickeltes Open-Source-KI-Modell, wies die höchste Zahl an „Halluzinationen“ auf: 70 % der Antworten waren falsch und nur 19 % richtig, als dem Modell Zugriff auf einen Teil der zugrunde liegenden Dokumente gewährt wurde.
Anthropics Claude 2 schnitt in einem „langen Kontext“ gut ab, in dem neben der Frage fast die gesamte relevante SEC-Anmeldung enthalten ist. Es konnte 75 % der gestellten Fragen beantworten, 21 % falsch und 3 % verweigerte die Antwort. Auch GPT-4-Turbo zeigte in einem langen Kontext gute Ergebnisse und beantwortete 79 % der Fragen richtig und 17 % falsch.
(Laut CNBC)
Der Wettlauf der großen Technologieunternehmen um Investitionen in KI-Startups
KI-Technologie revolutioniert E-Commerce-Startups
KI gelingt es erstmals, menschliche Gedanken in realistische Bilder umzusetzen
[Anzeige_2]
Quelle
Kommentar (0)