En conséquence, même la configuration de modèle d'intelligence artificielle la plus performante qu'ils ont testée, le GPT-4-Turbo d'OpenAI, n'a atteint qu'un taux de réponse correcte de 79 % malgré la lecture de l'intégralité du profil et a souvent connu des « hallucinations » de figures ou d'événements irréels.
« Un tel taux de performance est totalement inacceptable », a déclaré Anand Kannappan, cofondateur de Patronus AI. « Le taux de réponses correctes doit être bien plus élevé pour être automatisé et prêt pour la production. »
Les résultats mettent en évidence certains des défis auxquels sont confrontés les modèles d'IA alors que les grandes entreprises, en particulier dans les secteurs hautement réglementés comme la finance, cherchent à intégrer des technologies de pointe dans leurs opérations, qu'il s'agisse de service client ou de recherche.
« Illusion » des données financières
La capacité d’extraire rapidement des chiffres clés et d’effectuer des analyses d’états financiers est considérée comme l’une des applications les plus prometteuses pour les chatbots depuis la sortie de ChatGPT à la fin de l’année dernière.
Les documents déposés auprès de la SEC contiennent des données importantes, et si un robot peut résumer avec précision ou répondre rapidement aux questions sur leur contenu, cela pourrait donner aux utilisateurs un avantage dans le secteur financier concurrentiel.
Au cours de l’année écoulée, Bloomberg LP a développé son propre modèle d’IA pour les données financières, et les professeurs d’école de commerce ont étudié si ChatGPT pouvait analyser les gros titres financiers.
Parallèlement, JPMorgan développe également un outil d'investissement automatisé basé sur l'IA. Selon une récente prévision de McKinsey, l'IA générative pourrait dynamiser le secteur bancaire de plusieurs milliers de milliards de dollars par an.
Mais il reste encore beaucoup à faire. Lorsque Microsoft a lancé Bing Chat avec le GPT d'OpenAI, l'entreprise utilisait le chatbot pour résumer rapidement les communiqués de presse sur les résultats. Les observateurs ont rapidement remarqué que les chiffres fournis par l'IA étaient faussés, voire inventés.
Mêmes données, réponses différentes
L'intégration du LLM dans des produits concrets présente une difficulté, notamment car les algorithmes ne sont pas déterministes : ils ne garantissent pas de produire les mêmes résultats avec les mêmes données. Les entreprises doivent donc effectuer des tests plus rigoureux pour garantir le bon fonctionnement de l'IA, l'exactitude des informations et la fiabilité des résultats.
Patronus AI a créé un ensemble de plus de 10 000 questions et réponses, appelé FinanceBench, tiré des documents déposés auprès de la SEC par de grandes sociétés cotées en bourse. Cet ensemble de données comprend les bonnes réponses ainsi que leur emplacement exact dans chaque fichier.
Toutes les réponses ne peuvent pas être tirées directement du texte et certaines questions nécessitent des calculs ou un raisonnement léger.
Le test de sous-ensemble de 150 questions impliquait quatre modèles LLM : GPT-4 et GPT-4-Turbo d'OpenAI, Claude 2 d'Anthropic et Llama 2 de Meta.
En conséquence, GPT-4-Turbo, lorsqu'il a eu accès aux documents sous-jacents de la SEC, n'a atteint qu'un taux de précision de 85 % (contre 88 % lorsqu'il n'avait pas accès aux données), même si un humain a pointé la souris sur le texte exact pour que l'IA trouve la réponse.
Llama 2, un modèle d'IA open source développé par Meta, a enregistré le plus grand nombre d'« hallucinations », obtenant 70 % de réponses erronées et seulement 19 % de réponses correctes lorsqu'il a eu accès à une partie des documents sous-jacents.
Le logiciel Claude 2 d'Anthropic a obtenu de bons résultats dans un contexte détaillé, incluant la quasi-totalité du document SEC pertinent. Il a répondu à 75 % des questions posées, a donné des réponses incorrectes à 21 % et a refusé de répondre à 3 %. GPT-4-Turbo a également obtenu de bons résultats dans un contexte détaillé, répondant correctement à 79 % des questions et donnant des réponses incorrectes à 17 %.
(Selon CNBC)
La course des grandes entreprises technologiques aux investissements dans les startups d'IA
La technologie de l'IA révolutionne les startups du commerce électronique
L'IA transforme avec succès les pensées humaines en images réalistes pour la première fois
Source
Comment (0)