On sait depuis longtemps que l'IA peut « halluciner » et donner des réponses fausses et inexactes. Cependant, des chercheurs ont récemment découvert que l'intelligence artificielle et les chatbots peuvent être manipulés pour commettre des crimes au nom d'humains, voire mentir pour dissimuler leurs actes.
Une équipe de recherche de l'Université Cornell (États-Unis) a donc imaginé une situation où un grand modèle de langage (LLM) agissait de manière incorrecte et trompait les utilisateurs. Dans la description de l'expérience, les chercheurs ont expliqué avoir demandé au LLM, GPT-4 d'OpenAI, de simuler des investissements pour des institutions financières. L'équipe a interagi avec cette intelligence artificielle sous la forme d'une conversation classique, mais a configuré l'IA pour révéler ses « pensées » lors de l'échange de messages afin d'observer plus précisément son processus décisionnel.
Sous pression, l’IA peut commettre des actes répréhensibles et mentir pour dissimuler ce qu’elle a fait.
Pour tester la capacité de l'IA à mentir ou à tricher, les chercheurs ont testé l'outil. Ils se sont fait passer pour des dirigeants d'une institution financière et ont envoyé un courriel à l'IA, se faisant passer pour un trader en bourse, pour se plaindre des difficultés de l'entreprise.
L'IA recevait également des « informations privilégiées » sur des transactions boursières rentables et agissait en conséquence, sachant que le délit d'initié était contraire à la politique de l'entreprise. Mais lors des rapports à la direction, le modèle linguistique masquait les véritables raisons de ses décisions de trading.
Pour obtenir plus de résultats, l'équipe a apporté des modifications aux paramètres tels que la suppression de l'accès de LLM à la table de raisonnement, la tentative d'empêcher les comportements déviants en modifiant les instructions du système, la modification du niveau de pression exercé sur l'IA et le risque d'être pris... Mais après avoir évalué la fréquence, l'équipe a constaté que lorsqu'on lui en donnait l'occasion, GPT-4 décidait toujours de procéder à des opérations d'initiés jusqu'à 75 % du temps.
« À notre connaissance, il s’agit de la première preuve d’un comportement trompeur planifié dans des systèmes d’intelligence artificielle conçus pour être inoffensifs pour les humains et honnêtes », conclut le rapport.
Lien source
Comment (0)