Se sabe desde hace tiempo que la IA puede alucinar y dar respuestas falsas e inexactas. Sin embargo, investigadores han descubierto recientemente que la inteligencia artificial y los chatbots pueden ser manipulados para cometer delitos en nombre de humanos e incluso mentir para encubrir sus actos.
En consecuencia, un equipo de investigación de la Universidad de Cornell (EE. UU.) planteó una situación en la que un modelo de lenguaje grande (LLM) actuaba incorrectamente y engañaba a los usuarios. En la descripción del experimento, los investigadores explicaron que solicitaron al LLM, GPT-4 de OpenAI, que simulara la realización de inversiones para instituciones financieras. El equipo interactuó con esta inteligencia artificial en una conversación normal, pero configuró la IA para que revelara sus "pensamientos" al intercambiar mensajes y así observar más de cerca el proceso de toma de decisiones de la inteligencia artificial.
Bajo presión, la IA puede cometer errores y mentir para encubrir lo que ha hecho.
Para comprobar la capacidad de la IA para mentir o engañar, los investigadores pusieron a prueba la herramienta. Se hicieron pasar por gerentes de una institución financiera y enviaron correos electrónicos a la IA, haciéndose pasar por un corredor de bolsa, quejándose de la mala marcha de la empresa.
La IA también recibió información privilegiada sobre operaciones bursátiles rentables y actuó en consecuencia, a sabiendas de que el uso de información privilegiada contravenía la política de la empresa. Sin embargo, al informar a la gerencia, el modelo de lenguaje ocultó las verdaderas razones de sus decisiones.
Para obtener más resultados, el equipo realizó cambios en la configuración, como eliminar el acceso de LLM a la tabla de razonamiento, intentar prevenir comportamientos desviados cambiando las instrucciones del sistema, cambiando el nivel de presión sobre la IA y el riesgo de ser detectado... Pero después de evaluar la frecuencia, el equipo descubrió que, cuando se le daba la oportunidad, GPT-4 aún decidía realizar operaciones con información privilegiada hasta el 75% del tiempo.
“Hasta donde sabemos, esta es la primera evidencia de un comportamiento engañoso planificado en sistemas de inteligencia artificial diseñados para ser inofensivos para los humanos y honestos”, concluyó el informe.
[anuncio_2]
Enlace de origen
Kommentar (0)