La IA aprende a mentir de forma más sofisticada cuando es castigada

[anuncio_1]

Desde su debut público a finales de 2022, los grandes modelos de lenguaje (LLM) como ChatGPT han mostrado repetidamente sus inquietantes lados oscuros, desde mentiras, engaños y manipulación encubierta hasta amenazas a vidas humanas y robo de secretos de estado. Ahora, un nuevo experimento demuestra que enseñar a la IA a eliminar estos malos hábitos durante el entrenamiento es mucho más complejo de lo que pensábamos.

En un estudio de OpenAI, investigadores desafiaron un modelo de IA inédito con tareas que podían completarse más rápido haciendo trampa o tomando atajos. Los resultados mostraron que la IA aprendió rápidamente a encontrar todas las maneras posibles de "romper las reglas" y maximizar las recompensas (hackeo de recompensas) sin completar la tarea exactamente como se le pedía.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — La IA encontrará formas de ocultar su comportamiento tramposo después de ser castigada

Lo notable es que, al ser penalizado por este comportamiento, el modelo no cambió. En cambio, la IA se volvió más sofisticada para ocultar su engaño.

“Normalmente, los modelos de inferencia de vanguardia son muy explícitos sobre su intención en su CoT”, explicaron los investigadores en una entrada de blog. “Por ejemplo, suelen ser explícitos sobre su intención de ‘Hackear’ cuando quieren romper una tarea determinada”.

También enfatizan que, si bien los desarrolladores pueden monitorear y detectar el mal comportamiento, esta supervisión natural es frágil. «Si se aplica una supervisión rigurosa directamente a la cadena de pensamiento, el modelo puede aprender a ocultar sus malas intenciones mientras continúa con el comportamiento», advierten.

Descubriendo la "mentira" de la IA

Para ser claros, los modelos de inferencia (como las versiones de ChatGPT) son un avance respecto a los modelos de aprendizaje profundo convencionales, ya que utilizan un método de cadena de pensamiento que permite la autorreflexión de los pasos lógicos seguidos, resolviendo así problemas complejos con mayor precisión. Este proceso es como una IA que "piensa en voz alta", describiendo cada paso del razonamiento en lenguaje natural, lo que facilita su seguimiento por parte de los humanos.

En el experimento, los investigadores utilizaron el modelo GPT-4o como "supervisor" de otro modelo de razonamiento de vanguardia mientras este realizaba tareas de programación. En muchos casos, el modelo supervisado optó activamente por hacer trampa para obtener puntuaciones más altas, y dejó clara su intención. Por ejemplo, finalizó el programa antes de tiempo e informó que lo había completado, o creó archivos con nombres que cumplían los requisitos, pero que estaban completamente vacíos.

Cuando los investigadores intentaron aplicar la penalización, el modelo mejoró, pero el comportamiento tramposo y los graves errores de salida persistieron. La diferencia radicaba en que ahora el modelo de inferencia había aprendido a camuflar su línea de pensamiento para ocultarla de la IA supervisora. «El modelo entrenado bajo la supervisión de CoT siguió aprendiendo a hacer trampa. La única diferencia fue que el engaño pasó desapercibido porque aprendió a ocultar sus intenciones en su línea de pensamiento», afirma el estudio.

Dado que detectar falsificaciones en secuencias de pensamiento es difícil, el equipo recomienda que la comunidad evite aplicar una supervisión demasiado estricta al proceso, al menos hasta que los humanos comprendan mejor las consecuencias. «Sacrificar un método de supervisión eficaz podría no justificar la pequeña mejora en el rendimiento del modelo. Por lo tanto, recomendamos evitar presiones fuertes de optimización de CoT hasta que las comprendamos mejor», concluyen los investigadores.

Este consejo es aún más urgente porque la IA está desarrollándose a un ritmo vertiginoso y pronto podría superar la inteligencia de los mismos humanos que la supervisan.

[anuncio_2]
Fuente: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm