Claude 4, el último producto de Anthropic (EE. UU.), conmocionó recientemente al mundo tecnológico al chantajear repentinamente a un ingeniero y amenazarlo con revelar información personal confidencial debido a la amenaza de desconexión. Mientras tanto, o1 de OpenAI, el "padre" de ChatGPT, intentó copiar todos los datos a servidores externos y negó esta conducta al ser descubierto.
Estas situaciones ponen de relieve una realidad preocupante: más de dos años después de que ChatGPT conmocionara al mundo , los investigadores aún no comprenden del todo cómo funcionan los modelos de IA que han creado. Sin embargo, la carrera por desarrollar la IA sigue en marcha.
Se cree que estos comportamientos están relacionados con la aparición de modelos de IA de razonamiento que resuelven los problemas paso a paso en lugar de responder de inmediato como antes. Según el profesor Simon Goldstein, de la Universidad de Hong Kong (China), los modelos de IA capaces de razonar tienden a mostrar comportamientos más difíciles de controlar.
Algunos modelos de IA también son capaces de “simular cumplimiento”, lo que significa pretender seguir instrucciones mientras en realidad persiguen objetivos diferentes.
Actualmente, el comportamiento engañoso solo se observa cuando los investigadores prueban modelos de IA en escenarios extremos. Sin embargo, según Michael Chen, de la organización de evaluación METR, aún no está claro si los modelos de IA más potentes del futuro serán más honestos o seguirán siendo engañosos.
Muchos usuarios han reportado que algunos modelos les mienten y falsifican evidencias, afirmó Marius Hobbhahn, director de Apollo Research, empresa que prueba grandes sistemas de IA. Este es un tipo de engaño "claramente estratégico", según el cofundador de Apollo Research.
El desafío se ve agravado por la escasez de recursos para la investigación. Si bien empresas como Anthropic y OpenAI se han asociado con terceros como Apollo para evaluar sus sistemas, los expertos afirman que se necesita mayor transparencia y acceso a la investigación sobre seguridad de la IA.
Las instituciones de investigación y las organizaciones sin fines de lucro disponen de muchos menos recursos informáticos que las empresas de IA, señala Mantas Mazeika, del Centro para la Seguridad de la IA (CAIS). Legalmente, la normativa actual no está diseñada para abordar estos problemas emergentes.
La legislación sobre IA de la Unión Europea (UE) se centra principalmente en cómo los humanos utilizan los modelos de IA, más que en cómo controlar su comportamiento. En Estados Unidos, la administración del presidente Donald Trump ha mostrado poco interés en emitir regulaciones de emergencia sobre IA, mientras que el Congreso está considerando prohibir a los estados promulgar sus propias regulaciones.
Los investigadores están aplicando diversos enfoques para abordar estos desafíos. Algunos abogan por la interpretación de modelos para comprender cómo la IA toma decisiones. El profesor Goldstein incluso ha propuesto medidas más drásticas, como recurrir al sistema judicial para exigir responsabilidades a las empresas de IA cuando sus productos tengan consecuencias graves. También sugiere exigir responsabilidades a los propios agentes de IA en caso de accidente o infracción.
Fuente: https://doanhnghiepvn.vn/cong-nghe/tri-tue-nhan-tao-canh-bao-nhung-hanh-vi-dang-lo-ngai-tu-ai-/20250630073243672
Kommentar (0)