¿Cuanto más fuerte es el modelo, más débil es el “pensamiento”?
En un informe publicado recientemente, los investigadores de Apple evaluaron el rendimiento de los modelos de razonamiento de gran tamaño (LRM) al abordar problemas lógicos de dificultad creciente, como la Torre de Hanoi o el problema del cruce del río .
Los resultados fueron impactantes: cuando se enfrentaban a problemas altamente complejos, la precisión de los modelos de IA avanzados no solo disminuyó, sino que “colapsó por completo”.
Lo que es más preocupante es que antes de que el rendimiento disminuya, los modelos empiezan a... reducir su esfuerzo de razonamiento, un comportamiento contra-intuitivo que debería requerir más reflexión cuando el problema es más difícil.
En muchos casos, incluso con el algoritmo adecuado, los modelos no generan una solución. Esto demuestra una profunda limitación en su capacidad para adaptarse y aplicar reglas a nuevos entornos.
El desafío de la “teoría general”
En reacción al estudio, el académico estadounidense Gary Marcus, una de las voces escépticas sobre las verdaderas capacidades de la IA, calificó los hallazgos de Apple de "bastante devastadores".
“Quien crea que los grandes modelos de lenguaje (LLM) son un camino directo hacia la IAG se está engañando a sí mismo”, escribió en su boletín personal de Substack.
Compartiendo la misma opinión, Andrew Rogoyski, experto del Instituto de IA Centrada en el Ser Humano (Universidad de Surrey, Reino Unido), afirmó que este descubrimiento indica la posibilidad de que la industria tecnológica esté entrando en un callejón sin salida: «Cuando los modelos solo funcionan bien con problemas simples y promedio, pero fallan por completo cuando la dificultad aumenta, es evidente que el enfoque actual tiene un problema».
Un punto particular que Apple destacó fue la falta de “razonamiento general”, que es la capacidad de extender la comprensión de una situación específica a situaciones similares.
Cuando no pueden transferir conocimiento de la forma en que los humanos suelen hacerlo, los modelos actuales son propensos al “aprendizaje de memoria”: son buenos para repetir patrones, pero débiles para el pensamiento lógico o deductivo.
De hecho, el estudio encontró que los modelos teóricos grandes desperdician recursos computacionales al resolver repetidamente correctamente problemas simples, pero eligiendo la solución incorrecta desde el principio para problemas ligeramente más complejos.
El informe probó diversos modelos líderes, como o3 de OpenAI, Gemini Thinking de Google, Claude 3.7 Sonnet-Thinking y DeepSeek-R1. Si bien Anthropic, Google y DeepSeek no respondieron a las solicitudes de comentarios, OpenAI declinó hacerlo.
La investigación de Apple no invalida los logros de la IA en lenguaje, visión o big data. Sin embargo, sí destaca un punto débil que se ha pasado por alto: la capacidad de razonar con sentido, fundamental para alcanzar la verdadera inteligencia.
Fuente: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html
Kommentar (0)