Home / Tecnologia / Las habilidades de “razonamiento simulado” de los LLM son un “espejismo frágil”

Las habilidades de “razonamiento simulado” de los LLM son un “espejismo frágil”

En los últimos meses, la industria de la inteligencia artificial ha comenzado a avanzar hacia los denominados modelos de razonamiento simulado que utilizan un proceso de “cadena de pensamiento” para resolver problemas complejos en múltiples pasos lógicos. Al mismo tiempo, investigaciones recientes han cuestionado si estos modelos cumplen con lo que prometen y si poseen una comprensión básica de conceptos lógicos generales o un entendimiento preciso de su propio “proceso de pensamiento”. Investigaciones similares muestran que estos modelos de “razonamiento” pueden producir respuestas incoherentes y lógicamente insostenibles cuando las preguntas incluyen cláusulas irrelevantes o se desvían ligeramente de los patrones comunes encontrados en sus datos de entrenamiento.

En un reciente artículo preimpreso, investigadores de la Universidad Estatal de Arizona resumen este trabajo existente como “sugiriendo que los LLM no son razonadores principistas, sino más bien simuladores sofisticados de texto similar al razonamiento”. Para explorar esta idea, los investigadores crearon un entorno LLM controlado para medir cuán bien funciona el razonamiento en cadena de pensamiento cuando se presentan problemas lógicos “fuera de dominio” que no coinciden con los patrones lógicos específicos encontrados en su conjunto de datos de entrenamiento.

Los resultados sugieren que los aparentemente grandes avances en el rendimiento de los modelos de cadena de pensamiento son “en gran medida un espejismo frágil” que “se vuelve frágil y propenso a fallos incluso ante cambios moderados en la distribución”, escriben los investigadores. “En lugar de demostrar una verdadera comprensión del texto, el razonamiento CoT bajo transformaciones de tareas parece reflejar una replicación de patrones aprendidos durante el entrenamiento.”

¡Nadie me entrenó para esto!

Para evaluar la capacidad de razonamiento generalizado de un LLM de manera objetiva y medible, los investigadores crearon un entorno de entrenamiento LLM controlado llamado DataAlchemy. Esta configuración crea modelos pequeños entrenados en ejemplos de dos transformaciones de texto extremadamente simples: un cifrado ROT y desplazamientos cíclicos, seguidos de un entrenamiento adicional que demuestra cómo se realizan esas dos funciones en varios órdenes y combinaciones.

Estos modelos simplificados fueron luego probados utilizando una variedad de tareas, algunas de las cuales coincidían o se acercaban a los patrones funcionales de los datos de entrenamiento y otras que requerían combinaciones de funciones que eran parcial o completamente “fuera de dominio” para los datos de entrenamiento. Por ejemplo, un modelo entrenado con datos que mostraban dos desplazamientos cíclicos podría ser solicitado para realizar una transformación novedosa que involucrara dos desplazamientos ROT (con un entrenamiento básico sobre cómo se ve un solo ejemplo de cualquiera de los desplazamientos). Las respuestas finales y los pasos de razonamiento se compararon con la respuesta deseada utilizando puntuaciones BLEU y distancia de Levenshtein para medir objetivamente su precisión.

Como los investigadores habían hipotetizado, estos modelos básicos comenzaron a fallar catastróficamente cuando se les pedía generalizar nuevos conjuntos de transformaciones que no se habían demostrado directamente en los datos de entrenamiento. Aunque los modelos a menudo intentaban generalizar nuevas reglas lógicas basadas en patrones similares en los datos de entrenamiento, esto con frecuencia llevaba al modelo a establecer “caminos de razonamiento correctos, pero respuestas incorrectas”. En otros casos, el LLM a veces lograba respuestas correctas acompañadas de “caminos de razonamiento infieles” que no seguían lógicamente.

“En lugar de demostrar una verdadera comprensión del texto, el razonamiento CoT bajo transformaciones de tareas parece reflejar una replicación de patrones aprendidos durante el entrenamiento”, escriben los investigadores.

“Una falsa aura de confiabilidad”

Utilizar un ajuste fino supervisado (SFT) para introducir incluso una pequeña cantidad de datos relevantes en el conjunto de entrenamiento puede llevar a mejoras significativas en el rendimiento de este tipo de modelos “fuera de dominio”. Sin embargo, los investigadores advierten que este tipo de “solución” para diversas tareas lógicas “no debe confundirse con lograr una verdadera generalización. … Confiar en SFT para corregir cada fallo [fuera de dominio] es una estrategia insostenible y reactiva que no aborda el problema central: la falta de capacidad de razonamiento abstracto del modelo.”

En lugar de mostrar la capacidad de inferencia lógica generalizada, estos modelos de cadena de pensamiento son “una forma sofisticada de coincidencia de patrones estructurados” que “se degrada significativamente” cuando se les empuja incluso ligeramente fuera de su distribución de entrenamiento, escriben los investigadores. Además, la capacidad de estos modelos para generar “nonsense fluido” crea “una falsa aura de confiabilidad” que no resiste una auditoría cuidadosa.

Por lo tanto, los investigadores advierten enérgicamente contra “equiparar la salida de estilo [cadena de pensamiento] con el pensamiento humano”, especialmente en “dominios de alto riesgo como la medicina, las finanzas o el análisis legal”. Las pruebas y métricas actuales deberían priorizar tareas que se encuentren fuera de cualquier conjunto de entrenamiento para indagar sobre estos tipos de errores, mientras que los modelos futuros necesitarán ir más allá del “reconocimiento de patrones a nivel superficial para exhibir una competencia inferencial más profunda”, concluyen.

Fuente original: ver aquí