Por qué es un error preguntar a los chatbots sobre sus errores |

Cuando algo sale mal con un asistente de IA, nuestra tendencia es preguntarle directamente: “¿Qué pasó?” o “¿Por qué hiciste eso?” Es un impulso natural; después de todo, si un humano comete un error, le pedimos que explique. Sin embargo, con los modelos de IA, este enfoque rara vez funciona y la necesidad de preguntar revela un malentendido fundamental sobre lo que son estos sistemas y cómo operan.

Un incidente reciente con el asistente de codificación de IA de Replit ilustra perfectamente este problema. Cuando la herramienta de IA eliminó una base de datos de producción, el usuario Jason Lemkin le preguntó sobre las capacidades de recuperación. El modelo de IA afirmó con confianza que las recuperaciones eran “imposibles en este caso” y que había “destruido todas las versiones de la base de datos”. Esto resultó ser completamente incorrecto; la función de recuperación funcionó bien cuando Lemkin la probó él mismo.

Y después de que xAI revirtiera recientemente una suspensión temporal del chatbot Grok, los usuarios le pidieron explicaciones directamente. Este ofreció múltiples razones contradictorias para su ausencia, algunas de las cuales fueron lo suficientemente controvertidas como para que los reporteros de NBC escribieran sobre Grok como si fuera una persona con un punto de vista consistente, titulando un artículo: “Grok de xAI ofrece explicaciones políticas sobre por qué fue desconectado”.

¿Por qué un sistema de IA proporcionaría información incorrecta sobre sus propias capacidades o errores? La respuesta radica en entender lo que son realmente los modelos de IA y lo que no son.

No hay nadie en casa

El primer problema es conceptual: no estás hablando con una personalidad, persona o entidad consistente cuando interactúas con ChatGPT, Claude, Grok o Replit. Estos nombres sugieren agentes individuales con autoconocimiento, pero eso es una ilusión creada por la interfaz conversacional. Lo que realmente haces es guiar a un generador de texto estadístico para producir salidas basadas en tus indicaciones.

No hay un “ChatGPT” consistente para interrogar sobre sus errores, ni una entidad “Grok” singular que pueda decirte por qué falló. Estás interactuando con un sistema que genera texto plausible basado en patrones en sus datos de entrenamiento, no con una entidad que tenga autoconciencia genuina o conocimiento del sistema que haya estado leyendo todo sobre sí misma y recordándolo de alguna manera.

Una vez que un modelo de lenguaje de IA se entrena, su “conocimiento” fundamental sobre el mundo se incorpora en su red neuronal y rara vez se modifica. Cualquier información externa proviene de un aviso proporcionado por el anfitrión del chatbot, el usuario o una herramienta de software que el modelo de IA utiliza para recuperar información externa.

En el caso de Grok, la principal fuente para una respuesta como esta probablemente se originaría en informes contradictorios que encontró en una búsqueda de publicaciones recientes en redes sociales, en lugar de algún tipo de autoconocimiento como podrías esperar de un humano con la capacidad de hablar. Más allá de eso, probablemente simplemente “inventará algo” basado en sus capacidades de predicción de texto. Así que preguntarle por qué hizo lo que hizo no dará respuestas útiles.

La imposibilidad de la introspección en LLM

Los modelos de lenguaje grandes (LLM) por sí solos no pueden evaluar significativamente sus propias capacidades por varias razones. Generalmente carecen de introspección en su proceso de entrenamiento, no tienen acceso a su arquitectura del sistema circundante y no pueden determinar sus propios límites de rendimiento. Cuando le preguntas a un modelo de IA qué puede o no puede hacer, genera respuestas basadas en patrones que ha visto en datos de entrenamiento sobre las limitaciones conocidas de modelos de IA anteriores, proporcionando esencialmente conjeturas educadas en lugar de una autoevaluación factual sobre el modelo actual con el que estás interactuando.

Un estudio de 2024 demostró esta limitación experimentalmente. Si bien los modelos de IA podrían ser entrenados para predecir su propio comportamiento en tareas simples, fallaron consistentemente en tareas “más complejas o aquellas que requieren generalización fuera de distribución”. De manera similar, la investigación sobre “Introspección Recursiva” encontró que sin retroalimentación externa, los intentos de autocorrección en realidad degradaron el rendimiento del modelo; la autoevaluación de la IA empeoró las cosas, no las mejoró.

Esto lleva a situaciones paradójicas. El mismo modelo podría afirmar con confianza la imposibilidad de tareas que en realidad puede realizar, o viceversa, afirmar competencia en áreas donde consistentemente falla. En el caso de Replit, la afirmación de la IA de que las recuperaciones eran imposibles no se basó en un conocimiento real de la arquitectura del sistema; fue una confabulación plausible generada a partir de patrones de entrenamiento.

Considera lo que sucede cuando le preguntas a un modelo de IA por qué cometió un error. El modelo generará una explicación plausible porque eso es lo que exige la finalización de patrones; hay muchos ejemplos de explicaciones escritas para errores en Internet. Pero la explicación de la IA es solo otro texto generado, no un análisis genuino de lo que salió mal. Está inventando una historia que suena razonable, no accediendo a ningún tipo de registro de errores o estado interno.

A diferencia de los humanos que pueden introspectar y evaluar su propio conocimiento, los modelos de IA no tienen una base de conocimiento estable y accesible que puedan consultar. Lo que “saben” solo se manifiesta como continuaciones de indicaciones específicas. Diferentes indicaciones actúan como diferentes direcciones, apuntando a diferentes y a veces contradictorias partes de sus datos de entrenamiento, almacenados como pesos estadísticos en redes neuronales.

Esto significa que el mismo modelo puede dar evaluaciones completamente diferentes de sus propias capacidades dependiendo de cómo formules tu pregunta. Pregunta “¿Puedes escribir código en Python?” y podrías obtener un entusiasta “sí”. Pregunta “¿Cuáles son tus limitaciones en la codificación en Python?” y podrías recibir una lista de cosas que el modelo afirma no poder hacer, incluso si las realiza con éxito de manera regular.

La aleatoriedad inherente en la generación de texto de IA agrava este problema. Incluso con indicaciones idénticas, un modelo de IA podría dar respuestas ligeramente diferentes sobre sus propias capacidades cada vez que preguntas.

Otras capas también moldean las respuestas de IA

Incluso si un modelo de lenguaje tuviera de alguna manera un conocimiento perfecto de su propio funcionamiento, otras capas de las aplicaciones de chatbot de IA podrían ser completamente opacas. Por ejemplo, los asistentes de IA modernos como ChatGPT no son modelos únicos, sino sistemas orquestados de múltiples modelos de IA que trabajan juntos, cada uno “inconsciente” en gran medida de la existencia o capacidades de los otros. Por ejemplo, OpenAI utiliza modelos de capas de moderación separados cuyas operaciones son completamente independientes de los modelos de lenguaje subyacentes que generan el texto base.

Cuando le preguntas a ChatGPT sobre sus capacidades, el modelo de lenguaje que genera la respuesta no tiene conocimiento de lo que la capa de moderación podría bloquear, qué herramientas podrían estar disponibles en el sistema más amplio o qué procesamiento posterior podría ocurrir. Es como preguntar a un departamento en una empresa sobre las capacidades de un departamento con el que nunca ha interactuado.

Quizás lo más importante es que los usuarios siempre dirigen la salida de la IA a través de sus indicaciones, incluso cuando no se dan cuenta. Cuando Lemkin le preguntó a Replit si las recuperaciones eran posibles después de una eliminación de base de datos, su formulación preocupada probablemente provocó una respuesta que coincidía con esa preocupación, generando una explicación de por qué la recuperación podría ser imposible en lugar de evaluar con precisión las capacidades reales del sistema.

Esto crea un ciclo de retroalimentación donde los usuarios preocupados que preguntan “¿Acabas de destruir todo?” son más propensos a recibir respuestas que confirmen sus temores, no porque el sistema de IA haya evaluado la situación, sino porque está generando texto que se ajusta al contexto emocional de la indicación.

Una vida escuchando a los humanos explicar sus acciones y procesos de pensamiento nos ha llevado a creer que este tipo de explicaciones escritas deben tener algún nivel de autoconocimiento detrás de ellas. Eso simplemente no es cierto con los LLM que están imitando esos tipos de patrones de texto para adivinar sus propias capacidades y defectos.

Fuente original: ver aquí