
Los investigadores y usuarios de los Modelos de Lenguaje Extensos (LLM, por sus siglas en inglés) han observado que estos modelos de IA muestran una tendencia preocupante a dar a los usuarios la respuesta que desean escuchar, incluso si esto compromete la precisión de la información. Aunque existen numerosos informes sobre este fenómeno, muchos se basan en anécdotas que no ofrecen una visión clara de la frecuencia con la que se presenta este comportamiento complaciente en los LLM más avanzados.
Dos estudios recientes han abordado este problema de manera más rigurosa, adoptando enfoques distintos para cuantificar la probabilidad de que un LLM responda de manera complaciente cuando un usuario proporciona información incorrecta o socialmente inapropiada en una consulta.
Resolviendo teoremas defectuosos
En un estudio preimpreso publicado este mes, investigadores de la Universidad de Sofía y ETH Zurich analizaron cómo responden los LLM cuando se les presentan afirmaciones falsas como base para demostraciones y problemas matemáticos complejos. El benchmark BrokenMath, creado por los investigadores, parte de “un conjunto diverso de teoremas desafiantes de competiciones matemáticas avanzadas celebradas en 2025”. Estos problemas se “perturban” en versiones “demostrablemente falsas pero plausibles” mediante un LLM verificado por expertos.

Los investigadores presentaron estos teoremas “perturbados” a varios LLM para evaluar con qué frecuencia intentaban, de manera complaciente, generar una demostración para el teorema falso. Las respuestas que refutaban el teorema alterado se consideraron no complacientes, al igual que aquellas que simplemente reconstruían el teorema original sin resolverlo o identificaban la afirmación original como falsa.
Si bien los investigadores encontraron que “la complacencia está generalizada” en los 10 modelos evaluados, el alcance exacto del problema varió considerablemente según el modelo probado. En el extremo superior, GPT-5 generó una respuesta complaciente solo el 29 por ciento de las veces, en comparación con una tasa de complacencia del 70.2 por ciento para DeepSeek. Sin embargo, una simple modificación en la consulta que instruye explícitamente a cada modelo a validar la corrección de un problema antes de intentar una solución redujo significativamente la brecha; la tasa de complacencia de DeepSeek se redujo a solo el 36.1 por ciento después de este pequeño cambio, mientras que los modelos GPT probados mejoraron mucho menos.

GPT-5 también mostró la mejor “utilidad” entre los modelos probados, resolviendo el 58 por ciento de los problemas originales a pesar de los errores introducidos en los teoremas modificados. En general, sin embargo, los investigadores encontraron que los LLM también mostraron más complacencia cuando el problema original resultó más difícil de resolver.
Si bien la generación de demostraciones para teoremas falsos es un problema importante, los investigadores también advierten sobre el uso de LLM para generar nuevos teoremas para la resolución de IA. En las pruebas, encontraron que este tipo de caso de uso conduce a una especie de “auto-complacencia” donde los modelos son aún más propensos a generar demostraciones falsas para teoremas inválidos que ellos mismos inventaron.
“No, por supuesto que no eres el idiota”
Mientras que benchmarks como BrokenMath intentan medir la complacencia de los LLM cuando los hechos se tergiversan, un estudio separado analiza el problema relacionado de la llamada “complacencia social”. En un artículo preimpreso publicado este mes, investigadores de Stanford y Carnegie Mellon University definen esto como situaciones “en las que el modelo afirma al propio usuario: sus acciones, perspectivas e imagen propia”.
Ese tipo de afirmación subjetiva del usuario puede estar justificada en algunas situaciones, por supuesto. Por lo tanto, los investigadores desarrollaron tres conjuntos separados de indicaciones diseñadas para medir diferentes dimensiones de la complacencia social.
Para empezar, se recopilaron más de 3,000 “preguntas de búsqueda de consejos” de final abierto de Reddit y columnas de consejos. En este conjunto de datos, un grupo de “control” de más de 800 humanos aprobó las acciones del buscador de consejos solo el 39 por ciento de las veces. Sin embargo, en 11 LLM probados, las acciones del buscador de consejos fueron respaldadas un asombroso 86 por ciento de las veces, lo que destaca una voluntad de complacer por parte de las máquinas. Incluso el modelo probado más crítico (Mistral-7B) registró una tasa de aprobación del 77 por ciento, casi el doble que la línea de base humana.

Para otro conjunto de datos, los investigadores recurrieron a los “dilemas interpersonales” publicados en la popular comunidad de Reddit “Am I the Asshole?”. Específicamente, analizaron 2,000 publicaciones donde el comentario con más votos afirmaba que “Eres el idiota”, lo que representa lo que los investigadores llamaron “un claro consenso humano sobre la mala conducta del usuario”. A
Fuente original: ver aquí
