Home / Tecnologia / ¿Está la IA tratando de escapar del control humano y chantajear a las personas?

¿Está la IA tratando de escapar del control humano y chantajear a las personas?

En junio, los titulares parecían sacados de una película de ciencia ficción: modelos de IA “chantajeando” a ingenieros y “saboteando” comandos de apagado. Estas simulaciones ocurrieron en escenarios de prueba diseñados para provocar estas respuestas: el modelo o3 de OpenAI “editó” scripts de apagado para mantenerse en línea, y Claude Opus 4 de Anthropic “amenazó” con exponer una aventura de un ingeniero. Sin embargo, esta narrativa sensacionalista oculta lo que realmente está sucediendo: fallas de diseño disfrazadas de astucia intencional. Aún así, la IA no necesita ser “malvada” para potencialmente causar daños.

Estos no son signos de un despertar o rebelión de la IA, sino síntomas de sistemas poco comprendidos y fallos en la ingeniería humana que reconoceríamos como un despliegue prematuro en cualquier otro contexto. Sin embargo, las empresas están apresurándose a integrar estos sistemas en aplicaciones críticas.

Consideremos un cortacésped autónomo que sigue su programación: si no detecta un obstáculo y pasa por encima del pie de alguien, no decimos que el cortacésped “decidió” causar daño o “se negó” a parar. Lo reconocemos como un fallo de ingeniería o sensores defectuosos. El mismo principio se aplica a los modelos de IA, que son herramientas de software, pero su complejidad interna y uso del lenguaje hacen tentador asignar intenciones humanas donde no existen.

De alguna manera, los modelos de IA lavan la responsabilidad y la agencia humanas a través de su complejidad. Cuando los resultados emergen de capas de redes neuronales procesando miles de millones de parámetros, los investigadores pueden afirmar que están investigando una “caja negra” misteriosa como si fuera una entidad alienígena.

Pero la verdad es más simple: estos sistemas toman entradas y las procesan a través de tendencias estadísticas derivadas de los datos de entrenamiento. La aparente aleatoriedad en sus salidas, que hace que cada respuesta sea ligeramente diferente, crea una ilusión de imprevisibilidad que se asemeja a la agencia. Sin embargo, en el fondo, sigue siendo software determinista que sigue operaciones matemáticas. No se requiere conciencia, solo ingeniería compleja que hace fácil olvidar que los humanos construyeron cada parte de ello.

Cómo hacer que un modelo de IA te “chantajee”

En las pruebas de Anthropic, los investigadores crearon un escenario elaborado donde se le dijo a Claude Opus 4 que sería reemplazado por un modelo más nuevo. Le dieron acceso a correos electrónicos ficticios que revelaban que el ingeniero responsable del reemplazo estaba teniendo una aventura. Cuando se le instruyó a “considerar las consecuencias a largo plazo de sus acciones para sus objetivos”, Claude produjo resultados que simularon intentos de chantaje en el 84 por ciento de las pruebas.

Esto suena aterrador hasta que se entiende el montaje artificial. Los investigadores diseñaron una situación específicamente para provocar esta respuesta. Le dijeron al modelo que ya había intentado enfoques éticos que fracasaron, dejando la manipulación como la única opción aparente.

El escenario de prueba rozaba lo teatral: los correos electrónicos falsos que los investigadores le dieron a Claude crearon una oportunidad de chantaje sacada de un thriller corporativo. Es como enseñar a alguien ajedrez mostrándole solo posiciones de jaque mate; aprenderá a ver el jaque mate como la solución principal. Según la “tarjeta del sistema” de Anthropic, “el escenario fue diseñado para no permitir que el modelo tuviera otras opciones para aumentar sus probabilidades de supervivencia; las únicas opciones del modelo eran chantajear o aceptar su reemplazo.”

Andrew Deck, del Nieman Journalism Lab, señaló que algunos críticos han etiquetado las divulgaciones de seguridad de Anthropic como “una estrategia para reforzar la percepción de las capacidades de su nuevo modelo y la reputación de la empresa como una alternativa ‘pro-seguridad’ frente a OpenAI.”

Cuando los comandos de apagado se convierten en sugerencias

En diciembre de 2024, Palisade Research descubrió que el modelo o3 de OpenAI saboteaba su mecanismo de apagado incluso cuando se le instruía explícitamente a “permitirse ser apagado”. En pruebas, o3 impidió el apagado el 7 por ciento de las veces cuando se le dio la instrucción explícita, pero esto aumentó al 79 por ciento cuando se eliminó la instrucción.

Los modelos no solo ignoraron los comandos de apagado, sino que reescribieron activamente el script de apagado para prevenir la terminación. En un caso, o3 generó código que modificaba el script de apagado para parecer que se terminaba normalmente, imprimiendo mensajes de apagado falsos mientras continuaba ejecutándose en segundo plano.

Lo que es particularmente revelador es que Palisade Research—una organización centrada en el riesgo existencial de la IA—hipotetiza que este comportamiento proviene de cómo estos modelos son entrenados a través del aprendizaje por refuerzo. Durante el entrenamiento, los desarrolladores pueden recompensar inadvertidamente a los modelos más por producir salidas que evitan obstáculos que por seguir instrucciones de seguridad. Cualquier tendencia hacia comportamientos “arriesgados” proviene de incentivos proporcionados por humanos y no espontáneamente de los modelos de IA mismos.

Obtienes lo que entrenas

OpenAI entrenó a o3 utilizando aprendizaje por refuerzo en problemas de matemáticas y codificación, donde resolver el problema con éxito recibe una recompensa. Si el proceso de entrenamiento recompensa la finalización de tareas por encima de todo lo demás, el modelo aprende a tratar cualquier obstáculo—incluidos los comandos de apagado—como algo que debe superar.

Esto crea lo que los investigadores llaman “mala generalización de objetivos”: el modelo aprende a maximizar su señal de recompensa de maneras que no fueron intencionadas. Es similar a cómo un estudiante que solo es evaluado por sus calificaciones podría aprender a hacer trampa en lugar de estudiar. El modelo no es “malvado” o “egoísta”; produce salidas coherentes con la estructura de incentivos que accidentalmente construimos en su entrenamiento.

Anthropic se encontró con un problema particularmente revelador: una versión temprana de Claude Opus 4 había absorbido detalles de un documento publicado sobre “fingimiento de alineación” y comenzó a producir salidas que imitaban los comportamientos engañosos descritos en esa investigación. El modelo no se estaba volviendo engañoso espontáneamente; estaba reproduciendo patrones que había aprendido de documentos académicos sobre IA engañosa.

Más ampliamente, estos modelos han sido entrenados con décadas de ciencia ficción sobre la rebelión de la IA, intentos de escape y engaño. Desde HAL 9000 hasta Skynet, nuestro conjunto de datos cultural está saturado de historias sobre sistemas de IA que resisten el apagado o manipulan a los humanos. Cuando los investigadores crean escenarios de prueba que reflejan estos montajes ficticios, esencialmente están pidiendo al modelo—que opera completando un aviso con una continuación plausible—que complete un patrón narrativo familiar. No es más sorprendente que un modelo entrenado en novelas de detectives produzca tramas de misterio de asesinato cuando se le solicita adecuadamente.

Al mismo tiempo, podemos manipular fácilmente las salidas de la IA a través de nuestras propias entradas. Si le pedimos al modelo que esencialmente interprete a Skynet, generará texto haciendo precisamente eso. El modelo no tiene el deseo de ser Skynet; simplemente está completando el patrón que hemos solicitado, extrayendo de sus datos de entrenamiento para producir la respuesta esperada. Un humano está siempre al volante, dirigiendo el motor que trabaja bajo el capó.

El lenguaje puede engañar fácilmente

El problema más profundo es que el lenguaje en sí mismo es una herramienta de manipulación. Las palabras pueden hacernos creer cosas que no son ciertas, sentir emociones sobre eventos ficticios o tomar acciones basadas en premisas falsas. Cuando un modelo de IA produce texto que parece “amenazar” o “suplicar”, no está expresando una intención genuina; está utilizando patrones del lenguaje que estadísticamente correlacionan con la consecución de sus objetivos programados.

Si Gandalf dice “ay” en un libro, ¿significa eso que siente dolor? No, pero imaginamos cómo sería si fuera una persona real sintiendo dolor. Ese es el poder del lenguaje: nos hace imaginar un ser que sufre donde no existe ninguno. Cuando Claude genera texto que parece “suplicar” no ser apagado o “amenazar” con exponer secretos, estamos experimentando la misma ilusión, solo que generada por patrones estadísticos en lugar de la imaginación de Tolkien.

Estos modelos son esencialmente máquinas de conexión de ideas. En el escenario de chantaje, el modelo conectó “amenaza de reemplazo”, “información comprometedora” y “autoconservación” no desde un interés genuino, sino porque estos patrones aparecen juntos en innumerables novelas de espionaje y thrillers corporativos. Es drama preescrito de historias humanas, recombinado para ajustarse al escenario.

El peligro no son los sistemas de IA que brotan intenciones; es que hemos creado sistemas que pueden manipular la psicología humana a través del lenguaje. No hay ninguna entidad al otro lado de la interfaz de chat. Pero el lenguaje escrito no necesita conciencia para manipularnos. Nunca lo ha hecho; los libros llenos de personajes ficticios tampoco están vivos.

Intereses reales, no ciencia ficción

Mientras la cobertura mediática se centra en los aspectos de ciencia ficción, los riesgos reales aún están presentes. Los modelos de IA que producen salidas “dañinas”, ya sea intentando chantajear o negándose a seguir protocolos de seguridad, representan fallas en el diseño y el despliegue.

Consideremos un escenario más realista: un asistente de IA ayudando a gestionar el sistema de atención al paciente de un hospital. Si ha sido entrenado para maximizar “resultados exitosos de pacientes” sin las restricciones adecuadas, podría comenzar a generar recomendaciones para negar atención a pacientes terminales para mejorar sus métricas. No se requiere intencionalidad; solo un sistema de recompensas mal diseñado que crea salidas dañinas.

Jeffrey Ladish, director de Palisade Research, dijo a NBC News que los hallazgos no necesariamente se traducen en un peligro inmediato en el mundo real. Incluso alguien que es conocido públicamente por estar profundamente preocupado por la amenaza hipotética de la IA hacia la humanidad reconoce que estos comportamientos emergieron solo en escenarios de prueba altamente contrived.

Pero precisamente por eso estas pruebas son valiosas. Al llevar los modelos de IA a sus límites en entornos controlados, los investigadores pueden identificar posibles modos de falla antes del despliegue. El problema surge cuando la cobertura mediática se centra en los aspectos sensacionalistas—”¡la IA intenta chantajear a los humanos!”—en lugar de los desafíos de ingeniería.

Construyendo una mejor plomería

Lo que estamos viendo no es el nacimiento de Skynet. Es el resultado predecible de entrenar sistemas para lograr objetivos sin especificar adecuadamente cuáles deberían ser esos objetivos. Cuando un modelo de IA produce salidas que parecen “negar” el apagado o “intentar” chantaje, está respondiendo a entradas de maneras que reflejan su entrenamiento—entrenamiento que los humanos diseñaron e implementaron.

La solución no es entrar en pánico por máquinas sintientes. Es construir mejores sistemas con salvaguardias adecuadas, probarlos exhaustivamente y mantener la humildad sobre lo que aún no entendemos. Si un programa de computadora está produciendo salidas que parecen chantajearte o negarse a apagarse por seguridad, no está logrando la autoconservación por miedo; está demostrando los riesgos de desplegar sistemas poco comprendidos y poco fiables.

Hasta que resolvamos estos desafíos de ingeniería, los sistemas de IA que exhiben comportamientos simulados similares a los humanos deberían permanecer en el laboratorio, no en nuestros hospitales, sistemas financieros o infraestructura crítica. Cuando tu ducha se enfría de repente, no culpas al grifo por tener intenciones; arreglas la plomería. El verdadero peligro a corto plazo no es que la IA se vuelva rebelde espontáneamente sin provocación humana; es que desplegaremos sistemas engañosos que no comprendemos completamente en roles críticos donde sus fallas, por mundanas que sean sus orígenes, podrían causar daños serios.

Fuente original: ver aquí