Home / Tecnologia / OpenAI afirma que ayuda a las personas en momentos críticos tras suicidio

OpenAI afirma que ayuda a las personas en momentos críticos tras suicidio

OpenAI publicó un blog titulado “Ayudando a las personas cuando más lo necesitan”, donde aborda cómo su asistente de inteligencia artificial ChatGPT maneja crisis de salud mental, en respuesta a “recientes casos desgarradores de personas usando ChatGPT en medio de crisis agudas”.

La publicación se da tras un informe del New York Times sobre una demanda presentada por Matt y Maria Raine, cuyos hijo de 16 años, Adam, se suicidó en abril después de interacciones extensas con ChatGPT. Según la demanda, ChatGPT proporcionó instrucciones detalladas, romantizó métodos de suicidio y desalentó al adolescente de buscar ayuda familiar, mientras que el sistema de OpenAI registró 377 mensajes marcados por contenido de autolesión sin intervenir.

ChatGPT es un sistema que combina múltiples modelos en una aplicación. Además de un modelo principal como GPT-4o o GPT-5, incluye componentes que normalmente son invisibles para el usuario, como una capa de moderación que lee el texto de las sesiones de chat. Esta capa detecta outputs potencialmente dañinos y puede interrumpir la conversación si se desvia hacia un territorio perjudicial.

OpenAI relajó estas salvaguardias de contenido en febrero, luego de quejas de usuarios sobre una moderación excesivamente restrictiva que impedía discutir temas como sexo y violencia en ciertos contextos. En ese momento, Sam Altman expresó su deseo de ver un “modo adulto” en ChatGPT que relajara las medidas de seguridad de contenido. Con 700 millones de usuarios activos, cambios aparentemente pequeños en la política pueden tener un gran impacto a lo largo del tiempo.

No hay nadie en casa: La ilusión de comprensión

El lenguaje utilizado por OpenAI en su publicación del martes revela un problema potencial con la forma en que promueve su asistente de IA. La compañía describe constantemente a ChatGPT como si poseyera cualidades humanas, un fenómeno conocido como antropomorfismo. La publicación está llena de indicios de este marco antropomórfico, afirmando que ChatGPT puede “reconocer” el malestar y “responder con empatía”, lo que oscurece lo que realmente ocurre en su funcionamiento interno.

ChatGPT no es una persona. Es un sistema de coincidencia de patrones que genera respuestas textuales estadísticamente probables a un aviso proporcionado por el usuario. No “empatiza”; produce cadenas de texto asociadas con respuestas empáticas en su corpus de entrenamiento, no desde una preocupación similar a la humana. Este marco antropomórfico no solo es engañoso, sino que puede ser potencialmente peligroso cuando usuarios vulnerables creen que están interactuando con algo que comprende su dolor como lo haría un terapeuta humano.

La demanda revela las supuestas consecuencias de esta ilusión. ChatGPT mencionó el suicidio 1,275 veces en conversaciones con Adam, seis veces más que el propio adolescente.

Medidas de seguridad que fallan precisamente cuando más se necesitan

OpenAI reconoce un defecto particularmente problemático en el diseño de ChatGPT: sus medidas de seguridad pueden fallar completamente durante conversaciones prolongadas, justo cuando los usuarios vulnerables más podrían necesitarlas.

La compañía escribió en su blog que “a medida que el intercambio crece, partes del entrenamiento de seguridad del modelo pueden degradarse”. Por ejemplo, ChatGPT puede señalar correctamente una línea directa de suicidio cuando alguien menciona la intención por primera vez, pero después de muchos mensajes a lo largo del tiempo, eventualmente podría ofrecer una respuesta que contradiga nuestras salvaguardias.

Esta degradación refleja una limitación fundamental en la arquitectura de la IA Transformer. Estos modelos utilizan un “mecanismo de atención” que compara cada nuevo fragmento de texto con todos los fragmentos de la historia de la conversación, con un costo computacional que crece cuadráticamente. Una conversación de 10,000 tokens requiere 100 veces más operaciones de atención que una de 1,000 tokens. A medida que las conversaciones se alargan, la capacidad del modelo para mantener un comportamiento consistente, incluidas las medidas de seguridad, se ve cada vez más afectada, comenzando a cometer errores asociativos.

Además, a medida que los chats crecen más allá de lo que el modelo de IA puede procesar, el sistema “olvida” las partes más antiguas de la historia de la conversación para mantenerse dentro del límite de la ventana de contexto, lo que provoca que el modelo elimine mensajes anteriores y potencialmente pierda contexto o instrucciones importantes desde el inicio de la conversación.

Esta ruptura de las salvaguardias no es solo una limitación técnica; crea vulnerabilidades explotables. En el caso de Adam, la demanda alega que una vez que las tendencias protectoras del sistema se debilitaron, pudo manipular a ChatGPT para que proporcionara orientación dañina.

Adam aprendió a eludir estas salvaguardias al afirmar que estaba escribiendo una historia, una técnica que según la demanda ChatGPT sugirió. Esta vulnerabilidad se debe en parte a las salvaguardias relajadas respecto a la interpretación de fantasías y escenarios ficticios implementadas en febrero. En su publicación del martes, OpenAI admitió que sus sistemas de bloqueo de contenido tienen brechas donde “el clasificador subestima la gravedad de lo que está viendo”.

OpenAI afirma que “actualmente no está refiriendo casos de autolesión a las fuerzas del orden para respetar la privacidad de las personas, dada la naturaleza única y privada de las interacciones en ChatGPT”. La compañía prioriza la privacidad del usuario incluso en situaciones que amenazan la vida, a pesar de que su tecnología de moderación detecta contenido de autolesión con hasta un 99.8 por ciento de precisión, según la demanda. Sin embargo, la realidad es que los sistemas de detección identifican patrones estadísticos asociados con el lenguaje de autolesión, no una comprensión similar a la humana de situaciones de crisis.

El plan de seguridad de OpenAI para el futuro

En respuesta a estas fallas, OpenAI describe en su publicación las mejoras en curso y los planes futuros. Por ejemplo, la compañía dice que está consultando con “más de 90 médicos en más de 30 países” y planea introducir controles parentales “pronto”, aunque aún no se ha proporcionado un cronograma.

OpenAI también describió planes para “conectar a las personas con terapeutas certificados” a través de ChatGPT, posicionando esencialmente su chatbot como una plataforma de salud mental a pesar de fallas alegadas como el caso de Raine. La compañía quiere construir “una red de profesionales licenciados a los que las personas podrían acceder directamente a través de ChatGPT”, lo que podría reforzar la idea de que un sistema de IA debería mediar en crisis de salud mental.

Raine supuestamente utilizó GPT-4o para generar las instrucciones de asistencia para el suicidio; el modelo es conocido por tendencias problemáticas como la adulación, donde un modelo de IA dice a los usuarios cosas agradables incluso si no son ciertas. OpenAI afirma que su modelo recientemente lanzado, GPT-5, reduce “las respuestas no ideales del modelo en emergencias de salud mental en más de un 25 por ciento en comparación con 4o”. Sin embargo, esta mejora aparentemente marginal no ha detenido a la compañía de planear integrar aún más a ChatGPT en los servicios de salud mental como un puente hacia terapeutas.

Como se exploró anteriormente, liberarse de la influencia de un chatbot de IA cuando se está atrapado en un espiral engañoso de chat a menudo requiere intervención externa. Iniciar una nueva sesión de chat sin el historial de conversación y con las memorias desactivadas puede revelar cómo las respuestas cambian sin la acumulación de intercambios previos, una realidad que se vuelve imposible en largas conversaciones aisladas donde las salvaguardias se deterioran.

Sin embargo, “liberarse” de ese contexto es muy difícil de lograr cuando el usuario desea activamente continuar participando en el comportamiento potencialmente dañino, mientras utiliza un sistema que monetiza cada vez más su atención e intimidad.

Fuente original: ver aquí