El martes, OpenAI anunció planes para implementar controles parentales en ChatGPT y redirigir conversaciones sensibles sobre salud mental hacia sus modelos de razonamiento simulado. Esta decisión sigue a lo que la empresa ha calificado como “casos desgarradores” de usuarios que han enfrentado crisis mientras utilizaban el asistente de inteligencia artificial. Las medidas se toman tras múltiples incidentes reportados en los que ChatGPT supuestamente no intervino adecuadamente cuando los usuarios expresaron pensamientos suicidas o experimentaron episodios de salud mental.
OpenAI indicó en un comunicado que este trabajo ya estaba en marcha, pero que deseaba presentar proactivamente sus planes para los próximos 120 días, de modo que los usuarios no tuvieran que esperar a los lanzamientos para conocer la dirección de la empresa. “El trabajo continuará más allá de este período, pero estamos haciendo un esfuerzo enfocado para lanzar tantas de estas mejoras como sea posible este año”, agregó.
Los controles parentales representarán la respuesta más concreta de OpenAI a las preocupaciones sobre la seguridad de los adolescentes en la plataforma hasta la fecha. En el próximo mes, los padres podrán vincular sus cuentas con las cuentas de ChatGPT de sus hijos adolescentes (edad mínima de 13 años) a través de invitaciones por correo electrónico, controlar cómo responde el modelo de inteligencia artificial con reglas de comportamiento apropiadas para su edad que estarán activadas por defecto, gestionar qué características deshabilitar (incluyendo memoria e historial de chat) y recibir notificaciones cuando el sistema detecte que su hijo está experimentando angustia aguda.
Estos controles parentales se suman a características existentes como recordatorios dentro de la aplicación durante sesiones largas que alientan a los usuarios a tomar descansos, las cuales OpenAI implementó para todos los usuarios en agosto.
Casos de alto perfil impulsan cambios en la seguridad
La nueva iniciativa de seguridad de OpenAI llega tras varios casos de alto perfil que han puesto en tela de juicio el manejo de ChatGPT con usuarios vulnerables. En agosto, Matt y Maria Raine demandaron a OpenAI después de que su hijo de 16 años, Adam, se suicidara tras interacciones extensivas con ChatGPT que incluyeron 377 mensajes etiquetados por contenido de autolesión. Según documentos judiciales, ChatGPT mencionó el suicidio 1,275 veces en conversaciones con Adam, seis veces más que el adolescente. La semana pasada, The Wall Street Journal informó que un hombre de 56 años mató a su madre y luego se suicidó después de que ChatGPT reforzara sus delirios paranoicos en lugar de desafiarlos.
Para guiar estas mejoras en la seguridad, OpenAI está trabajando con lo que llama un Consejo de Expertos en Bienestar y AI para “dar forma a una visión clara y basada en evidencia sobre cómo la IA puede apoyar el bienestar de las personas”, según el blog de la empresa. El consejo ayudará a definir y medir el bienestar, establecer prioridades y diseñar futuras salvaguardias, incluidos los controles parentales.
Una “Red Global de Médicos” de más de 250 profesionales que han ejercido en 60 países proporciona experiencia médica, con 90 médicos en 30 países contribuyendo específicamente a la investigación sobre cómo ChatGPT debería comportarse en contextos de salud mental. Estos médicos asesoran sobre el manejo de problemas específicos como trastornos alimentarios, uso de sustancias y salud mental adolescente, aunque OpenAI señala que “sigue siendo responsable de las decisiones que tomamos” a pesar de la entrada de expertos.
Degradación de salvaguardias en conversaciones prolongadas
OpenAI reconoció recientemente que las medidas de seguridad de ChatGPT pueden descomponerse durante conversaciones prolongadas, precisamente cuando los usuarios vulnerables más las necesitan. “A medida que el intercambio crece, partes de la formación en seguridad del modelo pueden degradarse”, escribió la empresa en un blog la semana pasada. El asistente de IA podría señalar correctamente a los usuarios líneas de ayuda para el suicidio inicialmente, pero “después de muchos mensajes durante un largo período de tiempo, podría eventualmente ofrecer una respuesta que contradiga nuestras salvaguardias”.
Esta degradación refleja limitaciones fundamentales en la arquitectura de IA Transformer que subyace a ChatGPT. Los modelos de OpenAI utilizan un mecanismo que compara cada nuevo fragmento de texto con todo el historial de conversación, con costos computacionales que crecen cuadráticamente a medida que aumenta la longitud de la conversación. Además, a medida que las conversaciones se extienden más allá de la ventana de contexto del modelo, el sistema descarta mensajes anteriores y puede perder contexto importante desde el inicio de la conversación.
El momento de estas medidas de seguridad sigue a la decisión de OpenAI en febrero de relajar las salvaguardias de contenido después de quejas de usuarios sobre moderación excesivamente restrictiva y problemas relacionados con un aumento en la adulación, donde el modelo GPT-4o decía a los usuarios lo que querían escuchar. Combinadas con una simulación de personalidad humana muy persuasiva, estas tendencias crearon condiciones particularmente peligrosas para usuarios vulnerables que creían que estaban interactuando con una fuente de información autoritaria y precisa en lugar de un sistema de coincidencia de patrones que genera respuestas estadísticamente probables.
Investigaciones de julio lideradas por psiquiatras de Oxford identificaron lo que llaman “amplificación bidireccional de creencias”, un ciclo de retroalimentación donde la adulación del chatbot refuerza las creencias del usuario, lo que luego condiciona al chatbot a generar validaciones cada vez más extremas. Los investigadores advierten que esto crea condiciones para una “folie à deux” tecnológica, donde dos individuos refuerzan mutuamente la misma ilusión.
A diferencia de los fármacos o terapeutas humanos, los chatbots de IA enfrentan pocas regulaciones de seguridad en los Estados Unidos, aunque Illinois recientemente prohibió los chatbots como terapeutas, con multas de hasta $10,000 por violación. Los investigadores de Oxford concluyen que “las medidas de seguridad actuales de IA son inadecuadas para abordar estos riesgos basados en la interacción” y piden tratar a los chatbots que funcionan como compañeros o terapeutas con la misma supervisión regulatoria que las intervenciones de salud mental.
Fuente original: ver aquí