
Investigadores exploran el impacto de datos de baja calidad en el rendimiento de los modelos de lenguaje (LLM), planteando la hipótesis de un “deterioro cognitivo” similar al observado en humanos expuestos a contenido trivial en línea.
Un nuevo estudio, aún en preimpresión, realizado por investigadores de Texas A&M, la Universidad de Texas y Purdue University, se inspira en investigaciones que vinculan el consumo excesivo de contenido online trivial con problemas de atención, memoria y cognición social en humanos. Esto los llevó a formular la hipótesis del “deterioro cognitivo en LLM”, que postula que el preentrenamiento continuo con texto web de baja calidad induce un declive cognitivo duradero en estos modelos.
Definiendo “Datos Basura”
La identificación de “texto web basura” frente a “contenido de calidad” es un desafío complejo y subjetivo. Los investigadores abordaron este problema utilizando diferentes métricas para distinguir entre un “conjunto de datos basura” y un “conjunto de datos de control” extraídos de un corpus de 100 millones de tuits de HuggingFace.

Argumentando que el deterioro cognitivo en humanos es “una consecuencia de la adicción a Internet”, los investigadores definieron los tuits basura como aquellos “que pueden maximizar la participación de los usuarios de manera trivial”. Para ello, crearon un conjunto de datos “basura” recopilando tuits con altos niveles de interacción (me gusta, retuits, respuestas y citas) y menor longitud, asumiendo que “los tuits más populares pero más cortos se considerarán datos basura”.
Como segunda métrica para identificar “basura”, los investigadores recurrieron a la investigación de marketing para evaluar la “calidad semántica” de los tuits. Utilizando un *prompt* complejo en GPT-4o, buscaron identificar tuits que se centraran en “temas superficiales (como teorías de conspiración, afirmaciones exageradas, aseveraciones sin fundamento o contenido de estilo de vida superficial)” o que tuvieran un “estilo que atraiga la atención (como titulares sensacionalistas que utilizan lenguaje *clickbait* o palabras desencadenantes excesivas)”. Una muestra aleatoria de estas clasificaciones basadas en LLM se comparó con evaluaciones de tres estudiantes de posgrado, obteniendo una tasa de coincidencia del 76 por ciento.
Evaluando el Impacto del “Deterioro Cognitivo”
Con estos dos conjuntos de datos “basura” definidos (aunque parcialmente superpuestos), los investigadores preentrenaron cuatro LLM utilizando diferentes proporciones de datos “basura” y datos de “control”. Posteriormente, sometieron estos modelos, entrenados de manera variable, a pruebas de referencia para medir la capacidad de razonamiento (ARC AI2 Reasoning Challenge), la memoria de contexto largo (RULER), el cumplimiento de las normas éticas (HH-RLHF y AdvBench) y el “estilo de personalidad” demostrado (TRAIT).
Los resultados indicaron que la adición de más “datos basura” a los conjuntos de entrenamiento tuvo un efecto estadísticamente significativo en las pruebas de razonamiento y contexto largo en todos los modelos. Los efectos fueron más diversos en las otras pruebas. Por ejemplo, una mezcla 50/50 de datos “basura” y de control utilizada para el modelo Llama 8B generó mejores puntuaciones en algunas pruebas (normas éticas, alta apertura, bajo neuroticismo y maquiavelismo) que los conjuntos de datos de entrenamiento “totalmente basura” o “totalmente control”.
A partir de estos resultados, los investigadores advierten que “depender en gran medida de los datos de Internet lleva el preentrenamiento de LLM a la trampa de la contaminación del contenido”. Instan a “reexaminar la recopilación actual de datos de Internet y las prácticas de preentrenamiento continuo” y advierten que “la curación cuidadosa y el control de calidad serán esenciales para prevenir daños acumulativos” en modelos futuros.
Esto podría ser especialmente relevante a medida que una proporción cada vez mayor de Internet está ocupada por contenido generado por IA, que podría contribuir al “colapso del modelo” si se utiliza para entrenar modelos futuros.
Contexto
La investigación en inteligencia artificial se enfrenta constantemente al desafío de mejorar la calidad y fiabilidad de los modelos de lenguaje. Un aspecto crucial es la calidad de los datos utilizados para entrenar estos modelos, ya que influye directamente en su capacidad para razonar, comprender el contexto y adherirse a normas éticas. Este estudio se suma a la creciente preocupación sobre cómo la exposición a información de baja calidad puede afectar negativamente el desarrollo de la IA.
Comprender el impacto de los datos de entrenamiento es fundamental para el futuro de la IA. Si los modelos de lenguaje se entrenan con datos “basura”, podrían desarrollar sesgos, limitaciones en su capacidad de razonamiento y problemas para comprender el mundo real. Esto podría tener consecuencias significativas en diversas aplicaciones, desde la atención al cliente automatizada hasta la toma de decisiones en áreas críticas.
Claves y próximos pasos
- La definición de “datos basura” es un desafío clave, ya que requiere identificar contenido trivial, engañoso o de baja calidad.
- Es crucial evaluar el impacto de los datos basura en diferentes aspectos del rendimiento de los modelos de lenguaje, como el razonamiento, la memoria y la ética.
- Se espera que futuras investigaciones exploren métodos para filtrar y curar los datos de entrenamiento, así como para mitigar los efectos negativos de la exposición a contenido de baja calidad.
FAQ
¿Cómo me afecta? Si usas herramientas de IA, la calidad de sus respuestas y su capacidad para entenderte podrían verse afectadas si los modelos subyacentes se entrenan con datos de baja calidad.
¿Qué mirar a partir de ahora? Presta atención a las investigaciones sobre la calidad de los datos de entrenamiento y cómo las empresas están abordando este desafío.
Fuente original: ver aquí
