En 2017, el paper “Attention Is All You Need” de Google transformó la base técnica de la generación de lenguaje. Los Transformers permitieron procesar secuencias largas en paralelo y escalar modelos a tamaños antes inviables. Este enfoque ha impulsado arquitecturas como GPT y BERT, convirtiendo la autoatención en la pieza central de la IA generativa contemporánea.
Sin embargo, este avance ha traído consigo un aumento en los costos de memoria y energía a medida que se alarga el contexto, lo que ha llevado a la investigación de alternativas. En este contexto, el modelo SpikingBrain-1.0 se presenta como una propuesta innovadora.
Del “Attention Is All You Need” al cerebro: la nueva apuesta para romper límites en IA
Un equipo del Instituto de Automatización de la Academia China de Ciencias ha presentado SpikingBrain-1.0, una familia de modelos espigados diseñada para reducir la cantidad de datos y el cómputo necesarios en tareas con contextos muy largos. Los expertos han propuesto dos enfoques: SpikingBrain-7B, con una arquitectura lineal enfocada en la eficiencia, y SpikingBrain-76B, que combina atención lineal con mecanismos Mixture of Experts (MoE) de mayor capacidad.

El desarrollo y las pruebas se realizaron en clústeres de GPU MetaX C550, utilizando bibliotecas y operadores diseñados específicamente para esta plataforma. Esto convierte el proyecto en un avance significativo no solo a nivel de software, sino también en la demostración de capacidades de hardware propio. Este aspecto es relevante dado el esfuerzo de China por reducir su dependencia de NVIDIA.
SpikingBrain-1.0 se inspira en el funcionamiento del cerebro humano. En lugar de utilizar neuronas siempre activas, emplea neuronas espigadas que acumulan señales hasta que superan un umbral y disparan un pico. Este enfoque ahorra operaciones y energía, ya que no se realizan cálculos entre picos. La temporalidad de los picos también transporta información, similar a lo que ocurre en el cerebro.
Para que este diseño funcione con el ecosistema actual, el equipo desarrolló métodos que transforman los bloques de autoatención tradicionales en versiones lineales, facilitando su integración en el sistema espigado. Además, la versión SpikingBrain-76B incluye Mixture of Experts (MoE), que activa solo ciertos submodelos cuando son necesarios.
Los autores sugieren aplicaciones en las que la longitud del contexto es crucial, como el análisis de grandes expedientes jurídicos, historias clínicas completas, secuenciación de ADN y conjuntos masivos de datos experimentales en física de altas energías. Si la arquitectura demuestra eficiencia en contextos de millones de tokens, podría reducir costos y abrir nuevas posibilidades en áreas actualmente limitadas por infraestructuras de cómputo costosas. Sin embargo, queda pendiente la validación en entornos reales fuera del laboratorio.
El equipo ha liberado en GitHub el código de la versión de 7.000 millones de parámetros junto a un informe técnico detallado. También se ofrece una interfaz web similar a ChatGPT para interactuar con el modelo, que está completamente desplegado en hardware nacional. Sin embargo, el acceso está limitado al idioma chino, lo que complica su uso fuera de ese ecosistema. La propuesta es ambiciosa, pero su verdadero impacto dependerá de que la comunidad logre reproducir los resultados y realizar comparativas en entornos homogéneos que evalúen precisión, latencias y consumo energético en condiciones reales.
Fuente original: ver aquí