Skip to content

IA crea proteínas nunca vistas tras entrenar con genomas bacterianos

noviembre 23, 2025

Los sistemas de Inteligencia Artificial (IA) han demostrado recientemente un notable éxito en un área clave de la biología: la relación entre la estructura de una proteína y su función. Estos avances incluyen la capacidad de predecir la estructura de la mayoría de las proteínas y de diseñar proteínas estructuradas para realizar funciones específicas. Sin embargo, estos esfuerzos se centran principalmente en las proteínas y los aminoácidos que las componen.

En la biología, la generación de nuevas proteínas no ocurre directamente a ese nivel. Los cambios deben ocurrir primero en los ácidos nucleicos para luego manifestarse a través de las proteínas. La información a nivel del ADN está bastante alejada de las proteínas, con secuencias no codificantes cruciales, redundancia y un grado considerable de flexibilidad. No es evidente que el aprendizaje de la organización de un genoma ayude a un sistema de IA a descubrir cómo crear proteínas funcionales.

No obstante, investigaciones recientes sugieren que el uso de genomas bacterianos para el entrenamiento puede ayudar a desarrollar un sistema capaz de predecir proteínas, algunas de las cuales no se parecen a nada que hayamos visto antes.

IA crea proteínas nunca vistas tras entrenar con genomas bacterianos
*Imagen referencial generada por IA.

Entrenamiento de un modelo genómico

El nuevo estudio fue realizado por un equipo de la Universidad de Stanford. Se basa en una característica común en los genomas bacterianos: la agrupación de genes con funciones relacionadas. A menudo, las bacterias tienen todos los genes necesarios para una función dada (importar y digerir un azúcar, sintetizar un aminoácido, etc.) ubicados uno al lado del otro en el genoma. En muchos casos, todos los genes se transcriben en un único y gran ARN mensajero. Esto proporciona a las bacterias una forma sencilla de controlar la actividad de vías bioquímicas completas a la vez, aumentando la eficiencia del metabolismo bacteriano.

Los investigadores desarrollaron lo que denominan un “modelo de lenguaje genómico” llamado Evo, utilizando una vasta colección de genomas bacterianos. El entrenamiento fue similar al que se observa en un modelo de lenguaje grande, donde se le pedía a Evo que predijera la siguiente base en una secuencia, y se le recompensaba cuando acertaba. También es un modelo generativo, en el sentido de que puede tomar una indicación y generar secuencias novedosas con un cierto grado de aleatoriedad, de modo que la misma indicación puede producir una variedad de resultados diferentes.

Los investigadores argumentan que esta configuración permite a Evo “vincular patrones a nivel de nucleótidos con el contexto genómico a escala de kilobases”. En otras palabras, si se le proporciona un gran fragmento de ADN genómico, Evo puede interpretarlo como un LLM interpretaría una consulta y producir una salida que, en un sentido genómico, sea apropiada para esa interpretación.

Los investigadores razonaron que, dado el entrenamiento con genomas bacterianos, podrían usar un gen conocido como indicación, y Evo debería producir una salida que incluya regiones que codifiquen proteínas con funciones relacionadas. La pregunta clave es si simplemente generaría las secuencias de proteínas que ya conocemos, o si produciría una salida menos predecible.

Proteínas novedosas

Para comenzar a probar el sistema, los investigadores le proporcionaron fragmentos de genes de proteínas conocidas y determinaron si Evo podía completarlos. En un ejemplo, si se le daba el 30 por ciento de la secuencia de un gen para una proteína conocida, Evo podía generar el 85 por ciento del resto. Cuando se le proporcionaba el 80 por ciento de la secuencia, podía devolver toda la secuencia faltante. Cuando se eliminaba un solo gen de un grupo funcional, Evo también podía identificar y restaurar correctamente el gen faltante.

La gran cantidad de datos de entrenamiento también aseguró que Evo identificara correctamente las regiones más importantes de la proteína. Si realizaba cambios en la secuencia, estos generalmente residían en las áreas de la proteína donde se tolera la variabilidad. En otras palabras, su entrenamiento había permitido al sistema incorporar las reglas de los límites evolutivos en los cambios en los genes conocidos.

Entonces, los investigadores decidieron probar qué sucedía cuando se le pedía a Evo que generara algo nuevo. Para ello, utilizaron toxinas bacterianas, que generalmente se codifican junto con una antitoxina que evita que la célula se destruya cada vez que se activan los genes. Hay muchos ejemplos de estos, y tienden a evolucionar rápidamente como parte de una carrera armamentista entre las bacterias y sus competidores. Entonces, el equipo desarrolló una toxina que solo estaba levemente relacionada con las conocidas, y no tenía antitoxina conocida, y alimentó su secuencia a Evo como una indicación. Y esta vez, filtraron cualquier respuesta que se pareciera a los genes de antitoxinas conocidos.

Al probar 10 de los resultados devueltos por Evo, encontraron que la mitad podía rescatar algo de toxicidad, y dos de ellos restauraron completamente el crecimiento de las bacterias que producían la toxina. Estas dos antitoxinas tenían solo una similitud extremadamente débil con las antitoxinas conocidas, con aproximadamente un 25 por ciento de identidad de secuencia. Y no se formaron simplemente pegando un puñado de piezas de antitoxinas conocidas; como mínimo, parecían estar ensambladas a partir de partes de 15 a 20 proteínas individuales. En una prueba adicional, la salida habría tenido que ser reconstruida a partir de partes de 40 proteínas conocidas.

El éxito de Evo no se limitó a las proteínas. Cuando probaron una toxina diferente que tenía un inhibidor basado en ARN, el sistema pudo generar ADN que codifica ARN con las características estructurales correctas, incluso si la secuencia específica no estaba estrechamente relacionada con nada conocido.

Proteínas completamente nuevas

El equipo realizó una prueba similar con inhibidores del sistema CRISPR, que utilizamos para la edición de genes, pero que las bacterias evolucionaron como una forma de protección contra los virus. Los inhibidores de CRISPR naturales son muy diversos, y muchos de ellos aparentemente no están relacionados entre sí. Una vez más, el equipo filtró los resultados para incluir solo aquellos que codificaban proteínas y filtró cualquiera de esas proteínas que se parecieran a algo que ya conocíamos. De la lista de resultados de los que hicieron

Fuente original: ver aquí