Un equipo internacional de científicos del Instituto Arc y NVIDIA, en colaboración con las universidades de Stanford, Berkeley y la UC San Francisco, ha presentado Evo 2, el modelo de inteligencia artificial más avanzado aplicado a la biología hasta la fecha.

La herramienta, publicada este miércoles en la revista Nature, supone un salto cualitativo respecto a la primera versión y se suma a la reciente ola de avances en genómica computacional.

Una trayectoria meteórica en la biología generativa

La historia de esta tecnología se remonta a 2024, cuando el equipo publicó, esta vez en la revista Science, el modelo original Evo. Aquella primera versión demostró que una arquitectura de aprendizaje profundo podía aprender la lógica del ADN sin supervisión humana, de forma similar a como los grandes modelos de lenguaje aprenden a escribir texto. Sin embargo, aquel precursor estaba entrenado exclusivamente con genomas de organismos unicelulares (bacterias y arqueas) y virus.

“Nuestro desarrollo de Evo 1 y Evo 2 representa un momento clave en el campo emergente de la biología generativa, ya que los modelos han permitido que las máquinas lean, escriban y piensen en el lenguaje de los nucleótidos”, indica Patrick Hsu, cofundador del Arc Institute e investigador principal. “Evo 2 tiene una comprensión generalista del árbol de la vida que es útil para una multitud de tareas, desde predecir mutaciones que causan enfermedades hasta diseñar código potencial para la vida artificial”.

Evo 2 se sitúa a la vanguardia, pero no es el único modelo, sino el último de un puñado de desarrollos recientes en el sector. Por ejemplo, el de AlphaGenome, un modelo presentado hace apenas unas semanas diseñado específicamente por DeepMind (parte de Google) para predecir cómo las variaciones del ADN afectan a la regulación génica. Mientras que AlphaGenome se especializa en descifrar los mecanismos de control de los genes, Evo 2 expande el horizonte hacia una escala genómica completa.

Para esta nueva entrega, el sistema ha sido entrenado con más de 9,3 billones de nucleótidos procedentes de 128 000 genomas, incorporando por primera vez información detallada de plantas, animales y del propio ser humano. Esta expansión le otorga una comprensión más generalista de todos los dominios de la vida, permitiéndole no solo predecir efectos, sino proponer nuevos diseños biológicos.

Un salto en potencia y precisión

El avance técnico ha sido posible gracias a una nueva arquitectura llamada StripedHyena 2, que permite a Evo 2 razonar sobre secuencias ocho veces más largas que su predecesor, lo que supone el millón de nucleótidos de una sola vez. Esta mayor capacidad de ‘memoria’ permite a la IA comprender relaciones entre partes muy distantes de un genoma, algo crucial para identificar mutaciones complejas que los métodos experimentales tardarían años en descubrir.

En pruebas con el gen BRCA1, vinculado al cáncer de mama, Evo 2 alcanzó una precisión superior al 90 % al distinguir entre variaciones benignas y patogénicas. Además de su capacidad de diagnóstico, el modelo abre la puerta a una ingeniería biológica sin precedentes; el equipo ya ha utilizado Evo 2 para diseñar bacteriófagos sintéticos funcionales, una herramienta prometedora para combatir las bacterias resistentes a los antibióticos.

“Al igual que el mundo ha dejado su impronta en el lenguaje de internet utilizado para entrenar los grandes modelos lingüísticos, la evolución ha dejado su impronta en las secuencias biológicas”, explica Brian Hie, profesor en Stanford y coautor del trabajo. “Estos patrones, perfeccionados a lo largo de millones de años, contienen señales sobre cómo funcionan e interactúan las moléculas”.

Un ‘sistema operativo’ para la ciencia global

Para los autores, Evo 2 funciona de forma similar al núcleo de un sistema operativo sobre el cual otros investigadores pueden construir aplicaciones específicas. Con el fin de acelerar el progreso científico, el equipo ha publicado el modelo bajo una política de código abierto, compartiendo tanto los datos de entrenamiento como el código y los pesos del modelo.

“Al liberar estas capacidades, hemos dado a los científicos de todo el mundo un nuevo socio para resolver los desafíos más urgentes de salud y enfermedad de la humanidad”, afirma Anthony Costa, director de biología digital en NVIDIA. Con el fin de evitar riesgos éticos, los investigadores han excluido del conjunto de datos los patógenos que afectan a humanos y han implementado salvaguardas para garantizar un uso responsable de la tecnología.