"PERIODISMO AMBIENTAL"

Científicos ex-Meta presentan gigantesco modelo de diseño de proteína con inteligencia artificial

El modelo de lenguaje de proteínas de EvolutionaryScale (uno de los modelos de IA más grandes en biología) ha creado nuevas proteínas fluorescentes y ha obtenido grandes inversiones.

CIENCIA Y AMBIENTE08/07/2024ecovida ambienteecovida ambiente
d41586-024-02214-x_27319756
d41586-024-02214-x_27319756

Se ha utilizado un modelo de inteligencia artificial (IA) que habla el lenguaje de las proteínas —uno de los más grandes desarrollados hasta ahora para la biología— para crear nuevas moléculas fluorescentes.

La demostración de principio fue anunciada este mes por EvolutionaryScale en la ciudad de Nueva York, junto con 142 millones de dólares en nueva financiación para aplicar su modelo al desarrollo de fármacos , la sostenibilidad y otras actividades. La empresa, fundada por científicos que anteriormente trabajaron en el gigante tecnológico Meta, es la última incorporación a un campo cada vez más concurrido que está aplicando modelos de aprendizaje automático de vanguardia entrenados en lenguaje e imágenes a datos biológicos.

"Queremos construir herramientas que puedan hacer que la biología sea programable", dice Alex Rives, científico jefe de la compañía, quien formó parte de los esfuerzos de Meta para aplicar IA a los datos biológicos.

La herramienta de inteligencia artificial de EvolutionaryScale, llamada ESM3, es lo que se conoce como un modelo de lenguaje de proteínas. Se entrenó con más de 2700 millones de secuencias y estructuras de proteínas, así como con información sobre las funciones de estas proteínas. El modelo se puede utilizar para crear proteínas según las especificaciones proporcionadas por los usuarios, de forma similar al texto que emiten los chatbots como ChatGPT.

"Será uno de los modelos de IA en biología al que todo el mundo prestará atención", afirma Anthony Gitter, biólogo computacional de la Universidad de Wisconsin-Madison.

Resplandeciendo
Rives y sus colegas trabajaron en iteraciones anteriores del modelo ESM en Meta, pero el año pasado decidieron emprender su propio camino, después de que Meta finalizara su trabajo en esta área. Anteriormente habían utilizado el modelo ESM-2 para crear una  base de datos de libre acceso de 600 millones de estructuras de proteínas predichas 1.  

Desde entonces, otros equipos han utilizado versiones de ESM-1 para diseñar anticuerpos con una actividad mejorada contra patógenos, incluido el SARS-CoV-2 2 y para rediseñar proteínas "anti-CRISPR" para mejorar la eficiencia de las herramientas de edición genética 3 .

Este año, otra empresa de inteligencia artificial biológica, Profluent, de Berkeley (California), utilizó su propio modelo de lenguaje proteico para crear nuevas proteínas de edición genética inspiradas en CRISPR y puso una de esas moléculas a disposición de forma gratuita para su uso.

Para demostrar su último modelo, el equipo de Rives se propuso mejorar otro caballo de batalla de la biotecnología: la proteína fluorescente verde (GFP), que absorbe la luz azul y brilla de color verde. Los investigadores aislaron la GFP en la década de 1960, de la medusa bioluminiscente Aequorea victoria . Trabajos posteriores, que, con el descubrimiento, fueron reconocidos con un premio Nobel, mostraron cómo la GFP podía marcar otras proteínas observadas bajo un microscopio, explicaron la base molecular de su fluorescencia y desarrollaron versiones sintéticas de la proteína que brillaban mucho más y en diferentes colores.

Desde entonces, los investigadores han identificado otras proteínas fluorescentes de forma similar, todas ellas con un núcleo "cromóforo" que absorbe y emite luz, rodeado por un armazón con forma de barril. El equipo de Rives pidió a ESM3 que creara ejemplos de proteínas similares a GFP que contuvieran un conjunto de aminoácidos clave que se encuentran en el cromóforo de GFP.

Los investigadores sintetizaron 88 de los diseños más prometedores y midieron su capacidad de fluorescencia. La mayoría no funcionaron bien, pero un diseño, distinto de las proteínas fluorescentes conocidas, brillaba débilmente, unas 50 veces más débil que las formas naturales de GFP. Utilizando la secuencia de esta molécula como punto de partida, los investigadores encargaron a ESM3 que mejorara su trabajo. Cuando los investigadores crearon alrededor de 100 de los diseños resultantes, varios eran tan brillantes como las GFP naturales, que siguen siendo mucho más tenues que las variantes creadas en laboratorio.

Se prevé que una de las proteínas más brillantes diseñadas por ESM3, denominada esmGFP, tenga una estructura similar a la de las proteínas fluorescentes naturales. Sin embargo, su secuencia de aminoácidos es muy diferente y coincide con menos del 60 % de la secuencia de la proteína fluorescente más estrechamente relacionada en su conjunto de datos de entrenamiento. En una preimpresión publicada en el servidor bioRxiv 4 , Rives y sus colegas dicen que, basándose en las tasas de mutación naturales, este nivel de diferencia de secuencia equivale a "más de 500 millones de años de evolución".

Pero a Gitter le preocupa que esta comparación sea una forma inútil y potencialmente engañosa de describir el producto de un modelo de IA de vanguardia. “Suena aterrador cuando piensas en la IA y en la aceleración de la evolución”, dice. “Siento que exagerar lo que hace un modelo puede dañar el campo y puede ser peligroso para el público.

Rives considera que la generación de nuevas proteínas por parte de ESM3 mediante la iteración a través de varias secuencias es análoga a la evolución. “Creemos que la perspectiva de lo que se necesitaría para que la naturaleza generara algo así es interesante”, añade.

Umbral de riesgo
ESM-3 es uno de los primeros modelos de IA biológica que utiliza suficiente potencia informática durante su entrenamiento como para exigir a los desarrolladores que notifiquen al gobierno de Estados Unidos e informen sobre  las medidas de mitigación de riesgos,  en virtud de una orden ejecutiva presidencial de 2023. EvolutionaryScale dice que ya se ha puesto en contacto con la Oficina de Política Científica y Tecnológica de Estados Unidos.

La versión de ESM3 que superó ese umbral (que comprende casi 100 mil millones de parámetros, o variables que el modelo utiliza para representar relaciones entre secuencias) no está disponible públicamente. En el caso de una versión más pequeña y de código abierto, se excluyeron del entrenamiento ciertas secuencias, como las de virus y una lista del gobierno de Estados Unidos de patógenos y toxinas preocupantes. Tampoco se puede pedir a ESM3-open (que los científicos de cualquier parte pueden descargar y ejecutar de forma independiente) que genere dichas proteínas.

Martin Pacesa, biólogo estructural del Instituto Federal Suizo de Tecnología en Lausana, está entusiasmado por empezar a trabajar con ESM3. Es uno de los primeros modelos biológicos que permite a los investigadores especificar diseños utilizando descripciones en lenguaje natural de sus propiedades y funciones, señala, y está ansioso por ver cómo funcionan esta y otras características experimentalmente.

Pacesa está impresionado de que EvolutionaryScale haya publicado una versión de código abierto de ESM3 y una descripción clara de cómo se entrenó la versión más grande. Pero el modelo más grande requeriría inmensos recursos informáticos para desarrollarse de forma independiente, afirma. “Ningún laboratorio académico podrá replicarlo”.

Rives está ansioso por aplicar ESM-3 a otros diseños. Pacesa, que formó parte del equipo que utilizó un modelo de lenguaje proteico diferente para crear nuevas proteínas CRISPR, dice que será interesante ver cómo lo hace ESM-3. Rives prevé aplicaciones en sostenibilidad (un video en su sitio web muestra el diseño de enzimas que se comen el plástico) y en el desarrollo de anticuerpos y otros medicamentos basados ​​en proteínas. "Es realmente un modelo de vanguardia", dice.

Fuente: nature.com

Te puede interesar
Lo más visto

Suscríbete al newsletter para recibir periódicamente las novedades en tu email