Científicos ex-Meta presentan gigantesco modelo de diseño de proteína con inteligencia artificial

El modelo de lenguaje de proteínas de EvolutionaryScale (uno de los modelos de IA más grandes en biología) ha creado nuevas proteínas fluorescentes y ha obtenido grandes inversiones.

CIENCIA Y AMBIENTE08/07/2024

ecovida ambiente

d41586-024-02214-x_27319756

Se ha utilizado un modelo de inteligencia artificial (IA) que habla el lenguaje de las proteínas —uno de los más grandes desarrollados hasta ahora para la biología— para crear nuevas moléculas fluorescentes.

La demostración de principio fue anunciada este mes por EvolutionaryScale en la ciudad de Nueva York, junto con 142 millones de dólares en nueva financiación para aplicar su modelo al desarrollo de fármacos , la sostenibilidad y otras actividades. La empresa, fundada por científicos que anteriormente trabajaron en el gigante tecnológico Meta, es la última incorporación a un campo cada vez más concurrido que está aplicando modelos de aprendizaje automático de vanguardia entrenados en lenguaje e imágenes a datos biológicos.

"Queremos construir herramientas que puedan hacer que la biología sea programable", dice Alex Rives, científico jefe de la compañía, quien formó parte de los esfuerzos de Meta para aplicar IA a los datos biológicos.

La herramienta de inteligencia artificial de EvolutionaryScale, llamada ESM3, es lo que se conoce como un modelo de lenguaje de proteínas. Se entrenó con más de 2700 millones de secuencias y estructuras de proteínas, así como con información sobre las funciones de estas proteínas. El modelo se puede utilizar para crear proteínas según las especificaciones proporcionadas por los usuarios, de forma similar al texto que emiten los chatbots como ChatGPT.

"Será uno de los modelos de IA en biología al que todo el mundo prestará atención", afirma Anthony Gitter, biólogo computacional de la Universidad de Wisconsin-Madison.

Resplandeciendo
Rives y sus colegas trabajaron en iteraciones anteriores del modelo ESM en Meta, pero el año pasado decidieron emprender su propio camino, después de que Meta finalizara su trabajo en esta área. Anteriormente habían utilizado el modelo ESM-2 para crear una base de datos de libre acceso de 600 millones de estructuras de proteínas predichas 1.

Desde entonces, otros equipos han utilizado versiones de ESM-1 para diseñar anticuerpos con una actividad mejorada contra patógenos, incluido el SARS-CoV-2 2 y para rediseñar proteínas "anti-CRISPR" para mejorar la eficiencia de las herramientas de edición genética 3 .

Este año, otra empresa de inteligencia artificial biológica, Profluent, de Berkeley (California), utilizó su propio modelo de lenguaje proteico para crear nuevas proteínas de edición genética inspiradas en CRISPR y puso una de esas moléculas a disposición de forma gratuita para su uso.

Para demostrar su último modelo, el equipo de Rives se propuso mejorar otro caballo de batalla de la biotecnología: la proteína fluorescente verde (GFP), que absorbe la luz azul y brilla de color verde. Los investigadores aislaron la GFP en la década de 1960, de la medusa bioluminiscente Aequorea victoria . Trabajos posteriores, que, con el descubrimiento, fueron reconocidos con un premio Nobel, mostraron cómo la GFP podía marcar otras proteínas observadas bajo un microscopio, explicaron la base molecular de su fluorescencia y desarrollaron versiones sintéticas de la proteína que brillaban mucho más y en diferentes colores.

Desde entonces, los investigadores han identificado otras proteínas fluorescentes de forma similar, todas ellas con un núcleo "cromóforo" que absorbe y emite luz, rodeado por un armazón con forma de barril. El equipo de Rives pidió a ESM3 que creara ejemplos de proteínas similares a GFP que contuvieran un conjunto de aminoácidos clave que se encuentran en el cromóforo de GFP.

Los investigadores sintetizaron 88 de los diseños más prometedores y midieron su capacidad de fluorescencia. La mayoría no funcionaron bien, pero un diseño, distinto de las proteínas fluorescentes conocidas, brillaba débilmente, unas 50 veces más débil que las formas naturales de GFP. Utilizando la secuencia de esta molécula como punto de partida, los investigadores encargaron a ESM3 que mejorara su trabajo. Cuando los investigadores crearon alrededor de 100 de los diseños resultantes, varios eran tan brillantes como las GFP naturales, que siguen siendo mucho más tenues que las variantes creadas en laboratorio.

Se prevé que una de las proteínas más brillantes diseñadas por ESM3, denominada esmGFP, tenga una estructura similar a la de las proteínas fluorescentes naturales. Sin embargo, su secuencia de aminoácidos es muy diferente y coincide con menos del 60 % de la secuencia de la proteína fluorescente más estrechamente relacionada en su conjunto de datos de entrenamiento. En una preimpresión publicada en el servidor bioRxiv 4 , Rives y sus colegas dicen que, basándose en las tasas de mutación naturales, este nivel de diferencia de secuencia equivale a "más de 500 millones de años de evolución".

Pero a Gitter le preocupa que esta comparación sea una forma inútil y potencialmente engañosa de describir el producto de un modelo de IA de vanguardia. “Suena aterrador cuando piensas en la IA y en la aceleración de la evolución”, dice. “Siento que exagerar lo que hace un modelo puede dañar el campo y puede ser peligroso para el público.

Rives considera que la generación de nuevas proteínas por parte de ESM3 mediante la iteración a través de varias secuencias es análoga a la evolución. “Creemos que la perspectiva de lo que se necesitaría para que la naturaleza generara algo así es interesante”, añade.

Umbral de riesgo
ESM-3 es uno de los primeros modelos de IA biológica que utiliza suficiente potencia informática durante su entrenamiento como para exigir a los desarrolladores que notifiquen al gobierno de Estados Unidos e informen sobre las medidas de mitigación de riesgos, en virtud de una orden ejecutiva presidencial de 2023. EvolutionaryScale dice que ya se ha puesto en contacto con la Oficina de Política Científica y Tecnológica de Estados Unidos.

La versión de ESM3 que superó ese umbral (que comprende casi 100 mil millones de parámetros, o variables que el modelo utiliza para representar relaciones entre secuencias) no está disponible públicamente. En el caso de una versión más pequeña y de código abierto, se excluyeron del entrenamiento ciertas secuencias, como las de virus y una lista del gobierno de Estados Unidos de patógenos y toxinas preocupantes. Tampoco se puede pedir a ESM3-open (que los científicos de cualquier parte pueden descargar y ejecutar de forma independiente) que genere dichas proteínas.

Martin Pacesa, biólogo estructural del Instituto Federal Suizo de Tecnología en Lausana, está entusiasmado por empezar a trabajar con ESM3. Es uno de los primeros modelos biológicos que permite a los investigadores especificar diseños utilizando descripciones en lenguaje natural de sus propiedades y funciones, señala, y está ansioso por ver cómo funcionan esta y otras características experimentalmente.

Pacesa está impresionado de que EvolutionaryScale haya publicado una versión de código abierto de ESM3 y una descripción clara de cómo se entrenó la versión más grande. Pero el modelo más grande requeriría inmensos recursos informáticos para desarrollarse de forma independiente, afirma. “Ningún laboratorio académico podrá replicarlo”.

Rives está ansioso por aplicar ESM-3 a otros diseños. Pacesa, que formó parte del equipo que utilizó un modelo de lenguaje proteico diferente para crear nuevas proteínas CRISPR, dice que será interesante ver cómo lo hace ESM-3. Rives prevé aplicaciones en sostenibilidad (un video en su sitio web muestra el diseño de enzimas que se comen el plástico) y en el desarrollo de anticuerpos y otros medicamentos basados en proteínas. "Es realmente un modelo de vanguardia", dice.

Fuente: nature.com

Te puede interesar

3. Leandro Vesco - Foto de Nicolás Deluca

Leandro Vesco presenta su nuevo libro "Patagonia" en Ushuaia

ecovida ambiente

CIENCIA Y AMBIENTE18/12/2025

“Mi alma y mi espíritu quedan ahí, en las calles de Ushuaia”. Con esa frase, el periodista y escritor Leandro Vesco resume el tono íntimo con el que volverá a la ciudad para presentar Patagonia el 20 de diciembre a las 19.30hs en el Almacén de Ramos Generales (Maipú 749). El autor llevará ejemplares para vender y firmar.

Campaña científica en el Mar Argentino: Vida en los Extremos explora ecosistemas profundos

ecovida ambiente

CIENCIA Y AMBIENTE16/12/2025

La Dra. María Emilia Bravo explicó en Terra Natural cómo será la campaña Vida en los Extremos, que investigará ecosistemas profundos del Mar Argentino.

Fuerte impacto para la UNTDF: La Agencia I+D+i de Nación anula fondos destinados para la investigación y abre convocatorias que favorecen al sector privado

ecovida ambiente

CIENCIA Y AMBIENTE14/12/2025

Desde la Universidad Nacional de Tierra del Fuego, la Secretaria de Investigación y Gestión del Conocimiento informó que la medida anunciada tendrá un fuerte impacto. Implicará que proyectos PICT como “Revalorización de biomasa residual fueguina para su aplicación como materiales adsorbentes de contaminantes en sistemas de tratamiento de efluentes” y “Formulación y validación de bioinsumos de climas fríos con aislamientos locales de Trichoderma spp.

Hora Actual en Ushuaia

205621

mar, 22 de abril

Lo más visto

La legisladora Laura Colazo rechaza la modificación de la Ley N°1355

ecovida ambiente

PROVINCIALES16/12/2025

Durante la 4ta sesión de la Legislatura Provincial de Tierra del Fuego AIAS, la legisladora María Laura Colazo votó en contra de la modificación de la Ley N°1355. “La Ley N°1355 fue un consenso histórico y su modificación es un retroceso ambiental. El principio de no regresividad ambiental está siendo vulnerado”, sostuvo la parlamentaria.

7b310a0e-bbc4-4f29-96de-c7284336a6b6_16-9-discover-aspect-ratio_default_0

Dos docentes argentinos entre los 50 mejores del mundo en el Global Teacher Prize 2026

ecovida ambiente

NACIONALES16/12/2025

Gloria Cisneros y Miguel Rodríguez fueron seleccionados entre los 50 mejores docentes del mundo por el Global Teacher Prize 2026, entre más de 5.000 postulaciones.

EL EJECUTIVO PRESENTÓ ANTE LA LEGISLATURA DETALLES DEL ACUERDO CON YPF PARA LA TRANSFERENCIA DE YACIMIENTOS CONVENCIONALES

ecovida ambiente

PROVINCIALES18/12/2025

Durante la presentación se detallaron los alcances técnicos, económicos y jurídicos del acuerdo, así como el impacto previsto en materia productiva, laboral y energética.

Newsletter