Newsletter DPT Nro. 88-90

ISSN 2618-236X

Septiembre-Noviembre / 2023

NOTICIAS CIENTIFICAS
NOTICIAS CIENTIFICAS INTERNACIONALES

Proteínas diseñadas y desarrolladas por Inteligencia Artificial

Para desempeñar funciones no cubiertas en la evolución natural

Las proteínas son moléculas complejas que desempeñan múltiples funciones críticas en los organismos vivos. Realizan la mayor parte del trabajo en las células y son necesarias para la constitución, función y regulación de los tejidos y órganos del cuerpo. Las proteínas están formadas por cientos o miles de aminoácidos unidos en cadenas. Hay 20 tipos de aminoácidos que se pueden combinar para formar una proteína. La secuencia de aminoácidos determina la estructura tridimensional única de cada proteína y su función específica. Las proteínas producidas por los seres vivos han evolucionado en el curso de la selección natural, y son útiles para las funciones primordiales de nuestros organismos, tales como digerir, movernos o activar las neuronas,

Un equipo de investigadores de la Universidad de Washington (UW) en Seattle, ha creado programas de inteligencia artificial (IA) –tipo red neuronal- con el propósito de diseñar proteínas aptas para desempeñar la función que se les establezca; por ejemplo: atacar células perniciosas, extraer dióxido de carbono de la atmósfera. Esta reseña comprende tres artículos referidos a dichos desarrollos. En el primero (1) se trascribe una entrevista de SINC con David Baker, director del Institute for Protein Design de la Universidad de Washington (Seattle, Washington). En el segundo (2) se delinea un perfil de la herramienta RF Diffusion para el diseño de nuevas moléculas para desempeñar las funciones que se establezcan y definan. El tercero (3) se refiere a la predicción de estructuras de proteínas con el sistema AlphaFold de la empresa DeepMind.

 

1.- Primer artículo: Entrevista de SINC con David Baker, director del Institute for Protein Design de la Universidad de Washington (Seattle, Washington) (1)

En una ceremonia celebrada en Bilbao (País Vasco, España) David Baker compartió el premio Fundación BBVA Fronteras del Conocimiento, en la categoría “Biomedicina”, con sus colegas Demis Hassabis y John Michael Jumper, ambos de la empresa británica DeepMind, propiedad de Google. El jurado distinguió a estos tres investigadores por sus contribuciones al uso de IA de “aprendizaje profundo” para predecir la estructura tridimensional de las proteínas.

Baker es el creador del programa RoseTTAFold, con el cual no solo pudo desvelar la compleja estructura 3D que adopta una cadena de aminoácidos al plegarse para dar lugar a una proteína funcional, sino también diseñar -desde cero- otras proteínas completamente nuevas. Este avance exhibe un gran potencial en campos como medioambiente, energía y, particularmente, en biomedicina.

A continuación se reseña la entrevista a Baker por parte de SINC.

Reseña de la entrevista

SINC: Su programa permite diseñar nuevas proteínas a partir de una simple descripción de las funciones deseadas ¿Cómo lo hace?

Baker: “Pongamos, por ejemplo, que queremos diseñar una proteína que se una a la proteína de un determinado virus para bloquear su entrada en las células. En nuestro laboratorio estamos utilizando ahora RFDiffusión, un programa de código abierto basado en RoseTTAFold, pero especializado en el diseño de proteínas totalmente nuevas que tengan unas funciones y una forma específica, con la idea de que encaje con la proteína diana como lo haría una llave en una cerradura”. “Una vez que hemos diseñado la proteína, creamos un gen sintético que la codifique —puesto que es nueva y su correspondiente gen no existe en la naturaleza— y lo introducimos en bacterias que, a continuación, producen la proteína diseñada. Luego extraemos la proteína y la probamos para ver si cumple su objetivo”.

 

SINC: ¿Cómo se formulan las instrucciones para el diseño de estas proteínas sintéticas?

Baker: “Primero hay que decidir qué se quiere hacer. Lo que acabo de explicar es muy general, pero imaginemos que el objetivo es bloquear una proteína tumoral. Lo que hace nuestro programa RF Diffusion es construir una proteína cuya parte superior encajará perfectamente con la cancerígena para bloquearla. En otro caso, tal vez nos interese diseñar una proteína que catalice una reacción química, como la descomposición del plástico, y a partir de un modelo de la molécula que deseamos romper o destruir, diseñamos una proteína a su alrededor”. “Así que empezamos proporcionando a RF Diffusion lo que necesitamos que haga, y el programa construirá una molécula con esa función”.

 

SINC: ¿Qué aplicaciones en biomedicina tiene en marcha su laboratorio?

Baker: “Hemos desarrollado una vacuna contra la Covid-19, cuyo uso fue aprobado en humanos y que se utiliza ahora en el Reino Unido y Corea. Está basada en una proteína de diseño que tiene forma de icosaedro (un poliedro de 20 caras) y que por su aspecto es detectado por el sistema inmunitario como si fuera un virus. Por ello conduce a una respuesta inmunitaria muy fuerte y es mejor que las vacunas actuales”.

“Además, estamos trabajando en el diseño de otros medicamentos que estimulan al sistema inmunitario para combatir el cáncer y otros que se dirigen específicamente a las células tumorales”. “Un fármaco que ya tenemos bastante avanzado es un espray nasal para el que hemos diseñado una proteína que bloquea al coronavirus y que pronto empezará a ensayarse en humanos. Pero también estamos creando moléculas contra otros virus respiratorios como la gripe, y nos gustaría -en última instancia- mezclarlas todas en el espray”. “Hay otros retos; por ejemplo, la descomposición de moléculas tóxicas en el medio ambiente, nuevas rutas químicas más ecológicas y formas de conectar la electrónica y la biología”

 

SINC: ¿Y cuáles podrían ser las aplicaciones en otros campos?

Baker: Hay muchos retos. Por ejemplo, en la catálisis, como la descomposición de moléculas tóxicas (como los plásticos) en el medio ambiente, nuevas rutas más ecológicas para los productos químicos, y formas de conectar la electrónica y la biología con estas máquinas moleculares que son las proteínas sintéticas. Estamos trabajando en múltiples campos de aplicación”.

 

SINC: ¿Cree que esta tecnología podría utilizarse con fines perjudiciales?

Baker: “Bueno, siempre hay posibilidades de aplicar cualquier tecnología nueva con malas intenciones. Sin embargo, creo que ahora mismo hay muchas más posibilidades de hacer cosas buenas que malas, porque ya conocemos muchos virus perjudiciales. Por ejemplo, el de la gripe española de 1918 está publicado y eso es mucho más peligroso que cualquier proteína que se pueda diseñar ahora. No sé si fue una buena decisión la de ponerlo a disposición del público, porque ahora se le podría ocurrir a alguien reproducir ese virus”. “En cualquier caso, creo que es algo que nosotros -los científicos y la comunidad- tendremos que pensar y debatir en el futuro: cómo aseguramos de que estas herramientas no se utilicen para malos fines”.

 

SINC: ¿Cuál es la diferencia entre lo que hace RoseTTAFold y sus versiones posteriores y lo que DeepMind (de Google) está haciendo con AlphaFold?

Baker: “AlphaFold se centra en la predicción de la estructura de las proteínas a partir de la secuencia de aminoácidos, lo cual es muy importante para entender la biología. Nosotros nos dirigimos a otro reto que es inventar proteínas totalmente nuevas”. “Para ello, hemos desarrollado dos programas de IA de aprendizaje profundo que son Protein MPNN y RF Diffusión”. “¡Creo que muchos de los problemas a los que nos enfrentamos hoy en día podrían abordarse con el diseño de proteínas! Estoy muy ilusionado con todas las posibilidades y aplicaciones que puedan surgir”

 

SINC: ¿Por qué su equipo apostó desde el principio por el código abierto en sus programas de diseño de proteínas?

Baker: “Una comunicación abierta es muy positiva porque hay muchos problemas diferentes que se pueden resolver con la participación de otros. Cada día tenemos, en nuestro laboratorio, visitantes de todas partes del mundo. Llegan científicos que nos piden que les diseñemos una proteína para resolver un problema determinado”. “También vienen estudiantes de doctorado a hacer estancias de unos meses” “Recibo cientos de correos electrónicos pidiéndonos colaborar y es muy emocionante. Así que un sistema abierto es muy bueno en nuestro campo”.

 

SINC: ¿Cómo ve el futuro en esta área?

Baker: “Reitero lo ya expresado: ¡Hay tantos problemas a los que hoy se enfrenta el ser humano que creo que se podrían abordar con el diseño de proteínas! Estoy sumamente ilusionado con todas las posibilidades y aplicaciones que puedan surgir”.

2.- Segundo artículo (2.1.) (2.2.) (2.3.)

Los investigadores procuraron, durante décadas, construir nuevas proteínas. Un momento clave llegó con AlphaFold (desarrollado por la firma DeepMind, con sede en Londres) y otros modelos basados en IA para predecir con precisión estructuras de proteínas a partir de secuencias de aminoácidos. Los diseñadores verificaron que esas herramientas de IA (redes neuronales), entrenadas en secuencias y estructuras de proteínas reales, podrían ayudar a crear nuevas proteínas desde cero.

En los últimos años, el equipo de David Baker en la Universidad de Washington (UW) y otros lanzaron diversas herramientas basadas en IA para diseñar proteínas. El equipo de la UW lanzó RF Diffusion en marzo de 2023, habiendo lanzado una versión preliminar a fines de 2022, al mismo tiempo que otros equipos informaron herramientas similares.

Los sistemas como RF Diffusion se entrenan con decenas de miles de estructuras de proteínas reales almacenadas en el repositorio Protein Data Bank (PDB) (*). La herramienta ganó un uso generalizado en el laboratorio de Baker. “El actual proceso de diseño es casi irreconocible en comparación con el de hace un año”, dice.

RF Diffusion se destaca cuando se le asigna la tarea de diseñar proteínas que puedan adherirse a otra proteína específica. El equipo de Baker lo utilizó para crear proteínas que se unen fuertemente a proteínas implicadas en cánceres, enfermedades autoinmunes y otras condiciones. Baker dice que su equipo verificó que entre el 10% y el 20% de las proteínas diseñadas con RF Diffusion se unen a su objetivo previsto con suficiente firmeza como para ser útiles, en comparación con menos del 1% con los métodos anteriores a la IA. El bioquímico Matthias Gloegl, un colega de la UW señala que últimamente han alcanzado tasas de éxito cercanas al 50%, lo que significa que puede llevar solo una semana o dos crear diseños que funcionen, en lugar de meses.

Joel Mackay, bioquímico de la Universidad de Sydney (Australia), incursionó en RF Diffusion para diseñar proteínas capaces de unirse a moléculas llamadas factores de transcripción, que controlan la actividad genética en las células. Encontró que el proceso de diseño era simple y ahora está probando si las proteínas pueden alterar la expresión génica en las células. Tal hallazgo representaría una forma sencilla de activar y desactivar factores de transcripción específicos dentro de las células, en lugar de esperar fármacos aún no descubiertos.

Una aplicación que suscita particular interés es el diseño de proteínas más complejas, como los anticuerpos o los receptores de proteínas utilizados por las células T. Estas proteínas tienen bucles flexibles que se entrelazan con sus objetivos, a diferencia de las interfaces planas (como un sándwich) en las que, hasta ahora, se ha destacado RF Diffusion.

Futuras mejoras

Una limitación de los actuales sistemas de IA reside en su incapacidad para crear proteínas muy diferentes de las naturales. Ello se debe a que, como fueron entrenados con proteínas existentes, tienden a crear proteínas parecidas a éstas. Uno de los actuales desafíos es lograr el diseño de proteínas diferentes para llevar a cabo tareas para las que ninguna proteína natural ha evolucionado.

Por otra parte, las últimas herramientas de diseño han mostrado habilidad para crear proteínas que pueden realizar una tarea particular, siempre que esa función pueda describirse en términos de una forma, como la superficie de una proteína a la cual unirse. Pero aún no pueden manejar otros tipos de especificaciones; por ejemplo: ¿Cómo generar una proteína que pueda llevar a cabo una reacción particular independientemente de la forma y geometría de la diana? Los investigadores están explorando si las proteínas pueden diseñarse utilizando descripciones de texto en lenguaje sencillo para agilizar la descripción, síntesis y prueba. Las futuras herramientas de diseño también deberían producir proteínas con base en un conjunto de criterios diferentes; por ejemplo: (a) debe unirse a su objetivo, (b) no debe unirse a otras, y (c) debe reunir propiedades que faciliten su producción en masa.

(*) Protein Data Bank (PDB) archive

https://www.rcsb.org/

3.- Tercer artículo: La predicción de estructuras de proteínas con el sistema AlphaFold (3)

DeepMind surgió como una empresa de investigación de IA, hasta que en 2016 fue comprada por Google. Su programa AlphaFold arrasó en el ámbito de la tecnología luego de comprobarse que podía predecir las estructuras 3D de casi todas las proteínas catalogadas como conocidas. Los investigadores de la empresa, junto con el Laboratorio Europeo de Biología Molecular, pasaron el último año utilizando AlphaFold para ampliar la base de datos de la empresa a más de 200 millones de estructuras de proteínas y ponerlas a disposición del público. El CEO Demis Hassabis dijo que la base de datos ampliada cubría “todo el universo de las proteínas”, y que sería tan fácil buscar una estructura proteica en 3D como teclear “una palabra para búsqueda en Google”. “Creo que estamos en el comienzo de una nueva era de la biología digital en la que la IA y los métodos computacionales pueden ayudar a comprender y modelar importantes procesos biológicos”.

En el campo de la Medicina, la manipulación de proteínas podría servir para evitar que un paciente desarrolle enfermedades neurodegenerativas como el Alzheimer y evitar los efectos secundarios de su tratamiento. Por otra parte, podrían crearse enzimas útiles para descomponer más rápidamente los plásticos, reduciendo así su impacto en el medio ambiente.

En la actualidad, investigadores de la Universidad de Oxford están utilizando AlphaFold para desarrollar una nueva vacuna contra la malaria, mientras que investigadores de Harvard utilizan el programa para comprender mejor el comportamiento de las células humanas.

Mientras tanto, Pushmeet Kohli, el jefe de IA para la Ciencia en DeepMind, explicó: “Creemos que AlphaFold es -hasta la fecha- la contribución más significativa de la IA al avance del conocimiento científico, ayudándonos a entendernos mejor a nosotros mismos y al mundo que nos rodea”. “Es una verdadera alegría ver tantos datos abiertos y accesibles para que todo el mundo pueda explorarlos y aprovecharlos”, concluyó.

Referencias:

(1) “Nuestros programas de diseño de proteínas están abiertos y los usan investigadores en todo el mundo” David Baker, creador de la herramienta RoseTTAFold”. Ana Hernando. Boletín SINC. Innovación, 26/6/2023

(2.1.) Fuente primaria: “De novo design of protein structure and function with RF Diffusion” Joseph L. Watson, David Juergens, Nathaniel R. Bennett, Brian L. Trippe, Jason Yim, Helen E. Eisenach, Woody Ahern, Andrew J. Borst, Robert J. Ragotte, Lukas F. Milles, Basile I. M. Wicky, Nikita Hanikel, Samuel J. Pellock, Alexis Courbet, William Sheffler, Jue Wang, Preetham Venkatesh, Isaac Sappington, Susana Vázquez Torres, Anna Lauko, Valentin De Bortoli, Emile Mathieu, Sergey Ovchinnikov, Regina Barzilay, Tommi S. Jaakkola, Frank DiMaio, Minkyung Baek & David Baker. Nature 11 July 2023. DOI: 10.1038/s41586-023-06415-8

(2.2.) Fuente secundaria 1: “AI tools are designing entirely new proteins that could transform medicine: Digital art techniques can now devise custom, working biomolecules on demand” Ewen Callaway. Nature 619, 236-238 (2023) News Feature. 11 July 2023. DOI: 10.1038/d41586-023-02227-y

(2.3.) Fuente secundaria 2: “Watch this AI design a protein in seconds: A new program could help scientists quickly design drugs and other helpful novel proteins” By Robert F. Service, Science. 11 Jul 2023 DOI: 10.1126/science.adj6973

(3) “Inteligencia Artificial logra predecir la estructura de millones de proteínas”: Tomado de: Business Insider DeepMind, de Google, descubre la estructura de casi todas las proteínas conocidas en un avance que resuelve uno de los mayores problemas de la biología actual. IntraMed. Biología digital | 24 Jul 2023