El avanzado sistema de inteligencia artificial (IA) denominado AlphaFold logró predecir la estructura de casi todas las proteínas conocidas y catalogadas por la ciencia. La impresionante herramienta permitirá una mayor comprensión de esos componentes tan fundamentales de la vida.
El instrumento ideado por DeepMind, compañía de inteligencia artificial inglesa -adquirida a su vez por Google en 2014- se ha ido desarrollando en los últimos años. La novedad es que de casi 1 millón de estructuras de proteínas se pasa a más de 200 millones y cubre casi todos los organismos de la Tierra cuyo genoma ha sido secuenciado.
El volcado de datos estará disponible gratuitamente en una base de información creada por DeepMind, encargada de desarrollar AlphaFold con el Instituto Europeo de Bioinformática del Laboratorio Europeo de Biología Molecular (EMBL-EBI), una organización intergubernamental cerca de Cambridge, en el Reino Unido.
Las proteínas son los componentes básicos de la vida, sustentan los procesos biológicos en los seres vivos. Las proteínas tienen una forma tridimensional única que las lleva a encajar unas en otras. Pero determinarla supone un gran reto y aquí la IA es clave. Su uso permite crear la base de datos más completa de predicciones sobre cómo se pliegan. “Esencialmente se puede pensar que cubre todo el universo de proteínas. Estamos al comienzo de una nueva era de biología digital”, dijo el director ejecutivo de DeepMind, Demis Hassabis.
La forma o estructura 3D de una proteína es lo que determina su función en las células. La mayoría de los medicamentos se diseñan utilizando información estructural y los mapas precisos suelen ser el primer paso para descubrir cómo funcionan.
Predecir las formas de las proteínas abre el horizonte científico
La expansión de la base de datos con el sistema de IA, incluye estructuras predichas de proteínas para una amplia gama de especies. Incluidas plantas, bacterias, animales y otros organismos. Abriendo nuevas vías de investigación en las ciencias de la vida que tendrán un impacto en los desafíos globales, la sostenibilidad y la seguridad alimentaria, y enfermedades desatendidas, señaló EMBL-EBI.
Ahora, casi todas las secuencias de proteínas en la base de datos de proteínas UniProt vendrán con una estructura predicha. Este mecanismo también abrirá nuevas vías de investigación, como el apoyo a la bioinformática, y el trabajo computacional al permitir a los investigadores detectar patrones y tendencias en la base de datos.
“AlphaFold ahora ofrece una vista en 3D del universo de las proteínas”, dijo Edith Heard, directora general de EMBL. “La popularidad y el crecimiento de AlphaFold Database es testimonio del éxito de la colaboración entre DeepMind y EMBL. Nos muestra un atisbo del poder de la ciencia multidisciplinar”.
Asimismo, Demis Hassabis, fundador y director ejecutivo de DeepMind, sostuvo que AlphaFold se ha convertido en una herramienta esencial para cientos de miles de científicos en laboratorios y universidades del mundo. «Desde combatir enfermedades hasta abordar la contaminación plástica. Nuestra esperanza es que esta base de datos ampliada ayude a muchos más científicos en su importante trabajo. Y abra vías completamente nuevas de descubrimiento científico”, añadió
DeepMind y EMBL-EBI lanzaron la base de datos AlphaFold en julio de 2021, con más de 350.000 predicciones de estructuras de proteínas, incluido el proteoma humano completo. Las actualizaciones posteriores vieron la adición de UniProtKB/SwissProt y 27 nuevos proteomas, 17 de los cuales representan enfermedades tropicales desatendidas que continúan devastando las vidas de más de 1.0000 millones de personas en el mundo.
Este avance científico es un enorme tesoro
Christine Orengo, bióloga computacional del University College London, se refirió al novísimo sistema de IA que determina la estructura de las proteínas como “un enorme tesoro”.
La investigadora confió que ha utilizado la base de datos AlphaFold para identificar nuevas familias de proteínas. “Tener todos los datos previstos para nosotros es simplemente fantástico”, añadió.
El lanzamiento de AlphaFold en 2021 causó revuelo en la comunidad de ciencias de la vida, que ha luchado por aprovechar la herramienta. La red de IA produce predicciones muy precisas de la forma o estructura 3D de las proteínas. También proporciona información sobre la precisión de sus predicciones, para que los investigadores sepan en cuál confiar.
Tradicionalmente, los científicos emplean métodos experimentales costosos y que requieren mucho tiempo, como la cristalografía de rayos X y la microscopía crioelectrónica, para resolver las estructuras de las proteínas.
EMBL-EBI señaló que un 35% de los más de 214 millones de predicciones se consideran altamente precisas. Esto significa que son tan buenas como las estructuras determinadas experimentalmente. Otro 45% se consideró lo suficientemente seguro como para confiar en muchas aplicaciones.
Muchas estructuras AlphaFold son buenas como para reemplazar estructuras experimentales para algunas aplicaciones. En otros casos, los investigadores usan predicciones AlphaFold para validar y dar sentido a los datos experimentales. Las malas predicciones a menudo son obvias, y algunas de ellas son causadas por un desorden intrínseco en la proteína misma que significa que no tiene una forma definida. Al menos sin otras moléculas presentes.
En poco más de un año, más de 1.000 artículos científicos han citado la base de datos y más de 500.000 investigadores de más de 190 países han accedido a la base de datos AlphaFold para ver más de dos millones de estructuras.