Newsletter DPT Nro. 54

ISSN 2618-236X

Noviembre / 2020

NOTICIAS CIENTIFICAS

RESEÑAS DE ARTICULOS INTERNACIONALES

Contribuciones de los Big Data en la industria biotecnológica

La clave reside en la significación de la información

Las tecnologías informáticas de alto rendimiento han inducido significativas transformaciones en la industria biotecnológica. El denominado “Big data” se define –en términos de atributos específicos- por el llamado modelo 4V: (a) Volumen (escala cuantitativa), (b) Variedad (diferentes formas de datos), (c) Velocidad (en la trasmisión y procesamiento) y (d) Veracidad (confiabilidad de los datos).

En comparación con otros sectores, la industria biofarmacéutica genera una cantidad de datos relativamente escasa. Esto se debe principalmente a: (a) los costos asociados con los procedimientos experimentales para producir datos de buena calidad, (b) la mentalidad conservadora de la industria, y (c) la insuficiente estandarización entre bases de datos, que dificulta su explotación sistemática, aun entre distintos equipos de investigación dentro de una misma empresa.

La precariedad de la gestión de datos en algunas empresas dificulta una explotación racional, ya que los datos pueden resultar irrecuperables por obsolescencia de los soportes de almacenamiento (p. ej., disquetes). Por otra parte, no es fácil compatibilizar datos generados con diferentes generaciones de tecnologías experimentales, como el análisis en serie de la expresión génica (ASEG) y la secuenciación de ARN.

Por todo ello, el principal problema con los conjuntos de datos biofarmacéuticos no está relacionado con su tamaño, sino más bien con el tiempo requerido para compatibilizar e integrar diversas fuentes, así como para extraer información significativa de conjuntos de datos integrados ad hoc.

Aprendizaje automático como motor de descubrimiento con grandes conjuntos de datos

El aprendizaje automático (Machine Learning, ML) es una poderosa herramienta que ayuda a los investigadores a extraer información a partir de grandes volúmenes de datos. En los últimos años, los biofabricantes han invertido cuantiosos recursos en el desarrollo de métodos para bioprocesos basados en soluciones de captura y gestión de datos.

Sin embargo, son muchos los investigadores que cuestionan la supuesta posibilidad de hacer que los grandes conjuntos de datos “hablen por sí mismos”, señalando que esas “grandes estructuras” suelen dar lugar a correlaciones falsas debido a coincidencias no causales, factores ocultos y alta aleatoriedad.

Si bien las técnicas de aprendizaje automático exhiben un alto impacto potencial, también podrían resultar “el oro de los tontos”; en el campo biotecnológico. Para evitar posibles decepciones, es fundamental incorporar al aprendizaje automático todo el conocimiento empírico acumulado durante décadas de investigación biológica.

Herramientas de biología sistémica: más allá del descubrimiento de fármacos y del diseño celular

Las herramientas de biología sistémica permiten organizar, de manera coherente, grandes conjuntos de datos y proporcionan información sobre sistemas biológicos que los experimentos in vivo no pueden suministrar por sí solos. Por ejemplo, en el contexto de los procesos metabólicos, los modelos de redes metabólicas (MRM) a escala genómica se utilizan como plataformas para integrar e interpretar datos ómicos, al vincular el genotipo de un organismo y los fenotipos que puede exhibir durante un experimento.

Esas redes biológicas pueden utilizarse como bibliotecas para desarrollar modelos específicos de células y tejidos y como marcos para integrar distintas fuentes de datos y posteriormente extraer información significativa. Los MRM pueden describirse, entonces, no solo como redes de reacciones, sino también como mapas interconectados de funciones celulares.

Las herramientas de biología sistémica son sumamente valiosas en investigación preclínica, tanto para diseñar nuevos medicamentos a partir de objetivos, como para diseñar células mediante la reconexión de su metabolismo para producir un determinado producto. Pero también podrían aplicarse a nivel industrial en los campos del diseño, supervisión y control de procesos, así como para aumentar la robustez e intensidad de los mismos.

Se espera que tales esfuerzos faciliten en gran medida la implementación del paradigma de calidad por diseño (Quality by Design, QbD) y las iniciativas de tecnología analítica para la optimización de bioprocesos.

Gestión de actividades “upstream”

La gestión del conocimiento es y será cada vez más decisiva para el desarrollo eficiente de bioprocesos a partir de datos experimentales. Para aplicarla se requiere que los experimentos se realicen de manera estructurada y que los datos generados se almacenen adecuadamente -contextualizados y fácilmente recuperables- para la comprensión y mejora de los procesos.

En lugar de volver a desarrollar modelos para cada aplicación/proyecto/caso, los investigadores biofarmacéuticos deberían apuntar al desarrollo y mantenimiento de un modelo de base común que se actualizaría automáticamente con nuevos conocimientos y datos. Dicho modelo de base común también podría explotarse directamente para sugerir qué nuevos experimentos podrían ofrecer mayor información (p. ej., diseño de experimentos óptimos o basados en aprendizaje activo). De esta forma, podría minimizarse la repetición de errores y hacer un uso más eficiente del conocimiento existente.

Fuente primaria: “From Big Data to Precise Understanding: The Quest for Meaningful Information”. By Anne Richelle and Moritz von Stosch. Bio Process International. February 6, 2020