N.88 – El rol de la bioinformática en la identificación

Newsletter DPT Nro. 88-90

ISSN 2618-236X

Septiembre-Noviembre / 2023

NOTICIAS CIENTIFICAS
NOTICIAS CIENTIFICAS INTERNACIONALES

El rol de la bioinformática en la identificación de genes causantes de cáncer

Los aportes de la inteligencia artificial y del big data

La oncología es una de las áreas donde la medicina de precisión exhibe mayor impulso. Dado que cada paciente es diferente de los demás (en su genética, ambiente y estilo de vida), la medicina personalizada gana cada vez más terreno. Asimismo, los crecientes avances en áreas como genómica, radiología, inteligencia artificial (IA) y Big Data contribuyen a mejorar la prevención, diagnóstico y tratamiento de los pacientes.

Esta reseña comprende tres artículos. El primero (1) trata sobre cómo la bioinformática, potenciada con IA y Big Data, contribuye a identificar e interpretar los procesos de mutación causantes de cáncer. En el segundo (2) se caracteriza al Estudio Dipcan, el cual incorpora un conjunto de tecnologías para el análisis cruzado de datos clínicos, genómicos, patológicos y radiómicos para impulsar la medicina de precisión en la práctica clínica de la oncología. En el tercero (3) se caracteriza al proyecto “Somatic Mosaicism Across Human Tissues (SMaHT)” para ayudar a comprender cómo las mutaciones genómicas pueden contribuir tanto a la salud como a la enfermedad

1.- Primer artículo: La bioinformática con IA contribuye a identificar e interpretar los procesos de mutación causantes de cáncer (1)

En el artículo aquí reseñado se transcribe la entrevista de la Agencia SINC con Núria López-Bigas, investigadora ICREA del Institute for Research in Biomedicine (IRB) Barcelona, donde dirige el laboratorio de Genómica Biomédica. Esta bióloga, especializada en genética molecular, recibió recientemente el Premio Fundación Lilly de investigación Biomédica Preclínica 2023 por sus estudios bioinformáticos, que contribuyen a identificar e interpretar los procesos de mutación causantes del cáncer. Ella y su equipo analizaron los genomas de 33.000 tumores de 66 tipos de cáncer.

En esta entrevista la investigadora explica cómo las tecnologías de “big data” e inteligencia artificial (IA) permiten procesar grandes volúmenes de datos y contribuyen a traducir la información biológica en tratamientos personalizados para los pacientes.

Reseña de la entrevista

SINC: ¿Cómo se aplica la bioinformática en la investigación médica?

López-Bigas: “Nosotros hacemos análisis de datos, en especial, en genómica. Hacemos secuenciación de nueva generación (NGS–next generation sequencing). Y en este campo, la informática cobra creciente importancia, dado que a veces el cuello de botella no está tanto en generar datos o ejecutar experimentos, sino en poder analizar esos datos”.

SINC: ¿Sería necesario, entonces, disponer de capacidad para procesar la inmensa cantidad de datos generados?

López-Bigas: “Exacto. Esa disciplina es la bioinformática o biología computacional y está cobrando cada día más importancia porque la única manera de analizar semejante volumen de datos es a través de técnicas computacionales. Hemos secuenciado miles de genomas de tumores con algoritmos de computación”.

SINC: Se mencionó la secuenciación de 33.000 tumores y 66 tipos de cáncer. ¿Qué importancia tienen estas cifras?

López-Bigas: “El disponer de la secuenciación de 33 000 tumores nos permite prever que el análisis adecuado de esos datos generará información sumamente rica para entender la biología del cáncer. Sin embargo, ello no representa al enorme número de personas que padecen un cáncer. Yo querría analizar millones. Lo que hacemos es distinguir qué combinaciones de mutaciones son las causantes de un cáncer entre los miles de mutaciones que hay en un tumor”.

SINC: ¿Cada persona tiene un tumor absolutamente diferenciado?

López-Bigas: “Sí, cada tumor es distinto, con un conjunto de mutaciones diferentes. Si secuenciamos todo el genoma (el genoma humano tiene 3.000 millones de bases), ello significa que podemos leer todas esas bases e identificar mutaciones que están en las células tumorales, pero no en las demás células de la persona. Es decir, son mutaciones solo de esas células tumorales, y encontramos miles de mutaciones en un tumor. Estas células tienen una larga historia porque nuestras células van acumulando mutaciones cada día, por miles de razones, Sin embargo, las mutaciones causantes del cáncer son unas pocas. Una de las tareas importantes que hacemos en el grupo es distinguir cuáles son las causantes de ese cáncer entre los miles de mutaciones que hay en un tumor”.

SINC: Hay muchas mutaciones que causan enfermedades, pero ustedes se han centrado en las que ocasionan tumores.

López-Bigas: “Se acumulan mutaciones por mil razones. Me refiero, por ejemplo, a la luz ultravioleta que daña el ADN de las células de la piel, o al tabaco, que afecta a las células del pulmón del fumador. Cada vez que se replica el ADN hay una tasa de error y estas son razones por las que cada día nuestras células acumulan mutaciones. Pero el genoma es muy grande y la mayor parte de las mutaciones no afectan ni a una proteína ni tienen un efecto funcional en la célula. Entonces, el reto está en identificar cuáles son las mutaciones que sí modifican el comportamiento de una célula para convertirla en una célula tumoral. Sabemos que hay genes que tienen mutaciones que provocan cáncer porque encontramos patrones. Esto nos permite hacer un catálogo de genes causantes de cáncer de mama, de colon y otros”.

SINC: ¿Procesar millones de datos podría permitir extraer similitudes entre casos de cáncer?

López-Bigas: “Exacto. Si tenemos miles de tumores, podemos encontrar patrones que nos indiquen qué genes son causantes del cáncer. Esto es un poco complicado, pero identificamos señales de selección positiva. Entonces, allí sabemos que hay genes que tienen mutaciones causantes del cáncer, porque encontramos estos patrones. Y de esta forma hacemos un catálogo de genes causantes de cáncer de mama, cáncer de colon y otros. Algunos son comunes, pero en muchos casos son específicos de cada tipo de tejido”.

SINC: ¿Les sorprendió en algún caso que diferentes mutaciones den lugar a tumores similares?

López-Bigas: “Sí. Por ejemplo, si nos centramos en el cáncer de colon podemos identificar una lista de genes que sabemos que pueden causarlo. En cada tumor concreto, normalmente identificamos entre 3 y 7 mutaciones causantes del cáncer. No es una, sino la combinación de unas pocas mutaciones las que pueden originar un tumor. Luego, si comparamos dos tumores de colon, la combinación de mutaciones es distinta: es lo que llamamos heterogeneidad tumoral. No todos los tumores tienen la misma historia, ni se han causado a nivel de bases moleculares exactamente iguales. Por eso, en algunos casos, los pacientes necesitan tratamientos distintos. Y por ello es muy pertinente la medicina personalizada”.

SINC: ¿Cómo obtienen los datos de tumores? ¿Trabajan con hospitales?

López-Bigas: “Los datos disponibles, por el momento, provienen del entorno de investigación; es decir, se han generado en proyectos de investigación y los tenemos disponibles porque formamos parte de estos proyectos o consorcios. Pero la mayoría de los datos se están generando en entornos clínicos y la razón radica en que ya se está aplicando la medicina personalizada. Entonces, con una muestra del tumor se secuencia quizá no todo el genoma pero un trozo del mismo y se identifican las mutaciones antes de tomar una decisión clínica para el paciente. Estamos intentando contribuir a que estos datos se puedan compartir de manera eficiente y se utilicen para mejorar lo que entendemos de la biología del cáncer. Tenemos que mejorar la interpretación de mutaciones para los pacientes que vengan”.

SINC: ¿La capacidad de computación hoy disponible es suficiente para procesar los datos que ustedes manejan?

López-Bigas: “La capacidad computacional es siempre un cuello de botella, pero puede solventarse comprando más máquinas. También se pueden hacer análisis en la nube. Siempre podemos acceder a la capacidad computacional requerida; a veces recurrimos también al supercomputador de Barcelona, Yo creo que el cuello de botella tiene más que ver con el acceso seguro a los datos, porque contienen información de pacientes. Entonces aquí también hay un reto tecnológico que todavía no está del todo resuelto. El siguiente desafío es el diseño de los algoritmos que puedan gestionar eficientemente toda esa cantidad de datos y extraer la información que necesitamos. Esto es muy importante y requiere esfuerzo porque tenemos que generar algoritmos inteligentes que también sean suficientemente eficientes para que no tarden un año en hacer el cálculo, sino unas horas”.

SINC: ¿Cuánto influye, en este ámbito, la inteligencia artificial (IA)?

López-Bigas: “Utilizamos técnicas de IA, que para nosotros son muy útiles si las diriges. Por ejemplo, uno de nuestros últimos trabajos con modelos de IA nos permite distinguir mutaciones causantes de cáncer. A estos algoritmos les enseñamos datos de muchos tumores que conocemos y los entrenamos para distinguir un gen concreto. Y hemos generado un modelo de IA que funciona muy bien para varios genes. En concreto, hemos hecho 185 modelos en el último artículo que publicamos. Esto es un ejemplo de IA, o sea, no es que lo dejes que funcione solo y aprenda: hay que dirigirlo”.

SINC: ¿Hay momentos en que las posibilidades de saber se multiplican exponencialmente porque se da un salto cualitativo?

López-Bigas: “Sí, se dan esos momentos. Por eso es muy importante un análisis de aprendizaje automático (“machine learning”). Hay unos 600 genes de cáncer, con lo cual deberíamos hacer modelos para cada uno de ellos. Las dimensiones son enormes. Y trabajamos no con un tipo de cáncer sino con muchos; no solo con un gen, sino con cientos. De ahí que lo que hacemos es sistematizar el aprendizaje, el análisis y los algoritmos para que puedan aprender de muchos datos y aprender automáticamente acerca de los distintos tipos de cáncer y los distintos genes. Toda esta información que generamos la hacemos pública: por ejemplo, IntOGen es el compendio de genes de cáncer; esto es, una base de datos pública que utiliza mucha gente. Estas bases de datos también tienen utilidad práctica en los entornos de medicina personalizada, cuando, tras secuenciar un trozo del genoma de un paciente concreto, debe formularse una interpretación (hay que decidir qué significan esas mutaciones, cuáles son importantes) y, a partir de ahí, decidir qué tratamiento se le ofrece al paciente”.

SINC: ¿Ya existe intercambio entre quienes hacen estos estudios bioinformáticos y el médico, que tiene la intuición y la experiencia clínica, o se prevé que esto será útil de aquí a unas décadas?

López-Bigas: “Ya existe ese intercambio. Una parte de lo que hacemos es aumentar el conocimiento y entender mejor ciertas cuestiones que van a tener implicaciones más a largo plazo. Pero hay otra parte que tiene implicaciones hoy y que es la interpretación de estos datos en la clínica. Hay herramientas que solventan las cuestiones más prácticas del día a día cuando, al introducir las mutaciones encontradas en un tumor, se interpretan automáticamente. No toman decisiones clínicas, pero proporcionan un soporte. Nuestra herramienta CGI Clinics se ha popularizado mucho y se la utiliza tanto en entornos clínicos, como de investigación”.

SINC: ¿Ustedes entrenan a los oncólogos para que sepan utilizar esas herramientas?

López-Bigas: “Sí. Tenemos un proyecto denominado CGI Clinics (“Cancer Genomic Interpreter”): sustentado en la herramienta que desarrollamos hace unos años y que se utiliza tanto en entornos clínicos como de investigación. La Unión Europea nos ha aprobado un proyecto para adaptar esta herramienta al uso de la clínica junto con los oncólogos y los clínicos, en colaboración con varios hospitales de Francia, Alemania, Inglaterra, Grecia y España. Entonces, trabajamos junto con los hospitales, que son los usuarios finales. Es una colaboración en las dos direcciones: nosotros los entrenamos a ellos en cómo presentar toda esta compleja información para que sea comprensible, y ellos nos dicen cuáles son sus necesidades”.

2.- Segundo artículo: Estudio Dipcan: nuevas tecnologías para transformar la oncología clínica (2)

El artículo aquí reseñado trata sobre el estudio observacional Dipcan, en el cual se analizarán los datos clínicos, genómicos, patológicos y radiómicos de 2.000 pacientes con tumores metastásicos para impulsar la medicina personalizada de precisión en la práctica clínica de la oncología y ofrecer estrategias que mejoren el diagnóstico y tratamiento del cáncer, así como soluciones adaptadas a cada paciente.

Dipcan se beneficia de los avances de la oncología en materia de análisis genéticos y moleculares de los tumores, así como de las nuevas técnicas de imagen que permiten identificar biomarcadores para el diagnóstico o la predicción de la respuesta a ciertos tratamientos.

Fabio Franco, oncólogo en la Fundación MD Anderson España, entidad promotora del proyecto, destaca -como motivación básica- la necesidad de: (a) obtener información biológica del cáncer en la población española, y (b) aumentar las expectativas de tratamiento individualizado de los pacientes. Con tales propósitos, se diseñó un estudio que aborda y relaciona: antecedentes del paciente y estudio clínico, radiológico, anatomopatológico y molecular. “Toda la información individual nos ayuda a tener datos personalizados de la enfermedad del paciente y conocer las características de nuestra población”.

Para recopilar, analizar y armonizar los datos clínicos, genómicos, patológicos y radiológicos de los pacientes participantes, Dipcan cuenta con una red multidisciplinar en la que colaboran diferentes entidades. La promotora del estudio es la Fundación MD Anderson Cancer Center España, que coordina Eurofins Megalab. Además, cuenta con la participación tecnológica de Genomcore, Quibim, Pangaea Oncology, Artelnics y Atrys Health.

El estudio: del paciente a los datos

Dipcan es un estudio observacional dirigido a pacientes de España con tumores sólidos metastásicos, no hematológicos. Esto implica que únicamente se obtendrán datos a través de diferentes pruebas diagnósticas. “La información obtenida y los resultados serán de mucha ayuda para el oncólogo, que es quien mejor conoce la situación del paciente y podrá tomar los datos para seleccionar tratamientos o adaptarlos al paciente”, indica Fabio Franco.

Los 2.000 participantes del estudio comenzarán su recorrido con una primera visita a un oncólogo que recogerá los datos clínicos. A continuación, se solicitará a los pacientes una muestra reciente del tumor, que será analizada a nivel histopatológico y molecular (mediante técnicas de secuenciación genómica) por Eurofins Megalab y Pangaea Oncology. En caso de no disponerse de una muestra reciente, se valorará la realización de una biopsia líquida, dirigida a detectar las mutaciones tumorales en sangre. Esta estrategia, que permite obtener y analizar ADN tumoral circulante, tiene gran potencial tanto en investigación como en asistencia clínica. Permite diagnosticar y monitorizar a los pacientes, así como formular pronósticos, incluso en situaciones clínicas donde no se manifiestan aún evidencias radiológicas.

La siguiente prueba diagnóstica, que tendrá lugar en el Hospital MD Anderson Cancer Center Madrid será un análisis radiómico por resonancia magnética de cuerpo completo para determinar cómo es el tumor del paciente. En el mismo centro se realizará la extracción de una muestra sanguínea para el estudio, por parte de Eurofins Megalab, para evaluar diversos parámetros como el hemograma, bioquímica, pruebas de función hepática y renal, así como marcadores tumorales. También se extraerá material genético para estudios moleculares.

De los datos a los algoritmos

Una vez obtenidos los diferentes tipos de datos (moleculares, histopatológicos, radiómicos, de imagen y bioquímicos) de los pacientes, es fundamental hacerlos interoperables mediante un repositorio común, que es el papel de Genomecore, que ofrece una plataforma de datos en formato estándar y común, para que los algoritmos puedan acceder a ellos.

Cuando los datos estén estructurados y armonizados, se dispondrá de algoritmos de IA que establecerán relaciones entre ellos para diagnosticar con precisión el tumor de los pacientes, hacer predicciones sobre la enfermedad y buscar los tratamientos que ofrezcan la mayor eficacia para cada paciente.

Un proyecto del presente que mira hacia el futuro

Dipcan está generando una estructura sobre la que más adelante podrían incorporarse otras variables pertinentes; por ejemplo, información metabolómica. Por otra parte, la información obtenida en el estudio, incorporada como sustento de estrategias y algoritmos de salud, contribuirá a afinar decisiones para mejorar la atención de futuros pacientes en el contexto de la enfermedad metastásica.

3.- Tercer artículo: Proyecto “Somatic Mosaicism Across Human Tissues (SMaHT)”: para ayudar a comprender cómo las mutaciones genómicas contribuyen a la salud y la enfermedad (3)

Cada persona inicia su vida con un solo genoma; la amalgama única de ADN paterno y materno en el óvulo fertilizado. Durante mucho tiempo se creyó que, a lo largo de la vida, las diversas células del cuerpo heredan el mismo genoma. Pero esa visión fue derribada por la secuenciación de ADN a gran escala, la cual mostró que el ADN humano comienza a acumular mutaciones en una etapa temprana del desarrollo embrionario y continúa cambiando a lo largo de la vida. Cada persona es, en realidad, un mosaico de genomas que varían en todo el cuerpo y hasta dentro de un mismo órgano o tejido.

Es probable que la gran mayoría de las mutaciones no tengan impacto en nuestra salud. Sin embargo, aguna pueden desencadenar cánceres, provocar otras enfermedades o causar muertes prematuras. También se han relacionado las mutaciones cerebrales en mosaico con una variedad de trastornos neurológicos, como la esquizofrenia y la enfermedad de Alzheimer.

Ahora, los Institutos Nacionales de Salud (NIH) de EE.UU. han lanzado un proyecto de 5 años (por U$S 140 millones) para mapear el universo de diversidad genómica y probar por qué es importante. Conocido como Somatic Mosaicism Across Human Tissues (SMaHT), el proyecto contribuirá a medir la frecuencia de referencia de esas mutaciones en una variedad de tejidos para ayudar a los investigadores a comprender mejor cómo las alteraciones contribuyen a la salud y la enfermedad. La idea es poder al menos catalogar las mutaciones para que los investigadores puedan profundizar en los vínculos con las enfermedades

Los investigadores también procuran determinar si algunas mutaciones somáticas pueden resultar beneficiosas. Se ha descubierto que las células individuales pueden beneficiarse de ciertos cambios que les otorgan a ellas y a sus clones una ventaja competitiva sobre otros clones. Sin embargo, lo que es bueno para células específicas no es necesariamente bueno para los tejidos que habitan (el cáncer es un buen ejemplo) y no está claro si algún cambio somático puede mejorar nuestra salud en general. Alguna evidencia sugiere que sí pueden.

Al proporcionar la primera referencia sobre mutaciones somáticas en todo el cuerpo, SMaHT ayudará a investigar sus funciones. Sin embargo, encontrar esas mutaciones representa un desafío, ya que algunas mutaciones somáticas solo ocurren en menos del 1% de las células de un tejido. La tecnología actual de decodificación de ADN puede pasar por alto mutaciones tan raras porque tiene una tasa de error relativamente alta.

Referencias:

(1) “La inteligencia artificial y el ‘big data’ nos ayudan a identificar qué genes son los causantes del cáncer” Por Analía Iglesias. Boletín SINC 24/7/2023

(2) “Estudio Dipcan: nuevas tecnologías para transformar la oncología clínica” Por Amparo Tolosa, Genotipia. Genética Médica News. Julio 26, 2023

(3) “Your cells don’t have the genome you were born with. Project aims to chart impact of new mutations: Major NIH effort will probe the health effects of DNA changes acquired by only some tissues and organs”. By Mitch Leslie. Science. News Biology. 15 Aug 2023. American Association for the Advancement of Science (AAAS). DOI: 10.1126/science.adk3289

Quiénes Somos

Instituto Universitario DPT

Capacitación

Tecnología y Emprendedorismo

Actualidad y Publicaciones

Eventos
Institucionales

Proyectos

Financiamiento
y oportunidades

N.88 – El rol de la bioinformática en la identificación

Newsletter DPT Nro. 88-90

El rol de la bioinformática en la identificación de genes causantes de cáncer

Quiénes Somos

Instituto Universitario DPT

Capacitación

Tecnología y Emprendedorismo

Actualidad y Publicaciones

Eventos Institucionales

Proyectos

Financiamiento y oportunidades

N.88 – El rol de la bioinformática en la identificación

Newsletter DPT Nro. 88-90

El rol de la bioinformática en la identificación de genes causantes de cáncer

Eventos
Institucionales

Financiamiento
y oportunidades