Newsletter DPT Nro. 69

ISSN 2618-236X

Febrero / 2022

NOTICIAS DE INTERES GENERAL

Apertura de datos de investigación en biología

¿Cada vez más datos y menos ideas?

Esta reseña comprende cinco (5) artículos referidos a los datos asociados a la investigación en biología. El primero (1), referido a datos abiertos, focaliza en los factores que condicionan la disposición de los investigadores para abrir datos. El segundo (2) aborda la problemática de la sobreabundancia de datos y del déficit de ideas que se manifiesta en biología. En el tercero (3) se caracteriza la plataforma Terra AnVIL para integrar y analizar grandes conjuntos de datos “ómicos”. El cuarto (4) trata sobre los siete pasos sugeridos por el BID para crear una estrategia de conocimiento. El quinto (5) se refiere a la “gestión del conocimiento” apoyada por tecnologías semánticas.

1.- Primer artículo: Datos abiertos en la investigación – 2021: ¿Qué factores condicionan la disposición de los investigadores para abrir datos?(1.1.) (1.2.)

El informe sobre el estado de los datos abiertos transita su sexto año. Respondieron a la encuesta 2021 más de 4.200 investigadores de todo el mundo, quienes proporcionaron una visión detallada de sus percepciones, comportamientos, motivaciones y desafíos con relación a la apertura de datos, así como sobre la calidad, la accesibilidad y su propia participación en tales prácticas. Aportaron también su visión sobre cómo los datos abiertos contribuyen a validar datos y resultados de la investigación, así como a luchar contra el error y el falseamiento en la información científica.

El informe 2021 revela una creciente preocupación de los investigadores por el mal uso de los datos abiertos, así como por el insuficiente crédito y reconocimiento hacia quienes comparten abiertamente sus datos. El 55% de los encuestados percibe que se necesita apoyo en lo relativo a derechos de autor y licencias para poner los datos de investigación a disposición del público, y el 73% apoya la idea de un mandato nacional para poner los datos de investigación a disposición del público. El 65% expresa que nunca recibió crédito ni reconocimiento alguno por compartir datos. Las principales motivaciones para compartir datos mantienen las pautas tradicionales: el 19% estarían motivados centralmente por la citación de sus trabajos, el 14% por la coautoría en los trabajos, el 11% por un mayor impacto y visibilidad de sus investigaciones, y el 11% por el beneficio público.

El el 66% respondió que había oído hablar de los principios de datos FAIR (Findability, Accessibility, Interoperability, Reusability) establecidos en 2018 (*), y el 28% respondió que está familiarizado con ellos, el número más alto desde que se introdujo esta pregunta en 2018. El 54% expresó que sus datos cumplen –en alto o mediano grado- con los principios de datos FAIR, también el número más alto desde que se introdujo esta pregunta en 2018.

 

2.- Segundo artículo: La importancia de generar ideas con base en el análisis y la interpretación de datos (2)

Al aceptar un premio Nobel en Biología, hace casi dos décadas, Sydney Brenner advirtió: “Nos estamos ahogando en un mar de datos y estamos cada vez más hambrientos de conocimiento“. Esa advertencia, de uno de los fundadores de la biología molecular, resulta aún más relevante para la biología actual. Algunos investigadores parecen creer que deben desencadenar un “tsunami” de datos para ser creíbles, mientras descuidan el encuadre y la razón por la que recopilan y exponen los datos: ¿Qué hipótesis procuran verificar; qué ideas surgen de su interpretación? Hoy los investigadores parecen reacios -tanto en sus presentaciones orales como en sus publicaciones- a formular conclusiones o nuevas ideas biológicas. Es como si se resistieran a “apropiarse” plenamente de la especulación sobre el significado de los datos y la discusión de ideas.

En el artículo reseñado se destaca que la recopilación y la descripción de datos son necesarias pero insuficientes. Son imprescindibles las ideas, incluso tentativas, junto con el reconocimiento de que esas ideas podrán cambiar a medida que se acumulen mayores hechos y argumentos.

¿Por qué los investigadores están reprimiendo las ideas? Quizás les preocupe proponer ideas que puedan resultar equivocadas, porque ello podría perjudicar sus posibilidades para conseguir un ascenso o un financiamiento. Pero, como sugirió Charles Darwin, las nuevas ideas son útiles siempre que se basen en pruebas razonables y sean susceptibles de corrección. El filósofo Francis Bacon argumentó en 1620, en su libro Novum Organum, que el primer paso para establecer la verdad científica debería ser la descripción de hechos a través de observaciones sistemáticas. Pero este es solo el primer paso. El siguiente paso es extraer conocimiento de los datos. Para reenfocarnos en ese objetivo, debemos mejorar nuestros procesos de trabajo, poniendo un mayor énfasis en la teoría y cambiando nuestra cultura de investigación. ¿Cómo? Es necesario integrar profundamente, en los problemas biológicos, a los ingenieros e investigadores que están desarrollando nuevas tecnologías y métodos. Es a través de una profunda familiaridad con la biología, y no simplemente en un impulso para recopilar más y más datos, que se harán preguntas importantes. Estas preguntas mantendrán la pasión de los investigadores por continuar investigando datos hasta que surjan patrones y conocimientos, y también influirán en los datos que se recopilen

Mejores métodos no pueden compensar una teoría mediocre

Hoy se manifiesta una clara tendencia a desarrollar herramientas analíticas avanzadas, incluidos programas para la “minería de datos” y el “aprendizaje automático”. Pero es fundamental asegurar que los datos sean utilizables, estén debidamente anotados y se compartan abiertamente. Se necesita más teoría (como lo hacen los biólogos evolucionistas Bill Hamilton y John Maynard Smith, y los genetistas Barbara McClintock y Francis Crick) para que los artículos estén impregnados de una “intuición” biológica ricamente informada. Este tipo de pensamiento acelerará el cambio de la descripción al conocimiento.

El propósito de dejarse guiar por la teoría y el conocimiento requerirá relevantes cambios en la cultura de la investigación. Se deberá fomentar la teorización y la inclusión de teorías en los artículos experimentales para poner los datos en contexto. Los procesos editoriales y de financiamiento deberán permitir y promover que las ideas sean atacadas, defendidas y descartadas o modificadas. Es frecuente que las “tiranías” en los diversos campos inhiban la generación de explicaciones distintas al “consenso” vigente, pero esto es un grave error. Las revistas y los patrocinadores de la investigación deben estar abiertos a nuevas ideas e interpretaciones razonables, particularmente si difieren del “consenso” actual. Los comités de evaluación deberán ser tolerantes cuando se demuestre que son incorrectas algunas de las ideas de las personas que están considerando para promoción o financiamiento. Tales enfoques harán avanzar no solo la investigación, sino también la enseñanza. Los estudiantes estarán mejor motivados y se sentirán más inspirados si se les enseña que la biología tiene ideas y que debe hablarse abiertamente de ellas.

 

3.- Tercer artículo: La plataforma Terra AnVIL permite integrar y analizar colaborativamente grandes conjuntos de datos “ómicos” (3.1.) (3.2.) (3.3.) (3.4.)

La investigación biomédica produce cantidades masivas de datos, pero compartirlos puede ser un desafío. “No importa qué tan entusiasta esté usted por compartir datos, en realidad compartir datos es un problema logístico”, dice Elinor Karlsson, genetista de la Facultad de Medicina Chan de la Universidad de Massachusetts en Worcester. Karlsson es codirector del núcleo genético del Dog Aging Project, un estudio longitudinal financiado por los Institutos Nacionales de Salud (NIH) de EE. UU., que tiene como objetivo comprender la genética del envejecimiento saludable mediante el análisis de varios miles de secuencias del genoma y datos de salud de 100.000 perros. El proyecto involucra a investigadores de múltiples instituciones, todos los cuales deben poder acceder y analizar los datos. Las estrategias convencionales de intercambio de datos, tales como servidores compartidos, descargas de datos e incluso envío de unidades de disco físicas, no estaban a la altura de la tarea.

La plataforma Terra se inició como un servicio llamado FireCloud. Fue desarrollado por el equipo de Data Sciences Platform (DSP) en el Broad Institute del MIT y Harvard en Cambridge, Massachusetts, en colaboración con Microsoft y Verily Life Sciences, una subsidiaria de la empresa Alphabet (de Google). En 2019, se le cambió el nombre y se incorporó al Laboratorio-Espacio de Análisis, Visualización e Informática del Instituto Nacional de Investigación del Genoma Humano (AnVIL). La interfaz basada en web de Terra proporciona un acceso sencillo a flujos de trabajo escalables, herramientas de colaboración y análisis. Permite a los investigadores integrar rápidamente y analizar computacionalmente grandes conjuntos de datos “ómicos” en Google Cloud Platform. En lugar de obligar a los investigadores a buscar y descargar datos para analizarlos localmente, Terra les permite trabajar con los datos in situ, utilizando la potencia informática localmente disponible. Terra proporciona acceso a conjuntos de datos como el Atlas del genoma del cáncer, la base de datos de agregación del genoma y el programa de investigación All of Us (que comprende unos 3,7 petabytes). Los usuarios también pueden cargar sus propios datos. Terra se puede utilizar en modo “por lotes”, ejecutando scripts escritos en el lenguaje de descripción de flujo de trabajo (una herramienta para especificar flujos de trabajo de procesamiento de datos) para manejar desde una hasta decenas de miles de computadoras virtuales. Alternativamente, los investigadores pueden explorar datos de forma interactiva utilizando herramientas como Jupyter Notebook, RStudio y el motor gráfico de flujo de trabajo Galaxy.

 

4.- Cuarto artículo: Siete pasos para crear una estrategia de conocimiento (4)

Una característica distintiva del Banco Interamericano de Desarrollo (BID) ha sido el apoyo a la generación de conocimiento. Su principal objetivo en la materia es apoyar el desarrollo de la región mediante la generación de conocimiento como un bien público regional para responder a las necesidades inmediatas y de largo plazo de los países. Con base en este objetivo, utiliza diferentes aproximaciones a la forma de generar, sistematizar y diseminar conocimiento.

La planificación estratégica del BID prioriza la organización y producción de conocimiento relacionado con determinadas áreas temáticas. En este proceso apoya a los equipos sectoriales y de países en la planificación de sus agendas de conocimiento, así como en el fortalecimiento de la conexión entre las operaciones de préstamo y el trabajo analítico en los respectivos escenarios. En el artículo aquí reseñado se describen los principales pasos de la planificación estratégica de proyectos. La metodología se compone de 7 pasos principales que se organizan en 3 bloques:

1.- Bloque 1: La Fundación

Este bloque incluye dos pasos sobre los cuales se construye el resto de la estrategia:

Visión: La visión es una oración simple que presenta una descripción detallada de un estado futuro. Dado que la creación y el intercambio de conocimiento es un medio para alcanzar un fin, las visiones no suelen mencionar el conocimiento específicamente. Un ejemplo de declaración de visión: “Una región que es resistente al cambio climático y tiene bajas emisiones de carbono”.

Propósito: Este segundo componente establece los límites. Es una sola oración que claramente delimita qué haremos, para quiénes y porqué. Por ejemplo: “Generaremos herramientas y conocimiento accionable para informar a los tomadores de decisiones para que el capital natural sea valorizado entre las opciones de desarrollo económico”.

2.- Bloque 2: Factores Facilitadores

Consiste en cuatro pasos esenciales para facilitar el éxito de la estrategia:

Objetivos estratégicos e indicadores de progreso: con este paso se definen los objetivos específicos de la estrategia y se crea un conjunto de indicadores para cada uno con el fin de reconocer el avance hacia la meta al finalizar el cronograma de implementación de la estrategia. Una estrategia típica definirá de 2 a 5 objetivos con un plazo de 1 a 3 años.

La situación actual: este paso es esencialmente un análisis de fortalezas, oportunidades, debilidades y amenazas (FODA) y está diseñado para crear una “foto” que refleje la situación actual con respecto a la visión, el propósito y los objetivos. Si imaginamos la estrategia como una hoja de ruta, este paso representa el punto de partida: Comprender dónde estamos es crucial para poder construir un camino que nos lleve al destino final.

Prioridades analíticas: Definir temas y áreas prioritarias. Este proceso comienza con la definición de un conjunto de criterios “sí o no”, que se utilizará para filtrar una lista de temas relacionados con los objetivos estratégicos y que debe de ser generada por el grupo. Algunos ejemplos de criterios incluyen: ¿Es de alto nivel de impacto? ¿Llena un vacío de conocimiento? ¿Tiene recursos ya asignados? ¿Responde a la demanda del cliente?

Actores clave: En este paso se define explícitamente una lista de 5 a 10 actores cuya participación es esencial para lograr los objetivos estratégicos. Estos pueden ser actores internos o externos a la institución, siempre y cuando tengan un papel relevante dentro de la estrategia.

3.- Bloque 3: Acción

El bloque de Acción se compone de un único paso crítico: la creación del plan de acción.

Planificación de la acción: en este paso final, los resultados de todos los pasos anteriores se entrelazan y se definen los detalles de implementación. Para cada indicador de progreso de un objetivo estratégico, se identifican una o más actividades por realizar para alcanzarlo.

Cada actividad identificada debe responder las siguientes preguntas: ¿Qué prioridades analíticas apoya? ¿Cuáles actores clave deben participar? ¿Qué métricas (indicadores de impacto) permiten medir el desempeño de la actividad? ¿Qué posibles fuentes de recursos se pueden identificar para apoyar esta actividad? ¿Cuáles son las magnitudes de recursos que se necesitarán para implementar la actividad?

La metodología reseñada fue diseñada para respaldar la planificación estratégica de las agendas de conocimiento dentro del BID, pero se puede utilizar para cualquier necesidad de planificación estratégica.

 

5.- Quinto artículo: “Gestión del conocimiento” con tecnologías semánticas (5.1.) (5.2.) (5.3.)

Las mejoras tecnológicas en materia de recopilación, gestión, presentación, intercambio y uso de información permiten el acceso inmediato al estado del “conocimiento” en todo el mundo. Las tecnologías semánticas se sirven de un amplio abanico de herramientas para vincular y compartir conocimientos, potenciar entendimiento y crear significado; por ejemplo, a través de mapas conceptuales y cognitivos. Ampliar el uso de las tecnologías semánticas permitiría hacer frente a los desafíos que plantean la coordinación y el uso compartido de información procedente de diversas instituciones y países, mejorando el acceso global a recursos relacionados con el conocimiento.

Las tecnologías semánticas, sobre todo en combinación con la inteligencia artificial, el aprendizaje automático y las nuevas taxonomías y ontologías, se constituyen en una poderosa herramienta para gestionar inmensas cantidades de datos, información y conocimientos. Una de las numerosas ventajas clave de usar tecnologías semánticas es que mejoran la organización de los datos y la información al conectar diversas fuentes de manera que pueden compartirse y reutilizarse en distintos sectores, organizaciones y comunidades científicas.

Los sectores vinculados a biología, bioingeniería, biotecnología, bioinformática y bioeconomía necesitan que todas las partes interesadas puedan intercambiar información y experiencias. En la actualidad, muchas organizaciones albergan sus conocimientos en portales que actúan como repositorios centrales de miles de documentos con metadatos. El uso de distintos estándares y especificaciones propios de las tecnologías semánticas podría ofrecer una solución a este desafío estableciendo un lenguaje común y desarrollando un sistema de organización de conocimientos o aprovechando en mayor medida los ya existentes. Además, podría servir de ayuda para integrar conjuntamente distintas fuentes de datos, para automatizar la indexación y para muchas otras cuestiones. Al extraer el significado de datos desestructurados e interconectar diversas fuentes de información disponibles, las tecnologías semánticas permiten mejorar la sostenibilidad de la gestión de los sistemas complejos e interdisciplinarios.

¿En qué consisten las tecnologías semánticas?

Las tecnologías semánticas incluyen una amplia variedad de herramientas, estándares y metodologías que permiten procesar la información a partir de su contexto y su significado. Para codificar la semántica —el significado de una palabra, frase o texto— se usan los siguientes niveles de recursos: (a) Metadatos: son datos acerca de los datos contenidos en una base de datos (por ejemplo: fuente, fecha de creación, propietario, alcances, técnicas de obtención, palabras claves), (b) Taxonomías: criterios para jerarquizar y clasificar la información (por ejemplo: clasificación de seres vivos), (c) Tesauro: es una extensión de las taxonomías para agregar elementos como sinónimos, homónimos, antónimos y abreviaturas, (d) Modelo conceptual: provee un mapa de entidades o conceptos dentro de un determinado dominio o área de conocimiento, con base en una topología de red multirrelacional; contiene las entidades o conceptos, sus atributos y las relaciones entre los mismos, e) Ontologías: representan información adicional sobre los conceptos de un dominio, y específicamente de las relaciones entre ellos.

Estas tecnologías permiten gestionar la información de manera que se puedan generar correlaciones y vínculos entre distintos conjuntos de datos, recursos de información diferentes y plataformas diversas. Esto significa que no es necesario conocer las distintas fuentes y buscar individualmente en ellas para encontrar la información que se necesita. Dado que las bases de conocimientos en biología son dilatadísimas y complejas, el uso de esta tecnología puede hacer que su gestión, recuperación y uso sean más eficientes y eficaces.

Referencias:

(1.1.) “The State of Open Data 2021 – Global Attitudes Towards Open Data” Digital Science, Natasha Simons, Greg Goodey, Megan Hardeman, Connie Clare, Sara Gonzales, Damon Strange, Graham Smith, Daniel Kipnis, Keisuke Iida, Nobuko Miyairi, Veliswa Tshetsha, Rosina Ramokgola, Pfano Makhera, Ginny Barbour. Published 30 Nov. 2021 Figshare, Digital Science and Springer Nature

(1.2.) Datos provenientes de la encuesta

(*)FAIR Principles”. National Institute of Standards and Technology NIST. Information Technology Laboratory / Software and Systems Division Information Systems Group

(2) “Biology must generate ideas as well as data: Data should be a means to knowledge, not an end in themselves” By Paul Nurse. Nature 597, 305 (2021). World View. 13 September 2021. DOI: 10.1038/d41586-021-02480-z

(3.1.) “Terra takes the pain out of ‘omics’ computing in the cloud: The web-based tool allows scalable, user-friendly computation across multiple data sets” By Jeffrey M. Perkel. Nature. Technology features, article.. Nature 601, pp.154-155 (2022). 04 January 2022. DOI: /10.1038/d41586-021-03822-7

(3.2.) ”Welcome to AnVIL: The NHGRI AnVIL (Genomic Data Science Analysis, Visualization, and Informatics Lab-space) is a project powered by Terra for biomedical researchers to access data, run analysis tools, and collaborate: Find how-to’s, documentation, video tutorials, and discussion fórums”

(3.3.) Migrate Your Genomic Research to the Cloud: Secure, cost-effective genomic analysis at scale.

(3.4.) Video: Introduction to the Terra AnVIL Cloud based Genomics Platform. Bioconductor. 10 August 2021

(4) Siete pasos para crear una estrategia de conocimiento” Por Lorena Rodríguez y Fernanda Camera. Conocimiento Abierto. Bolg del BID. Junio 21, 2021

(5.1.) Fuente primaria: “Exploring Semantic Technologies and Their Application to Nuclear Knowledge Management” IAEA Nuclear Energy Series NG-T-6.15. English STI/PUB/1899 ¦ 978-92-0-108719-5. Date published: 2021

(5.2.) Fuente complementaria 1: “Un acercamiento a la ontología de genes y sus aplicaciones” Ivette Camayd Viera, Miguel Sautié Castellanos, María A. Zardón Navarro, Carlos Martínez Ortiz, José Luis Hernández Cáceres. Centro Nacional de Genética Médica, Universidad de Ciencias Médicas, MINSAP; Centro de Cibernética Aplicada a la Medicina, Universidad de Ciencias Médicas, MINSAP. Cuba, 2012

(5.3.) Fuente complementaria 2: “La gestión de los conocimientos nucleares con tecnologías semánticas” Por Puja Daya, Oficina de Información al Público y Comunicación del Organismo Internacional de Energía Atómica (OIEA). 30/12/2021