Newsletter DPT Nro. 66

ISSN 2618-236X

Noviembre / 2021

NOTICIAS EDUCATIVAS Y PEDAGOGICAS
NOTICIAS INTERNACIONALES

Exploración de literatura científica y generación de hipótesis

Con algoritmos de inteligencia artificial

La presente reseña comprende dos (2) artículos referidos al uso de la inteligencia artificial (IA) para el uso de literatura científica por parte de investigadores. El primero (1) trata sobre herramientas para la exploración y explotación de dicha literatura, mientras que el segundo (2) se refiere a las herramientas que ayudan a generar hipótesis para la investigación.

1.- Primer artículo: Exploración y explotación de literatura cientٳfica (1)

Dado que en el mundo se publican un millón de artículos científicos cada año (uno cada 30 segundos), es prácticamente imposible para los investigadores mantenerse al día, aun dentro de sus propios segmentos de especialización.

Las herramientas de alerta de literatura académica, originariamente diseñadas para centrar la atención en los artículos relevantes para cada usuario, están inundando las bandejas de entrada de los investigadores de todo el mundo. Como resulta prácticamente imposible mantenerse al día con la literatura, crece la prevalencia del síndrome «temor a dejar pasar algo importante» (“FOMO”: “fear of missing out”)

Para ayudar a afrontar este problema, en 2019 se fundó Connected Papers, que ofrece una nueva generación de herramientas de recomendación y mapeo visual de literatura. También están disponibles otros servicios destinados a controlar la sobrecarga de información integrando diversas fuentes. En lugar de ofrecer una lista diaria de nuevos artículos por correo electrónico, Connected Papers utiliza un único “documento de origen” elegido por el usuario para construir un mapa de investigaciones relacionadas. El servicio superó recientemente el millón de usuarios. Los mapas están codificados por colores por fecha de publicación de los artículos, y los usuarios pueden alternar –basándose en ellos- entre trabajos “seminales”, “anteriores”, “posteriores” y “derivados”. La idea es que los investigadores puedan buscar un artículo de origen que les interese y ver, en el mapa resultante, qué artículos recientes han concitado mayor atención en su campo, cómo se relacionan con otras investigaciones y cuántas citas han acumulado. La herramienta también es útil cuando los investigadores desean sumergirse en un campo completamente nuevo, al proporcionarles una descripción general de la literatura esencial. Utiliza el corpus disponible públicamente compilado por Semantic Scholar, una herramienta creada en 2015 por el Instituto Allen de Inteligencia Artificial en Seattle, Washington, que asciende a alrededor de 200 millones de artículos, incluidos los preprints. Su sistema de alerta, llamado “fuente de investigación adaptativa”, crea una lista de artículos recomendados que los usuarios pueden indicar si les satisfacen o no. Cuenta con unos 8 millones de usuarios mensuales.

Otra herramienta de mapeo visual es Open Knowledge Maps, un servicio ofrecido por la organización homónima con sede en Viena. Crea sus mapas basándose en palabras clave, y se basa en la similitud del texto y los metadatos para determinar cómo se relacionan los artículos. Incluye no solo artículos de revistas, sino también conjuntos de datos y software de investigación. Se basa en el motor de búsqueda académico Bielefeld de código abierto, que cuenta con más de 270 millones de documentos, incluidos los preimpresos.

Pero, sin perjuicio de las nuevas posibilidades de servicio, muchos investigadores continúan hallando nuevos artículos a través de alertas de Google Scholar, la herramienta dominante en el campo; siguiendo cadenas de citas en papers. Google Scholar recomienda artículos según los artículos que los usuarios hayan escrito y enunciado en sus perfiles. Los usuarios pueden configurar manualmente alertas de correo electrónico adicionales basadas en búsquedas de palabras clave o autores particulares. Además de los artículos publicados, Google Scholar también puede recoger preprints, así como tesis y disertaciones. Su corpus es el más grande que existe, con cerca de 400 millones de artículos.

Si bien todas las herramientas citadas utilizan algún tipo de inteligencia artificial para elaborar sus recomendaciones, algunos académicos disfrutan del toque humano, valorando las recomendaciones de colegas y contactos en Twitter. Por ejemplo ResearchGate, la tradicional plataforma que se autocalifica como una “red social para investigadores”, envía recomendaciones de artículos por correo electrónico cuando los usuarios inician sesión. Para conocer los intereses de cada usuario utiliza información sobre sus publicaciones y qué publicaciones ha consultado en la plataforma. Incluye actualmente unas 149 millones de páginas de publicación y 20 millones de usuarios.

 

2.- Segundo artículo: Cómo la inteligencia artificial podría sugerir hipótesis con base en literatura científica (2)

La revisión sistemática de literatura científica se está acelerando notablemente con herramientas de exploración impulsadas por inteligencia artificial (IA). Dichas herramientas suelen ejecutar dos funciones: (a) extraer contenido científico, y (b) proporcionar servicios avanzados, como filtrar, clasificar y agrupar los resultados de la búsqueda. Los algoritmos que extraen contenido científico a menudo explotan técnicas de procesamiento del lenguaje natural (PNL). Para proporcionar servicios más avanzados, los algoritmos construyen “gráficos de conocimiento” que exhiben las relaciones entre las entidades conceptuales extraídas.

Diversas herramientas están ayudando a los investigadores a validar hipótesis científicas, mientras que otras pueden revelar conexiones ocultas entre hallazgos, e incluso sugerir nuevas hipótesis para guiar experimentos. Mientras que las herramientas convencionales actúan en gran medida como índices de citas, los “motores de investigación” basados en IA pueden ofrecer una visión más penetrante de la literatura.

Por ejemplo, un sistema llamado Iris.ai. (un servicio con sede en Berlín) utiliza una descripción de 400 palabras de un problema, o la URL de un artículo existente, para generar un mapa de miles de documentos relevantes agrupados visualmente por tema. Los resultados proporcionan una descripción precisa de literatura relevante para una determinada pregunta de investigación. Iris.ai se integra un grupo de nuevas herramientas de búsqueda basadas en IA; por ejemplo, el popular Semantic Scholar, desarrollado por el Instituto Allen de Inteligencia Artificial en Seattle, Washington, y Microsoft Academic. Aunque cada herramienta sirve a un nicho específico, todas aportan enfoques de navegación diferentes de las herramientas convencionales como PubMed y Google Scholar.

Las herramientas como Iris.ai (gratuitas para consultas básicas) pueden acelerar la entrada de los investigadores y la exploración inicial de la literatura en nuevos campos. Los expertos que buscan conocimientos más profundos en sus propias especialidades podrían considerar herramientas gratuitas basadas en IA, como Microsoft Academic o Semantic Scholar. Otra opción similar es Dimensions (cuyo uso básico es gratuito) para buscar y analizar datos de patentes y concesiones, así como acceder a los datos utilizando el lenguaje de búsqueda programable.

Otras herramientas focalizan en los datos experimentales. Por ejemplo, SourceData de la Organización Europea de Biología Molecular (EMBO) en Heidelberg, Alemania, profundiza en las figuras y sus leyendas para enumerar los objetos biológicos involucrados en un experimento. Luego permite a los investigadores consultar esas relaciones, identificando artículos que abordan la pregunta. SourceData se halla en una etapa temprana, habiendo generado un gráfico de conocimiento que comprende 20.000 experimentos que fueron seleccionados durante el proceso de edición. Por otra parte, IBM Watson Health en Cambridge, Massachusetts, anunció en agosto que combinará su IA con datos genómicos de Springer Nature para ayudar a los oncólogos a definir tratamientos. Euretos, con sede en Utrecht, Holanda, ofrece herramientas -a la industria y al mundo académico- para el descubrimiento y validación de biomarcadores y objetivos de fármacos. Accede a más de 200 repositorios de datos biomédicos y se basa en ontologías.

El artículo concluye planteando el siguiente interrogante: ¿Cabe esperar que la generación de hipótesis basada en IA pueda desplazar a los investigadores? La respuesta es negativa, ya que la generación de hipótesis es un proceso incremental. Hasta ahora, las hipótesis sugeridas por las referidas herramientas son poco originales, aún deben ser probadas y ello requiere investigadores humanos. Aunque estas herramientas pueden ayudar a recopilar la evidencia conocida, la validación experimental es imprescindible”

Referencias:

(1) “Drowning in the literature? These smart software tools can help: Search engines that highlight key papers are keeping scientists up to date” By David Matthews. Nature 597, 141-142 (2021). Echnology Feature 01 September 2021. DOI: 10.1038/d41586-021-02346-4

(2) “How AI technology can tame the scientific literatura: As artificially intelligent tools for literature and data exploration evolve, developers seek to automate how hypotheses are generated and validated.” By Andy Extance. Nature 561, 273-274 (2018). 10 september 2018. DOI: 10.1038/d41586-018-06617-5