Newsletter DPT Nro. 63

ISSN 2618-236X

Agosto / 2021

NOTICIAS EDUCATIVAS Y PEDAGOGICAS
NOTICIAS INTERNACIONALES

Integridad de los datos en la investigación

Qué significa y cómo alcanzarla

La presente reseña comprende dos (2) artículos. El primero (1) se refiere a los principios de la integridad de datos, mientras que el segundo (2) focaliza en la relevancia de la integridad de los datos en proyectos de investigación.

Primer artículo: Concepto y principios de la integridad de datos (1)

(a) Concepto de integridad de datos

La integridad de los datos es vital para el éxito de cualquier proyecto que involucre generación, procesamiento y almacenamiento de datos. El concepto de “integridad” incluye diversos aspectos –como integridad, coherencia, consistencia, precisión, validez, accesibilidad, confiabilidad, seguridad y protección – de los datos en cuestión. El dogma central de la integridad de los datos es que el dato se recupera exactamente en el mismo estado en que se registró.

Los proveedores de atención médica, las empresas biotecnológicas y farmacéuticas y los desarrolladores de dispositivos médicos utilizan hoy inmensos volúmenes de datos (“big data”) para evaluar mercados, predecir comportamientos de consumidores o mitigar riesgos potenciales. La gran escala, complejidad y cantidad de datos necesarios para obtener resultados significativos ha llevado a cuestionar la integridad de estos datos.

Mantener la integridad de los datos garantiza también una mayor eficiencia a lo largo de la vida útil de los datos: (a) Recuperabilidad; (b) Calidad de búsqueda y recupero, (c) Trazabilidad (hasta origen), (d) Seguridad y (e) Conectividad

(b) Principios de integridad de datos de ALCOA (Adaptado de Labguru)

Para mantener y garantizar la integridad de los datos la FDA creó los principios ALCOA + (que se enuncian a continuación):

Atribuibles: debe haber un linaje fácilmente rastreable hasta el creador de los datos y cualquier persona que los modifique o altere.

Legibles: los datos deben ser fáciles de entender y leer, ya sea visual o electrónicamente, e indelebles con las entradas originales conservadas.

Contemporáneos: los datos deben registrarse simultáneamente con la observación de un experimento o actividad.

Originales: las fuentes o documentos (como registros primarios o cuadernos de laboratorio) relacionados con los datos deben conservarse y permanecer accesibles en su forma original.

Precisos: los datos deben estar libres de errores, con ediciones o enmiendas fundadas y documentadas.

Completos: los datos deben poder asociarse a todos los resultados experimentales; esto incluye los resultados de cualquier análisis, resultados repetidos y metadatos. Para garantizar datos completos y demostrar que no se pierde ni se elimina nada, es importante desarrollar una pista de auditoría manteniendo los metadatos vinculados y en contexto con todos los demás datos.

Consistentes: para garantizar la coherencia de los datos, debe mantenerse la secuencia en la que se produjeron. Los datos deben ser rastreables con un sello de fecha y hora, y deben crearse de manera que sea repetible: cargados, procesados y mantenidos por los mismos métodos. El uso de flujos de trabajo automatizados (en lugar del ingreso de datos manual) puede reducir el error humano y aumentar la coherencia.

Duraderos: los datos deben perdurar durante toda su vida útil y registrarse en medios aceptables e igualmente duraderos (como papel o electrónicos).

Accesibles: se debe acceder fácilmente a los datos cuando sea necesario para el proceso de revisión o auditoría. Mantener los datos restringidos en plataformas únicas puede ayudar a garantizar que sean accesibles para el personal autorizado en el laboratorio.

Comprender estos principios de ALCOA + es una excelente defensa de primera línea que ayudará a proteger su laboratorio o institución de irregularidades. Los sistemas automatizados de gestión de datos pueden reducir en gran medida las posibilidades de infracciones reglamentarias, al tiempo que allanan el camino para estudios futuros y refuerzan la reproducibilidad de los experimentos.

(c) Cómo garantizar la integridad de los datos

Es de suma importancia que existan protocolos y prácticas para garantizar la integridad de los datos.

El compromiso de los datos puede ocurrir incluso fuera del flujo de trabajo de datos debido a varias razones: (a) Error humano involuntario o malintencionado, (b) Errores en la transferencia de datos de un dispositivo a otro, (c) Amenazas cibernéticas maliciosas como piratería informática o ataques de virus. y (d) Problemas de hardware, como destrucción física del dispositivo o bloqueos de la unidad de almacenamiento.

(d) Prácticas para preservar la integridad de los datos (Adaptado de Varonis)

La responsabilidad de garantizar la integridad de los datos recae únicamente sobre el personal del laboratorio o de la institución que genera los datos. La mayoría de la fallas pueden evitarse a través de medidas o protocolos adecuados que sigan las pautas diseñadas para mantener la integridad de los datos, como los principios ALCOA +.

La seguridad, la protección y la integridad de los datos se mantienen a través del cumplimiento de regulaciones como el Reglamento General de Protección de Datos (GDPR) de la Unión Europea. Si bien EE.UU. no dispone de un equivalente a GDPR, existen más regulaciones específicas de la industria que se detallan en la fuente.

2.-Segundo artículo: Relevancia de la integridad de los datos en proyectos de investigación (2)

La integridad de los datos (ID) es particularmente relevante en la investigación científica, dada la influencia de ésta en la sustentación y gestión de políticas en cuestiones fundamentales de la sociedad. La nota aquí reseñada ubica a la ID en el centro de la investigación científica y señala cómo las herramientas y los sistemas informáticos pueden ayudar a mejorarla.

Para destacar el impacto potencial de los problemas de ID, se resalta –a través de casos- cómo dichos problemas pueden tener grandes consecuencias desfavorables de amplio alcance, así como reducir la confianza del público en la investigación científica.

El desarrollo de nuevas herramientas y métodos computacionales durante los últimos 20 años amplió sustancialmente las posibilidades de los investigadores, pero también presenta nuevos desafíos para la ID. Los instrumentos de análisis digital pueden producir resultados engañosos si los investigadores no son rigurosos y transparentes en el seguimiento e interpretación de los datos.

Por otra parte, si bien la comunicación digital permite una amplia difusión de la investigación, también permite que los errores de datos se multipliquen y difundan rápidamente. Dado que los datos digitales son más susceptibles de distorsión, puede ocurrir que investigadores con sesgos cognitivos –quizás sin intención- distorsionen sus datos para que sus resultados parezcan más concluyentes, y en casos excepcionales, intencionalmente, por falsificación o fabricación de datos.

¿Cómo mejorar la integridad de los datos?

Las principales actividades para promover y preservar la ID pueden agruparse en cuatro categorías: (a) planificación, (b) organización, (c) documentación, y (d) intercambio.

(a) Planificación de la gestión de datos

Dado que la ID se sustenta en la organización, documentación, estandarización, almacenamiento e intercambio de datos de investigación, es conveniente disponer -para cada proyecto de investigación- de un plan integral de gestión de datos.

Dicho plan, que debería elaborarse durante la fase de diseño del proyecto, debería contener información detallada sobre qué datos se producirán dentro del proyecto, cómo se recopilará, organizará y almacenará cada tipo de datos, y cómo se preservarán al final del proyecto. También incluirá información relevante sobre la gestión de datos organizativos, contractuales y legales. Existen numerosas herramientas para crear planes de gestión de datos, incluido el Protocolo TIER, que ofrece una descripción de toda la documentación que debe conservarse para un proyecto de investigación típico y cómo se puede estructurar de forma eficaz, y DMPonline, que es un repositorio completo de gestión de datos.

(b) Organización de los datos

La organización eficaz de los datos y documentos es esencial para que éstos estén abiertos y sean reutilizables después de la finalización del proyecto, y también ayuda a minimizar los errores que pueden comprometer la ID.

Es necesario desarrollar -al principio del proyecto- una estructura de directorio de archivos informativos y establecer convenciones de nomenclatura de archivos. GitHub es un repositorio basado en Git que permite a los investigadores colaborar con otros en sus datos y códigos. Otra herramienta en línea útil para organizar datos de investigación es el Open Science Framework, para almacenar y organizar los materiales facilitando la ID durante todo el ciclo de vida del proyecto.

(c) Documentación y metadatos

La ID exige registrar, almacenar y compartir datos de investigación junto con los metadatos pertinentes. Los metadatos son información que describe -de forma estructurada- el contenido, el contexto y los orígenes de cada conjunto de datos. Son importantes para documentar cómo se recopilaron y organizaron los datos para poder reutilizarlos, así como para poder reproducir y verificar los resultados de la investigación. Los métodos comúnmente utilizados para documentar metadatos incluyen escribir archivos “readme”, así como documentar las decisiones de investigación y las observaciones utilizando cuadernos de laboratorio electrónicos (ELN).

Para que los resultados de la investigación puedan reproducirse a partir de los datos brutos es fundamental que estén adecuadamente documentadas las decisiones analíticas. Herramientas como Jupyter y RMarkdown permiten registrar -en un único documento ejecutable- los pasos de preprocesamiento y análisis junto con una descripción narrativa de por qué se tomaron determinadas decisiones analíticas.

(d) Intercambio de datos

Para que la calidad de los datos pueda evaluarse y los resultados de la investigación puedan validarse, los investigadores deben poner sus datos a disposición de otros. El intercambio efectivo de datos permite que otros investigadores reutilicen los datos de nuevas formas, lo que aumenta el impacto de los estudios individuales y mejora la eficiencia general de la investigación.

Los datos pueden ser ampliamente accesibles compartiéndolos a través de repositorios dedicados. Se han desarrollado herramientas para ayudar a los investigadores a identificar los repositorios más apropiados para sus datos de investigación. Hacer que los datos y el código sean de acceso abierto –con una licencia adecuada- ayuda a maximizar su accesibilidad y garantiza a los productores un crédito por su trabajo. Las licencias Creative Commons suelen ser apropiadas para compartir datos y texto, mientras que las licencias MIT, BSD o Apache pueden ser más adecuadas para compartir código.

Anexo: Integridad de los datos en laboratorio

Para garantizar el cumplimiento de los requisitos de ID, cada laboratorio debe asegurarse de que el proceso -desde la toma de muestras hasta el informe esté completamente controlado.

La mejor manera de lograr tanto la integridad de los datos como el cumplimiento de las normas reside en el uso de controles técnicos a través de soluciones informáticas de laboratorio.

Al diseñar los flujos de trabajo electrónico, se deben seguir tres principios de la automatización del laboratorio:

(a) Capture los datos en el punto de origen: interconecte los instrumentos para preservar los datos analíticos desde el origen.

(b) Nunca transcriba datos: para evitar cometer errores de transcripción, todos los datos deben transferirse electrónicamente entre sistemas mediante procesos validados.

(c) Trasparencia en el almacenamiento de datos: es fundamental que se puedan recuperar los datos fácilmente para auditoría o inspección de forma rápida y sencilla. Esto requiere claras convenciones de nombres de archivos.

Para identificar ineficiencias y vulnerabilidades en el proceso debe usarse el mapeo del proceso de datos. Las vulnerabilidades se pueden eliminar y puede lograrse la integridad de los datos, el cumplimiento de las normas, así como un proceso más eficiente y eficaz.

Referencias:

(1)What Is Data Integrity?” by Clinton Harmon. Technology Networks. Informatics. November 20 2020

(2) “Data Integrity in Research: What Does It Mean and How Do We Achieve It?” By Naomi Heffer. Technology Networks. Patrocinado por Cytiva Listicle_DataIntegrity_May2021.pdf

(3) “How Data Integrity Can Stop You Getting Fined $500 Million” (Podcast) Sponsored by LabVantage. Technology Networks. June 2021.

(4) “Data Integrity in the Pharma Space” Advanced Informatics Solutions for Digital Data Management. LabVantage. June 2021