Datos de investigación, principios FAIR y gestión RDM

Formarse » Cursos online gratis » Datos de investigación: tipos, gestión, FAIR y planes de datos

Qué se entiende por datos de investigación y qué materiales incluye y excluye la comunidad científica.
Cómo se clasifican los datos de investigación según formato, origen, naturaleza y nivel de procesamiento.
En qué consiste la gestión de datos de investigación y los principios FAIR que guían su apertura y reutilización.
Qué debe contener un plan de gestión de datos alineado con los requisitos europeos de ciencia abierta.

En el día a día de cualquier proyecto científico, los datos de investigación son el material más delicado y, a la vez, más valioso que se genera. No son solo números en una hoja de cálculo o grabaciones guardadas en un disco duro: son la base que permite a la comunidad académica verificar, reproducir y dar por buenos los resultados de una investigación. Sin ellos, los artículos y las conclusiones se quedan, en gran medida, en meras afirmaciones.

A medida que la ciencia abierta gana peso, se ha hecho imprescindible gestionar bien los datos de investigación: organizarlos, documentarlos, preservarlos y, cuando es posible, compartirlos con otras personas investigadoras. Este giro no solo responde a exigencias de financiadores como la Comisión Europea, sino también a una cultura científica que apuesta por el acceso abierto, la transparencia y la reutilización para acelerar nuevos descubrimientos.

Qué son exactamente los datos de investigación

Cuando hablamos de datos de investigación nos referimos a todo aquel material factual registrado durante el proceso investigador y que la comunidad científica reconoce como necesario para validar los resultados obtenidos. Es decir, son los materiales sobre los que se apoya un argumento científico, una teoría o una prueba experimental.

Estos datos pueden ser hechos, observaciones, mediciones o experiencias que se generan o recopilan durante un estudio, y que solo adquieren su verdadero significado dentro del contexto del propio proyecto. Lo que para un grupo de investigación en física de partículas es un dato, para un equipo de historia del arte puede ser algo irrelevante, y viceversa; por eso, la disciplina condiciona muchísimo cómo se conciben y se usan los datos según la diversidad metodológica; por eso, la disciplina condiciona muchísimo cómo se conciben y se usan los datos.

Una definición asumida por organismos internacionales como la OECD señala que se considera dato de investigación a todo material registrado durante la investigación, aceptado por la comunidad científica correspondiente y que sirve para certificar los resultados alcanzados. Esta idea recalca dos aspectos clave: el registro (no vale aquello que no queda documentado) y el reconocimiento por parte del campo científico al que pertenece el proyecto.

Es importante destacar que los datos por sí solos no son todavía información. Según plantean varias autorías especializadas, los datos se convierten en información cuando se combinan y procesan mediante un método que permite descubrir patrones y relaciones en el fenómeno estudiado. En otras palabras, el dataset es la materia prima; el análisis es lo que le da sentido.

Al conjunto de datos generados y reunidos durante la ejecución de un proyecto se le suele llamar dataset o conjunto de datos. Este dataset puede ser muy heterogéneo, mezclando formatos, orígenes y niveles de tratamiento, pero se entiende como una unidad coherente vinculada al proyecto de investigación que lo produjo.

Qué se incluye y qué no se incluye como datos de investigación

La noción de datos de investigación es amplia y engloba una gran diversidad de formatos, soportes y contenidos. De manera general, se consideran datos de investigación, entre otros:

Cuadernos de laboratorio y cuadernos de campo, donde se anotan observaciones, protocolos seguidos, incidencias y resultados de experimentos o campañas.
Datos de investigación primaria, en papel o en soporte digital, que recogen mediciones, encuestas, registros clínicos anonimizados, etc.
Cuestionarios y formularios, junto con las respuestas asociadas.
Cintas de audio, grabaciones de voz, entrevistas y otros registros sonoros recolectados para el estudio.
Vídeos y películas que documenten experimentos, observaciones de campo, sesiones clínicas o cualquier otro proceso relevante.
Modelos desarrollados durante la investigación, tanto conceptuales como computacionales o estadísticos.
Fotografías, imágenes científicas (microscopías, radiografías, imágenes satelitales, etc.) y diapositivas.
Objetos digitales y ficheros específicos generados por instrumentos o software especializado.
Algoritmos, scripts y código de software empleados para generar, procesar, analizar o visualizar datos.
Bases de datos donde se almacenan y estructuran los registros recopilados.
Metadatos y esquemas de metadatos que describen los datos, su procedencia y su estructura interna.
Configuraciones de software, parámetros de simulaciones y, en general, toda la información necesaria para reproducir los resultados.
Comprobaciones y respuestas de pruebas, incluidos resultados de test, ensayos clínicos o pruebas psicométricas.

Sin embargo, no todo lo que se genera durante un proyecto se considera dato de investigación final. Se excluyen habitualmente elementos como notas personales de laboratorio, borradores de artículos, análisis preliminares sin depurar, planes futuros, comunicaciones informales con colegas o objetos físicos (muestras biológicas, especímenes, vasijas arqueológicas, animales de ensayo, etc.), que se tratan como materiales, pero no como datos reutilizables.

También se suelen dejar fuera los conjuntos de datos incompletos o parciales que no se usan directamente para apoyar los resultados publicados, así como las anotaciones de trabajo muy provisionales que no alcanzan un grado de depuración suficiente para que la comunidad las reconozca como parte del corpus de datos de investigación.

Tipos de datos de investigación según diferentes criterios

Los datos de investigación pueden clasificarse de muchas maneras. Una de las más habituales distingue entre datos cuantitativos y cualitativos. Los cuantitativos suelen ser numéricos, medibles, susceptibles de análisis estadístico; los cualitativos se basan en discursos, imágenes, textos o comportamientos, y se interpretan mediante métodos de análisis de contenido, discurso, observación participante, etc.

Otra perspectiva diferencia los datos en función de su forma de representación: pueden ser numéricos, descriptivos o visuales. Los numéricos se almacenan como series de números (por ejemplo, mediciones físicas o resultados de encuestas cerradas); los descriptivos se expresan en lenguaje natural u otros sistemas simbólicos; los visuales abarcan fotos, vídeos, mapas, diagramas o gráficos producidos durante el estudio.

Te puede interesar: Tipos de Bachillerato en España: modalidades, materias y salidas

Según su naturaleza, se habla de datos cualitativos y cuantitativos, un eje fundamental en muchas disciplinas. Esta distinción suele venir acompañada de metodologías y formas de archivo diferentes: no se conserva igual un conjunto de entrevistas que una base de datos con miles de observaciones numéricas.

Si nos fijamos en el nivel de procesamiento, se acostumbra a separar entre:

Datos primarios o en bruto: son los registros originales, sin apenas tratamiento, tal y como se obtuvieron en la fase de recolección. Constituyen la materia prima de la investigación.
Datos secundarios o procesados: se trata de datos que han sido digitalizados, depurados, corregidos, traducidos, transcritos, validados, verificados o anonimizados, pero que todavía no han sido transformados en resultados finales (gráficos, modelos ya interpretados, etc.).
Datos analizados: son el resultado de aplicar técnicas de análisis a los datos primarios o secundarios. Incluyen modelos, tablas, gráficos, textos interpretativos y otros productos que sirven para extraer conclusiones y apoyar la toma de decisiones.

En cuanto a la fuente de la que proceden, se distinguen tres grandes grupos:

Datos experimentales: generados en entornos controlados (laboratorios, bancos de pruebas, ensayos clínicos) mediante la manipulación de variables y el registro de resultados. Un ejemplo típico sería una cromatografía o una medición espectroscópica.
Datos observacionales: recogidos sin intervenir directamente sobre el fenómeno, como sucede en encuestas, estudios de cohortes, observación de comportamiento animal o humano, monitorización ambiental, etc.
Datos computacionales o de simulación: obtenidos mediante modelos numéricos, simulaciones, algoritmos o herramientas de cálculo que generan datos a partir de parámetros de entrada y reglas definidas.

También es importante la clasificación por formato técnico, ya que condiciona su almacenamiento y reutilización. Los datos pueden ser:

Textuales (por ejemplo, documentos Word, PDF, RTF y similares).
Numéricos (hojas de cálculo Excel, archivos CSV, ficheros de software estadístico, etc.).
Multimedia (imágenes JPEG, PNG, ficheros de vídeo MPEG, grabaciones de audio WAV, entre otros).
Estructurados (bases de datos en XML, SQL, MySQL, PostgreSQL, etc.).
Código de software (Java, C, Python y otros lenguajes).
Formatos específicos de software o disciplina (modelos 3D CAD, malhas Mesh, archivos de modelos estadísticos, formatos propietarios de instrumentos científicos).

En la práctica, un mismo proyecto suele trabajar con una combinación de varios de estos tipos, lo que obliga a diseñar estrategias de gestión adaptadas a cada formato y fase de procesamiento.

Por qué es clave la gestión de datos de investigación (RDM)

La gestión de datos de investigación, a menudo referida por sus siglas en inglés RDM (Research Data Management), engloba todo el ciclo de vida de los datos: desde su planificación y recogida hasta su archivo y preservación a largo plazo. Incluye tareas como la organización, documentación, almacenamiento seguro, publicación y reutilización de los datos generados o utilizados en un proyecto.

Una buena gestión de datos permite que las personas investigadoras trabajen de manera más eficiente, evitando duplicidades, facilitando el trabajo en equipo y haciendo posible que otros grupos puedan reutilizar los datos en estudios posteriores. Además, ayuda a dar cumplimiento a los requisitos de organismos financiadores, editoriales y universidades, que cada vez exigen más claridad sobre qué se hace con los datos.

Entre los principales beneficios de una gestión adecuada se encuentran:

Cumplimiento de los requisitos de financiación: muchos programas, como Horizonte 2020 o Horizonte Europa, exigen planes de gestión de datos y la publicación en acceso abierto cuando sea posible.
Mayor transparencia y trazabilidad: una buena documentación de los datos facilita la validación de los resultados por parte de la comunidad científica.
Mejora en la protección y seguridad: una gestión sistemática reduce el riesgo de pérdida, corrupción o acceso no autorizado a datos sensibles.
Datos FAIR (findable, accessible, interoperable, reusable): aplicar estos principios garantiza que los datos se puedan localizar, acceder, combinar e incorporar en nuevos estudios.
Ahorro de tiempo y recursos: evitar repetir experimentos o trabajos de campo porque se perdieron datos o no se sabe cómo interpretarlos supone una mejora tangible en la eficiencia de la investigación.

Muchas universidades, bibliotecas y servicios de apoyo a la investigación ofrecen actualmente guías, infografías y materiales de buenas prácticas en gestión de datos, orientando tanto sobre aspectos técnicos como organizativos y legales: desde cómo nombrar ficheros hasta cómo cumplir el RGPD en proyectos con datos personales.

Principios FAIR: hacer que los datos se puedan encontrar, usar y reutilizar

En 2016 se publicaron en la revista Scientific Data de Nature los denominados Principios FAIR, que han marcado un antes y un después en la forma de gestionar datos científicos. Su impacto es tal que la Comisión Europea los incorporó como referencia en los proyectos del programa Horizonte 2020 y los mantiene como estándar en Horizonte Europa.

Los principios FAIR no son una ley ni una norma cerrada, sino un conjunto de cualidades medibles que debería cumplir una publicación de datos para que estos sean Encontrables, Accesibles, Interoperables y Reutilizables (Findable, Accessible, Interoperable, Reusable). El objetivo es que tanto personas como máquinas puedan localizar, entender y reaprovechar los datos del mejor modo posible.

(F) Findable: datos encontrables

Para que los datos sean encontrables, no basta con guardarlos en un disco duro personal. Deben depositarse en lugares adecuados, como repositorios de confianza o revistas científicas que acepten datasets, y acompañarse de metadatos ricos y estructurados.

Los principios FAIR ponen especial énfasis en el uso de identificadores persistentes, como DOI para los datasets, ORCID para las personas autoras o RoR para las instituciones. Estos identificadores permiten que los datos sigan siendo localizables aunque cambie la URL o el servidor donde se alojan.

Te puede interesar: Sistemas energéticos del cuerpo humano y su papel en el ejercicio

En la práctica, hacer que los datos sean encontrables implica definir buenas palabras clave, descripciones claras y estándares de metadatos aceptados en la comunidad científica correspondiente, de forma que los motores de búsqueda y los catálogos de datos puedan indexarlos correctamente.

(A) Accessible: datos accesibles

La accesibilidad no significa que todo deba ser completamente abierto, pero sí que los datos y sus metadatos se puedan obtener de forma clara y regulada. Se recomienda aplicar el principio de «tan abiertos como sea posible, tan cerrados como sea necesario».

Esto supone que se debe abrir todo lo que se pueda, indicando de forma precisa las condiciones de acceso (por ejemplo, acceso abierto inmediato, embargo temporal, acceso restringido previa solicitud, etc.). En cualquier caso, incluso cuando los datos no puedan publicarse por completo (por motivos éticos, legales o de confidencialidad), los metadatos deberían permanecer accesibles para que la comunidad sepa que el dataset existe.

La accesibilidad también implica depositar, identificar y describir correctamente los datos en un repositorio que ofrezca mecanismos estándar de descarga y acceso mediante protocolos abiertos y bien documentados.

(I) Interoperable: datos que se entienden entre sistemas

Para que los datos y sus metadatos puedan combinarse con otros conjuntos y usarse en contextos distintos, es imprescindible que sean interoperables. Esto se logra empleando estándares abiertos de la comunidad, vocabularios controlados y esquemas de metadatos bien definidos.

La interoperabilidad permite que la información circule entre personas, instituciones y máquinas sin necesidad de reescribirla o convertirla manualmente en cada caso. Por ejemplo, usar formatos abiertos como CSV o XML en lugar de ficheros propietarios facilita su lectura por distintas herramientas.

Asimismo, se recomienda utilizar esquemas de metadatos adecuados al tipo de dato (por ejemplo, Dublin Core, DataCite, Darwin Core, etc.), enlazar los datos con otros recursos relevantes y evitar formatos cerrados que limiten la reutilización.

(R) Reusable: datos reutilizables por terceros

El último pilar FAIR hace referencia a la reutilización. Para que un dataset se pueda volver a usar en nuevos estudios, debe quedar clara su procedencia, las condiciones de uso y el contexto de generación. De lo contrario, aunque esté técnicamente accesible, será poco útil.

Entre las buenas prácticas para favorecer la reutilización están el uso de licencias abiertas adecuadas (como Creative Commons o licencias específicas para datos), una descripción detallada de cómo se recogieron y trataron los datos, y la adopción de metadatos y formatos ampliamente aceptados en la disciplina.

Existen distintas herramientas y servicios de evaluación que permiten verificar hasta qué punto un conjunto de datos cumple con los principios FAIR, ofreciendo recomendaciones para mejorar su encontrabilidad, accesibilidad, interoperabilidad y reutilización.

Open Science, Open Data y repositorios de datos de investigación

Los datos de investigación se enmarcan de lleno en el movimiento de Ciencia Abierta (Open Science), que promueve el acceso libre tanto a las publicaciones científicas como a los propios datos en que se basan (Open Data). La idea es que, cuando la investigación se financia con fondos públicos, los datos resultantes deberían estar disponibles en acceso abierto siempre que no haya motivos bien justificados para restringirlos.

La apertura de los datos permite que se usen, se reutilicen y se redistribuyan, ampliando su impacto más allá del proyecto original. Además, su adecuada publicación garantiza una mejor preservación, difusión y visibilidad, lo que suele traducirse en más citas, colaboraciones y oportunidades de investigación.

En respuesta a estas necesidades, cada vez más universidades y centros de investigación ofrecen repositorios específicos para datos, donde se alojan datasets vinculados a proyectos de la institución. Sin embargo, el panorama es muy diverso y existen multitud de repositorios especializados por disciplinas, países, tipos de datos o formatos.

Ante este ecosistema tan fragmentado, la comunidad investigadora se enfrenta al reto de localizar el repositorio adecuado para guardar o encontrar los datos que necesita. Para ayudar en esta tarea, surge re3data.org, un registro internacional de repositorios de datos de investigación que recopila metadatos de miles de repositorios especializados.

Gracias a re3data.org, las personas investigadoras, las agencias financiadoras, bibliotecas y editoriales pueden explorar repositorios y filtrarlos por disciplina, país, tipo de contenido, formato, licencia, idioma y otros criterios. El registro identifica cerca de 2.000 repositorios de datos, lo que lo convierte en uno de los catálogos más amplios disponibles.

El proyecto re3data.org nació como iniciativa conjunta de varias organizaciones alemanas, con financiación de la Fundación Alemana de Investigación. Más tarde integró el catálogo DataBib para evitar duplicidades, en una fusión impulsada por DataCite, organización internacional sin ánimo de lucro centrada en mejorar las citas de datos. Además, colabora con proyectos de ciencia abierta como BioSharing u OpenAIRE.

No es casual que editoriales, instituciones de investigación y financiadores citen re3data.org en sus políticas como herramienta de referencia para identificar repositorios apropiados. La Comisión Europea, por ejemplo, lo menciona en sus directrices sobre acceso abierto a publicaciones científicas y datos de investigación en el marco de Horizonte 2020.

Planes de gestión de datos en proyectos europeos

En el contexto de la Unión Europea, la Comisión establece que todos los proyectos financiados bajo Horizonte 2020 (y posteriormente Horizonte Europa) deben elaborar un Plan de Gestión de Datos o Data Management Plan (DMP). Además, se espera que los datos generados se compartan de forma tan abierta como sea posible y que sigan los principios FAIR.

Te puede interesar: Becas y ayudas para estudiar en el extranjero: guía total

El DMP es un documento vivo que explica qué datos se van a generar, cómo se gestionarán durante el proyecto y qué se hará con ellos una vez finalice. Habitualmente sigue plantillas oficiales, como la «Horizon Europe Data Management Plan Template», y se actualiza a lo largo de la vida del proyecto.

Un plan de gestión de datos típico suele incluir los siguientes apartados fundamentales, que se pueden adaptar a la naturaleza del proyecto:

Información general del proyecto

En esta primera sección se recogen los datos básicos del proyecto: título e identificador del proyecto, breve descripción, institución coordinadora, agencia de financiación, persona investigadora principal con su identificador (por ejemplo, ORCID), datos de contacto y la referencia a las distintas versiones del plan de gestión que se vayan generando.

1. Resumen de datos

Aquí se describe de forma global qué datos se utilizarán o producirán en el proyecto. Se detalla tipo y formato de los datos, su finalidad, el tamaño aproximado, el origen (nuevos datos generados, datos reutilizados de otras fuentes, etc.) y la utilidad que se espera de ellos para la comunidad.

2. Datos FAIR

Esta parte del plan explica cómo se implementarán los principios FAIR en el proyecto. Suele desglosarse en varios subapartados para abordar cada dimensión por separado: encontrabilidad, accesibilidad, interoperabilidad y reutilización.

En el apartado sobre encontrabilidad se indican los identificadores que se usarán (por ejemplo, DOI para datasets), las palabras clave y descriptores, así como las normas de metadatos que se aplicarán para optimizar la localización de los datos.

En el subapartado de accesibilidad se describe el repositorio o repositorios donde se depositarán los datos, si estos obtendrán un identificador persistente, qué datos estarán en abierto y cuáles permanecerán cerrados, en su caso, detallando tiempos de embargo y posibles restricciones de uso. También se suele mencionar si los metadatos de los datos cerrados permanecerán abiertos.

La sección dedicada a interoperabilidad expone los vocabularios, normas, formatos y metodologías que se utilizarán para facilitar el intercambio y la interoperabilidad de los datos con otros sistemas y proyectos, indicando cómo se respetan los estándares de la comunidad científica correspondiente.

Por último, el subapartado sobre reutilización de datos documenta la procedencia de los datos y proporciona la información necesaria para validar los resultados y permitir la reutilización. Se suelen incluir referencias a archivos README, documentación de código, protocolos y, muy importante, las licencias de uso bajo las cuales se publicarán los datos.

3. Otros resultados de la investigación

Más allá de los datos estrictos, muchos proyectos generan otros productos reutilizables: software, flujos de trabajo, protocolos experimentales, nuevos materiales, muestras o herramientas. Este apartado analiza qué cuestiones FAIR pueden aplicarse también a estos resultados y cómo se gestionarán y compartirán.

La idea es garantizar que, en la medida de lo posible, todos los productos generados que puedan tener interés para la comunidad sean visibles, accesibles y reutilizables, respetando siempre cuestiones de propiedad intelectual, confidencialidad y ética.

4. Asignación de recursos

La gestión de datos no es gratuita: requiere tiempo, infraestructura y, en muchos casos, apoyo especializado. Por eso, el DMP debe detallar qué recursos se asignarán para hacer los datos FAIR. Esto incluye tanto costes directos (almacenamiento, archivado, personal técnico) como costes indirectos asociados a la seguridad o la preservación.

En este apartado también se aclara quién será responsable de la gestión de los datos dentro del equipo: puede ser una persona concreta, un grupo o una combinación de personal investigador y apoyo técnico.

5. Seguridad de los datos

Garantizar que los datos se almacenan de forma segura es prioritario, en especial cuando se trata de información sensible o confidencial. Esta sección del plan aborda cuestiones como el almacenamiento en repositorios de confianza, las copias de seguridad, las estrategias de mitigación frente a pérdida de datos y las medidas de control de acceso.

También se describe cómo se gestionará la conservación a largo plazo, especificando, por ejemplo, qué repositorios de archivo se emplearán y durante cuánto tiempo se preservarán los datos tras la finalización del proyecto.

6. Ética y aspectos legales

Muchos proyectos manejan datos personales, clínicos o de otra naturaleza sensible. Esta sección detalla las cuestiones éticas y legales que puedan afectar al intercambio y la apertura de datos, incluyendo cumplimiento de la normativa de protección de datos, procesos de anonimización y acuerdos de confidencialidad.

Cuando la investigación involucra datos personales, es indispensable explicar cómo se obtendrá el consentimiento informado, cuánto tiempo se conservarán los datos, en qué condiciones se podrán reutilizar y cómo se garantizará la privacidad de las personas participantes.

7. Otras cuestiones relevantes

Finalmente, el plan puede incorporar cualquier otro elemento relacionado con la gestión de datos, como la aplicación de políticas nacionales, institucionales o sectoriales, la alineación con directrices de agencias financiadoras o la integración con estrategias de ciencia abierta de la institución.

Al sintetizar todo lo anterior, se ve con claridad que los datos de investigación son mucho más que un conjunto de ficheros guardados en una carpeta: constituyen la base sobre la que se sostiene la credibilidad de la ciencia moderna. Conocer qué se considera dato, cómo se clasifica según su origen, formato y procesamiento, y de qué manera se debe planificar su gestión siguiendo principios como FAIR y las exigencias de programas europeos, permite a cualquier equipo investigador trabajar de forma más ordenada, cumplir con los requisitos de financiación y, sobre todo, contribuir a una ciencia más abierta, reutilizable y duradera en el tiempo.