Ir al contenido principal

Gestión de Datos: Gestión de los datos

La Guía para aprender a gestionar tus datos de investigación

Gestiona tus datos

La comunidad científica y la sociedad demandan que tanto los resultados, como los datos utilizados en las investigaciones estén en abierto, con las menos restricciones posibles, para reutilización y aprovechamiento de todos. Además existe un creciente interés propiciado, en gran medida, por los requerimientos de las agencias de financiación de la investigación.

La gestión de datos comienza en la etapa de planificación de la investigación, continúa durante la ejecución del proyecto hasta la difusión de los resultados y la preservación de los conjuntos de datos, de forma que estos sean precisos, completos, fiables, accesibles y reutilizables a lo largo del tiempo. 

Una buena gestión de los datos de investigación da como resultado una investigación eficiente y excelente, ya que garantiza que los datos de la investigación sean de calidad, estén bien organizados, documentados, preservados, accesibles y puedan ser reutilizados.

Buenas prácticas en la Gestión de Datos

El tratamiento de los datos se refiere a limpiar y procesar los datos en bruto, recogidos o generados durante la investigación. Los ficheros de datos deben estar bien organizados y con una estructura coherente y ordenada.

Recomendaciones: 

  • Utilizar una denominación similar para cada uno de los ficheros.
  • Asignar nombres identificativos y concisos, sin tildes, espacios, ni caracteres especiales.
  • Facilitar la gestión de versiones identificando la versión del fichero en el propio nombre.
  • Realizar copias de seguridad en el almacenamiento local y en red.

También se deberá asegurar la integridad de los datos creando una versión definitiva del conjunto.  

 

[Fuente: Biblioteca de la Universidad de Navarra]

Se seleccionarán los datos que serán accesibles públicamente, ya que no todos pueden ser abiertos. Hay que tener en cuenta aspectos relativos a la propiedad intelectual (Ley 23/2006 de Propiedad Intelectual), la propiedad industrial, la privacidad o secreto y la protección de datos personales.

Cuando se obtienen datos personales, sensibles o confidenciales vía cuestionario, entrevistas, etc. se debe mantener la confidencialidad según indica la Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal.

Para cumplir con los preceptos legales:

  • Debe obtenerse el consentimiento de las personas implicadas para el tratamiento de sus datos mediante un formulario o acuerdo de participación
  • Se debe anonimizar la información de carácter personal en nuestros ficheros mediante un proceso de anonimización.

[Fuente: Biblioteca de la Universidad de Navarra]

La anonimización permite compartir datos preservando la privacidad. Para anonimizar los datos de carácter personal:

Recomendaciones:

  • Eliminar identificadores directos (ej. nombre, dirección)
  • Agregar o reducir la precisión de la información (ej. reemplazando la fecha de nacimiento por grupos de edad)
  • Generalizando el significado de textos detallados (ej. reemplazando el área de especialización de un médico con una especialización médica)​
  • Anonimizar los datos relacionados, donde las relaciones entre variables en conjuntos de datos vinculados o combinados con otros resultados públicos, puedan revelar identidades
  • Anonimizar los datos geo-referenciados reemplazando las coordenadas del punto con características no reveladoras, o imponer restricciones de acceso a los datos
  • Utilizar pseudónimos

 OpenAIRE recomienda la utilización de la herramienta Amnesia de anonimización de datos.

Recursos e información de apoyo para el uso de la herramienta disponible en la guía

 

 

[Fuente: Biblioteca de la Universidad de Navarra]

Elegir formatos de archivos que sean estándar, abiertos y que puedan ser leídos en el futuro. 

Recomendaciones:

  • Para datos textuales: txt, xml, rtf. (Se aceptan html, doc, docx)

  • Datos tabulares con metadatos ampliados: SPSS por, SPSS, Stata, SAS, DDI xml. (Se permiten sav, dta, mdb, accdb)

  • Datos tabulares con metadatos mínimos: csv, tab. (Se permiten txt, xls, slxs, mdb, accdb, dbf, ods)

  • Datos geoespaciales: shp, shx, dbf, prj, sbx, sbn, tif, tfw, dwg, gml. (Se aceptan mdb, mif, kml, ai, dxf, svg)

  • Imagen digital: tif. (Se aceptan jpeg, jpg, jp2, gif, tiff, psd, bmp, png, pdf, pdf/a)

  • Audio: flac. (Se aceptan mp3, aif, wav)

  • Audio digital: mp4, ogv, ogg, mj2. (Se aceptan avchd)

  • Para la documentación y el plan de gestión de datos: rtf, pdf, xhtml, htm, odt. (Se aceptan txt, doc, docx, xls, xlsx, xml)

 

[Fuente: Biblioteca de la Universidad de Navarra] 

Es fundamental definir la licencia de uso y reutilización que se quiere permitir que tengan los datos. Se debe incluir en los metadatos, en el repositorio o en el archivo adjunto a los datos "readme file". Las licencias más comunes son:

 

[Fuente: Biblioteca de la Universidad de Navarra]

Cuando se deposita el archivo de datos de investigación, algunos repositorios le asignan un identificador unívoco y permanente. El más común es DOI (Digital Object Identifier), también se utilizan handle, purl, ark.​ Además, es un elemento obligatorio a incluir en la referencia bibliográfica para citar los datos.

[Fuente: Biblioteca de la Universidad de Navarra]

Se recomienda proporcionar la cita normalizada para favorecer el reconocimiento de la autoría:

Apellidos, iniciales autor (año de publicación). Título del dataset. [dataset] Versión. Repositorio o Publisher. Identificador unívoco (DOI o handle).

Ejemplo de dataset en un repositorio:

Ball-Damerow, J.E., Brenskelle, L., Barve, N., LaFrance, R., Soltis, P.S., Sierwald, P., ... Guralnick, R. (2019). Bibliographic dataset characterizing studies that use online biodiversity databases  [data set]. Version 1. Zenodo. doi.org/10.5281/zenodo.2589439

 

 Más información en: Cita tus datos.

[Fuente: Biblioteca de la Universidad de Navarra]

Se recomienda subir al repositorio, junto al archivo de datos, un archivo complementario en formato plano .txt titulado "Readme file", con la siguiente información.

   Campos esenciales:

  • Título del dataset
  • Contenido
  • Tipo de formato de los archivos
  • Nombre de los autores, email del autor/autores
  • Metodología
  • Licencia de uso 

 

Existen diversas guías y plantillas de ayuda para elaborar el archivo Readme: Guía para elaborar ficheros readme.txt  de la Cornell University.

[Fuente: Biblioteca de la Universidad de Navarra

Es importante seleccionar un repositorio que asigne a los datos un identificador unívoco y permanente (DOI, PURL, ARK) para que sean localizables (aunque cambie la url). 

El Repositorio Institucional de la Universidad de Almería: riUAL, ofrece, en acceso abierto y a texto completo los documentos de carácter científico, docente e institucional generados por la Universidad de Almería. Cuenta con la colección "Datos de Investigación" para depositar los datos de investigación generados por los investigadores de la Universidad.

El registro re3data recopila los repositorios de datos existentes clasificados por disciplinas, tipo de datos, licencia de uso, área geográfica, y otros criterios.

La revista Scientific Data, de Nature, recomienda algunos repositorios por temática y tipo de datos.

[Fuente: Biblioteca de la Universidad de Navarra]

Datos FAIR

DATOS FAIR (del inglés FAIR – Findable, Accessible, Interoperable, and Reusable),  se refiere a un conjunto de cualidades precisas y medibles que una publicación de datos debería seguir para que los datos sean Encontrables, Accesibles, Interoperables y Reutilizables:

  • FINDABLE (Encontrables): Los datos y metadatos pueden ser encontrados por la comunidad después de su publicación, mediante herramientas de búsqueda.
  • ACCESSIBLE (Accesibles): Los datos y metadatos están accesibles y por ello pueden ser descargados por otros investigadores utilizando sus identificadores.
  • INTEROPERABLE (Interoperables): Tanto los datos como los metadatos deben de estar descritos siguiendo las reglas de la comunidad, utilizando estándares abiertos, para permitir su intercambio y su reutilización.
  • REUSABLE (Reutilizables): Los datos y los metadatos pueden ser reutilizados por otros investigadores, al quedar clara su procedencia y las condiciones de reutilización.

 

 

Recomendaciones

 

 

 

 

 

 

 

 

 

 

 

 

Manual buenas prácticas

Herramientas para buscar datos de investigación

Dimensions: acceso a los datos depositados en repositorios y bases de datos inconexas.

DataCiteSearch: buscador generalista de datasets abiertos con DOI.

Google Dataset Search: buscador de datasets en repositorios de datos científicos, bases de datos, sitios web, etc.

Zenodo: buscador de datos de investigación de la Unión Europea. 

Re3data: herramienta para la identificación de los repositorios adecuados para almacenar datos de investigación. 

Herramientas para datos FAIR

Enlaces de interés