La comunidad científica y la sociedad demandan que tanto los resultados, como los datos utilizados en las investigaciones estén en abierto, con las menos restricciones posibles, para reutilización y aprovechamiento de todos. Además existe un creciente interés propiciado, en gran medida, por los requerimientos de las agencias de financiación de la investigación.
La gestión de datos comienza en la etapa de planificación de la investigación, continúa durante la ejecución del proyecto hasta la difusión de los resultados y la preservación de los conjuntos de datos, de forma que estos sean precisos, completos, fiables, accesibles y reutilizables a lo largo del tiempo.
Una buena gestión de los datos de investigación da como resultado una investigación eficiente y excelente, ya que garantiza que los datos de la investigación sean de calidad, estén bien organizados, documentados, preservados, accesibles y puedan ser reutilizados.
El tratamiento de los datos se refiere a limpiar y procesar los datos en bruto, recogidos o generados durante la investigación. Los ficheros de datos deben estar bien organizados y con una estructura coherente y ordenada.
Recomendaciones:
También se deberá asegurar la integridad de los datos creando una versión definitiva del conjunto.
[Fuente: Biblioteca de la Universidad de Navarra]
Se seleccionarán los datos que serán accesibles públicamente, ya que no todos pueden ser abiertos. Hay que tener en cuenta aspectos relativos a la propiedad intelectual (Ley 23/2006 de Propiedad Intelectual), la propiedad industrial, la privacidad o secreto y la protección de datos personales.
Cuando se obtienen datos personales, sensibles o confidenciales vía cuestionario, entrevistas, etc. se debe mantener la confidencialidad según indica la Ley Orgánica 15/1999 de Protección de Datos de Carácter Personal.
Para cumplir con los preceptos legales:
[Fuente: Biblioteca de la Universidad de Navarra]
La anonimización permite compartir datos preservando la privacidad. Para anonimizar los datos de carácter personal:
Recomendaciones:
OpenAIRE recomienda la utilización de la herramienta Amnesia de anonimización de datos.
Recursos e información de apoyo para el uso de la herramienta disponible en la guía.
[Fuente: Biblioteca de la Universidad de Navarra]
Elegir formatos de archivos que sean estándar, abiertos y que puedan ser leídos en el futuro.
Recomendaciones:
Para datos textuales: txt, xml, rtf. (Se aceptan html, doc, docx)
Datos tabulares con metadatos ampliados: SPSS por, SPSS, Stata, SAS, DDI xml. (Se permiten sav, dta, mdb, accdb)
Datos tabulares con metadatos mínimos: csv, tab. (Se permiten txt, xls, slxs, mdb, accdb, dbf, ods)
Datos geoespaciales: shp, shx, dbf, prj, sbx, sbn, tif, tfw, dwg, gml. (Se aceptan mdb, mif, kml, ai, dxf, svg)
Imagen digital: tif. (Se aceptan jpeg, jpg, jp2, gif, tiff, psd, bmp, png, pdf, pdf/a)
Audio: flac. (Se aceptan mp3, aif, wav)
Audio digital: mp4, ogv, ogg, mj2. (Se aceptan avchd)
Para la documentación y el plan de gestión de datos: rtf, pdf, xhtml, htm, odt. (Se aceptan txt, doc, docx, xls, xlsx, xml)
[Fuente: Biblioteca de la Universidad de Navarra]
Es fundamental definir la licencia de uso y reutilización que se quiere permitir que tengan los datos. Se debe incluir en los metadatos, en el repositorio o en el archivo adjunto a los datos "readme file". Las licencias más comunes son:
[Fuente: Biblioteca de la Universidad de Navarra]
Cuando se deposita el archivo de datos de investigación, algunos repositorios le asignan un identificador unívoco y permanente. El más común es DOI (Digital Object Identifier), también se utilizan handle, purl, ark. Además, es un elemento obligatorio a incluir en la referencia bibliográfica para citar los datos.
[Fuente: Biblioteca de la Universidad de Navarra]
Se recomienda proporcionar la cita normalizada para favorecer el reconocimiento de la autoría:
Apellidos, iniciales autor (año de publicación). Título del dataset. [dataset] Versión. Repositorio o Publisher. Identificador unívoco (DOI o handle).
Ejemplo de dataset en un repositorio:
Ball-Damerow, J.E., Brenskelle, L., Barve, N., LaFrance, R., Soltis, P.S., Sierwald, P., ... Guralnick, R. (2019). Bibliographic dataset characterizing studies that use online biodiversity databases [data set]. Version 1. Zenodo. doi.org/10.5281/zenodo.2589439
Más información en: Cita tus datos.
[Fuente: Biblioteca de la Universidad de Navarra]
Se recomienda subir al repositorio, junto al archivo de datos, un archivo complementario en formato plano .txt titulado "Readme file", con la siguiente información.
Campos esenciales:
Existen diversas guías y plantillas de ayuda para elaborar el archivo Readme: Guía para elaborar ficheros readme.txt de la Cornell University.
[Fuente: Biblioteca de la Universidad de Navarra]
Es importante seleccionar un repositorio que asigne a los datos un identificador unívoco y permanente (DOI, PURL, ARK) para que sean localizables (aunque cambie la url).
El Repositorio Institucional de la Universidad de Almería: riUAL, ofrece, en acceso abierto y a texto completo los documentos de carácter científico, docente e institucional generados por la Universidad de Almería. Cuenta con la colección "Datos de Investigación" para depositar los datos de investigación generados por los investigadores de la Universidad.
El registro re3data recopila los repositorios de datos existentes clasificados por disciplinas, tipo de datos, licencia de uso, área geográfica, y otros criterios.
La revista Scientific Data, de Nature, recomienda algunos repositorios por temática y tipo de datos.
[Fuente: Biblioteca de la Universidad de Navarra]
DATOS FAIR (del inglés FAIR – Findable, Accessible, Interoperable, and Reusable), se refiere a un conjunto de cualidades precisas y medibles que una publicación de datos debería seguir para que los datos sean Encontrables, Accesibles, Interoperables y Reutilizables:
Dimensions: acceso a los datos depositados en repositorios y bases de datos inconexas.
DataCiteSearch: buscador generalista de datasets abiertos con DOI.
Google Dataset Search: buscador de datasets en repositorios de datos científicos, bases de datos, sitios web, etc.
Zenodo: buscador de datos de investigación de la Unión Europea.
Re3data: herramienta para la identificación de los repositorios adecuados para almacenar datos de investigación.