Dados de investigação
Dados de investigação incluem todos os registos produzidos, obtidos ou usados durante o processo de investigação que possam validar os resultados da mesma.

Podem tratar-se de registos de texto, imagem, vídeo, áudio, tabelas, resultados de questionários, entrevistas, observações, simulações, experiências, artefactos, fotografias, contribuições em redes sociais, estatísticas, resultados de experiências, medições, simulações, observações resultantes de trabalhos de campo, resultados de questionários, inquéritos, gravações de entrevistas.
 
Segundo o Piloto Aberto de Dados de Investigação Horizonte 2020 o termo “dados de investigação” refere-se a informação, factos particulares ou números resultantes do processo de investigação, recolhidos com o intuito de uma posterior análise e considerados como base para uma ponderação, discussão ou cálculo.
 
dados abertos
publicação online de dados de investigação recolhidos durante um projeto de investigação e disponibilizados para acesso e reutilização.
 
dataset
trata-se de uma coleção de um conjunto de dados. Estes dados em conjunto são tratados como uma única unidade de informação.
 
big data
termo amplamente utilizado para nomear conjuntos de dados muito grandes ou complexos, com os quais os aplicativos de processamento de dados tradicionais ainda não conseguem lidar. São conjuntos de dados complexos que representam um desafio quanto ao seu armazenamento e tratamento.
os desafios colocados pelos Big Data incluem: análise, captura, curadoria, pesquisa, partilha, armazenamento, transferência e visualização, bem como informação sobre privacidade dos dados.


Glossário CASRAI7

 
Príncípios para Dados FAIR
Conjunto de princípios básicos de forma a otimizar a reutilização de dados de investigação.

Representam um conjunto de boas práticas desenvolvidas pela comunidade para assegurar que os dados ou qualquer objeto digital são:
 
Findable (Localizáveis): O primeiro requisito para tornar os dados reutilizáveis é a possibilidade de os encontrar. Deve ser fácil encontrar os dados e os metadados tanto para humanos como para computadores. A descoberta automática e fiável de conjuntos de dados e serviços depende de identificadores persistentes legíveis por máquinas (PIDs) e de metadados.
 
Accessible (Acessíveis): Os (meta)dados devem ser recuperáveis pelo seu identificador utilizando um protocolo de comunicações padronizado e aberto, possivelmente incluindo autenticação e autorização. Além disso, os metadados devem estar disponíveis mesmo quando os dados já não estão.
 
 
Interoperable (Interoperáveis): Os dados devem poder ser combinados e usados com outros dados ou ferramentas. O formato dos dados deve ser aberto e interpretável por várias ferramentas, incluindo outros registos de dados. O conceito de interoperabilidade aplica-se tanto aos dados como aos metadados.
 
Re-usable (Reutilizáveis): Em última instância, FAIR tem o objetivo de otimizar a reutilização dos dados. Para isso, os metadados e os dados devem estar bem descritos para que possam ser replicados e/ou combinados em diferentes contextos. Além disso, a reutilização dos (meta)dados deve estar declarada através de (uma) licença(s) clara(s) e acessível(eis).

Mais informação:

Princípios para Dados FAIR
Manual de Formação em Ciência Aberta - dados


 
Porquê
A gestão de dados é fundamental para a sua utilização plena e para a validação dos respetivos resultados e engloba por isso, a organização, arquivo, tratamento, preservação e partilha da informação gerada durante um projeto de investigação. 
No Kit de Gestão de dados Científicos do RCAAP, é proposto um modelo para efetuar a gestão, combinando três fases distintas, no processo de gestão de dados de investigação:

fases de planeamento, em que deverão fazer-se as primeiras reflexões quanto à produção, preservação e partilha de dados num Plano de Gestão de Dados (PGD) que, frequentemente, constitui um requisito dos financiadores de ciência, aquando da submissão de projeto e concurso a financiamento.

Na fase de produção são criados os primeiros dados no âmbito desse mesmo projeto e ocorrem todos os procedimentos e transformações aos dados, para que possam ser posteriormente publicados, passando deste modo do domínio restrito ao domínio público.

Na fase de disseminação podem ser acedidos e reutilizados gerando, eventualmente, novos dados de investigação e dando novamente reinício ao ciclo de dados.


 
Em resumo o que implica
  • criação de um plano de gestão de dados (recolher e definir os requisitos iniciais)
  • organização dos dados em coleções de informação e formato comuns (datasets)
  • descrição dos dados/datasets (metainformação)
  • depósito dos dados científicos num repositório
  • reutilização através da atribuição de Licenças Creative Commons
  • partilha de informação sobre as ferramentas utilizadas para o uso dos dados
Vantagens
As vantagens da gestão adequada de dados são: amentar o impacto da investigação; melhorar a acessibilidade; prevenir o uso inadequado; salvaguardar os dados produzidos, assegurar compatibilidade. Permite a possibilidade da publicação independente de pacotes de dados, o que fomenta a sua reutilização em outros contextos.
Planos de Gestão de Dados
Tópicos genéricos a constar do Plano de Gestão de Dados:
  • Referência do conjunto de dados (dataset) e nome;
  • Descrição do conjunto de dados (dataset): que dados vão ser criados (formato, tipos, dimensão). Incluir origem, natureza, tamanho. Informação de eventuais dados similares, possibilidades de integração e reutilização;
  • Convenções de metadados: quais as normas e metodologias que vão ser usadas. Referencia às normas de metadados disciplinares a usar para descrição, ou como é que vão ser descritos ou criados os metadados;
  • Licença e partilha de dados: como é que as questões éticas e de propriedade inteletual serão definidas. Descrição de como os dados vão ser partilhados, incluindo procedimentos de acesso, períodos de embargo, indicando eventuais ferramentas necessárias para reutilização dos dados. Incluir informação das limitações de acesso;
  • Arquivo e preservação. Descrição de procedimento de armazenamento e preservação, indicando quando tempo os dados devem ser preservados.

 
DMPonline
A ferramenta DMPonline é uma ferramenta para auxiliar os investigadores na criação de um Plano de Gestão de Dados (PGD), desenvolvida pelo Digital Curation Centre (DCC) em colaboração com o Curation Center da Universidade da Califórnia (UC3). 

A sua estrutura central é baseada numa checklist de tópicos a abordar. Estes são:
1. Tipos de Dados, Formatos, Normas e Métodos de Captura de Dados
2. Ética e Propriedade Intelectual
3. Acesso, partilha e reuso de dados
4. Armazenamento a Curto Prazo e Gestão de Dados
5. Depósito e Preservação a Longo Prazo
6. Recursos

A ferramenta DMPonline disponibiliza um conjunto de templates para elaboração de Planos de Gestão de Dados de acordo com requisitos de Financiadores
Inclui um template para criação de um PGD para os projetos financiados pelo H2020.
Argos
Argos (OpenAire) é uma ferramenta de suporte para a criação, gestão e partilha de Planos de Gestão de Dados (PGD), que permite a ligação aos outputs de investigação.
É um esforço conjunto do OpenAIRE  e do EUDAT CDI para fornecer uma plataforma aberta que facilite a criação de PGD, de acordo com os princípios FAIR.
É possível a criação de planos que fiquem em acesso restrito ou em acesso público.
 
Na plataforma é possível: consultar Planos de Gestão de Dados disponíveis publicamente e criar e publicar planos.

 Passos:
- aceda à plataforma;
- efetue login;
- selecione “create DMP”;
- deverá depois selecionar as opções adequadas ao projeto em causa.
Identificadores
No momento de publicação é essencial assegurar a disseminação dos dados, sendo que a este nível à descrição dos mesmos deverão estar associados os respetivos metadados que permitem que estes possam ser agregados por outros sistemas, bem como a atribuição de um identificador único (persistente) que garanta a citação dos mesmos.

Handle- https://hdl.handle.net
DOI- https://dx.doi.org/
Citação
Para que seja possível a reutilização dos dados, é fundamental a citação dos mesmos.

Para tal é importante:
  • a atribuição de Digital Object Identifiers (DOIs), e dos metadados que os acompanham através de serviços como DataCite.
  • princípios de normalização na citação de dados - Joint Declaration of Data Citation Principles (Data Citation Synthesis Group da FORCE11)

 
Política Nacional FCT
Política sobre a Disponibilização de Dados e outros Resultados de Projetos de I&D Financiados Pela FCT

Recomendações aos beneficiários de financiamento, acerca de práticas a ter em relação à produção, armazenamento e partilha de dados de investigação. Publicada a 5 de maio de 2014.

Recomendações:
  • desenvolver e atualizar um Plano de Gestão de Dados (PGD), contendo informação sobre o modo de partilha dos resultados
  • partilhar os dados primários e outros materiais produzidos em projetos, segundo as melhores práticas da disciplina científica em que se insere o projeto.
  • incluir referência a este financiamento de acordo com as especificações previstas nas normas para beneficiários da FCT

 Nos PGD deve ser incluída informação sobre o modo como os dados serão partilhados, incluindo:
  • descrições de tipos de dados, amostras, coleções, software, modelos, materiais curriculares e outros materiais que se prevê venham a ser produzidos no âmbito das atividades financiadas;
  • normas a serem usadas para formatos e conteúdo de dados e metadados;
  • políticas de acesso e partilha incluindo disposições de proteção apropriada de privacidade, confidencialidade, segurança, propriedade intelectual e outros direitos ou requisitos;
  • políticas e disposições para reutilização, redistribuição e produção de subprodutos;
  • planos para arquivo de dados, amostras, software, modelos e outros materiais produzidos.
Políticas da Comissão Europeia H2020
Piloto de Dados de Investigação Abertos - Horizonte 2020 (H2020)
Requisitos principais do programa piloto (descritos no artigo 29.3 - Open access to research data):
  • desenvolver e atualizar um plano de gestão de dados;
  • depositar num repositório de dados adequado;
  • tomar medidas para permitir terceiros a aceder, minar, explorar, reproduzir e disseminar dados de investigação, mediante a associação de licenças Creative Commons.
  • fornecer informação nos repositórios escolhidos acerca de ferramentas para validar resultados
A obrigatoriedade da publicação dos dados abertos obtidos aplica-se a dados para validar os resultados apresentados em publicações científicas e a outros dados, conforme especificado no plano de gestão de dados. 
 
Entre 2014-16 o Piloto de Dados de Investigação Abertos (Open Research Data Pilot) aplicava-se apenas a áreas de investigação selecionadas. 
A partir da revisão do H2020 de 2017 passou a abranger todas as áreas temáticas.

OPEN RESEARCH DATA IN HORIZON 2020


Políticas da Comissão Europeia H2020 - PGD
A Comissão Europeia requer
  • a submissão de um PGD nos primeiros seis meses do projeto.
  • novas versões (atualização), no mínimo duas vezes (mid-term & final review).
  • propósito - especificar questões ligadas com a produção, arquivo, preservação, descrição, partilha e disseminação dos dados gerados no âmbito do projeto de investigação. 
Publicação de dados
Nos últmos anos a publicação de dados ganhou uma atenção crescente, nomeadamente por parte dos  financiadores que cada vez mais esperam que os dados produzidos em projetos de investigação que financiam fiquem localizáveis, acessíveis e tão abertos quanto possível.

OpenAIRE define algumas recomendações para o depósito. Poderá ser selecionada uma das opções apresentadas:
  • Use um arquivo de dados externo ou um repositório já estabelecido para a sua área de investigação para preservar os dados de acordo com os padrões reconhecidos na sua disciplina ou domínio de investigação.
  • Se disponível, use um repositório institucional de dados de investigação, ou os recursos de gestão de dados estabelecidos pelo seu grupo de investigação.
  • Use um repositório de dados gratuito tal como DataverseDryadfigshare ou Zenodo.
  • Procure outros repositórios de dados em re3data. Não existe um filtro único no re3data que cubra os princípios FAIR, mas considere as seguintes opções de filtros para o ajudar a encontrar repositórios compatíveis com os princípios FAIR: categorias de acesso, licenças de uso dos dados, repositórios de dados confiáveis (com certificado ou com adesão explícita a padrões de arquivo ) e se o repositório atribui um identificador persistente (PID) aos dados. Outro aspeto a considerar é se o repositório suporta versionamento.

Na Universidade de Aveiro está em curso o desenvolvimento e configuração de um Repositório de Dados com alojamento institucional, que será divulgado à comunidade logo que possível.
Zenodo
Use um repositório de dados gratuito tal como o Zenodo. Trata-se de um repositório multidisciplinar de Acesso Aberto que pode ser usado para depósito de dados de investigação long-tail e é uma iniciativa conjunta do OpenAIRE-CERN.
É atribuído um identificador digital único (DOI) a cada conjunto de dados
Ligações entre financiamento, publicações, dados e software
Aberto a todo o tipo de resultados de investigação e de todas as disciplinas.
50 GB por upload.
Dados armazenados no data center do CERN
Possui integração com GitHub, possibilitando a citação de código aí armazenado.
Permite identificar financiamento do espaço europeu de investigação (p. ex H2020).
re3data
Procure outros repositórios de dados em re3data. Nesta selação é importante ter em conta se o repositório cumpre os princípios FAIR.

Permite encontrar repositórios por disciplina, país, tipo de conteúdo, assim como verificar variadas características de cada repositório encontrado. Este serviço serve como referência para institutos de investigação ou investigadores na escolha de um repositório adequado para os dados produzidos. 

Use um arquivo de dados externo ou um repositório já estabelecido para a sua área de investigação para preservar os dados de acordo com os padrões reconhecidos na sua disciplina ou domínio de investigação.
Outros repositórios
Figshare - repositório generalista parte do grupo empresarial Digital Science, uma empresa do grupo Macmillan Publishers. O depósito de dados é da responsabilidade do utilizador. Este repositório está integrado com muitas revistas científicas, o que aumenta a qualidade dos dados e facilita o processo de revisão por pares.

Open Science Framework
Licenças
Antes da publicação dos dados é importante selecionar e atribuir uma licença que garanta a proteção da propriedade intelectual dos autores dos dados de investigação produzidos. A proteção da propriedade intelectual não implica a associação de restrições à reutilização dos dados por terceiros.

Ferramentas e opções de licenças para dados:

Digital Curation Centre How to License Research Data - descreve os prós e contras de cada abordagem e dá aconselhamento prático acerca de como implementar uma licença para dados de investigação.




 
OpenAire Guides for Researchers - How do I license my research data?
Guides for Researchers - How do I license my research data?
Na plataforma OpenAire está disponível um guia para licenciamento de dados de investigação, com os seguintes tópicos:
  • Licenses for Research Data
  • How to apply licenses for Research Data
  • Specifications of licensing Research Data
  • Legal issues in Dealing with Research Data
EUDAT License Selector
EUDAT License Selector

Esta ferramenta permite a seleção e atribuição de uma licença adequada a um data set, através da resposta a um conjunto de questões.

Ver tutorial EUDAT License Selector

 
Licenças Creative Commons
As licenças Creative Commons são amplamente utilizadas neste contexto e é da responsabilidade do investigador e detentor dos direitos a seleção da Licença que melhor se adequa aos dados:

CC BY-NC NonCommercial – o que é considerado comercial.

CC BY-ND NoDerivatives – restringe severamente o uso.

As diretrizes Acesso Aberto apontam para as licenças CC BY e CC 0.