Les métadonnées

Source : No Metadata No Futur, CC BY NC

 

Les données de recherche sont rarement explicites, c’est pourquoi elles doivent être accompagnées de métadonnées, soit des renseignements qui décrivent les données selon les meilleures pratiques de la communauté. Selon la discipline, le terme « métadonnées » peut avoir différentes significations et il recoupe la documentation.

Dans le cadre d’un plan de gestion des données, la référence aux métadonnées renvoie principalement aux schémas de métadonnées qui sont utilisés dans les dépôts (voir ci-dessous). Si vous avez déjà ciblé un endroit où vous allez déposer les données de votre projet, vous allez gagner du temps en allant voir d’avance les exigences du dépôt en matière de métadonnées.

Une métadonnée peut être rédigée en langue naturelle ou respecter certaines règles, que ce soit dans sa forme ou dans son contenu. Les vocabulaires contrôlés en sont un bon exemple.

Taxonomies, vocabulaires contrôlés et ontologies

Les mots-clés choisis pour décrire des ensembles de données sont fondamentaux à leur repérabilité. Les vocabulaires contrôlés normalisent l’indexation et facilitent la recherche et le repérage d’informations. Il s’agit d’un ensemble de termes reconnus, normalisés et validés par un groupe ou une communauté de pratiques utilisés pour indexer ou analyser le contenu d’une ressource.

Si plusieurs termes désignent un même concept, un seul d’entre eux sera choisi et identifié comme le « terme préféré », les autres, considérés comme de possibles synonymes, seront mentionnés comme « termes rejetés ».

Une ontologie est une représentation théorique d’un domaine de connaissances dont les concepts sont liés par des relations sémantiques et logiques. Une ontologie comprend des vocabulaires, des définitions et une indication de la manière dont les concepts sont interdépendants entre eux. L’ontologie permet d’établir un ensemble de relations et de décrire des situations spécifiques dans un domaine donné. Une ontologie impose une structure sur le domaine et limite les possibles interprétations des termes. Plus simplement, l’ontologie permet d’offrir un langage commun à des blocs d’information liés entre eux. Elle est aux métadonnées ce que la grammaire est au langage.

Un des principaux avantages de l’utilisation d’une ontologie est l’interopérabilité, la réutilisation et le partage des métadonnées. La principale différence entre une ontologie et un vocabulaire contrôlé est que le vocabulaire contrôlé propose des relations sémantiques entre les éléments qui le composent, alors que l’ontologie suggère des relations fonctionnelles permettant de décrire précisément des situations.

Exemple

Source : Marmotte, Émilie Fortin, CC BY 4.0

Décrivons cette image en utilisant un vocabulaire libre :

  • Marmotte
  • Conifère
  • Été
  • Université Laval

En utilisant par exemple le vocabulaire contrôlé généraliste RVMFAST, nous pourrions tenter de préciser certains de ces termes :

  • Marmotte du Canada
  • Pin
  • Été

Pour l’information « Université Laval », nous tenterions de l’indiquer dans un champ spécifique à la géographie afin qu’il soit mieux utilisé. Avec GeoNames, nous confirmons sa forme et nous avons les coordonnées géographiques : 46.77932, -71.26993.

Une ontologie pourrait nous donner plus d’informations sur notre marmotte.

Cet exemple fictif est assez parlant du défi que peut poser de trouver une ontologie appropriée, ce qui mène parfois à la création d’une nouvelle ontologie, adaptée au besoin de la recherche. Mais une ontologie qui n’est pas adoptée par la communauté est à risque de disparaître…

Vocabulaires contrôlés disciplinaires

Les vocabulaires contrôlés sont légion, vous trouverez une liste ci-dessous qui ne se prétend pas exhaustive, il s’agit seulement de quelques exemples. Si vous choisissez un langage contrôlé existant, assurez-vous qu’il est soutenu par une communauté et qu’il est mis à jour, car un langage, pour rester pertinent, doit être vivant et évoluer.

Vocabulaires généralistes

Library of Congress Subject Headings (LCSH) : thesaurus de vedettes-matières maintenu par la Library of Congress.

Répertoire des vedettes-matière (RVM), incluant ses divers thésaurus (genre/forme, FAST, moyens d’exécution) : thésaurus multilingue basé sur le LCSH.

Répertoire d’autorité matière encyclopédique et alphabétique unifié (RAMEAU) : langage d’indexation maintenu par la Bibliothèque nationale de France et basé à l’origine sur le RVM.

Vocabulaires en arts, sciences humaines et sociales

ArchiRès : mots-clés qui concernent l’architecture, l’urbanisme, la construction, le paysage.

Conceptual Reference Model du Comité International pour la Documentation (CIDOC CRM) : ontologie qui définie les concepts et relations du patrimoine culturel.

Data Documentation Initiative (DDI) Controlled Vocabularies : vocabulaire contrôlé pour les sciences humaines et sociales qui peut être utilisé en combinaison avec le schéma DDI, mais pas uniquement.

European Langage Social Science Thesaurus (ELSST) : vocabulaire publé par le Consortium of European Social Science Data Archives (CESSDA).

Getty Research Institute Vocabularies : regroupe des noms géographiques, des termes d’art et architecture, des objets culturels, des noms d’artistes.

Pactols : vocabulaire contrôlé, normalisé et multilingue pour l’archéologie (préhistoire jusqu’à la période contemporaine) et pour les sciences de l’Antiquité.

Thésaurus de l’UNESCO : liste de termes contrôlés et structurés en éducation, culture, sciences naturelles et humaines, communication et information.

Journal of Economic Literature (JEL) classification system : méthode standard de classification de la littérature scientifique dans le domaine de l’économie.

Vocabulaires en sciences

Gene Ontology (GO) Vocabulary : caractéristiques des produits génétiques, annotation des produits génétiques. 

Global Change Master Directory (GCMD) Keywords : termes à propos des sciences de la Terre et du climat, des instruments, des capteurs, des services, des centres de données, etc. 

Ecological Metadata Language (EML) : définit un vocabulaire et une syntaxe de balises XML surtout utilisé en sciences de la Terre et de l’environnement.

Integrated Taxonomic Information System : informations taxonomiques sur les plantes, les animaux, les champignons et les microbes.

International Union of Pure and Applied Chemistry (IUPAC) Gold Book : recueil de terminologie en chimie.  

NASA Thesauri : termes à propos de l’ingénierie, la physique, l’astronomie, l’astrophysique, les sciences planétaires, les sciences de la Terre, les sciences biologiques.

Natural Environment Research Council (NERC) Vocabulary : liste de termes normalisés qui couvrent un large éventail de disciplines intéressant plus particulièrement la communauté océanographique.

Physics Subject Heading : système de classification de la physique mis au point par Advancing Physics

United States Geological Survey (USGS) Thesauri : termes à propos de l’agriculture, des forêts, de la pêche, des sciences de la Terre, des sciences de la vie, de l’ingénierie, des sciences planétaires, des sciences sociales, etc.

Recherche de vocabulaires et de terminologies

Basic Register of Thesauri, Ontologies & Classifications (BARTOC) : base de données des systèmes d’organisation des connaissances et des registres liés aux systèmes d’organisation des connaissances.

EMBL-EBI Ontology Xref Service (OxO) : service permettant de trouver des correspondances (ou des références croisées) entre des termes issus d’ontologies, de vocabulaires et de normes de codage.

Ontology Lookup Service (OLS) : dépôt d’ontologies biomédicales qui vise à fournir un point d’accès unique aux dernières versions des ontologies.

Bibliographie

Fortin, É. (2023). Un aperçu du fascinant monde des formats de fichiers et des métadonnées. Dans La gestion des données de recherche dans le contexte canadien : Un guide pour la pratique et l’apprentissage. https://doi.org/10.5206/MWBH2071

Licence

Autoformation : comment rédiger un plan de gestion des données© par Émilie Fortin. Tous droits réservés.

Partagez ce livre