Comment documenter ses données

Émilie Fortin

Comment documenter ses données

Source : Métadonnées : comment s’y prendre? par Céline Rousselot Céline, CC BY 4.0

La documentation accompagne la recherche au niveau de l’étude ainsi qu’au niveau des données elles-mêmes et des liens doivent être établis entre la documentation et les données. L’information qui suit est une traduction du Data Management Expert Guide de CESSDA ERIC, page 48 et suivantes.

Voici quelques informations à recueillir au niveau du projet qui peuvent être utilisées pour décrire un jeu de données : but de l’étude, question/hypothèse de recherche, méthodologies ou instruments utilisée, mesures prises.

Des questions qui sont également pertinentes à prendre en compte :

Pourquoi les données ont-elles été créées?
Que contient le jeu de données?
Comment les données ont-elles été collectées?
Qui a collecté les données et quand?
Quelles manipulations ont été effectuées sur les données?
Quelles sont les mesures d’assurances qualité qui ont été utilisées pour valider les données?
Comment accéder aux données?

La documentation au niveau des données doit être effectuée au fur et à mesure du projet et non à la fin, car certaines informations ne sont disponibles qu’au moment de la récolte ou de la transformation.

Type d’information à recueillir selon le type de données :

Quantitatives : renseignements au sujet du fichier (type de données, format, poids, scripts utilisés) et au sujet des variables (nom, étiquette, description, valeur). Il est parfois possible d’intégrer l’information sur les variables directement dans le fichier de données.
Qualitatives : information sur les personnes participantes ou relative au contexte des données, les principales caractéristiques.
Article et autres documents : bibliographie

Vous devrez également déterminer de quelle façon vous allez récolter cette documentation : avec un fichier d’accompagnement? Dans une base de données? Autrement?

Dans cette section, vous trouverez des informations sur les moyens de documentation suivants :

Fichier LISEZ-MOI
Documentation de code informatique
Guide d’entrevue ou guide d’entretien
Dictionnaire de données et guide de codification
Cahier de laboratoire
Cahier de terrain

Types de documentation

Fichier LISEZ-MOI

Un fichier LISEZ-MOI (README) fournit des informations à propos d’un fichier ou d’un jeu de données. Il permet d’assurer la pérennité de l’interprétation correcte des données par toutes les personnes qui les consulteront. Dans la mesure où un jeu de données est téléchargé à partir d’un dépôt, il permet également d’informer les utilisatrices et utilisateurs de son origine afin que les données soient comprises et citées correctement.

Les fichiers LISEZ-MOI comprennent généralement les informations suivantes :

Le contexte de production des données
La liste des fichiers présents dans l’ensemble de données
La description du contenu des fichiers
Les instructions d’exploitation des fichiers
La description des méthodes de collecte et d’analyse des données
Les logiciels (incluant leur version) et les systèmes d’exploitation utilisés pour la collecte et la transformation
Le format des fichiers
Les informations sur les conditions de réutilisation des données
La citation recommandée du jeu de données

Les fichiers LISEZ-MOI doivent être enregistrés sous forme de fichier texte (TXT) et devraient utiliser une numérotation forcée dans le nom du fichier (par exemple: 00_Lisez-Moi.txt) ou des caractères en majuscule. S’il y a plus d’un LISEZ-MOI, le nom doit permettre facilement de lier le fichier aux données décrites.

La façon de rédiger le fichier LISEZ-MOI est aussi importante que l’information qu’il contient. Il faut être le plus compréhensible possible. Quelques bonnes pratiques en documentation de données :

Ne pas utiliser le jargon
Définir ses termes et ses acronymes
S’assurer de la lisibilité par machine (éviter les caractères spéciaux)

« Vous pouvez créer un README en utilisant n’importe quel éditeur de texte (p. ex.: TextEdit, Notepad++, Atom.io, Sublime Text) ou traitement de texte (p. ex.: Word, LibreOffice). Enregistrez votre README en tant que texte encodé UTF-8. L’utilisation de texte brut permet de préserver vos informations, car elle s’appuie sur des normes durables et ouvertes plutôt que sur des formats propriétaires. Si vous utilisez GitHub, votre README doit être écrit en utilisant la syntaxe Markdown (readme.md). » (Traduction, UBC Library Research Commons)

« Un fichier LISEZ-MOI doit être associé à un groupe logique de fichiers/données apparentés. Dans de nombreux cas, il convient de créer un document pour un ensemble de données comportant plusieurs fichiers apparentés, formatés de la même manière, ou des fichiers logiquement regroupés en vue de leur utilisation (par exemple, une collection de scripts MATLAB). Parfois, il peut être judicieux de créer un LISEZ-MOI pour un seul fichier de données. » (Traduction, Cornell Data Service)

Modèle en anglais : ReadmeTemplate.txt (Cornell University)

Adaptation française : LISEZ-MOI_modele_GDR.docx (Bibliothèque Université Laval)

Exemple

Tiré de l’adaptation française.

Documentation de code informatique

Quel que soit le langage de codage utilisé, il est important de documenter et commenter le code afin qu’il puisse être compris et réutilisé.

Le texte suivant est tiré de Sawchuk, Gillis, Lachlan et MacLeod, 2023.

« Les fichiers de syntaxe comprennent les commandes utilisées pour la manipulation, l’analyse et la visualisation des données; ces fichiers peuvent être modifiés pour inclure des commentaires qui décrivent le raisonnement et l’analyse du projet. Les fichiers de syntaxe peuvent ensuite être regroupés avec les données et les fichiers de sortie, permettant à d’autres d’évaluer et de réutiliser le projet dans son ensemble.

Des cahiers électroniques de code sont des outils qui intègrent l’automatisation et le suivi de la provenance à l’intérieur d’un seul document linéaire. Un cahier de codes, tel que Jupyter Notebook, est une interface qui encourage la pratique de la programmation lettrée, là où le code, les commentaires et les sorties s’affichent ensemble de façon linéaire, telle une œuvre de littérature (Hunt et Gagnon-Bartsch, 2021; Kery et al., 2018).

Il existe plusieurs solutions techniques qui facilitent le partage du code et qui varient en complexité sur un spectre allant du statique au dynamique. L’approche statique pour le partage du code est simplement de téléverser le code brut vers un dépôt avec un fichier LISEZ-MOI bien documenté ainsi qu’une liste des dépendances ou des exigences au niveau de l’environnement informatique. Dans l’approche dynamique, les données, le code et les dépendances sont rassemblés dans un format autonome appelé un conteneur (Hunt et Gagnon-Bartsh, 2021; Vuorre et Crump, 2021).

Un des moyens les plus courants d’écrire du code pour des conteneurs informatiques est d’utiliser des cahiers de code électroniques. La mise en conteneur d’un cahier de code permet d’analyser et de modifier le code pour tester les sorties et les analyses. Les utilisatrices ou utilisateurs finaux peuvent faire des essais avec le code sans avoir à se soucier de causer des ruptures de fonctionnement ou des modifications permanentes. De plus, pas besoin de se soucier des questions de sécurité liées à l’installation des logiciels. »

Guide d’entrevue ou guide d’entretien

«Le guide d’entretien est un document qui regroupe l’ensemble des questions à poser ou thèmes à aborder lors d’une entrevue. Il est structuré selon le type d’entretien (directif, semi-directif ou non directif)» (Scribbr, 2020). Il peut être rédigé sous la forme d’un document textuel ou d’une grille.

Selon les besoins, un guide d’entretien peut contenir :

Introduction et présentation du travail de recherche
Renseignement sur la personne interrogée et le contexte de l’entrevue (attention à prendre les mesures nécessaires de protection si des renseignements personnels sont colligés à cette étape)
Questions avec ou sans consignes (qu’est-ce que la question doit aller chercher)
Zone de prise de note

Selon Paillé (1991), l’élaboration du guide d’entrevue repose sur six étapes :

L’élaboration du premier jet : cette étape consiste à noter toutes les idées qui vous viennent à l’esprit sans les juger ni les filtrer. Il est important de noter toutes les idées, même celles qui semblent farfelues ou peu pertinentes.
Le regroupement thématique des interrogations : cette étape consiste à regrouper les idées notées à l’étape précédente selon des critères. Vous pouvez par exemple regrouper les idées qui portent sur un même thème ou qui ont un lien entre elles.
La structuration interne des thèmes : À l’intérieur des regroupements faits à l’étape 2, il est important de structurer les idées pour qu’elles aient un lien les unes avec les autres. Vous pouvez par exemple organiser les idées de manière qu’elles aillent du plus général au plus précis.
L’approfondissement des thèmes : cette étape consiste à reprendre les idées notées à la première étape et à voir si elles couvrent l’ensemble des thèmes visés par la recherche. Il est important de vérifier s’il y a des manques et de compléter les idées au besoin.
L’ajout de probes : cette étape consiste à définir les attentes du chercheur envers les réponses des participants. Les probes permettent de relancer les participants si jamais leur réponse n’est pas assez complète.
La finalisation du guide : Cette étape consiste à mettre en page le guide d’entretien.

Selon Paillé (1991), le guide d’entretien peut compter de 10 à 13 questions pour une entrevue d’une heure. Il est important de tester le guide et de le faire évoluer au fil des entretiens.

L’ordre des questions peut influencer les réponses reçues. Il faut tester le guide et le faire évoluer au fil des entretiens. Que le projet nécessite les questions ouvertes ou fermées, il faut s’assurer qu’elles soient neutres, claires, courtes et simples.

Dictionnaire de données et guide de codification

« Un guide de codification est un document qui fait la description d’un jeu de données, y compris les détails sur son contenu et sa conception. Un dictionnaire de données est un document semblable au guide de codification, lisible et souvent exploitable par une machine, qui contient généralement des informations détaillées sur la structure technique d’un jeu de données en plus de ses contenus (Buchanan et al., 2021). Toutefois, les deux termes sont souvent utilisés de façon interchangeable. Le guide de codification peut être généré de façon automatique par le logiciel de statistiques que vous utilisez ou vous pouvez avoir à le créer vous-même. Développer le guide de codification au fur et à mesure est une bonne pratique qui permet de standardiser les données. Documentez toute modification au code ou toute autre modification aux données. Même si le guide de codification est généré par le logiciel, vous devrez probablement y ajouter des informations supplémentaires. […] [S]elon le Inter-university Consortium for Political and Social Research (ICPSR, 2023), les informations contenues dans les guides de codification peuvent varier d’un projet à l’autre et d’un domaine à l’autre. » (Sawchuk, Gillis et MacLeod, 2023)

Les dictionnaires de données comprennent la description des variables et des unités de mesure, ainsi que la définition des abréviations employées dans les fichiers de données. Un dictionnaire de données complet permet à la communauté de comprendre vos données et de les réutiliser.

Les dictionnaires de données varient considérablement en termes de qualité et de quantité d’informations présentées, mais devraient inclure les éléments suivants :

Les noms des variables (nom utilisé et nom compréhensible au besoin)
Les informations sur la structure, le contenu et la mise en page d’un fichier de données
Les définitions de différents types d’enregistrement
Les codes de réponse pour chaque variable
Les codes utilisés pour indiquer la non-réponse et les données manquantes (important: évitez les cases vides!)
Les questions exactes utilisées dans une enquête, et les séquences pour les questions ignorées
Les fréquences de réponse

Le dictionnaire de données doit être mis à jour si les données ou leur structure changent.

Vous pouvez utiliser un fichier LISEZ-MOI comme dictionnaire de données.

Exemple

Traduction tirée de UBC Library Research Commons, 2023.

Cahier de laboratoire

Le cahier de laboratoire sert à noter de façon quotidienne la méthodologie de recherche, les calculs et les résultats d’une expérience. Il favorise la traçabilité, la publication et le partage des données de recherche. Dans certains cas, le partage des cahiers de laboratoire électroniques est encouragé et atteint certains des mêmes objectifs que le partage des données de recherche.

Bien que les cahiers de laboratoire de format papier existent encore, leur version électronique offre plusieurs avantages. (Les renseignements suivants sont un résumé et une traduction d’un document sur le sujet de la Commission européenne publié en 2019).

Simplifie la gestion des données grâce à des modèles et à un système centralisé qui permet de stocker l’ensemble de l’information à un seul endroit.
Aide à se conformer aux normes, facilite les révisions et les audits, surtout s’il inclut des pistes de vérification (audits trails) et des accès contrôlés.
Soutient l’archivage et le suivi en permettant de multiplier les copies et en offrant la possibilité de surveiller les données quand des échantillons sont envoyés dans d’autres établissements.
Supporte la collaboration à l’intérieur et l’extérieur d’une équipe en simplifiant la recherche et le partage des données d’une expérience.
Augmente la transparence et la reproductibilité en contribuant au partage et à la réutilisation des données.
Permet la mise en place d’une structure pour les données ou d’un langage commun dans un laboratoire.
Évite la perte d’information si un membre doit quitter l’équipe de recherche.
Peut se combiner avec le Web sémantique pour rendre l’information lisible par machines.

Lorsque vient le temps de choisir un cahier de laboratoire électronique, certains points relatifs à vos besoins devraient être gardés en tête :

Avez-vous besoin qu’il soit généraliste ou disciplinaire?
Offre-t-il le niveau de sécurité dont vous avez besoin?
Permet-il la gestion des stocks?
Est-il gratuit ou dispendieux?
Est-il interopérable avec d’autres outils et instruments?
Permet-il la préservation à long terme^[1]?

Cahier de terrain

Les cahiers de terrain, bien que cruciaux pour documenter les observations lors d’expéditions, peuvent rapidement devenir un défi à décrypter, même pour les gens qui les remplissent. Cependant, en adoptant quelques pratiques simples, vous pouvez rendre cette tâche moins ardue et plus efficace.

Les cahiers de terrain sont généralement destinés à un usage personnel et à court terme. Afin de maximiser leur utilité, il est judicieux de documenter à l’avance les métadonnées nécessaires à la collecte d’informations. Avant de partir sur le terrain, informez-vous sur les variables à collecter et déterminez l’outil idéal pour cette collecte. Quelles informations sont essentielles pour une compréhension ultérieure?

Assurez-vous de savoir si le cahier de terrain doit être hydrofuge et choisissez un stylo qui résiste au froid et à l’humidité pour éviter des problèmes potentiels lors de la prise de notes sur le terrain. Vous pouvez aussi envisager de prendre chaque jour des photos du cahier afin de minimiser les risques de pertes.

Le cas échéant, vérifiez s’il existe un formulaire préétabli par les stations d’échantillonnage. Lorsqu’il s’agit de lier une station spécifique à une variable particulière, identifiez les détails nécessaires pour faire le pont. Ne présumez pas que quelqu’un d’autre prendra les informations dont vous avez besoin – collectez autant de renseignements que possible. Mettez au propre vos notes dès que possible pour éviter toute perte de contenu et garantir une interprétation précise à l’avenir.

En somme, rendre les cahiers de terrain plus accessibles commence par la préparation. Anticipez les besoins en métadonnées, choisissez des outils résistants aux conditions du terrain et ne sous-estimez jamais l’importance de documenter soigneusement chaque variable. Une approche proactive garantira une compréhension facile et une utilisation optimale des données sur le long terme.

Bibliographie

Barsky, E., & Hu, B. (2023). Create a README File [Formation]. Research Data Management. https://ubc-library-rc.github.io/rdm/content/03_create_readme.html

CESSDA Training Team (2017 – 2022). Documentation and Metadata. CESSDA Data Management Expert Guide. https://dmeg.cessda.eu/Data-Management-Expert-Guide/2.-Organise-Document/Documentation-and-metadata

Claude, G. (2019, novembre 12). Le guide d’entretien : Caractéristiques et exemples. Scribbr. https://www.scribbr.fr/methodologie/guide-dentretien/

Create a Codebook. (2024). DDI. https://ddialliance.org/training/getting-started-new-content/create-a-codebook

Cornell Data Service. (s. d.). Guide to writing « readme » style metadata. https://data.research.cornell.edu/data-management/sharing/readme/

DATACC. (s. d.). Utiliser un cahier de laboratoire numérique. Accompagnement à la gestion des données de recherche en physique et en chimie. https://www.datacc.org/bonnes-pratiques/utiliser-un-cahier-de-laboratoire-numerique/

European Commission, Directorate-General for Research and Innovation, Switters, J., Osimo, D. (2019), Electronic Laboratory Notebooks (ELNs) as key enablers of open science. Open science monitor case study. https://data.europa.eu/doi/10.2777/07890

Open Science Framework. (2023, May 5). How to Make a Data Dictionary. OSF Support. https://help.osf.io/article/217-how-to-make-a-data-dictionary

Paillé, P. (1991) Procédures systématiques pour l’élaboration d’un guide d’entrevue semi-directive : un modèle et une illustration. Communication présentée au Congrès de l’Association canadienne-française pour l’avancement des sciences. Sherbrooke : Université de Sherbrooke. https://cdc.qc.ca/actes_arc/2000/sylvain_actes_ARC_2000.pdf

Rousselot Céline. (2023). Métadonnées : comment s’y prendre ?. Zenodo. https://doi.org/10.5281/zenodo.8340097

Sauvayre, R. (2021). Chapitre 3. Le guide d’entretien. Dans : , R. Sauvayre, Initiation à l’entretien en sciences sociales: Méthodes, applications pratiques et QCM (pp. 29-60). Paris: Armand Colin. https://www.cairn.info/initiation-a-l-entretien-en-sciences-sociales–9782200630836-page-29.htm

Sawchuk, S., Gillis, L. & MacLeod, L. (2023). Soutenir la recherche reproductible avec la curation active de données MacLeod. Dans La gestion des données de recherche dans le contexte canadien : Un guide pour la pratique et l’apprentissage. https://doi.org/10.5206/BLAZ5966

Voir la section sur la préservation. Les mêmes questions de préservation des données de recherche devraient se poser pour les cahiers de laboratoire. ↵

Comment documenter ses données

Types de documentation

Fichier LISEZ-MOI

Documentation de code informatique

Guide d’entrevue ou guide d’entretien

Dictionnaire de données et guide de codification

Cahier de laboratoire

Cahier de terrain

Bibliographie

Licence

Partagez ce livre