Des métadonnées riches…

Dans la documentation de Tropy : What is metadata and how do I use it?

Que sont les métadonnées ?

Les métadonnées sont des données qui décrivent d’autres données. Elles fournissent des informations sur un fichier, un document, ou tout autre type de ressource numérique. Par exemple, pour une photo, les métadonnées peuvent inclure le titre, le nom du créateur, la date de création, le format, et les droits d’utilisation.

Les métadonnées aident à organiser, identifier et trouver facilement des informations en donnant des détails sur le contenu, la structure et le contexte des données (ici vos objets, images et sélections).

Qu’est-ce qu’un schémas de métadonnées ?

Un schéma de métadonnées est un ensemble structuré de règles et de propriétés utilisées pour décrire de manière cohérente des données ou des ressources. Il définit quelles informations (ou métadonnées) doivent être collectées, comme le titre, le créateur, la date, ou le type de ressource, ainsi que la manière de les organiser.

Un schéma de métadonnées est une structure standardisée qui aide à organiser et harmoniser les informations descriptives sur des fichiers ou documents, facilitant ainsi leur recherche et leur gestion.

Dans Tropy, des schémas de métadonnées comme les Dublin Core, Exif, ou Europeana Data Model (EDM) sont chargés par défaut. En fonction des besoins de votre projet et du type d’objets que vous décrivez, vous avez également la possibilité de personnaliser ou importer vos propres schémas selon des standards adaptés à vos recherches (comme CIDOC-CRM, VRA Core…).

Les schémas Dublin Core

Il existe deux schémas de métadonnées dits Dublin Core, tous deux disponibles par défaut dans Tropy : le Dublin Core Metadata Element Set et les Dublin Core Metadata Terms.

La différence entre les Dublin Core Elements et les Dublin Core Terms réside principalement dans leur étendue, leur structure, et leur niveau de formalisation.

Dublin Core Elements
Dublin Core Terms

Le Dublin Core Metadata Element Set (DCES) est un ensemble de 15 éléments de métadonnées de base, conçus pour être utilisés de manière générale pour décrire une large gamme de ressources numériques. Ces éléments sont simples et universels, ce qui les rend largement utilisables dans différents contextes.

Les 15 éléments Dublin Core Elements

Title (Titre)
Creator (Créateur)
Subject (Sujet)
Description
Publisher (Éditeur)
Contributor (Contributeur)
Date
Type
Format
Identifier (Identifiant)
Source
Language (Langue)
Relation (Relation avec d’autres ressources)
Coverage (Couverture géographique ou temporelle)
Rights (Droits)

Usage

Ces éléments sont conçus pour être simples et suffisamment génériques pour s’adapter à divers environnements de gestion de métadonnées, notamment les bibliothèques, les archives, et les musées. Ils ne nécessitent pas une grande complexité ou personnalisation, et peuvent être utilisés dans de nombreuses disciplines.

Objectif

Faciliter l’interopérabilité entre différents systèmes et rendre les ressources numériques facilement trouvables et accessibles. C’est l’ensemble de métadonnées de base recommandé pour les projets qui veulent une approche standard, mais simple.

Formalisation

Les Dublin Core Elements font partie des normes ISO et sont compatibles avec les pratiques d’interopérabilité sémantique sur le web.

Les Dublin Core Metadata Terms (DCTerms) est une extension du Dublin Core Elements. Il comprend non seulement les 15 éléments de base, mais aussi un ensemble beaucoup plus vaste de termes supplémentaires, incluant des sous-éléments, des éléments de qualification (qualifiers), et des concepts plus précis qui permettent d’enrichir la description des ressources.

Structure étendue des DCMT

Les Dublin Core Terms incluent :

Les 15 éléments de base (mais sous des formes plus formalisées).
Des éléments supplémentaires comme Audience (Public), Provenance (Provenance), Accrual Method (Méthode d’acquisition), etc.
Des qualificateurs qui permettent de préciser davantage un élément existant. Par exemple, la date peut être qualifiée avec des sous-éléments comme Date.Created (date de création), Date.Modified (date de modification).

Usage

Les Dublin Core Terms sont utilisés dans des contextes plus complexes ou spécialisés où il est nécessaire d’étendre la description des métadonnées au-delà des 15 éléments de base. Cela permet d’adapter les métadonnées à des besoins spécifiques, comme dans les bibliothèques numériques avancées, les archives, ou des bases de données nécessitant une structure riche.

Objectif

Fournir une structure plus flexible et plus riche pour décrire des ressources en utilisant des éléments plus détaillés. Il permet de mieux correspondre aux besoins spécifiques des projets tout en restant compatible avec les standards du web sémantique.

Formalisation

Les Dublin Core Terms sont également formalisés selon des standards internationaux et sont souvent exprimés en RDF (Resource Description Framework) pour une meilleure compatibilité avec le web sémantique.

Principales différences entre Dublin Core Elements et Dublin Core Terms

Comparaison *DCES* et *DCTerms*
Critères	Dublin Core Elements (DCES)	Dublin Core Terms (DCTerms)
Nombre d’éléments	15 éléments de base	Comprend les 15 éléments + des termes étendus et qualificateurs
Simplicité	Simple, général	Plus complexe, flexible et spécifique
Utilisation	Projets de description de ressources de base	Projets nécessitant des métadonnées plus riches et complexes
Interopérabilité	Conçu pour des utilisations larges et génériques	Plus détaillé, mais compatible avec des systèmes plus complexes
Qualification des éléments	Pas de qualificateurs	Supporte des qualificateurs pour une meilleure précision
Exemples d’utilisation	Bibliothèques, archives numériques simples	Bibliothèques numériques avancées, projets sémantiques, bases de données spécialisées

Synthèse Dublin Core

Dublin Core Elements est idéal pour une description simple et universelle de ressources numériques, facilitant une adoption rapide et large dans des environnements variés.
Dublin Core Terms fournit un cadre plus élaboré, utile pour des projets nécessitant une description plus fine et spécialisée, avec une interopérabilité accrue dans des environnements complexes comme le web sémantique.

Le schéma Europeana Data Model (EDM)

Europeana Data Model est un schéma utilisé par Europeana ¹ pour décrire des objets culturels numériques en accord avec les standards du web sémantique.

¹ Europeana est un portail européen qui présente des ressources patrimoniales provenant de quelque 2000 institutions différentes. Un réseau de partenaires agrégateurs se charge de collecter les données, de les vérifier minutieusement et de les enrichir d’informations telles que la géolocalisation, ou de les relier à d’autres données ou ensembles de données par le biais de personnes, de lieux ou de thèmes associés. (Liste des partenaires agrégateurs, dont Gallica)

Caractéristiques clés :

Modèle RDF : EDM est basé sur le Resource Description Framework (RDF), un standard du W3C utilisé pour représenter des informations sur des ressources dans le web sémantique. Cela permet de relier des objets à d’autres ressources, qu’elles soient internes ou externes à Europeana.
Séparation des différentes entités : EDM distingue clairement plusieurs types d’entités, ce qui permet de modéliser les relations complexes entre les objets numériques et leur contexte. Parmi ces entités, on trouve :
- ProvidedCHO (Cultural Heritage Object) : représente l’objet culturel lui-même (par exemple, une peinture, un manuscrit).
- WebResource : fait référence aux versions numériques de l’objet, telles que les fichiers d’image, vidéo ou son.
- Aggregation : permet de regrouper les données sur un objet, notamment les métadonnées des différentes sources.
- Agent : représente les entités ayant une influence sur l’objet (par exemple, un auteur, un artiste, un contributeur).
- Place et TimeSpan : permettent de contextualiser l’objet dans le temps et l’espace.
Multi-représentation : EDM permet d’avoir plusieurs représentations numériques d’un même objet culturel (images de différents angles, fichiers audio associés, etc.), ainsi que des relations entre ces différentes représentations.
Alignement avec d’autres standards : EDM est conçu pour être interopérable avec d’autres schémas de métadonnées, notamment Dublin Core, LIDO (utilisé dans les musées), EAD (Description archivistique encodée), et OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting).

Les proriétés Exchangeable Image File Format (EXIF)

EXIF est un ensemble de propriétés techniques centré sur les conditions de création des fichiers visuels. Contrairement au Dublin Core, il ne vise pas à fournir une description sémantique mais plutôt une description technique du fichier lui-même.

EXIF est un standard de métadonnées techniques utilisé principalement dans les fichiers d’image (JPEG, TIFF) et les fichiers vidéo pour enregistrer des informations relatives aux conditions dans lesquelles l’image ou la vidéo a été capturée. Cela inclut des données techniques comme les paramètres de l’appareil photo (modèle, vitesse d’obturation, ouverture, ISO, orientation), la date et l’heure, des informations géographiques (si le GPS est activé) ainsi que des informations sur le fichier (taille, résolution).

La page Wikipedia Exchangeable image file format donne un exemple concret et la liste des principales métadonnées EXIF.

Ces propriétés sont enregistrées dans le fichier numérique lui-même. Dans Tropy, on ajoutera des propriétés EXIF dans des modèles de niveau photo, pour “sortir” automatiquement ces informations du fichier.

Tropy extrait automatiquement les données suivantes pour chaque photo :

Le nom du fichier
La date de création
la taille de l’image en pixels (800X1200)
la taille de l’image en octets (bytes)