Skip to content

Destination web sémantique

Travaillant actuellement sur un projet de gestion sémantique de l’information, je me suis rendu compte que peu de personnes savent exactement de quoi il s’agit et que même les experts ne sont pas forcement d’accords sur la définition de cette discipline.

Web sémantique & enrichissement sémantique

Il faut d’abord bien faire la différence entre la notion de web sémantique et celle d’enrichissement sémantique de l’information.

  • Le web sémantique est une évolution coordonnée du web (lancée entre autre par le W3C), une initiative collective dans laquelle chacun à son niveau travaille pour rendre les contenus web plus intelligibles, plus accessibles par les programmes et les machines.
  • L’enrichissement sémantique de l’information est une méthode de travail consistant à donner du sens aux fichiers/informations afin qu’elles soient traitées plus intelligemment par les machines et les applications.

Evidemment le web sémantique ne se fera que par la coordination d’une multitude de travaux d’enrichissement sémantique. La différence vous paraît peut-être minime mais elle est selon moi très importante car le traitement sémantique est une discipline déjà bien répandue alors que le web sémantique est encore une utopie, une vision, un idéal vers lequel nous tendons tous. D’ailleurs, beaucoup de travaux de traitement sémantique ne participent pas du tout au web sémantique car ils ne sont pas ouverts (je pense notamment aux outils de knowledge management).

L’enrichissement sémantique est une étape vers le web sémantique.

L’enrichissement sémantique de l’info

Comme je le disais plus haut, il s’agit de donner du sens aux informations pour que les machines/programmes puissent mieux les gérer. Et pour cela, on utilise des métadonnées (des données à propos d’une donnée). Bref, en résumé, l’enrichissement sémantique consiste à rendre un fichier plus intelligible en l’enrichissant avec des informations supplémentaires : des métadonnées. Il existe plusieurs couches de métadonnées comme nous allons le voir ci-dessous.

Un fichier (ici une photo) n’est pour le système qu’une compilation de 0 et de 1. Difficile alors pour celui-ci de traiter ce fichier intelligement (ne serait-ce que pour l’ouvrir, le système n’a pas moyen de savoir avec quelle application il doit le faire)

  1. Les métadonnées dites « système » apportent une première couche d’information concernant ce fichier. Elles permettent au système de connaître le type de fichier (jpg), l’auteur, la date de création, la taille du fichier, les dimensions de l’image… Grâce à ces métadonnées le système en sait déjà un peu plus sur le fichier, il va pouvoir le traiter un peu plus intelligement : afficher une vignette, lancer la bonne application, le ranger au bon endroit…
  2. Les métadonnées d’usage sont une couche supérieure qui apportent des informations « statistiques » sur l’utilisation du fichier : combien de fois il a été ouvert, par qui, combien de temps… Cette couche de metadonnées est à l’origine du web 2.0 car c’est elle qui permet de faire des recommandations sociales (collaborative filtering) : le système vous recommande ce fichier car il sait que les autres utilisateurs l’ont tous ouvert (c’est le fameux système de recommandation d’Amazon).
  3. La couche suivante est celle de la taxinomie. Elle existe depuis longtemps en informatique mais s’est démocratisée avec le web 2.0.  Ici c’est l’utilisateur lui-même qui rajoute du sens au fichier en le décrivant avec une série de mot-clefs ou tags. Par recoupement, le système va pouvoir ordonner les fichiers selon ces tags. Le problème, c’est que l’utilisateur a beau avoir taggué sa photo avec le mot « papa », le système n’en déduit pas pour autant que la photo représente le père de celui-ci. Il est juste capable de faire le lien avec les autres fichiers qui ont été tagués « papa » (et éventuellement « père » ou « dad » ou « daddy » si le système utilise en plus la synonimie). D’où la nécessité de rajouter une couche de métadonnées supplémentaires pour que le système comprenne vraiment le sens.
  4. La dernière couche de métadonnées est celle des concepts. C’est la plus importante dans le domaine du traitement sémantique et la plus compliquée à mettre en place. L’idée est de convertir toutes les informations présentes dans les couches inférieurs en concepts intelligibles. L’objectif de cette couche est de permettre au système de comprendre par exemple que le fait que l’utilisateur ait tagué une photo « papa » signifie probablement que son père est présent sur la photo. Ce travail est extrêmement complexe car dans notre exemple « papa » pourrait désigner aussi l’utilisateur lui-même qui est sur la photo avec son fils, ou alors que la photo a été prise par « papa », ou encore qu’elle a été prise dans le cadre d’un évènement relatif à « papa ».
    Dans notre exemple, l’objectif de cette dernière couche de métadonnées se résume à permettre au système de « comprendre »  que le fichier DCF20110812-56489.jpg est « une photo de vacances, de qualité médiocre, du père de l’utilisateur courant sur la plage »…

Résultante de la représentation des connaissances, la couche des métadonnées de concept est encore très expérimentale et c’est la seule qui mérite selon moi le qualificatif de « sémantique ».

Comment construire la couche conceptuelle ?

La couche conceptuelle s’appuie sur une ontologie (un moyen de représenter formellement les connaissances) qui désigne en informatique un modèle de données représentant un ensemble de concepts et des relations entre eux. L’enrichissement sémantique consiste alors à :

1/ Créer une ontologie, c’est-à-dire modéliser un domaine de concepts (la médecine, les vacances, l’enfance…) et créer des schémas de description.

2/ Créer un moteur d’enrichissement (l’engrenage sur mon schéma) qui va faire le lien entre un fichier (et ses métadonnées existantes) et un ou plusieurs schémas de description.

Les métadonnées existantes, plus des infos de sources de données externes, associées aux schémas de description de l’ontologie vont permettre au moteur de raisonnement d’associer des concepts au fichier, bref de « comprendre ».

Enrichissement sémantique Laurent Assouad

Note : je parle de fichier dans mon exemple, mais tout cela s’applique également à des données de toutes sortes (objets dans une page HTML, entrée dans une base de données…)

Conclusion

La sémantique appliquée à l’informatique et au web est un vaste domaine qui comprend un grand nombre d’acteurs. Certains oeuvrent pour le web sémantique à définir des méthodes pour rendre les données plus intelligibles et connectées. D’autres travaillent sur des projets concrets d’enrichissement de données. D’autres encore se contentent d’exploiter les infimes données sémantiques déjà existantes pour améliorer leurs services (comme le graph social par exemple)…

Une chose est sure, l’enrichissement sémantique est une discipline encore très expérimentale mais son potentiel de développement est énorme et ses applications infinies.

Et n’oubliez pas : pour garder une donnée fraîche, prenez un sémantic-tac… …Pardon :-(

Crédits :: cet article a été rédigé en collaboration avec mes associés Benjamin Habegger et Bastien Marot.

Published inEntreprise 2.0

Be First to Comment

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *