INaLCO - M2 Traductique  Cours XML 2010-2011

Jean-François Perrot

Une expérience avec RDF :
exploiter les nuances de Littré, mises en ligne par Frédéric Glorieux


  1. Bref résumé

  2. Plus précisément
    1. Sur l'ensemble du projet :
    2. Sur les nuances

  3. Les nuances en RDF
    1. Le format
    2. Son exploitation
      1. La requête de base :
      2. Amélioration : requête symétrique
      3. Quels sont les mots ayant plus d'un synonyme ?
      4. Un essai de fermeture transitive (glissements de sens...)
    3. La transformation XSLT
      1. Considérations de principe
      2. Réalisation

Bref résumé

Le projet en Java du cours M2-IM pour 2010-2011 concerne une nouvelle version électronique du Dictionnaire de la langue française, d'Émile Littré.
Étant donné la richesse et la variété des citations, remarques et indications diverses que l'auteur a intégrées dans son ouvrage, le Littré est un monument de la langue.
Le but du projet est donc d'explorer l'usage du dictionnaire non plus en consultation (chercher des informations sur un mot donné), mais comme une source de connaissances linguistiques, comme un corpus.
La communication présentée par l'équipe du M2-IM à la Journée d’étude Lexicographie et Informatique, le 21 janvier dernier à Cergy, s'intitulait le dictionnaire comme corpus.

Un premier exemple de cette démarche est proposé par Frédéric Glorieux : il a rassemblé les indications données par Littré sur les nuances entre mots de sens voisins, dans la ligne des dictionnaires de synonymes, et il traite cet ensemble comme un document à lire ou a consulter.
Regardez...

L'expérience que je propose ici est d'extraire du document de Frédéric une petite base de données en RDF, commodément interrogeable en SPARQL.
Cette extraction se fait très simplement par une transformation XSLT de 30 lignes.
On doit pouvoir aller beaucoup plus loin !

Plus précisément

Les nuances en RDF