INaLCO - M2 Traductique 2013-2014
Projet commun aux cours
-
Langages de scripts/Perl (Océane Hồ Đình),
-
XML (Jean-François Perrot).
- But du projet
- Moyens employés
- Modalités
-
- Engendrer (et
afficher) un histogramme à partir
d'un corpus de
textes, précisément l'histogramme de la fréquence de la longueur
des phrases.
On disposera de deux sous-corpus ( textes informels
et textes institutionnels)
et on représentera les deux histogrammes sur le même diagramme, en les
distinguant par la couleur.
- Les corpus seront en
format XML, exporté du logiciel TXM, à
raison d'un fichier XML par texte.
On créera un fichier XML unique pour l'ensemble du corpus, auquel on
ajoutera des informations nécessaires (nombre de mots par phrase, ou de
phrases par texte, de mots par texte, de textes dans le corpus, de
phrases dans le corpus, de mots dans le corpus, etc).
- On traitera donc 3
types de fichiers
XML (fichier simple de
sortie TXM - fichier unique du corpus - corpus enrichi), dont la
structure sera spécifiée par 3 grammaires RNG (à écrire).
À chaque étape, on vérifiera la conformité des fichiers XML par rapport
à la grammaire adéquate.
-
- L'affichage de
l'histogramme sera confié au
logiciel XML/SWF
Charts
(dont une version prête à l'emploi sera fournie).
Ce logiciel demande que les données lui soient présentées sous
la forme d'un fichier XML.
- L'enrichissement du corpus par des données numériques
sera
effectué par une transformation XSLT (à écrire).
- La production du fichier XML de l'histogramme à partir du
corpus
enrichi sera programmée en Perl.
- Perl sera également employé pour l'ensemble du
traitement, la
gestion des répertoires et des fichiers.
Les appels à xmllint
pour les tests de conformité, et à xsltproc
pour la transformation XSLT, seront lancés depuis Perl par backquote.
-
- Documents à
livrer
par chaque étudiante :
- 3 grammaires
en
format compact RNC (le format XML étant produit automatiquement)
- une feuille de
style XSLT (enrichissement du corpus)
- un script Perl
exécutable
- un rapport
exposant les problème rencontrés et les solutions retenues (en pdf).
- Calendrier :
- Présentation
orale le jeudi 10 avril à 15h (dernière séance de cours d'Océane).
- Envoi des
documents (répertoire zippé via email) le mercredi 9 avril avant 20h.