Traitement informatique
des jeux de caractères
MASTER PLURITAL
Gestion
informatique du Multilinguisme (GIM)
Jean-François Perrot & Marie-Anne Moreaux
L'examen a eu lieu le mardi 24 janvier 2012, à
Nogent,
de 14h à 17h (examen
sur table, tous documents autorisés)
Les examens des années précédentes, avec leurs corrigés, sont accessibles via les archives
annuelles
- mais notez bien que le cours évolue, et l'examen aussi !
Voici un corrigé.
- Présentation
- Plan d'ensemble
- Plan de
marche 2011-2012 (modifié le 6/11/2011)
-
Présentation
- Ce site est en premier lieu consacré au cours GIM
du master
Plurital (universités Paris-III, Paris-X et INaLCO).
Il a aussi pour ambition de constituer une ressource présentant un
choix de problèmes rencontrés dans la pratique,
et proposant des solutions.
En tant que cours, il s'adresse à des étudiants linguistes, confrontés
aux difficultés qu'éprouvent les ordinateurs à échanger des textes dans
des langues différentes - que ce soit des corpus, des pages web ou de
simples méls. Ces difficultés ont pour origine des choix techniques
fondamentaux, qui sont rarement explicités à l'usage des informaticiens
eux-mêmes et encore plus rarement à l'intention des profanes. Or, ces
choix n'ont rien de mystérieux, ils relèvent d'une problématique facile
à saisir et d'un intérêt certain, surtout pour des linguistes. Enfin,
le standard Unicode, en voie de généralisation, apporte une solution
qu'on peut espérer définitive à ces difficultés.
D'autre part, l'explosion de la communication sur Internet, favorisée
par l'adoption d'Unicode, alliée à la puissance et aux
capacités typographiques des ordinateurs modernes, offre à la pratique
du multilinguisme sur ordinateur un champ chaque jour plus
étendu. Pour en profiter pleinement, il est donc plus que jamais utile
de comprendre les enjeux de la rubrique Encodage
du texte
!
- Ce cours se donne les buts suivants :
- Comprendre la nature des problèmes
posés
par la représentation des systèmes d'écriture dans un ordinateur
(codage des caractères dans les fichiers, affichage à l'écran et saisie
au clavier)
- Connaître les principales
solutions disponibles (codages sur 8 bits comme Latin-1, format UTF-8
d'Unicode).
Unicode fera l'objet d'une attention particulière.
- Savoir mettre en œuvre une gamme d'outils dans les
situations
les plus
fréquemment rencontrées en pratique.
-
Plan d'ensemble
- Introduction et soubassement technique,
- Nature de l'information : Bits, Octets, Caractères,
le
code ASCII à 7 bits
- Problèmes matériels (processus de lecture,
d'écriture,
de transmission).
- Les tables sur 8 bits
- Extensions du code ASCII
- Variations suivant les plates-formes
- Diversité géographique
- Unicode
- Principe, format UTF-8
- Problèmes d'écriture bidirectionnelle, de tri
alphabétique, de caractères combinés
- Exemples de mise en œuvre en divers langages de
programmation
-
Plan de
marche 2011-2012
Les pages web qui sont données ici sont celles du cours 2010-2011.
Elles seront mises à jour progressivement.
Pour vous tenir au courant,
abonnez-vous au fil RSS !
- 04/10 - Cours 1 : Des
octets au code ASCII
- 11/10 TPs 1
- 18/10 - Cours 2 : Caractères,
Glyphes et Polices
Problèmes généraux du texte sur machine :
saisie, sauvegarde, affichage, transmission
- 25/10 - TPs 2
-------- 01/11 Toussaint : férié --------
- 08/11 - Cours 3 : Codes
sur 8 bits
Histoire de la normalisation ASCII (89)
Idée des ASCII étendus (extensions européennes : lettres diacritisées
et extensions différentes : arabe, hébreu, etc.)
et des variations selon les plateformes.
-------- 15/11 Ni cours ni TP : absence
simultanée des deux
enseignants --------
- 22/11 - TPs 3
- 29/11 - Cours 4 : Unicode
(1)
Principe - format UTF-8
- 06/12 - TPs 4
- 13/12 - Cours 5 : Unicode
(2)
Algorithme droite-gauche, ordre alpha, caractères
combinés
-------- Vacances de Noël --------
- 03/01/2012 : TPs 5
- 10/01/2012 : TPs 6
le Cours 6 : Exemples
de mise en œuvre
Programmation en C et en JavaScript
est supprimé
- Examen entre le 16 et le 28 janvier.