Traitement informatique
des jeux de caractères
MASTER PLURITAL
Gestion
informatique du Multilinguisme (GIM)
Jean-François Perrot & Marie-Anne Moreaux
L'examen a eu lieu le mardi 15 janvier
2013, de 12h à 15h, au PLC,
salle 4.10
Consultez le corrigé.
Tous documents autorisés
Une première version du cours du 18/12/2012 : Perl, expressions régulières & Unicode est en ligne.
- Présentation
- Plan d'ensemble
- Plan de
marche 2012-2013
-
Présentation
- Ce site est en premier lieu consacré au cours GIM
du master
Plurital (universités Paris-III, Paris-X et INaLCO).
Il a aussi pour ambition de constituer une ressource présentant un
choix de problèmes rencontrés dans la pratique,
et proposant des solutions.
En tant que cours, il s'adresse à des étudiants linguistes, confrontés
aux difficultés qu'éprouvent les ordinateurs à échanger des textes dans
des langues différentes - que ce soit des corpus, des pages web ou de
simples méls. Ces difficultés ont pour origine des choix techniques
fondamentaux, qui sont rarement explicités à l'usage des informaticiens
eux-mêmes et encore plus rarement à l'intention des profanes. Or, ces
choix n'ont rien de mystérieux, ils relèvent d'une problématique facile
à saisir et d'un intérêt certain, surtout pour des linguistes. Enfin,
le standard Unicode, en voie de généralisation, apporte une solution
qu'on peut espérer définitive à ces difficultés.
D'autre part, l'explosion de la communication sur Internet, favorisée
par l'adoption d'Unicode, alliée à la puissance et aux
capacités typographiques des ordinateurs modernes, offre à la pratique
du multilinguisme sur ordinateur un champ chaque jour plus
étendu. Pour en profiter pleinement, il est donc plus que jamais utile
de comprendre les enjeux de la rubrique Encodage
du texte
!
- Ce cours se donne les buts suivants :
- Comprendre la nature des problèmes
posés
par la représentation des systèmes d'écriture dans un ordinateur
(codage des caractères dans les fichiers, affichage à l'écran et saisie
au clavier)
- Connaître les principales
solutions disponibles (codages sur 8 bits comme Latin-1, format UTF-8
d'Unicode).
Unicode fera l'objet d'une attention particulière.
- Savoir mettre en œuvre une gamme d'outils dans les
situations
les plus
fréquemment rencontrées en pratique.
- Le contrôle des connaissances se fait par un examen écrit
classique de 3h, avec accès illimité à out document, y compris Internet.
Pour en savoir plus, voyez les archives
des examens passés.
-
Plan d'ensemble
- Introduction et soubassement technique,
- Nature de l'information : Bits, Octets, Caractères,
le
code ASCII à 7 bits
- Problèmes matériels (processus de lecture,
d'écriture,
de transmission).
- Les tables sur 8 bits
- Extensions du code ASCII
- Variations suivant les plates-formes
- Diversité géographique
- Unicode
- Principe, format UTF-8
- Problèmes d'écriture bidirectionnelle, de tri
alphabétique, de caractères combinés
- Exemples de mise en œuvre en divers langages de
programmation
-
Plan de
marche 2012-2013
Les cours ont lieu au PLC, salle 509, de 12h
à
15h.
Les TDs ont lieu au PLC, salle 703 en deux groupes
- de 12h à 13h30 pour le groupe 1
- de 13h30 à 15h pour le groupe 2.
La répartition en 2 groupes sera effectuée lors du premier cours, le 2
octobre.
Les pages web qui sont données ici sont celles du cours 2011-2012.
Elles seront mises à jour progressivement.
Pour vous tenir au courant,
abonnez-vous au fil RSS du cours GIM !
- 02/10 Cours 1 : Des
octets au code ASCII
- 09/10 TDs 1
- 16/10 - Cours 2 : Caractères,
Glyphes et Polices
Problèmes généraux du texte sur machine :
saisie, sauvegarde, affichage, transmission
- 23/10 - TDs 2
-------- 29/10 - 3/11 congés d'automne --------
- 06/11 - Cours 3 : Codes
sur 8 bits
Histoire de la normalisation ASCII (89)
Idée des ASCII étendus (extensions européennes : lettres diacritisées
et extensions différentes : arabe, hébreu, etc.)
et des variations selon les plateformes.
- 13/11 - TDs 3
- 20/11 - Cours 4 : Unicode
(1)
Principe - format UTF-8
- 27/12 - TDs 4
- 04/12 - Cours 5 : Unicode
(2)
Algorithme droite-gauche, ordre alpha, caractères
combinés
- 11/12 : TDs 5
- 18/12 - Cours 6 : Exemples
de mise en œuvre
Programmation en C et en JavaScript
-------- Vacances d'hiver --------
- 08/01/2013 - TDs 6
L'examen aura lieu le mardi 15 janvier
2013, de 12h à 15h, au PLC,
salle 4.10
Tous documents autorisés