Illustrations des comportements adoptés par Netscape Composer

en matière de sauvegarde
suivant le codage choisi par l'utilisateur.

Pour bien faire voir  que la sauvegarde sur disque 
ne se borne pas à un transfert d'octets,
mais comporte des opérations complexes
qu'il convient de paramétrer avec soin.

On choisit les trois codages qui nous intéressent le plus directement : UTF-8, Mac Roman et iso-8859-1.

Texte observé (via la commande more) contenant du français, du turc et de la devanagari,
ainsi que des caractères spéciaux pour la translittération :

जन वाणी, translittéré officiellement jan vāṇī
c'est-à-dire, en français La voix du peuple
ve Türkçede Halkın sesi


  1. Lorsque le codage choisi est UTF-8, tout est enregistré en UTF-8, bien sûr.
    On observe donc des triplets d'octets pour les caractères nagari, des doublets pour les autres caractères non-ascii,
    à l'exception du "" qui translittère la cérébrale nasale "ण",
    qui a le numéro 7751 = x1E47 LATIN SMALL LETTER N WITH DOT BELOW
    et  qui a donc un code UTF-8 sur 3 octets : <E1><B9><87>.

    On ne trouve aucun octet seul (sauf, bien entendu, les caractères ascii).
    Pour faciliter l'examen, les octets en question sont ici mis en gras :

    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
    <html><head><meta content="text/html; charset=UTF-8" http-equiv="content-type"><title>Texte</title></head>
    <body>

    <hr style="width: 100%; height: 2px;">

    <E0><A4><9C><E0><A4><A8> <E0><A4><B5><E0><A4><BE><E0><A4><A3><E0><A5><80>, translitt<C3><A9>r<C3>
    <A9>
    officiellement <big><span style="font-family: monospace;">jan v<C4><81><E1><B9><87><C4><AB> </span></big><br>

    c'est-<C3><A0>-dire, en fran<C3><A7>ais <span style="font-style: italic;">La voix du peuple<br></span>
    <span style="font-family: monospace;">ve T<C3><BC>rk<C3><A7>ede
    <span style="font-style: italic;">Halk<C4><B1>n sesi</span></span><b
    r>

    <hr style="width: 100%; height: 2px;"></body></html>


  2. Lorsque le codage est Mac Roman (codage indigène), les lettres accentuées
    et autres caractères disponibles en Mac Roman (y compris le i sans point turc : <F5>)
    sont enregistrés en un seul octet,
    mais les caractères étrangers sont codés en entités &#numérodécimal;
    on voit donc comparaître notre "" sous son vrai nom &#7751;.
    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
    <html><head><meta content="text/html; charset=x-mac-roman" http-equiv
    ="content-type"><title>Texte</title></head>
    <body>
    <hr style="width: 100%; height: 2px;">

    &#2332;&#2344; &#2357;&#2366;&#2339;&#2368;,
    translitt<8E>r<8E>
    officiellement <big><span style="font-family: monospace;">jan v&#257;&#7751;&#299; </span></big><br>
    c'est-
    <88>-dire, en fran<8D>ais <span style="font-style: italic;">La voix du peuple<br></span>
    <span style="font-family: monospace;">ve T
    <9F>rk<8D>ede
    <span style="font-style: italic;">Halk<F5>n sesi</span></span><br>

    <hr style="width: 100%; height: 2px;"></body></
    html>


  3. Lorsque le codage est iso-8859-1, en revanche,
    tous les caractères non-ascii qui ont des représentations en entités HTML sont représentés ainsi (lettres accentuées, cédilles),
    les autres étant donnés par leurs numéros Unicode comme ci-dessus.
    On note que le i sans point ne possède pas d'entité HTML prédéfinie et qu'il apparaît donc sous son numéro Unicode.

    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
    <html><head><meta content="text/html; charset=ISO-8859-1" http-equiv="content-type"><title>Texte</title></head>
    <body>
    <hr style="width: 100%; height: 2px;">

    &#2332;&#2344; &#2357;&#2366;&#2339;&#2368;, translitt&eacute;r&eacute;
    officiellement <big><span style="font-family: monospace;">jan v&#257;&#7751;&#299; </span></big><br>
    c'est-&agrave;-dire, en fran&ccedil;ais <span style="font-style: italic;">La voix du peuple<br>
    </span><span style="font-family: monospace;">ve T&uuml;rk&ccedil;ede
    <span style="font-style: italic;">Halk&#305;n sesi</span></span><br>

    <hr style="width: 100%; height: 2px;"></body></html>