Code ASCII et Entités HMTL : principe et fonctionnement des caractères spéciaux
Si l’ordinateur est une invention des plus extraordinaires qui a permis de donner naissance à une multitude d’avancées technologiques, cela reste (pour le moment) une grosse machine à calculer. Tout ce qu’il fait, c’est effectuer des calculs sur des nombres.
Aussi, en dehors des intelligences artificielles, un ordinateur est incapable de comprendre le texte et se contente de représenter les lettres et les caractères spéciaux par le biais de nombres. Pour améliorer cela, différentes conventions et différents codes ont été établis.
Les caractères spéciaux en ASCII
L’ASCII ou l’American Standard Code for Information Interchange est l’une des conventions les plus connues. C’est un standard américain, l’un des plus utilisés sur la plupart des ordinateurs.
Le code ASCII définit la correspondance entre les symboles et les nombres, de 0 à 127. Aussi, par exemple pour représenter un « A » en ASCII, il faut utiliser le nombre 65, un « ! », et le code 33...
Il faut toutefois noter que les codes inférieurs à 32 sont des codes dits de contrôle, ils ne sont pas faits pour être affichés, le code 10 permet d’aller à la ligne, le 7 fait biper l’ordinateur...
Mais là où l’ASCII connait ses limites, c’est qu’il se réfère qu’à la seule langue anglaise. Il ne possède aucun caractère accentué, et encore moins de caractères spéciaux employés dans d'autres langues comme le chinois ou le japonais.
Même s’il existe les codes de 128 à 255 pour les accents, ces codes sont différents d’un pays à l’autre. Ainsi, l’UNICODE utilise des codes de valeurs bien plus grandes, il permet de représenter tous les caractères spécifiques aux différentes langues. D'ou l'évolution vers le langage unicode.
Les caractères spéciaux en HTML
Le HTML ou HyperText Markup Language est un langage utilisé pour écrire des pages Web. Le HTML moderne a pour ambition que toute page Internet, écrite dans n’importe quelle langue, puisse être lue n’importe où ailleurs dès lors que l'on dispose des caractères adéquats.
Un certain nombre de caractères sont alors accessibles au moyen d’entités HTML, des sortes d'expressions mémotechniques donnant une description abrégée du caractère. Toutes les entités ont été définies par le consortium W3C.
Ces entités s’emploient entre un « & » initial et un « ; » final. On code « é » pour obtenir « é », « è » pour « è », « ô » pour « ô »... À part des caractères mathématiques ou graphiques, ces entités donnent accès aux caractères diacritiques des principales langues latines, les lettres sont modifiées par diverses formes d’accents ou de cédilles.
Cette limitation initiale qui a été corrigée ici, traduit le fait historique que le HTML s’est développé dans une communauté occidentale à dominante anglo-saxonne.