Aller au contenu

Unicode

La norme ISO-10646 définit un « jeu universel de caractères ».
Elle associe à chaque caractère un nom et un numéro (appelé point de code). De plus, elle est rétro-compatible avec la norme ASCII (codes de U+0000 à U+007F).

En Unicode, chaque caractère est représenté sous la forme d’un bloc U+xxxx (xxxx est un hexadécimal de 4 à 6 chiffres, entre U+0000 et U+10FFFF). La plage ainsi définie permet d'attribuer jusqu'à 1 114 112 caractères.

Exemple

U+2735 est le point de code du caractère '✵' aussi appelé « Eight Pointed Pinwheel Star ».
La fonction chr() de Python agit aussi sur l'unicode :

>>> '\u2735'
'✵'
>>> chr(10037)
'✵'

Le standard Unicode définit plusieurs techniques d'encodages (UTF-8, UTF-16, UTF-32) des points de code. L'encodage le plus utilisé est l'UTF-8, qui code les caractères sur 1 à 4 octets.