Unicode☘
La norme ISO-10646 définit un « jeu universel de caractères ».
Elle associe à chaque caractère un nom et un numéro (appelé point de code).
De plus, elle est rétro-compatible avec la norme ASCII (codes de U+0000
à U+007F
).
En Unicode, chaque caractère est représenté sous la forme d’un bloc
U+xxxx
(xxxx
est un hexadécimal de 4 à 6 chiffres, entre U+0000
et
U+10FFFF
). La plage ainsi définie permet d'attribuer jusqu'à 1 114 112
caractères.
Exemple
U+2735
est le point de code du caractère '✵'
aussi appelé
« Eight Pointed Pinwheel Star ».
La fonction chr()
de Python agit aussi sur l'unicode :
>>> '\u2735'
'✵'
>>> chr(10037)
'✵'
Le standard Unicode définit plusieurs techniques d'encodages (UTF-8, UTF-16, UTF-32) des points de code. L'encodage le plus utilisé est l'UTF-8, qui code les caractères sur 1 à 4 octets.