Qu’est-ce que Unicode?

UN

Qu'est-ce qu'Unicode ?

Le mot écrit est construit non seulement sur une orthographe correcte, mais aussi sur une ponctuation correcte. Il n'est donc pas surprenant que lorsque les langues du monde sont exprimées sous forme écrite, elles comportent des lettres (ou des caractères), des signes de ponctuation et des signes diacritiques spéciaux. Nous les utilisons tous les jours lorsque nous écrivons physiquement. Ce que vous interprétez comme des symboles, cependant, votre ordinateur l'interprète comme un code binaire, des systèmes de nombres ou des codages . Bien qu'il s'agisse principalement de 1 et de 0, ils forment une interface complexe entre notre langage et celui de la machine. Dans le passé, ces encodages qui aidaient les ordinateurs à traiter les symboles et les caractères étaient plutôt compacts, ce qui rendait difficile la représentation de toutes les langues du monde et de leurs symboles constitutifs dans des fichiers texte. À un moment donné, il était difficile de représenter même l'anglais dans un seul encodage ! Puis vint Unicode. Mais

Qu'est-ce qu'un texte Unicode ?

Unicode est une norme universelle de codage de caractères. Il spécifie comment les caractères sont représentés dans les fichiers texte, les pages Web en ligne et de nombreux autres types de documents. Ci-dessus, nous avons mis en évidence les normes de codage plus compactes du passé, une populaire étant ASCII. Contrairement à ASCII, qui a été construit autour de la seule langue anglaise, Unicode a été conçu dans le but de représenter des symboles et des caractères de langues du monde entier, avec un support d'environ 1 000 000 000 de caractères différents. Fidèle à l'avantage d'Unicodes, ASCII ne prend en charge que 128 caractères. Essentiellement, le texte Unicode est capable de représenter sans ambiguïté n'importe quel caractère, signe de ponctuation, signe diacritique de n'importe laquelle des langues connues et écrites du monde.

Pour jouer avec l'idée, imaginez ce qui se passe réellement lorsque vous modifiez la police dans un document. Ces caractères fantaisistes et artistiques qui remplacent le texte par défaut fade et ennuyeux font également partie des spécifications de votre texte Unicode. En effet, parmi les centaines de caractères qui constituent vos spécifications de texte Unicode existent des variantes de votre alphabet actuel. Ces variantes sont liées à leur alphabet normal équivalent afin que votre ordinateur sache exactement quoi remplacer (et par quels caractères) lorsque vous sélectionnez Times New Roman par exemple.

Comment ça fonctionne

Comme nous l'avons mentionné précédemment, votre ordinateur parle le langage des nombres, en particulier le code binaire. Dans le cas des encodages de caractères, votre ordinateur attribue un numéro à chacun des caractères inclus dans la norme d'encodage des caractères. Unicode fournit à chaque caractère un numéro unique (considérez-le comme l'ID des caractères) de sorte que, quelle que soit la plate-forme ou l'appareil sur lequel la langue est utilisée, le caractère reste facilement défini. Chaque caractère peut avoir une taille maximale de 4 octets. Pour comprendre les implications de cette allocation de taille, repensez à la façon dont ASCII ne prend en charge que 128 caractères. Cela n'est pas surprenant étant donné que l'ASCII n'utilise qu'un seul octet par caractère. Essentiellement, il a moins d'identifiants à dédier aux caractères individuels qu'Unicode.

Encodages Unicode populaires

Les types d'encodages Unicode les plus populaires sont les normes UTF-8 et UTF-16 (bien qu'il existe de nombreux autres types d'encodages). De nombreux logiciels et pages Web utilisent désormais la norme UTF-8 comme encodage standard. Vous constaterez que bien qu'il prenne en charge jusqu'à 4 octets par caractère, UTF-8 accorde une allocation de mémoire inférieure aux caractères les plus couramment utilisés. C'est au nom de l'augmentation de l'efficacité. Par conséquent, les caractères de la langue anglaise sont représentés sur un octet. Les caractères arabes, latins et hébreux sont représentés sur 2 octets et les caractères asiatiques sont représentés sur 3 octets. L'allocation complète de quatre octets est généralement réservée à tous les caractères supplémentaires en dehors de cette portée.

Uniformité

Le principal avantage d'Unicode est l'uniformité qu'il a apportée à l'interprétation des données dans le monde entier. Auparavant, les fichiers texte et les pages Web étaient vulnérables aux encodages conflictuels qui attribuaient le même numéro à différents caractères ou différents numéros au même ! Les ordinateurs étaient surchargés de devoir prendre en charge plusieurs encodages pour comprendre les documents et les pages Web tout en courant le risque de corruption des données lors des transferts. Avec Unicode, le monde informatique a acquis un sentiment de polyvalence dans la compatibilité multiplateforme de cette norme universelle de codage de caractères. Il facilite une partie importante des principaux systèmes d'exploitation, navigateurs et moteurs de recherche du monde. En fait, Internet et le World-Wide Web doivent l'universalité de la définition des caractères à Unicode.

Ir arriba