UTF (Unicode Transformation Format)

UTF is een coderings-vertaler (vergelijkbaar met de ASCII standaard), die onbekende symbolen vertaald naar een specifieke taal (Engels, Latijns, etc.).

Voorbeeld: Soms zie je plotseling vreemde tekens in teksten. Dan zie je François in de plaats van François. UTF zorgt ervoor dat je alle tekens in de juiste taal kunt lezen.

Opgericht door enkele medewerkers van Xerox (Joe Becker) en Apple (Lee Collins en Mark Davis).

Waarom Unicode?


Unicode is ontstaan omdat de vorige systeem ASCII, maximaal 7 bits kon vertalen. Zo konden ook minder talen worden ondersteund. Unicode heeft dat verbeterd door de eerste standaard uit te brengen genaamd: Unicode 1.0.  Vervolgens werd de Unicode 1.1 gelanceerd die ruimte had voor 65000+ tekens. Helaas was dit ook niet voldoende, omdat de Chinese schrift alleen al bestaat uit maar liefst 25000 tekens. Met Unicode 2.0 werd dit aantal uitgebreid tot meer dan een miljoen.

Wat doet Unicode?


Unicode zorgt ervoor dat bytes makkelijk vertaald kunnen worden en leesbaar zijn in normale tekstvorm. Dit word gedaan door gebruik te maken van binaire getallen. De binaire getallen worden verbonden aan tekens, cijfers, etc. Dit word aangegeven als U+xxxx, waarvan de ‘x’ een getal toegewezen krijgt (min. 4 en max. 6).

Dit wordt bijvoorbeeld gebruikt om HTML- en XML-documenten te creëren en leesbaar te maken.

Om bytes in nummers, letters en symbolen te vertalen, word er gebruik gemaakt van binaire getallen.

[caption id="attachment_203058" align="alignnone" width="539"]Verschillende UTF Coderingsvormen Verschillende UTF Coderingsvormen[/caption]

Omdat computers data op verschillende manieren opslaan zijn er twee vormen van de 16 bit versie & 32 bit versie. Deze worden weer verdeeld in twee varianten: big-endian en little-endian. Ook bekend als Endianness. Dit is de manier waarop woorden die uit meerdere bytes bestaan, worden opgeslagen in het computergeheugen.

De manier waarop decimale getallen worden opgeschreven: Als eerst de belangrijkste cijfer en de minder belangrijke cijfers op volgorde hierna. Het belangrijkste einde word het “big end” genoemd, deze komt als eerst (big-endian). Bij getallen van 13 tot en met 99 word het minst belangrijke deel eerst genoemd (little endian).

[caption id="attachment_202996" align="alignnone" width="497"]Soorten tekens, nummers en symbolen. (UTP) Verschillende soorten tekens, nummers en symbolen die vertaald kunnen worden door Unicode[/caption]

Voordat Unicode bestond werd er gebruik gemaakt van honderden andere vertaler systemen. Met de komst van UTF is dit allemaal in één “systeem” en zo een stuk gemakkelijker.

Bronnen:

-      Wikipedia

-      FileFormat 
Reactie plaatsen