Kódovanie a šifrovanie

Kódovanie textu

Na rozdiel od čísel, znaky textu nevieme previesť do dvojkovej sústavy, preto bolo potrebné vymyslieť iný spôsob ako jednoznačne priradiť určitému znaku práve jednu kombináciu núl a jednotiek, ktorá tento znak v počítači bude reprezentovať. Keďže neexistuje žiadny univerzálny spôsob ako to urobiť, každý výrobca počítačov tento problém riešil iným spôsobom, preto existuje viacero znakových kódov. Poriadok do tohto chaosu sa snažil zaviesť americký úrad pre normalizáciu, ktorý vyhlásil jeden spôsob, ktorý by mali všetci používať. Tento spôsob kódovania sa volá ASCII – American Standard Code for Information Interchange (Americký štandardný kód pre výmenu informácií).

Tento štandard hovorí, že na zakódovanie každého znaku sa použije 7 bitov. Čo umožňovalo definovať kód pre 128 znakov. Neskôr sa kódovanie rozšírilo na 8 bitov a 256 znakov. Pritom prvá polovica znakov je pre všetky krajiny rovnaká a zvyšných 128 znakov sa pre každú krajinu stanovil podľa ich potrieb. Tento spôsob vniesol do kódovania znakov chaos (veľmi veľké množstvo regionálnych znakových sád), navyše pre znaky niektorých písiem 7-bitový priestor nestačil. Vznikol preto nový spôsob kódovania UNICODE.

Toto kódovanie používa 16 a 24 bitov (2 či 3 bajty) na zakódovanie jedného znaku, čo umožňuje zakódovať cca 1,1 milióna možných znakov. Tento počet znakov umožňuje zakódovať znaky všetkých relevantných abecied pomocou jednej medzinárodnej tabuľky. Toto kódovanie zabezpečuje, že ten istý znak má rovnaký kód v každej krajine i na každom type počítača.

Nevýhodou tohto kódovania je, že znaky, ktoré sme predtým vedeli zakódovať iba ôsmimi bitmi (jedným bajtom) v ACSII, v Unicode sú kódované 16 a 24 bitmi (dvomi a tromi bajtami), a teda zaberajú viac pamäte ako by zaberal text v kódovaní ASCII. Istým riešením tohoto problému je formát UTF-8. V tomto kódovaní je prvých 128 znakov tabuľky ASCII (tieto sú pre všetky krajiny rovnaké) zakódovaných pomocou 8 bitov a zvyšné znaky sú zakódované 16 a 24 či 32 bitmi (t.j. dvami, tromi alebo štyrmi bajtami). Toto kódovanie je výhodné pre anglicky hovoriace krajiny a krajiny, v ktorých väčšinu znakov textu tvorí len prvých 128 znakov tabuľky ASCII. Ďalšia výhoda je spätná kompatibilita so softvérom, pôvodne navrhnutým pre ASCII resp. 8-bitové znakové sady.

© 2020 kristina