Kódovacie tabuľky
Kódovacie tabuľky sú súbory, ktoré obsahujú mapovanie medzi znakmi a ich kódovými bodmi. Tieto tabuľky sa používajú na reprezentáciu znakov v textových formátoch, ako sú textové súbory, webové stránky, elektronická pošta a iné typy digitálnych komunikácií.
Úlohou kódovacích tabuliek je umožniť preklad medzi ľudsky čitateľnými znakmi a binárnymi číslami, ktoré počítače a digitálne zariadenia môžu spracovať. Znaky sú reprezentované pomocou číselných hodnôt, ktoré sa nazývajú kódové body.
Každý znakový súbor alebo formát textu môže používať rôzne kódovacie tabuľky, čo môže viesť k problémom s interpretáciou textu, ak sa používajú rôzne kódovacie schémy. Preto je dôležité, aby zariadenia alebo softvér, ktorý spracováva text, vedeli, ktorá kódovacia tabuľka sa používa pre správne interpretovanie znakov.
Najznámejšie kódovacie tabuľky sú ASCII (American Standard Code for Information Interchange) a Unicode.
Okrem nich existujú aj ďalšie: ISO 8859, Windows-1252, Shift-JIS
ASCII
ASCII bol pôvodný štandard pre reprezentáciu textu v počítačoch a elektronike. Definoval mapovanie znakov na čísla od 0 do 127, kde každý znak (ako písmená, číslice a špeciálne znaky) má svoje priradenie kódovému číslu. ASCII je jednobajtový kód, čo znamená, že každý znak je reprezentovaný jedným bajtom, teda 8 bitmi.
Pôvodný ASCII štandard obsahoval len 7 bitov, čo umožňovalo kódovať iba 128 znakov. Neskôr sa vytvorili rozšírenia ASCII, ktoré umožnili zahrnúť ďalšie znaky. Najznámejšie rozšírenie ASCII je tzv. "Extended ASCII" alebo "High ASCII", ktoré používa 8-bitové kódovanie a umožňuje kódovať až 256 rôznych znakov. V rámci Extended ASCII bolo možné pridať ďalšie znaky, napríklad rôzne diakritické znamienka pre písmená rôznych jazykov, špeciálne symboly a grafické znaky.
Je však potrebné poznamenať, že rôzne varianty Extended ASCII medzi sebou neboli kompatibilné a neboli ani štandardizované. To znamená, že znaky, ktoré sa mohli nachádzať na jednom mieste v jednej verzii Extended ASCII, mohli byť úplne odlišné od znakov na rovnakej pozícii v inej verzii. Táto situácia priniesla problémy medzi rôznymi počítačovými systémami a softvérovými aplikáciami, čo viedlo k vytvoreniu univerzálneho štandardu, ako je Unicode.
Unicode
Unicode je moderný štandard, ktorý sa používa na reprezentáciu textu vo viacerých jazykoch a písmach z celého sveta. Unicode poskytuje širšie spektrum možností, keďže umožňuje reprezentovať až 2^20 znakov, čo je 1 048 576. Pretože Unicode podporuje tak veľké množstvo znakov, vyžaduje väčšiu pamäťovú kapacitu na ich reprezentáciu. Prevažná časť Unicode znakov je reprezentovaná pomocou viacbajtových kódov, čo umožňuje kódovať aj znaky, ktoré nie sú obsiahnuté v pôvodnom ASCII.
Unicode používa formát U+XXXX, kde XXXX je šestnástkové číslo reprezentujúce kódový bod znaku. Unicode obsahuje rovnaké kódovanie pre pôvodné znaky z ASCII. To znamená, že prvých 128 znakov (kódové body od 0x0000 do 0x007F) zodpovedá pôvodnému ASCII kódovaniu.
Kódovacie schémy Unicode
Kódovacie schémy určujú, ako sú znaky kódované do binárnej podoby pre ukladanie a prenos cez počítačové systémy.
UTF-8 (Unicode Transformation Format - 8-bit) je jedna z viacerých kódovacích schém pre Unicode. Má variabilnú dĺžku kódovania, čo znamená, že jednotlivé znaky môžu byť kódované pomocou rôzneho počtu bajtov, minimálne však 1 byte (8 bitov). UTF-8 je schopný reprezentovať všetky znaky Unicode a je najčastejšie používaným kódovaním textu na webových stránkach a v mnohých softvérových aplikáciách.
Ďalšie kódovacie schémy pre Unicode: UTF-16, UTF-32, UTF-7, UTF-EBCDIC
Zadávanie špeciálnych znakov pomocou kódových bodov
V rôznych operačných systémoch sa dajú zadávať špeciálne znaky rôznymi spôsobmi. Najuniverzálnejší spôsob je použitie kódových bodov.
V OS Windows
Podržte kláves ľavý Alt, na numerickej klávesnici napíšte decimálny kód z ASCII tabuľky a pustite ľavý Alt. Dôležité pritom je vždy napísať 4 cifry, napr. namiesto 166 (pre znak ¦) napíšte 0166.
V OS Linux
Použite klávesovú skratku Ctrl + Shift + U, napíšte hexadecimálny kód z tabuľky Unicode, napr. a6 (pre ¦) a stlačte Enter alebo Medzerník (Spacebar).