Asci tabulka je binární kód. Kódování textových informací

Dobrý den, milí čtenáři tohoto blogu. Dnes s vámi budeme hovořit o tom, odkud krakozyabry pocházejí na webu a v programech, jaká textová kódování existují a která by se měla používat. Podívejme se blíže na historii jejich vývoje, počínaje základním ASCII, i jeho rozšířenými verzemi CP866, KOI8-R, Windows 1251 a konče moderními kódováními Unicode Consortium UTF 16 a 8.

Někomu se tyto informace mohou zdát nadbytečné, ale víte, kolik otázek dostávám konkrétně s ohledem na vylezlé krakozyabrs (nečitelná znaková sada). Nyní budu mít příležitost všechny odkázat na text tohoto článku a samostatně hledat své zárubně. No, připravte se na vstřebání informací a pokuste se sledovat průběh příběhu.

ASCII - základní kódování textu pro latinku

Vývoj kódování textů probíhal souběžně s formováním IT průmyslu a za tuto dobu stihlo projít poměrně velkým množstvím změn. Historicky vše začalo EBCDIC, které bylo v ruské výslovnosti spíše disonantní, což umožnilo kódovat písmena latinské abecedy, arabské číslice a interpunkční znaménka s řídicími znaky.

Ale přesto by měl být výchozí bod pro vývoj moderních textových kódování považován za slavný ASCII(Americký standardní kód pro výměnu informací, který se v ruštině obvykle vyslovuje jako „aski“). Popisuje prvních 128 znaků nejčastěji používaných anglicky mluvícími uživateli – latinská písmena, arabské číslice a interpunkční znaménka.

I v těchto 128 znacích popsaných v ASCII byly některé servisní znaky, jako jsou závorky, pruhy, hvězdičky atd. Vlastně je můžete vidět sami:

Právě těchto 128 znaků z původní verze ASCII se stalo standardem a v jakémkoli jiném kódování se s nimi určitě setkáte a v tomto pořadí obstojí.

Faktem ale je, že pomocí jednoho bajtu informace je možné zakódovat nikoli 128, ale až 256 různých hodnot (dvě mocniny osmi se rovná 256), takže po základní verzi Asuka, celá řada rozšířené ASCII kódování, do kterého bylo možné kromě 128 základních znaků kódovat i symboly národního kódování (například ruské).

Zde pravděpodobně stojí za to říci něco více o číselných systémech, které se používají v popisu. Za prvé, jak všichni víte, počítač pracuje pouze s čísly ve dvojkové soustavě, konkrétně s nulami a jedničkami („Booleovská algebra“, pokud někdo studoval na ústavu nebo ve škole). , z nichž každý je dvojkou ve stupni počínaje nulou a až dvojkou v sedmém:

Není těžké pochopit, že všech možných kombinací nul a jedniček může být v takové konstrukci pouze 256. Převod čísla z dvojkového na desítkové je celkem jednoduchý. Stačí sečíst všechny mocniny dvou, nad kterými jsou jedničky.

V našem příkladu je to 1 (2 na mocninu nuly) plus 8 (dva na mocninu 3), plus 32 (dvě na pátou), plus 64 (na šestou) plus 128 (na sedmou) . Celkem dostane 233 v desítkovém zápisu. Jak vidíte, vše je velmi jednoduché.

Pokud se ale blíže podíváte na tabulku s ASCII znaky, uvidíte, že jsou zastoupeny v hexadecimálním kódování. Například "hvězdička" odpovídá v Asci hexadecimálnímu číslu 2A. Pravděpodobně víte, že hexadecimální číselná soustava kromě arabských číslic používá i latinská písmena od A (což znamená deset) do F (tedy patnáct).

No, pro převést binární na hexadecimální uchýlit se k následující jednoduché a vizuální metodě. Každý bajt informace je rozdělen na dvě části po čtyřech bitech, jak je znázorněno na výše uvedeném snímku obrazovky. Že. v každém půlbajtu lze do binárního kódu zakódovat pouze šestnáct hodnot (dvě až čtvrtá mocnina), které lze snadno reprezentovat jako hexadecimální číslo.

Navíc v levé polovině bajtu bude nutné znovu počítat stupně, počínaje nulou, a ne tak, jak je znázorněno na snímku obrazovky. Ve výsledku jednoduchými výpočty dostaneme, že na snímku obrazovky je zakódováno číslo E9. Doufám, že vám průběh mého uvažování a řešení tohoto rébusu bylo jasné. Nyní pojďme vlastně pokračovat v mluvení o kódování textu.

Rozšířené verze Asuka - kódování CP866 a KOI8-R s pseudografikou

Začali jsme tedy mluvit o ASCII, které bylo jakoby výchozím bodem pro vývoj všech moderních kódování (Windows 1251, Unicode, UTF 8).

Zpočátku obsahoval pouze 128 znaků latinské abecedy, arabské číslice a něco jiného, ale v rozšířené verzi bylo možné použít všech 256 hodnot, které lze zakódovat do jednoho bajtu informací. Tito. bylo možné přidat znaky písmen vašeho jazyka do Asci.

Zde bude nutné ještě jednou odbočit, abychom vysvětlili - Proč vůbec potřebujete kódování? texty a proč je to tak důležité. Postavy na obrazovce vašeho počítače jsou tvořeny na základě dvou věcí – sady vektorových tvarů (reprezentací) všech druhů znaků (jsou v co souborech) a kódu, který vám umožní vytáhnout z této sady vektorových tvarů ( soubor písma) přesně ten znak, který potřebujete vložit na správné místo.

Je jasné, že fonty jsou zodpovědné za samotné vektorové formy, ale za kódování je zodpovědný operační systém a programy v něm použité. Tito. jakýkoli text ve vašem počítači bude sadou bajtů, z nichž každý zakóduje jeden jediný znak právě tohoto textu.

Program, který zobrazuje tento text na obrazovce (textový editor, prohlížeč atd.), při analýze kódu načte kódování dalšího znaku a hledá odpovídající vektorovou formu v požadovaném souboru písma, který je připojen k zobrazení tohoto textu dokument. Všechno je jednoduché a banální.

To znamená, že pro zakódování jakéhokoli znaku, který potřebujeme (například z národní abecedy), musí být splněny dvě podmínky - vektorová podoba tohoto znaku musí být v použitém fontu a tento znak by mohl být zakódován v rozšířených ASCII kódováních. v jednom byte. Proto je takových možností celá řada. Pouze pro kódování znaků ruského jazyka existuje několik druhů rozšířené Aska.

Například zpočátku existoval CP866, ve kterém bylo možné používat znaky ruské abecedy a jednalo se o rozšířenou verzi ASCII.

Tito. její horní část se zcela shodovala se základní verzí Asuka (128 latinských znaků, čísel a jakýchkoli jiných svinstev), která je zobrazena na snímku nahoře, ale spodní část tabulky s kódováním CP866 měla podobu naznačenou na snímku právě níže a umožňuje kódovat dalších 128 znaků (ruská písmena a všechny druhy pseudografik):

Vidíte, v pravém sloupci začínají čísla 8, protože čísla od 0 do 7 odkazují na základní část ASCII (viz první snímek obrazovky). Že. ruské písmeno "M" v CP866 bude mít kód 9C (nachází se na průsečíku odpovídajícího řádku s 9 a sloupce s číslem C v hexadecimální číselné soustavě), který lze zapsat do jednoho bajtu informace , a pokud existuje vhodné písmo s ruskými znaky, toto písmeno se bez problémů zobrazí v textu.

Kde se tato částka vzala? pseudografika v CP866? Jde o to, že toto kódování pro ruský text bylo vyvinuto v těch chlupatých letech, kdy neexistovala taková distribuce grafických operačních systémů jako nyní. A v Dose a podobných textových operačních systémech pseudografika umožňovala nějak zpestřit design textů, a proto oplývá CP866 a všemi jeho dalšími vrstevníky z kategorie rozšířených verzí Asuka.

CP866 byl distribuován společností IBM, ale kromě toho byla vyvinuta řada kódování pro ruské znaky, například stejný typ (rozšířené ASCII) lze přiřadit KOI8-R:

Princip jeho fungování zůstává stejný jako u o něco dříve popsaného CP866 – každý znak textu je zakódován jedním jediným byte. Snímek obrazovky ukazuje druhou polovinu tabulky KOI8-R, protože první polovina plně odpovídá základní Asuce, která je zobrazena na prvním snímku obrazovky v tomto článku.

Mezi rysy kódování KOI8-R lze poznamenat, že ruská písmena v jeho tabulce nejsou v abecedním pořadí, jako tomu bylo například v CP866.

Pokud se podíváte na úplně první snímek obrazovky (základní části, která je součástí všech rozšířených kódování), všimnete si, že v KOI8-R jsou ruská písmena umístěna ve stejných buňkách tabulky jako písmena souhlásky latinské abecedy s nimi z první části tabulky. To bylo provedeno pro pohodlí přechodu z ruštiny na latinku vyřazením pouze jednoho bitu (od dvou do sedmé mocniny neboli 128).

Windows 1251 - moderní verze ASCII a proč krakozyabry vylézt ven

Další vývoj kódování textů byl dán tím, že grafické operační systémy získávaly na oblibě a potřeba v nich pseudografiku časem zanikla. V důsledku toho vznikla celá skupina, která byla v podstatě stále rozšířenými verzemi Asuky (jeden znak textu je zakódován pouze jedním bajtem informace), ale bez použití pseudografických znaků.

Patřily mezi tzv. kódování ANSI, které vyvinul American Standards Institute. V běžné řeči se název azbuka vžil i pro variantu s podporou ruského jazyka. Příklad toho může posloužit.

Od dříve používaných CP866 a KOI8-R se příznivě lišil tím, že místo pseudografických symbolů v něm zaujaly chybějící symboly ruské typografie (kromě akcentu), jakož i symboly používané ve slovanských jazycích blízkých ruština (ukrajinština, běloruština atd.):

Kvůli takovému množství kódování ruského jazyka měli výrobci písem a výrobci softwaru neustále bolesti hlavy a my, milí čtenáři, jsme často dostali velmi notoricky známé krakozyabry když došlo k záměně s verzí použitou v textu.

Velmi často se dostaly ven při odesílání a přijímání zpráv e-mailem, což vedlo k vytvoření velmi složitých převodních tabulek, které ve skutečnosti nedokázaly tento problém vyřešit v kořenovém adresáři, a uživatelé často používali pro korespondenci, aby se vyhnuli notoricky známým krakozyabrs při použití ruských kódování jako CP866, KOI8-R nebo Windows 1251.

Krakozyabry, které vyskočily místo ruského textu, byly ve skutečnosti výsledkem nesprávného použití kódování tohoto jazyka, které neodpovídalo tomu, ve kterém byla textová zpráva původně zakódována.

Pokud se například pokusíte zobrazit znaky zakódované pomocí CP866 pomocí tabulky kódů Windows 1251, objeví se stejné krakozyabry (bezvýznamná znaková sada), které zcela nahradí text zprávy.

Podobná situace velmi často nastává u fór nebo blogů, kdy je text s ruskými znaky omylem uložen ve špatném kódování, které je na webu standardně použito, nebo ve špatném textovém editoru, který ke kódu přidává gag, který není pro web viditelný. pouhé oko.

Nakonec se mnoho lidí omrzelo z takové situace se spoustou kódování a neustálým vytahováním krakozyabry, existovaly předpoklady pro vytvoření nové univerzální variace, která by nahradila všechny stávající a konečně vyřešila problém s výskytem nečitelných textů . Kromě toho se vyskytl problém jazyků, jako je čínština, kde bylo znaků jazyka mnohem více než 256.

Unicode (Unicode) - univerzální kódování UTF 8, 16 a 32

Tyto tisíce znaků jazykové skupiny jihovýchodní Asie nebylo možné žádným způsobem popsat v jednom bajtu informací, který byl přidělen pro kódování znaků v rozšířených verzích ASCII. V důsledku toho konsorcium volalo Unicode(Unicode - Unicode Consortium) ve spolupráci mnoha lídrů IT průmyslu (těch, kteří vyrábějí software, kteří kódují hardware, kteří vytvářejí fonty), kteří měli zájem o vznik univerzálního kódování textu.

První variací, která byla vydána pod záštitou Unicode Consortium, byla UTF-32. Číslo v názvu kódování znamená počet bitů, které jsou použity ke kódování jednoho znaku. 32 bitů jsou 4 bajty informací, které budou potřeba k zakódování jednoho jediného znaku v novém univerzálním kódování UTF.

Výsledkem je, že stejný soubor s textem, zakódovaný v rozšířené verzi ASCII a v UTF-32, v druhém případě bude mít velikost (váhu) čtyřikrát větší. To je špatné, ale nyní máme možnost zakódovat pomocí UTF počet znaků rovný dvěma až třicetisekundové mocnině ( miliardy postav, která pokryje jakoukoliv skutečně potřebnou hodnotu s obrovskou rezervou).

Ale pro mnoho zemí s jazyky evropské skupiny nebylo vůbec potřeba používat tak obrovské množství znaků v kódování, nicméně při použití UTF-32 by získaly čtyřnásobné zvýšení váhy textu dokumenty za nic, a v důsledku toho zvýšení objemu internetového provozu a objemu uložených dat. To je hodně a nikdo by si nemohl dovolit takové plýtvání.

V důsledku vývoje Unicode, UTF-16, který se ukázal být natolik úspěšný, že byl přijat jako výchozí základní prostor pro všechny znaky, které používáme. Ke kódování jednoho znaku používá dva bajty. Podívejme se, jak tato věc vypadá.

V operačním systému Windows můžete jít cestou "Start" - "Programy" - "Příslušenství" - "Utilities" - "Tabulka znaků". V důsledku toho se otevře tabulka s vektorovými tvary všech písem nainstalovaných ve vašem systému. Pokud v "Advanced Options" vyberete znakovou sadu Unicode, uvidíte pro každé písmo jednotlivě celý rozsah znaků, které jsou v něm obsaženy.

Mimochodem, kliknutím na kterýkoli z nich se zobrazí jeho dvoubajt kód ve formátu UTF-16, skládající se ze čtyř hexadecimálních číslic:

Kolik znaků lze zakódovat v UTF-16 pomocí 16 bitů? 65536 (dvě mocniny šestnácti) a právě toto číslo bylo v Unicode přijato jako základní prostor. Kromě toho existují způsoby, jak s ním zakódovat asi dva miliony znaků, ale omezené na rozšířený prostor milionu znaků textu.

Ale ani tato úspěšná verze kódování Unicode nepřinesla velké uspokojení těm, kteří psali programy řekněme pouze v angličtině, protože po přechodu z rozšířené verze ASCII na UTF-16 se váha dokumentů zdvojnásobila (jeden bajt na jeden znak v Asci a dva bajty na stejný znak v UTF-16).

To je vše pro spokojenost všech a všeho v konsorciu Unicode, bylo rozhodnuto přijít kódování s proměnnou délkou. Jmenuje se UTF-8. Přes tu osmičku v názvu má opravdu proměnnou délku, tzn. každý textový znak lze zakódovat do sekvence od jednoho do šesti bajtů.

V praxi se v UTF-8 používá pouze rozsah od jednoho do čtyř bajtů, protože za čtyřmi bajty kódu si není možné nic ani teoreticky představit. Všechny latinské znaky v něm jsou zakódovány do jednoho bajtu, stejně jako ve starém dobrém ASCII.

Je pozoruhodné, že v případě kódování pouze latinky budou i ty programy, které nerozumí Unicode, stále číst to, co je zakódováno v UTF-8. Tito. základní část Asuky jednoduše přešla do tohoto duchovního dítěte Unicode Consortium.

Znaky azbuky v UTF-8 jsou kódovány ve dvou bytech a například gruzínské znaky ve třech bytech. Unicode Consortium po vytvoření UTF 16 a 8 vyřešilo hlavní problém - nyní máme fonty mají jeden kódový prostor. A nyní ji jejich výrobci mohou naplnit pouze vektorovými formami textových znaků na základě svých silných stránek a schopností. Nyní dokonce v sadách.

Ve výše uvedené „tabulce znaků“ můžete vidět, že různá písma podporují různý počet znaků. Některá písma bohatá na Unicode mohou být velmi velká. Nyní se však neliší v tom, že byly vytvořeny pro různá kódování, ale v tom, že výrobce písem vyplnil nebo nevyplnil jediný kódový prostor tou či onou vektorovou formou až do konce.

Krakozyabry místo ruských písmen - jak opravit

Podívejme se nyní, jak se místo textu objeví krakozyabras, nebo jinými slovy, jak se zvolí správné kódování pro ruský text. Ve skutečnosti se nastavuje v programu, ve kterém vytváříte nebo upravujete stejný text nebo kód pomocí textových fragmentů.

Pro editaci a tvorbu textových souborů osobně používám velmi dobrý, dle mého názoru, . Může však zvýraznit syntaxi dobré stovky dalších programovacích a značkovacích jazyků a také má možnost rozšíření pomocí pluginů. Přečtěte si podrobnou recenzi tohoto skvělého programu na odkazu níže.

V horním menu programu Poznámkový blok ++ je položka „Kódování“, kde budete mít možnost převést existující možnost na tu, která je standardně používána na vašem webu:

V případě webu na Joomla 1.5 a vyšší, stejně jako v případě blogu na WordPress, aby se zabránilo výskytu chyb, zvolte možnost UTF8 bez kusovníku. Co je předpona BOM?

Faktem je, že když bylo vyvinuto kódování UTF-16, z nějakého důvodu se rozhodli připojit k němu takovou věc, jako je schopnost psát znakový kód, a to jak v přímé sekvenci (například 0A15), tak v opačném směru (150A) . A aby programy pochopily, v jakém pořadí číst kódy, bylo vynalezeno kusovník(Byte Order Mark nebo jinými slovy podpis), což bylo vyjádřeno přidáním tří dalších bajtů na samotný začátek dokumentů.

V kódování UTF-8 nebyl v konsorciu Unicode uveden žádný kusovník, a proto přidání podpisu (těchto nejznámějších dalších tří bajtů na začátek dokumentu) jednoduše brání některým programům ve čtení kódu. Při ukládání souborů v UTF tedy musíme vždy zvolit možnost bez kusovníku (bez podpisu). Takže postupujete chránit se před plazením krakozyabry.

Je pozoruhodné, že některé programy ve Windows to neumí (neumí uložit text v UTF-8 bez kusovníku), například stejný notoricky známý Windows Notepad. Uloží dokument v UTF-8, ale přesto přidá podpis (tři bajty navíc) na jeho začátek. Navíc tyto bajty budou vždy stejné - čtěte kód v přímém pořadí. Ale na serverech může kvůli této maličkosti nastat problém - vyjde krakozyabry.

Proto v žádném případě nepoužívejte běžný poznámkový blok Windows pro úpravu dokumentů vašeho webu, pokud nechcete vzhled krakozyabrov. Za nejlepší a nejjednodušší možnost považuji již zmíněný editor Notepad ++, který nemá prakticky žádné nevýhody a skládá se pouze z výhod.

Když v programu Notepad++ vyberete kódování, budete mít možnost převést text na kódování UCS-2, které je ze své podstaty velmi blízké standardu Unicode. Také v poznámkovém bloku bude možné kódovat text v ANSI, tzn. ve vztahu k ruštině to bude Windows 1251, který jsme již trochu popsali výše.Odkud tato informace pochází?

Je zapsáno v registru vašeho operačního systému Windows - jaké kódování zvolit v případě ANSI, které zvolit v případě OEM (pro ruský jazyk to bude CP866). Pokud do počítače nainstalujete jiný výchozí jazyk, budou tato kódování nahrazena podobnými z kategorie ANSI nebo OEM pro stejný jazyk.

Po uložení dokumentu do programu Poznámkový blok ++ v kódování, které potřebujete, nebo otevření dokumentu z webu pro úpravy, uvidíte jeho název v pravém dolním rohu editoru:

Aby se zabránilo Krakozyabrov, kromě výše popsaných akcí bude užitečné zapsat informace o tomto kódování do jeho hlavičky zdrojového kódu všech stránek webu, aby nedošlo k záměně na serveru nebo místním hostiteli.

Obecně platí, že ve všech hypertextových značkovacích jazycích kromě Html se používá speciální xml deklarace, která specifikuje kódování textu.

Před analýzou kódu prohlížeč ví, která verze se používá a jak přesně by měly být kódy znaků daného jazyka interpretovány. Ale co je pozoruhodné, pokud dokument uložíte ve výchozím unicode, pak lze tuto xml deklaraci vynechat (kódování bude považováno za UTF-8, pokud neexistuje kusovník, nebo UTF-16, pokud existuje kusovník).

V případě dokumentu v jazyce Html se k upřesnění používá kódování Meta prvek, který se zapisuje mezi úvodní a závěrečnou značku Head:

... ...

Tento záznam je zcela odlišný od záznamu v , ale je plně v souladu s novým standardem Html 5, který se pomalu zavádí, a bude 100% správně pochopen všemi aktuálně používanými prohlížeči.

Teoreticky by bylo lepší dát prvek Meta s Html kódováním dokumentu co nejvýše v záhlaví dokumentu aby v době schůzky v textu prvního znaku ne ze základního ANSI (který bude vždy správně a v jakékoli obměně přečten) by prohlížeč již měl mít informace o tom, jak interpretovat kódy těchto znaků.

Hodně štěstí! Brzy se uvidíme na stránkách blogu

Na další videa se můžete podívat na

");">

Mohlo by vás zajímat

Co je to URL, jaký je rozdíl mezi absolutními a relativními odkazy pro web
OpenServer - moderní lokální server a příklad jeho použití pro instalaci WordPressu do počítače
Co je to Chmod, jaká oprávnění přidělovat souborům a složkám (777, 755, 666) a jak to udělat přes PHP
Vyhledávání Yandex na webu a v internetovém obchodě

Pojďme se podívat na některá fakta, která známe:

Soubor znaků, kterými je text psán, se nazývá abeceda.

Počet znaků v abecedě je její mohutnost.

Vzorec pro určení množství informací: N \u003d 2 b,

kde N je mocnina abecedy (počet znaků),

b - počet bitů (informační váha symbolu).

Téměř všechny potřebné znaky lze umístit do abecedy s kapacitou 256 znaků. Taková abeceda se nazývá dostatečná.

Protože 256 = 28 , pak je váha 1 znaku 8 bitů.

Měrná jednotka 8 bitů dostala název 1 byte:

1 bajt = 8 bitů.

Binární kód každého znaku v počítačovém textu zabírá 1 bajt paměti.

Jak jsou textové informace reprezentovány v paměti počítače?

Kódování spočívá v tom, že každému znaku je přiřazen jedinečný dekadický kód od 0 do 255 nebo odpovídající binární kód od 00000000 do 11111111. Člověk tedy rozlišuje znaky podle jejich stylu a počítač podle jejich kódu.

Pohodlí bajtového kódování znaků je zřejmé, protože bajt je nejmenší adresovatelná část paměti, a proto může procesor při zpracování textu přistupovat ke každému znaku zvlášť. Na druhou stranu je 256 znaků dostačující pro reprezentaci široké škály informací o znacích.

Nyní vyvstává otázka, který osmibitový binární kód vložit do korespondence s každým znakem.

Je jasné, že jde o podmíněnou záležitost, můžete přijít na mnoho způsobů kódování.

ASCII tabulka se stala mezinárodním standardem pro PC. (vyslovuje se asci) (Americký standardní kód pro výměnu informací).

Mezinárodním standardem je pouze první polovina tabulky, tzn. znaky s čísly od 0 (00000000) do 127 (01111111).

Sériové číslo		Symbol
	00000000 - 00011111	Jejich funkcí je řídit proces zobrazování textu na obrazovce nebo tisku, vydávání zvukového signálu, označování textu atd.
32 - 127	00100000 - 01111111
128 - 255	10000000 - 11111111	Druhá polovina tabulky kódů ASCII, nazývaná kódová stránka (128 kódů počínaje 10000000 a končící 11111111), může mít různé možnosti, každá možnost má své vlastní číslo.

Upozorňuji na skutečnost, že v tabulce kódování jsou písmena (velká a malá) uspořádána v abecedním pořadí a čísla jsou seřazeny vzestupně podle hodnot. Toto dodržování lexikografického řádu v uspořádání znaků se nazývá princip sekvenčního kódování abecedy.

Nejběžnějším aktuálně používaným kódováním je Microsoft Windows, zkráceně CP1251.

Od konce 90. let byl problém standardizace kódování znaků řešen zavedením nového mezinárodního standardu nazvaného Unicode. . Jedná se o 16bitové kódování, tzn. má 2 bajty paměti na znak. V tomto případě se samozřejmě množství obsazené paměti zvýší dvakrát. Ale taková kódová tabulka umožňuje zahrnutí až 65536 znaků. Kompletní specifikace standardu Unicode zahrnuje všechny existující, zaniklé a uměle vytvořené abecedy světa a také mnoho matematických, hudebních, chemických a dalších symbolů.

Zkusme si pomocí ASCII tabulky představit, jak budou slova vypadat v paměti počítače.

Slova

Paměť

01100110

01101001

01101100

01100101

01100100

01101001

01110011

01101011

Při zadávání textových informací do počítače se znaky (písmena, čísla, znaky) kódují pomocí různých kódových systémů, které se skládají ze sady kódových tabulek umístěných na odpovídajících stránkách norem pro kódování textových informací. V takových tabulkách je každému znaku přiřazen specifický číselný kód v hexadecimálním nebo desítkovém zápisu, tj. kódové tabulky odrážejí shodu mezi obrázky znaků a číselnými kódy a jsou navrženy pro kódování a dekódování textových informací. Při zadávání textových informací pomocí počítačové klávesnice je každý vstupní znak zakódován, tj. převeden na číselný kód, při výstupu textové informace na výstupní zařízení počítače (displej, tiskárna nebo plotr) je jeho obraz vytvořen pomocí číselného kódu znaku. . Přiřazení konkrétního číselného kódu symbolu je výsledkem dohody mezi příslušnými organizacemi v různých zemích. V současné době neexistuje jediná univerzální kódová tabulka, která by vyhovovala písmenům národních abeced různých zemí.

Moderní kódové tabulky obsahují mezinárodní a národní části, to znamená, že obsahují písmena latinské a národní abecedy, čísla, aritmetická a interpunkční znaménka, matematické a řídicí znaky a pseudografické znaky. Mezinárodní část kódové tabulky na základě standardu ASCII (Americký standardní kód pro výměnu informací), zakóduje první polovinu znaků kódové tabulky číselnými kódy od 0 do 7 F16, nebo v desítkové soustavě čísel od 0 do 127. V tomto případě jsou funkčním klávesám (F1, F2, F3 atd.) klávesnice osobního počítače přiřazeny kódy od 0 do 20 16 (0 × 32 10). Na Obr. 3.1 ukazuje mezinárodní část kódových tabulek založených na standardu ASCII. Buňky tabulky jsou číslovány v desítkové a hexadecimální soustavě čísel.

Obr 3.1. Mezinárodní část tabulky kódů (standard ASCII) s čísly buněk v desítkové (a) a hexadecimální (b) číselné soustavě

Národní část tabulek kódů obsahuje kódy národních abeced, které se také říká tabulka znakové sady. (znaková sada).

V současné době pro podporu písmen ruské abecedy (cyrilice) existuje několik kódových tabulek (kódování), které používají různé operační systémy, což je značná nevýhoda a v některých případech vede k problémům spojeným s operacemi dekódování číselných hodnot. postav. V tabulce. 3.1 ukazuje názvy kódových stránek (norem), na kterých jsou umístěny tabulky (kódování) azbuky.

Tabulka 3.1

Jedním z prvních standardů pro kódování azbuky na počítačích byl standard KOI8-R. Národní část kódové tabulky této normy je znázorněna na Obr. 3.2.

Rýže. 3.2. Národní část kódové tabulky standardu KOI8-R

V současné době se také používá kódová tabulka umístěná na stránce CP866 standardu kódování textových informací, který se používá v operačním systému MS DOS nebo relace MS DOS pro zakódování azbuky (obr. 3.3, A).

Rýže. 3.3. Národní část kódové tabulky, která se nachází na straně СР866 (a) a na straně СР1251 (b) standardu kódování textových informací

V současné době se pro kódování cyrilice nejrozšířenější kódová tabulka nachází na stránce СР1251 odpovídajícího standardu, který se používá v operačních systémech rodiny Okna firmy Microsoft(obr. 3.2, b). Ve všech prezentovaných kódových tabulkách kromě standardní tabulky unicode, Pro kódování jednoho znaku je přiděleno 8 bitů (8 bitů).

Na konci minulého století se objevil nový mezinárodní standard unicode, ve kterém je jeden znak reprezentován dvoubajtovým binárním kódem. Aplikace tohoto standardu je pokračováním vývoje univerzálního mezinárodního standardu, který umožňuje řešit problém kompatibility kódování národních znaků. Pomocí tohoto standardu můžete zakódovat 2 16 = 65536 různých znaků. Na Obr. 3.4 ukazuje kódovou tabulku 0400 (ruská abeceda) normy Unicode.

Rýže. 3.4. Tabulka kódů 0400 standardu Unicode

Vysvětleme na příkladu, co bylo řečeno o kódování textových informací.

Příklad 3.1

Zakódujte slovo „Počítač“ jako sekvenci desítkových a šestnáctkových čísel pomocí kódování CP1251. Jaké znaky se zobrazí v tabulkách kódů SR866 a KOI8-R při použití přijatého kódu.

Hexadecimální a binární kódové sekvence pro slovo „Počítač“ na základě kódovací tabulky CP1251 (viz obr. 3.3, b) bude vypadat takto:

Tato kódová sekvence v kódování CP866 a KOI8-R zobrazí následující znaky:

K převodu textových dokumentů v ruském jazyce z jednoho standardu kódování textových informací na jiný se používají speciální programy - převodníky. Převodníky jsou obvykle zabudovány do jiných programů. Příkladem je program prohlížeče - Internet Explorer (IE) který má vestavěný převodník. Program prohlížeče je speciální program pro prohlížení obsahu webové stránky v celosvětové počítačové síti Internet. Použijme tento program k potvrzení výsledku mapování znaků získaného v příkladu 3.1. Chcete-li to provést, proveďte následující kroky.

1. Spusťte Poznámkový blok (Poznámkový blok). Program Poznámkový blok v operačním systému Windows XP se spouští pomocí příkazu: [Tlačítko Start– Programy – Příslušenství – Poznámkový blok]. V okně programu Poznámkový blok, které se otevře, zadejte slovo "Počítač" pomocí syntaxe značkovacího jazyka hypertextových dokumentů - HTML (Hyper Text Markup Language). Tento jazyk se používá k vytváření dokumentů na webu. Text by měl vypadat takto:

Počítač

, Kde

A

tagy (speciální konstrukce) jazyka HTML pro nadpisy. Na Obr. 3.5 ukazuje výsledek těchto akcí.

Rýže. 3.5. Zobrazte text v okně programu Poznámkový blok

Tento text uložíme provedením příkazu: [Soubor - Uložit jako ...] do příslušné složky v počítači, při ukládání textu dáme souboru název - Poznámka s příponou souboru. html.

2. Spusťte program internet Explorer, provedením příkazu: [Tlačítko Start- Programy - Internet Explorer]. Po spuštění programu se zobrazí okno zobrazené na Obr. 3.6

Rýže. 3.6. Offline přístupové okno

Vyberte a aktivujte tlačítko Offline tím se počítač nepřipojí ke globálnímu internetu. Zobrazí se hlavní okno programu Microsoft Internet Explorer, znázorněno na Obr. 3.7.

Rýže. 3.7. Hlavní okno aplikace Microsoft Internet Explorer

Provedeme následující příkaz: [Soubor - Otevřít], objeví se okno (obr. 3.8), ve kterém musíte zadat název souboru a kliknout na tlačítko OK nebo stiskněte tlačítko Posouzení… a najděte soubor Note.html.

Rýže. 3.8. Otevřené okno

Hlavní okno programu Internet Explorer bude mít podobu znázorněnou na obr. 3.9. V okně se zobrazí slovo „Počítač“. Dále pomocí horní nabídky programu internet Explorer, spusťte následující příkaz: [View - Encoding - Cyrillic (DOS)]. Po provedení tohoto příkazu v okně programu internet Explorer symboly zobrazené na Obr. 3.10. Při provádění příkazu: [View - Encoding - Cyrillic (KOI8-R)] v okně programu internet Explorer symboly zobrazené na Obr. 3.11.

Rýže. 3.9. Znaky zobrazené s kódováním CP1251

Rýže. 3.10. Znaky zobrazené, když je povoleno kódování CP866 pro kódovou sekvenci reprezentovanou v kódování CP1251

Rýže. 3.11. Znaky zobrazené, když je povoleno kódování KOI8-R pro kódovou sekvenci reprezentovanou v kódování CP1251

Takto získané pomocí programu internet Explorer sekvence znaků odpovídají sekvencím znaků získaným pomocí kódových tabulek CP866 a KOI8-R v příkladu 3.1.

3.2. Kódování grafických informací

Grafické informace prezentované ve formě kreseb, fotografií, diapozitivů, pohyblivých obrázků (animace, video), diagramů, kreseb lze vytvářet a upravovat pomocí počítače, přičemž jsou vhodně zakódovány. V současné době existuje poměrně velké množství aplikačních programů pro zpracování grafických informací, ale všechny implementují tři typy počítačové grafiky: rastrovou, vektorovou a fraktálovou.

Pokud se blíže podíváte na grafický obrázek na obrazovce monitoru počítače, můžete vidět velké množství vícebarevných bodů (pixelů - z angličtiny. pixel, vytvořený z obrazový prvek obrazový prvek), které po sestavení tvoří daný grafický obraz. Z toho můžeme usoudit: grafický obrázek v počítači je určitým způsobem zakódován a musí být prezentován jako grafický soubor. Soubor je hlavní strukturní jednotkou pro organizaci a ukládání dat v počítači a v tomto případě by měl obsahovat informace o tom, jak prezentovat tuto sadu bodů na obrazovce monitoru.

Soubory vytvořené na základě vektorové grafiky obsahují informace ve formě matematických závislostí (matematické funkce, které popisují lineární závislosti) a související údaje o tom, jak sestrojit obraz objektu pomocí úseček (vektorů) při zobrazení na obrazovce monitoru počítače.

Soubory vytvořené na základě rastrové grafiky předpokládají uložení dat o každém jednotlivém bodě obrázku. Zobrazení rastrové grafiky nevyžaduje složité matematické výpočty, stačí získat údaje o každém bodu obrázku (jeho souřadnice a barvu) a zobrazit je na obrazovce monitoru počítače.

V procesu kódování obrazu se provádí jeho prostorové vzorkování, tj. obraz je rozdělen do samostatných bodů a každému bodu je přiřazen barevný kód (žlutá, červená, modrá atd.). Pro zakódování každého bodu barevného grafického obrázku je uplatněn princip rozkladu libovolné barvy na její hlavní složky, které se používají jako tři základní barvy: červená (anglické slovo Červené, označený písmenem NA), zelená (zelená, označený písmenem G), modrý (Modrý, označit buk V). Jakoukoli bodovou barvu vnímanou lidským okem lze získat aditivním (proporcionálním) přidáním (smícháním) tří základních barev – červené, zelené a modré. Tento systém kódování se nazývá barevný systém. RGB. Obrazové soubory, které používají systém barev RGB, reprezentují každý bod obrázku jako trojici barev - tři číselné hodnoty R, G A V, odpovídající intenzitě červené, zelené a modré. Proces kódování grafického obrazu se provádí pomocí různých technických prostředků (skener, digitální fotoaparát, digitální videokamera atd.); výsledkem je bitmapový obrázek. Při přehrávání barevných grafických obrázků na obrazovce barevného počítačového monitoru se barva každého bodu (pixelu) takového obrázku získá smícháním tří základních barev. R,G A b.

Kvalitu rastrového obrázku určují dva hlavní parametry – rozlišení (počet horizontálních a vertikálních bodů) a použitá barevná paleta (počet barev určený pro každý bod obrázku). Rozlišení je určeno zadáním počtu horizontálních a vertikálních bodů, například 800 x 600 bodů.

Existuje vztah mezi počtem barev přiřazených pixelu rastrového obrázku a množstvím informací, které je třeba alokovat pro uložení barvy pixelu, určený poměrem (vzorec R. Hartleyho):

Kde já– množství informací; N- počet barev daný bodu.

Množství informací potřebných k uložení barvy bodu se také nazývá barevná hloubka nebo kvalita barev.

Pokud je tedy počet barev zadaný pro obrazový bod N= 256, pak se množství informací potřebných pro jejich uložení (barevná hloubka) podle vzorce (3.1) bude rovnat já= 8 bitů.

Počítače používají různé grafické režimy zobrazení pro zobrazení grafických informací. Zde je třeba poznamenat, že kromě grafického režimu monitoru existuje také textový režim, ve kterém je obrazovka monitoru konvenčně rozdělena na 25 řádků po 80 znacích na řádek. Tyto grafické režimy se vyznačují rozlišením obrazovky monitoru a kvalitou barev (barevnou hloubkou). Nastavení grafického režimu obrazovky monitoru v operačním systému MS Windows XP musíte provést příkaz: [Button Start– Nastavení – Ovládací panely – Displej]. V zobrazeném dialogovém okně "Vlastnosti: Zobrazení" (obr. 3.12) vyberte záložku "Parametry" a pomocí posuvníku "Rozlišení obrazovky" vyberte vhodné rozlišení obrazovky (800x600 pixelů, 1024x768 pixelů atd.). Pomocí rozevíracího seznamu "Kvalita barev" můžete vybrat barevnou hloubku - "Nejvyšší (32 bitů)", "Střední (16 bitů)" atd., přičemž počet barev přiřazených každému bodu obrázku bude v daném pořadí rovná se 2 32 (4294967296), 2 16 (65536) atd.

Rýže. 3.12. Dialogové okno Vlastnosti zobrazení

Pro implementaci každého z grafických režimů obrazovky monitoru je vyžadován určitý informační objem video paměti počítače. Požadovaný informační objem video paměti (PROTI) se určuje ze vztahu

Kde TO - počet obrazových bodů na obrazovce monitoru (K = AB); A - počet vodorovných bodů na obrazovce monitoru; V - počet vertikálních bodů na obrazovce monitoru; já– množství informací (barevná hloubka).

Pokud má tedy obrazovka monitoru rozlišení 1024 x 768 pixelů a paletu skládající se z 65 536 barev, bude barevná hloubka podle vzorce (3.1) I = log 2 65 538 = 16 bitů, počet pixelů bude být: K = 1024 x 768 = 786432 a požadovaný informační objem video paměti v souladu s (3.2) bude roven

V = 786432 16 bitů = 12582912 bitů = 1572864 bajtů = 1536 KB = 1,5 MB.

Na závěr je třeba poznamenat, že kromě uvedených charakteristik jsou nejdůležitějšími vlastnostmi monitoru geometrické rozměry jeho obrazovky a obrazové body. Geometrické rozměry obrazovky jsou dány velikostí úhlopříčky monitoru. Úhlopříčka monitorů se udává v palcích (1 palec = 1" = 25,4 mm) a může nabývat hodnot rovnající se: 14", 15", 17", 21" atd. Moderní technologie výroby monitorů mohou poskytnout velikost bodu obrazu rovný 0,22 mm.

Pro každý monitor tedy existuje fyzicky maximální možné rozlišení obrazovky, určené velikostí jeho úhlopříčky a velikostí obrazového bodu.

Cvičení pro seberealizaci

1. Použití programu MS Excel převést tabulky kódů ASCII, СР866, СР1251, KOI8-R na tabulky ve tvaru: do buněk prvního sloupce tabulek pište v abecedním pořadí velká a poté malá písmena latinky a azbuky, do buněk druhého sloupce - kódy odpovídající písmenům v desítkové soustavě, v buňkách třetí sloupec - kódy odpovídající písmenům v šestnáctkové soustavě. Hodnoty kódu musí být vybrány z odpovídajících kódových tabulek.

2. Zakódujte a zapište následující slova jako posloupnost čísel v desítkové a šestnáctkové soustavě:

A) internet Explorer, b) Microsoft Office PROTI) CorelDRAW.

Produkujte kódováním pomocí aktualizované kódovací tabulky ASCII získané v předchozím cvičení.

3. Dekódujte pomocí upgradované kódovací tabulky KOI8-R sekvence čísel zapsaných v hexadecimálním číselném systému:

a) FC CB DA C9 D3 D4 C5 CE C3 C9 D1;

b) EB CF CE C6 CF D2 CD C9 DA CD;

c) FC CB D3 D0 D2 C5 D3 C9 CF CE C9 DA CD.

4. Jak bude vypadat slovo „Kybernetika“ zapsané v kódování CP1251 při použití kódování CP866 a KOI8-R? Zkontrolujte výsledky pomocí programu Internet Explorer.

5. Pomocí tabulky kódů na Obr. 3.1 A, dekódujte následující kódové sekvence zapsané v binární notaci:

a) 01010111 01101111 01110010 01100100;

b) 01000101 01111000 01100011 01100101 01101100;

c) 01000001 01100011 01100011 01100101 01110011 01110011.

6. Určete informační objem slova „Economy“ zakódovaného pomocí kódových tabulek СР866, СР1251, Unicode a KOI8-R.

7. Určete informační objem souboru získaného skenováním barevného obrázku 12x12 cm.Rozlišení skeneru použitého ke skenování tohoto obrázku je 600 dpi. Skener nastaví barevnou hloubku bodu obrázku na 16 bitů.

Rozlišení skeneru 600 dpi (bodový palec - bodů na palec) určuje schopnost skeneru s tímto rozlišením rozlišit 600 bodů na 1-palcovém segmentu.

8. Určete objem informací souboru získaného skenováním barevného obrázku o velikosti A4. Rozlišení skeneru použitého ke skenování tohoto obrázku je 1200 dpi. Skener nastaví barevnou hloubku bodu obrázku na 24 bitů.

9. Určete počet barev v paletě při barevné hloubce 8, 16, 24 a 32 bitů.

10. Určete požadované množství video paměti pro grafické režimy obrazovky monitoru 640 x 480, 800 x 600, 1024 x 768 a 1280 x 1024 pixelů s barevnou hloubkou obrazového bodu 8, 16, 24 a 32 bitů. Výsledky jsou shrnuty v tabulce. Vyvíjet se v MS Excel program pro automatizaci výpočtů.

11. Určete maximální počet barev, které lze použít k uložení obrázku o velikosti 32 x 32 pixelů, pokud má počítač pro obrázek přiděleno 2 KB paměti.

12. Určete maximální možné rozlišení obrazovky monitoru s úhlopříčkou 15" a velikostí obrazového bodu 0,28 mm.

13. Jaké grafické režimy provozu monitoru může zajistit 64 MB videopaměti?

Obsah

I. Historie kódování informací………………………………..3

II. Kódovací informace ……………………………………………… 4

III. Kódování textových informací………………………………….4

IV. Typy kódovacích tabulek………………………………………………....6

V. Výpočet množství textových informací………………………14

Seznam použité literatury………………………………………..16

já . Historie kódování informací

Lidstvo používá textové šifrování (kódování) od okamžiku, kdy se objevily první tajné informace. Zde je několik technik kódování textu, které byly vynalezeny v různých fázích vývoje lidského myšlení:

Kryptografie je kryptografie, systém měnícího se písma, aby byl text pro nezasvěcené osoby nesrozumitelný;

Morseova abeceda nebo nejednotný telegrafický kód, ve kterém je každé písmeno nebo znak reprezentován kombinací krátkých elementárních paketů elektrického proudu (tečky) a elementárních paketů s trojnásobnou dobou trvání (pomlčky);

znakový jazyk je znakový jazyk používaný lidmi se sluchovým postižením.

Jedna z nejstarších známých šifrovacích metod nese jméno římského císaře Julia Caesara (1. století před naším letopočtem). Tato metoda je založena na nahrazení každého písmene zašifrovaného textu jiným tak, že se abeceda od původního písmene posune o pevný počet znaků a abeceda se čte v kruhu, tedy za písmenem i se uvažuje a. Takže slovo "byte" při posunutí o dva znaky doprava je zakódováno slovem "gvlf". Opačným procesem dešifrování daného slova je nahrazení každého zašifrovaného písmene druhým nalevo od něj.

II. Kódování informací

Kód je soubor konvencí (nebo signálů) pro záznam (nebo přenos) některých předem definovaných konceptů.

Kódování informací je proces vytváření určité reprezentace informace. V užším slova smyslu je pojem „kódování“ často chápán jako přechod od jedné formy prezentace informace k jiné, vhodnější pro ukládání, přenos nebo zpracování.

Obvykle je každý obrázek, když je zakódován (někdy se říká - zašifrovaný), reprezentován samostatným znakem.

Znak je prvkem konečného souboru odlišných prvků.

V užším slova smyslu je pojem „kódování“ často chápán jako přechod od jedné formy prezentace informace k jiné, vhodnější pro ukládání, přenos nebo zpracování.

Počítač umí zpracovávat textové informace. Při zadávání do počítače je každé písmeno zakódováno určitým číslem a při výstupu na externí zařízení (obrazovka nebo tisk) se pro lidské vnímání vytvářejí obrázky písmen pomocí těchto čísel. Korespondence mezi sadou písmen a čísel se nazývá kódování znaků.

Všechna čísla v počítači jsou zpravidla reprezentována nulami a jedničkami (a nikoli deseti číslicemi, jak je u lidí zvykem). Jinými slovy, počítače obvykle pracují v binárním systému, protože zařízení pro jejich zpracování jsou mnohem jednodušší. Zadávání čísel do počítače a jejich výstup pro čtení člověkem lze provádět v obvyklém desítkovém tvaru a všechny potřebné převody provádějí programy běžící na počítači.

III. Kódování textových informací

Stejné informace mohou být prezentovány (zakódovány) v několika formách. S příchodem počítačů bylo nutné zakódovat všechny typy informací, kterými se jednotlivec i lidstvo jako celek zabývá. Ale lidstvo začalo řešit problém kódování informací dávno před příchodem počítačů. Grandiózní výdobytky lidstva – psaní a aritmetika – nejsou ničím jiným než systémem kódování řeči a číselných informací. Informace se nikdy neobjevují ve své čisté podobě, vždy jsou nějakým způsobem prezentovány, nějakým způsobem zakódovány.

Binární kódování je jedním z nejběžnějších způsobů reprezentace informací. V počítačích, robotech a obráběcích strojích s numerickým řízením jsou zpravidla všechny informace, se kterými zařízení pracuje, zakódovány ve formě slov binární abecedy.

Od konce 60. let jsou počítače stále více využívány ke zpracování textových informací a v současnosti zaujímá hlavní podíl osobních počítačů ve světě (a většinu času) zpracování textových informací. Všechny tyto typy informací jsou v počítači reprezentovány binárním kódem, tj. používá se abeceda s mocninou dvě (pouze dva znaky 0 a 1). To je způsobeno skutečností, že je vhodné reprezentovat informace ve formě sekvence elektrických impulsů: neexistuje impuls (0), existuje impuls (1).

Takové kódování se obvykle nazývá binární a samotné logické sekvence nul a jedniček se nazývají strojový jazyk.

Z pohledu počítače se text skládá z jednotlivých znaků. Znaky zahrnují nejen písmena (velká nebo malá písmena, latinka nebo ruština), ale také číslice, interpunkční znaménka, speciální znaky jako "=", "(", "&" atd.) a dokonce (věnujte zvláštní pozornost!) mezery mezi slovy .

Texty se zadávají do paměti počítače pomocí klávesnice. Klávesy jsou psány nám známými písmeny, číslicemi, interpunkčními znaménky a dalšími symboly. Zadávají RAM v binárním kódu. To znamená, že každý znak je reprezentován 8bitovým binárním kódem.

Tradičně se pro zakódování jednoho znaku používá množství informací rovné 1 bajtu, tj. I \u003d 1 byte \u003d 8 bitů. Pomocí vzorce, který dává do souvislosti počet možných událostí K a množství informací I, můžete vypočítat, kolik různých znaků lze zakódovat (za předpokladu, že znaky jsou možné události): K = 2 I = 2 8 = 256, tj. reprezentaci textových informací, můžete použít abecedu s kapacitou 256 znaků.

Tento počet znaků je dostatečný pro reprezentaci textových informací, včetně velkých a malých písmen ruské a latinské abecedy, čísel, znaků, grafických symbolů atd.

V procesu zobrazení znaku na obrazovce počítače se provádí opačný proces - dekódování, tedy převod znakového kódu na jeho obraz. Je důležité, aby přiřazení konkrétního kódu k symbolu bylo věcí dohody, která je pevně stanovena v tabulce kódů.

Nyní vyvstává otázka, který osmibitový binární kód vložit do korespondence s každým znakem. Je jasné, že jde o podmíněnou záležitost, můžete přijít na mnoho způsobů kódování.

Všechny znaky počítačové abecedy jsou číslovány od 0 do 255. Každému číslu odpovídá osmibitový binární kód od 00000000 do 11111111. Tento kód je jednoduše pořadové číslo znaku v binární číselné soustavě.

IV . Typy kódovacích tabulek

Tabulka, ve které jsou všem znakům počítačové abecedy přiřazena pořadová čísla, se nazývá kódovací tabulka.

Pro různé typy počítačů se používají různé kódovací tabulky.

Jako mezinárodní standard je přijata kódová tabulka ASCII (American Standard Code for Information Interchange), která kóduje první polovinu znaků číselnými kódy od 0 do 127 (kódy od 0 do 32 nejsou přiřazeny znakům, ale funkčním klávesám).

Tabulka ASCII kódů je rozdělena na dvě části.

Mezinárodním standardem je pouze první polovina tabulky, tzn. znaky s čísly od 0 (00000000) do 127 (01111111).

Struktura kódovací tabulky ASCII

Sériové číslo	Kód	Symbol
0 - 31	00000000 - 00011111	Znaky s čísly od 0 do 31 se nazývají řídicí znaky. Jejich funkcí je řídit proces zobrazování textu na obrazovce nebo tisku, vydávání zvukového signálu, označování textu atd.
32 - 127	0100000 - 01111111	Standardní část tabulky (anglicky). To zahrnuje malá a velká písmena latinské abecedy, desetinné číslice, interpunkční znaménka, všechny druhy hranatých závorek, obchodní a další symboly. Znak 32 je mezera, tzn. prázdné místo v textu. Vše ostatní se odráží v určitých znameních.
128 - 255	10000000 - 11111111	Alternativní část tabulky (ruština). Druhá polovina tabulky kódů ASCII, nazývaná kódová stránka (128 kódů počínaje 10000000 a končící 11111111), může mít různé možnosti, každá možnost má své vlastní číslo. Kódová stránka se primárně používá k umístění jiných národních písem než latinky. V ruském národním kódování jsou v této části tabulky umístěny znaky ruské abecedy.

První polovina tabulky kódů ASCII

Je třeba věnovat pozornost skutečnosti, že v tabulce kódování jsou písmena (velká a malá písmena) uspořádána v abecedním pořadí a čísla jsou seřazeny vzestupně. Toto dodržování lexikografického řádu v uspořádání znaků se nazývá princip sekvenčního kódování abecedy.

U písmen ruské abecedy je také dodržován princip sekvenčního kódování.

Druhá polovina tabulky kódů ASCII

Bohužel v současné době existuje pět různých kódování azbuky (KOI8-R, Windows, MS-DOS, Macintosh a ISO). Z tohoto důvodu často vznikají problémy s přenosem ruského textu z jednoho počítače do druhého, z jednoho softwarového systému do druhého.

Chronologicky byl jedním z prvních standardů pro kódování ruských písmen na počítačích KOI8 ("Information Exchange Code, 8-bit"). Toto kódování se používalo již v 70. letech na počítačích řady počítačů EC a od poloviny 80. let se začalo používat v prvních rusifikovaných verzích operačního systému UNIX.

Od počátku 90. let, doby dominance operačního systému MS DOS, zůstává kódování CP866 ("CP" znamená "Code Page", "code page").

Počítače Apple s operačním systémem Mac OS používají vlastní kódování Mac.

Kromě toho Mezinárodní organizace pro normalizaci (International Standards Organization, ISO) schválila další kódování nazvané ISO 8859-5 jako standard pro ruský jazyk.

Nejběžnějším aktuálně používaným kódováním je Microsoft Windows, zkráceně CP1251. Představený společností Microsoft; vzhledem k širokému používání operačních systémů (OS) a dalších softwarových produktů této společnosti v Ruské federaci se rozšířil.

Od konce 90. let byl problém standardizace kódování znaků řešen zavedením nového mezinárodního standardu nazvaného Unicode.

Jedná se o 16bitové kódování, tzn. má 2 bajty paměti na znak. V tomto případě se samozřejmě množství obsazené paměti zvýší dvakrát. Ale taková kódová tabulka umožňuje zahrnutí až 65536 znaků. Kompletní specifikace standardu Unicode zahrnuje všechny existující, zaniklé a uměle vytvořené abecedy světa a také mnoho matematických, hudebních, chemických a dalších symbolů.

Vnitřní reprezentace slov v paměti počítače

pomocí ASCII tabulky

Někdy se stává, že text, který se skládá z písmen ruské abecedy, přijatý z jiného počítače, nelze přečíst - na obrazovce monitoru je vidět nějaký druh "abracadabra". To je způsobeno skutečností, že počítače používají různá kódování znaků ruského jazyka.

Každé kódování je tedy dáno vlastní kódovou tabulkou. Jak je vidět z tabulky, stejnému binárnímu kódu jsou přiřazeny různé znaky v různých kódováních.

Například posloupnost číselných kódů 221, 194, 204 v kódování CP1251 tvoří slovo „počítač“, zatímco v jiných kódováních půjde o nesmyslnou sadu znaků.

Naštěstí se ve většině případů uživatel nemusí starat o překódování textových dokumentů, protože to zajišťují speciální převodní programy zabudované v aplikacích.

PROTI . Výpočet množství textových informací

Úkol 1: Kódujte slovo „Řím“ pomocí kódovacích tabulek KOI8-R a CP1251.

Řešení:

Úkol 2: Za předpokladu, že každý znak je zakódován jedním bajtem, odhadněte objem informací následující věty:

"Můj strýc nejčestnějších pravidel,

Když jsem vážně onemocněl,

Přinutil se respektovat

A lepší mě nenapadl."

Řešení: Tato fráze má 108 znaků, včetně interpunkčních znamének, uvozovek a mezer. Toto číslo vynásobíme 8 bity. Dostaneme 108*8=864 bitů.

Úkol 3: Oba texty obsahují stejný počet znaků. První text je napsán v ruštině a druhý v jazyce kmene Naguri, jehož abeceda se skládá ze 16 znaků. Čí text obsahuje více informací?

Řešení:

1) I \u003d K * a (informační objem textu se rovná součinu počtu znaků a informační váhy jednoho znaku).

2) Protože oba texty mají stejný počet znaků (K), pak rozdíl závisí na informačním obsahu jednoho znaku abecedy (a).

3) 2 a1 = 32, tzn. a 1 = 5 bitů, 2 a2 = 16, tzn. a 2 = 4 bity.

4) I 1 = K * 5 bitů, I 2 = K * 4 bity.

5) Znamená to, že text psaný v ruštině nese 5/4krát více informací.

Úkol 4: Objem zprávy obsahující 2048 znaků byl 1/512 MB. Určete sílu abecedy.

Řešení:

1) I = 1/512 * 1024 * 1024 * 8 = 16384 bitů - informační objem zprávy byl převeden na bity.

2) a \u003d I / K \u003d 16384 / 1024 \u003d 16 bitů - připadá na jeden znak abecedy.

3) 2*16*2048 = 65536 znaků - síla použité abecedy.

Úkol 5: Laserová tiskárna Canon LBP tiskne průměrnou rychlostí 6,3 Kbps. Jak dlouho bude trvat tisk 8stránkového dokumentu, pokud je známo, že na jedné stránce je průměrně 45 řádků, 70 znaků na řádek (1 znak - 1 bajt)?

Řešení:

1) Najděte množství informací obsažených na 1 stránce: 45 * 70 * 8 bitů = 25200 bitů

2) Najděte množství informací na 8 stránkách: 25200 * 8 = 201600 bitů

3) Dovedeme k jednotným měrným jednotkám. Za tímto účelem převedeme Mbps na bity: 6,3 * 1024 = 6451,2 bps.

4) Najděte čas tisku: 201600: 6451,2 = 31 sekund.

Bibliografie

1. Ageev V.M. Teorie informace a kódování: diskretizace a kódování měřené informace. - M.: MAI, 1977.

2. Kuzmin I.V., Kedrus V.A. Základy teorie informace a kódování. - Kyjev, škola Vishcha, 1986.

3. Nejjednodušší metody šifrování textu / D.M. Zlatopolský. - M.: Chistye Prudy, 2007 - 32 s.

4. Ugrinovič N.D. Informatika a informační technologie. Učebnice pro ročníky 10-11 / N.D. Ugrinovich. – M.: BINOM. Vědomostní laboratoř, 2003. - 512 s.

5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Materiál pro samostudium na téma Přednáška 2

Kódování ASCII

Tabulka kódování ASCII (ASCII - American Standard Code for Information Interchange - American Standard Code for Information Interchange).

Celkem lze pomocí tabulky kódování ASCII (obrázek 1) zakódovat 256 různých znaků. Tato tabulka je rozdělena na dvě části: hlavní (s kódy od OOh do 7Fh) a doplňkovou (od 80h do FFh, kde písmeno h označuje, že kód patří do hexadecimální číselné soustavy).

Obrázek 1

Pro zakódování jednoho znaku z tabulky je přiděleno 8 bitů (1 byte). Při zpracování textových informací může jeden bajt obsahovat kód nějakého znaku – písmena, číslice, interpunkční znaménka, akční znaménka atd. Každý znak má svůj vlastní kód ve formě celého čísla. V tomto případě jsou všechny kódy shromažďovány ve speciálních tabulkách, nazývaných kódovací tabulky. S jejich pomocí se kód znaku převede na jeho viditelnou reprezentaci na obrazovce monitoru. Výsledkem je, že jakýkoli text v paměti počítače je reprezentován jako sekvence bajtů s kódy znaků.

Například slovo ahoj! bude kódováno následovně (tabulka 1).

stůl 1


Binární kód
Kód desítkové

Obrázek 1 ukazuje znaky obsažené ve standardním (anglickém) a rozšířeném (ruském) kódování ASCII.

První polovina ASCII tabulky je standardizovaná. Obsahuje kontrolní kódy (od 00h do 20h a 77h). Tyto kódy byly z tabulky odstraněny, protože se nevztahují na textové prvky. Jsou zde také umístěny interpunkční znaménka a matematická znaménka: 2lh - !, 26h - &, 28h - (, 2Bh -+, ..., velká a malá latinská písmena: 41h - A, 61h - a.

Druhá polovina tabulky obsahuje národní písma, pseudografické symboly, ze kterých lze sestavovat tabulky, speciální matematické symboly. Spodní část kódovací tabulky lze vyměnit pomocí příslušných ovladačů - ovládacích pomocných programů. Tato technika umožňuje používat více písem a jejich řezů.

Displej pro každý znakový kód by měl zobrazovat obrázek znaku – nejen digitální kód, ale i obrázek, který mu odpovídá, protože každý znak má svůj vlastní tvar. Popis tvaru každého znaku je uložen ve speciální paměti displeje - generátoru znaků. Zvýraznění znaku na obrazovce IBM PC se například provádí pomocí bodů, které tvoří matici znaků. Každý pixel v takové matici je prvek obrazu a může být světlý nebo tmavý. Tmavý bod je zakódován číslem 0, světlý (světlý) číslem 1. Pokud jsou tmavé pixely reprezentovány tečkou v maticovém poli znaku a světlé pixely hvězdičkou, můžete tvar graficky znázornit symbolu.

Lidé v různých zemích používají k psaní slov svého rodného jazyka symboly. Většina dnešních aplikací, včetně e-mailových systémů a webových prohlížečů, je čistě 8bitových, což znamená, že mohou zobrazovat a správně číst pouze 8bitové znaky podle standardu ISO-8859-1.

Na světě je přes 256 znaků (včetně azbuky, arabštiny, čínštiny, japonštiny, korejštiny a thajštiny) a přibývají další a další znaky. A to vytváří pro mnoho uživatelů následující mezery:

Ve stejném dokumentu není možné použít znaky z různých sad kódování. Protože každý textový dokument používá svou vlastní sadu kódování, jsou s automatickým rozpoznáváním textu velké potíže.

Objevují se nové symboly (například: Euro), v důsledku čehož ISO vyvíjí nový standard ISO-8859-15, který je velmi podobný ISO-8859-1. Rozdíl je následující: symboly pro staré měny, které se v současnosti nepoužívají, byly odstraněny z kódovací tabulky starého standardu ISO-8859-1, aby se uvolnilo místo pro nově se objevující symboly (jako je euro). Díky tomu mohou mít uživatelé na svých discích stejné dokumenty, ale v jiném kódování. Řešením těchto problémů je přijetí jediné mezinárodní sady kódování, která se nazývá univerzální kódování nebo Unicode.

Kódování Unicode

Standard byl navržen v roce 1991 neziskovou organizací Unicode Consortium (anglicky Unicode Consortium, Unicode Inc.). Použití tohoto standardu umožňuje kódovat velmi velké množství znaků z různých písem: čínské znaky, matematické symboly, písmena řecké abecedy, latinky a azbuky mohou koexistovat v dokumentech Unicode, zatímco přepínání kódových stránek se stává zbytečným.

Standard se skládá ze dvou hlavních částí: univerzální znakové sady (UCS, univerzální znaková sada) a rodiny kódování (UTF, transformační formát Unicode). Univerzální znaková sada specifikuje vzájemnou shodu znaků s kódy - prvky kódového prostoru představující nezáporná celá čísla. Rodina kódování definuje strojovou reprezentaci sekvence kódů UCS.

Standard Unicode byl vyvinut s cílem vytvořit jediné kódování znaků pro všechny moderní a mnoho starověkých psaných jazyků. Každý znak v tomto standardu je kódován 16 bity, což mu umožňuje pokrýt nesrovnatelně větší počet znaků než dříve akceptovaná 8bitová kódování. Dalším důležitým rozdílem mezi Unicode a jinými kódovacími systémy je to, že nejen přiřazuje jedinečný kód každému znaku, ale také definuje různé vlastnosti tohoto znaku, například:

typ znaku (velké písmeno, malé písmeno, číslo, interpunkční znaménko atd.);

atributy znaků (zobrazení zleva doprava nebo zprava doleva, mezera, zalomení řádku atd.);

odpovídající velké nebo malé písmeno (pro malá a velká písmena);

odpovídající číselnou hodnotu (pro číselné znaky).

Celý rozsah kódů od 0 do FFFF je rozdělen do několika standardních podmnožin, z nichž každá odpovídá buď abecedě některého jazyka, nebo skupině speciálních znaků, které jsou svými funkcemi podobné. Níže uvedený diagram obsahuje obecný seznam podmnožin Unicode 3.0 (obrázek 2).

Obrázek 2

Standard Unicode je základem pro ukládání a text v mnoha moderních počítačových systémech. Není však kompatibilní s většinou internetových protokolů, protože jeho kódy mohou obsahovat libovolnou hodnotu bajtu a protokoly obvykle používají bajty 00 - 1F a FE - FF jako servisní bajty. Pro dosažení kompatibility bylo vyvinuto několik transformačních formátů Unicode (UTF, Unicode Transformation Formats), z nichž UTF-8 je dnes nejběžnější. Tento formát definuje následující pravidla pro převod každého kódu Unicode na sadu bajtů (od jednoho do tří) vhodných pro přenos pomocí internetových protokolů.

Zde x,y,z označují bity zdrojového kódu, které by měly být extrahovány, počínaje nejmladším, a vloženy do výsledných bajtů zprava doleva, dokud nejsou vyplněny všechny určené pozice.

Další vývoj standardu Unicode je spojen s přidáváním nových jazykových rovin, tzn. znaky v rozsahu 10 000 - 1FFFF, 20 000 - 2FFFF atd., kde má obsahovat kódování pro skripty mrtvých jazyků, které nejsou zahrnuty v tabulce výše. Pro kódování těchto dalších znaků byl vyvinut nový formát UTF-16.

Existují tedy 4 hlavní způsoby kódování bajtů ve formátu Unicode:

UTF-8: 128 znaků kódovaných v jednom bajtu (formát ASCII), 1920 znaků kódovaných ve 2 bajtech ((římština, řečtina, azbuka, koptština, arménština, hebrejština, arabské znaky), 63488 znaků kódovaných ve 3 bajtech (čínština, japonština atd.) .) Zbývajících 2 147 418 112 znaků (zatím nepoužitých) lze zakódovat 4, 5 nebo 6 bajty.

UCS-2: Každý znak je reprezentován 2 bajty. Toto kódování obsahuje pouze prvních 65 535 znaků z formátu Unicode.

UTF-16: Toto je rozšíření UCS-2 a obsahuje 1 114 112 znaků Unicode. Prvních 65 535 znaků představuje 2 bajty, zbytek 4 bajty.

USC-4: Každý znak je zakódován 4 bajty.

prosinec	hex	Symbol	prosinec	hex	Symbol
000	00	specialista. NOP	128	80	Ђ
001	01	specialista. SOH	129	81	Ѓ
002	02	specialista. STX	130	82	‚
003	03	specialista. ETX	131	83	ѓ
004	04	specialista. EOT	132	84	„
005	05	specialista. ENQ	133	85	…
006	06	specialista. ACK	134	86	†
007	07	specialista. BEL	135	87	‡
008	08	specialista. BS	136	88	€
009	09	specialista. TAB	137	89	‰
010	0A	specialista. LF	138	8A	Љ
011	0B	specialista. VT	139	8B	‹ ‹
012	0C	specialista. FF	140	8C	Њ
013	0D	specialista. ČR	141	8D	Ќ
014	0E	specialista. TAK	142	8E	Ћ
015	0F	specialista. SI	143	8F	Џ
016	10	specialista. DLE	144	90	ђ
017	11	specialista. DC1	145	91	‘
018	12	specialista. DC2	146	92	’
019	13	specialista. DC3	147	93	“
020	14	specialista. DC4	148	94	”
021	15	specialista. NAK	149	95
022	16	specialista. SYN	150	96	–
023	17	specialista. ETB	151	97	—
024	18	specialista. UMĚT	152	98
025	19	specialista. EM	153	99	™
026	1A	specialista. SUB	154	9A	љ
027	1B	specialista. ESC	155	9B	›
028	1C	specialista. FS	156	9C	њ
029	1D	specialista. GS	157	9D	ќ
030	1E	specialista. RS	158	9E	ћ
031	1F	specialista. NÁS	159	9F	џ
032	20	spojka SP (vesmír)	160	A0
033	21	!	161	A1	Ў
034	22	"	162	A2	ў
035	23	#	163	A3	Ћ
036	24	$	164	A4	¤
037	25	%	165	A5	Ґ
038	26	&	166	A6	¦
039	27	"	167	A7	§
040	28	(	168	A8	Jo
041	29	)	169	A9	©
042	2A	*	170	AA	Є
043	2B	+	171	AB	«
044	2C	,	172	AC	¬
045	2D	-	173	INZERÁT
046	2E	.	174	AE	®
047	2F	/	175	AF	Ї
048	30	0	176	B0	°
049	31	1	177	B1	±
050	32	2	178	B2	І
051	33	3	179	B3	і
052	34	4	180	B4	ґ
053	35	5	181	B5	µ
054	36	6	182	B6	¶
055	37	7	183	B7	·
056	38	8	184	B8	jo
057	39	9	185	B9	№
058	3A	:	186	BA	є
059	3B	;	187	BB	»
060	3C	<	188	před naším letopočtem	ј
061	3D	=	189	BD	Ѕ
062	3E	>	190	BÝT	ѕ
063	3F	?	191	bf	ї
064	40	@	192	C0	A
065	41	A	193	C1	B
066	42	B	194	C2	V
067	43	C	195	C3	G
068	44	D	196	C4	D
069	45	E	197	C5	E
070	46	F	198	C6	A
071	47	G	199	C7	Z
072	48	H	200	C8	A
073	49	já	201	C9	Y
074	4A	J	202	CA	NA
075	4B	K	203	CB	L
076	4C	L	204	CC	M
077	4D	M	205	CD	H
078	4E	N	206	CE	O
079	4F	Ó	207	CF	P
080	50	P	208	D0	R
081	51	Q	209	D1	S
082	52	R	210	D2	T
083	53	S	211	D3	Na
084	54	T	212	D4	F
085	55	U	213	D5	X
086	56	PROTI	214	D6	C
087	57	W	215	D7	H
088	58	X	216	D8	W
089	59	Y	217	D9	SCH
090	5A	Z	218	DA	Kommersant
091	5B	[	219	D.B.	S
092	5C	\	220	DC	b
093	5 D	]	221	DD	E
094	5E	^	222	DE	YU
095	5F	_	223	D.F.	já
096	60	`	224	E0	A
097	61	A	225	E1	b
098	62	b	226	E2	PROTI
099	63	C	227	E3	G
100	64	d	228	E4	d
101	65	E	229	E5	E
102	66	F	230	E6	a
103	67	G	231	E7	h
104	68	h	232	E8	A
105	69	i	233	E9	čt
106	6A	j	234	EA	Na
107	6B	k	235	EB	l
108	6C	l	236	EU	m
109	6D	m	237	ED	n
110	6E	n	238	EE	Ó
111	6F	Ó	239	EF	P
112	70	p	240	F0	R
113	71	q	241	F1	S
114	72	r	242	F2	T
115	73	s	243	F3	na
116	74	t	244	F4	F
117	75	u	245	F5	X
118	76	proti	246	F6	C
119	77	w	247	F7	h
120	78	X	248	F8	w
121	79	y	249	F9	sch
122	7A	z	250	FA	b
123	7B	{	251	Facebook	s
124	7C	\|	252	FC	b
125	7D	}	253	FD	uh
126	7E	~	254	F.E.	Yu
127	7F	Specialista. DEL	255	FF	já

ASCII tabulka kódů znaků Windows.
Popis speciálních (řídících) znaků

Je třeba poznamenat, že zpočátku byly řídicí znaky ASCII tabulky používány k výměně dat pomocí dálnopisu, vstupu dat z děrné pásky a k nejjednoduššímu ovládání externích zařízení.
V současné době již většina řídicích znaků ASCII tabulky tuto zátěž nenese a lze je použít pro jiné účely.

Kód	Popis
NUL, 00	Nulové, prázdné
SO-01	Začátek Okruhu
STX 02	Začátek TeXtu, začátek textu.
ETX 03	Konec TeXtu
EOT, 04	Konec přenosu
ENQ, 05	Zeptejte se. Prosím potvrďte
ACK, 06	Potvrzení. Potvrzuji
B.E.L. 07	Bell, zavolej
B.S. 08	Backspace, návrat o jeden znak zpět
TAB, 09	Karta, vodorovná karta
LF, 0A	Line Feed, line feed. Nyní se ve většině programovacích jazyků označuje jako \n
VT, 0B	Vertical Tab, vertikální tabulka.
FF, 0C	Zdroj formuláře, zdroj stránky, nová stránka
ČR, 0D	Návrat vozíku Nyní se ve většině programovacích jazyků označuje jako \r
TAK, 0E	Shift Out, změňte barvu barvicí pásky v tiskárně
SI, 0F	Shift In, vrátí barvu barvicí pásky v tiskovém zařízení zpět
DLE, 10	Data Link Escape, přepnutí kanálu na přenos dat
DC1, 11 DC2, 12 DC3, 13 DC4, 14	Ovládání zařízení, symboly ovládání zařízení
N.A.K. 15	Negativní potvrzení, nepotvrzuji.
SYN, 16	synchronizace. Symbol synchronizace
ETB, 17	Konec textového bloku, konec textového bloku
CAN, 18	Storno, zrušení dříve prošlé
EM, 19	Konec média
SUB, 1A	Náhradník, náhradník. Umístěno na místo znaku, jehož hodnota byla ztracena nebo poškozena během přenosu
ESC, 1B	Escape escape sekvence
FS, 1C	Oddělovač souborů, oddělovač souborů
GS, 1D	Oddělovač skupin, oddělovač skupin
RS, 1E	Oddělovač záznamů
USA, 1F	Unit Separator, unit separator
DEL, 7F	Smazat, smazat poslední znak.

Excel pro Office 365 Word pro Office 365 Outlook pro Office 365 PowerPoint pro Office 365 Publisher pro Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 OneNote 2013 Publisher 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 7 Access One 7 Publisher 2007 Visio 20 Outlook 2007 Visio 20 PowerPoint 20 Office 2007 2010 Visio Standard 2007 Visio Standard 2010 Méně

V tomto článku

Vložení znaku ASCII nebo Unicode do dokumentu

Pokud potřebujete zadat pouze několik speciálních znaků nebo symbolů, můžete použít klávesové zkratky nebo . Seznam znaků ASCII naleznete v následujících tabulkách nebo v článku Vkládání národních abeced pomocí klávesových zkratek .

Poznámky:

Vkládání znaků ASCII

Chcete-li vložit znak ASCII, stiskněte a podržte klávesu ALT při zadávání kódu znaku. Chcete-li například vložit symbol stupně (º), stiskněte a podržte klávesu ALT a poté na numerické klávesnici zadejte 0176.

K zadávání čísel použijte numerickou klávesnici, nikoli čísla na hlavní klávesnici. Pokud potřebujete zadávat čísla na numerické klávesnici, ujistěte se, že svítí indikátor NUM LOCK.

Vkládání znaků Unicode

Chcete-li vložit znak Unicode, zadejte kód znaku a poté postupně stiskněte ALT + X. Chcete-li například vložit znak dolaru ($), zadejte 0024 a postupně stiskněte ALT + X. Všechny kódy znaků Unicode viz .

Důležité: Některé programy sady Microsoft Office, například PowerPoint a InfoPath, nepodporují převod kódů Unicode na znaky. Pokud potřebujete vložit znak Unicode do jednoho z těchto programů, použijte .

Poznámky:

Pokud se po stisknutí ALT+X zobrazí nesprávný znak Unicode, vyberte správný kód a znovu stiskněte ALT+X.

Kromě toho musíte před kód zadat „U+“. Například zadáním „1U+B5“ a stisknutím ALT+X se zobrazí text „1µ“, zatímco zadáním „1B5“ a stisknutím ALT+X se zobrazí znak „Ƶ“.

Použití tabulky symbolů

Tabulka znaků je program zabudovaný do systému Microsoft Windows, který umožňuje zobrazit znaky dostupné pro vybrané písmo.

Pomocí tabulky symbolů můžete zkopírovat jednotlivé znaky nebo skupinu znaků do schránky a vložit je do libovolného programu, který podporuje zobrazení těchto znaků. Otevření tabulky symbolů

V systému Windows 10 Do vyhledávacího pole na hlavním panelu zadejte slovo „symbol“ a z výsledků vyhledávání vyberte tabulku symbolů.

V systému Windows 8 Na domovské obrazovce zadejte slovo „symbol“ a z výsledků vyhledávání vyberte tabulku symbolů.

V systému Windows 7 zmáčknout tlačítko Start, vyberte postupně Všechny programy, Standard, Servis a klikněte tabulka symbolů.

Znaky jsou seskupeny podle písma. Klepnutím na seznam písem vyberte příslušnou znakovou sadu. Chcete-li vybrat symbol, klikněte na něj a poté klikněte na tlačítko Vybrat. Chcete-li vložit symbol, klepněte pravým tlačítkem na požadované místo v dokumentu a vyberte Vložit.

Často používané kódy znaků

Úplný seznam znaků naleznete na počítači v tabulce kódů znaků ASCII nebo v tabulkách znaků Unicode seřazených podle sad .

Glyph

Peněžní jednotky

zákonné symboly

Matematické symboly

Zlomky

Interpunkční a dialektové symboly

Symboly tvarů

Kódy pro běžně používanou diakritiku

Úplný seznam glyfů a odpovídajících kódů viz .

Glyph

Netisknoucí se řídicí znaky ASCII

Znaky používané k ovládání některých periferií, jako jsou tiskárny, jsou v tabulce ASCII očíslovány 0-31. Například znak podávání stránky/nová stránka odpovídá číslu 12. Tento znak říká tiskárně, aby přešla na začátek další stránky.

ASCII netisknutelná tabulka řídicích znaků

Desetinné číslo	Podepsat	Desetinné číslo	Podepsat
		Vydání datového kanálu
Začátek záhlaví		První řídicí kód zařízení
Začátek textu		Druhý řídicí kód zařízení
Konec textu		Třetí řídicí kód zařízení
Konec přenosu		Čtvrtý řídicí kód zařízení
	pěticípý	Negativní potvrzení
potvrzení		Režim synchronního přenosu
Zvukový signál		Konec datového bloku

Vodorovná karta		Konec médií
Posun řádku/nový řádek		Náhradní znak
Vertikální záložka			překročit
Překlad stránky/Nová stránka	dvanáct	Oddělovač souborů
Návrat vozíku		Oddělovač skupin
Shift bez ukládání číslic		Oddělovač záznamů
Bit zachovávající posun	patnáct	Oddělovač dat