• Metoda kvantifikace informací: statistická, sémantická, pragmatická a strukturální. Míry informací (syntaktické, sémantické, pragmatické)

    Jak již bylo uvedeno, pojem informace lze považovat za různá omezení kladená na její vlastnosti, tzn. na různé úrovně ohleduplnost. V zásadě existují tři úrovně – syntaktická, sémantická a pragmatická. V souladu s tím se na každém z nich používají různé odhady k určení množství informací.

    Na syntaktická úroveň k posouzení množství informací se používají pravděpodobnostní metody, které zohledňují pouze pravděpodobnostní vlastnosti informace a neberou v úvahu ostatní (sémantický obsah, užitečnost, relevanci atd.). Vyvinutý v polovině XX století. matematické a zejména pravděpodobnostní metody umožnily vytvořit přístup k hodnocení množství informací jako měřítka snižování nejistoty znalostí.

    Tento přístup, nazývaný také pravděpodobnostní, postuluje princip, že pokud zpráva vede ke snížení nejistoty našeho poznání, pak lze tvrdit, že taková zpráva obsahuje informaci. V tomto případě zprávy obsahují informace o jakýchkoli událostech, které lze realizovat s různou pravděpodobností.

    Vzorec pro určení množství informací o událostech s různou pravděpodobností a získaných z diskrétního zdroje informací navrhl v roce 1948 americký vědec C. Shannon. Podle tohoto vzorce lze množství informací určit následovně:

    Kde – množství informací; N– počet možných událostí (zpráv); – pravděpodobnost jednotlivých událostí (zpráv).

    Množství informace určené pomocí vzorce (2.1) nabývá pouze kladné hodnoty. Protože pravděpodobnost jednotlivých událostí je menší než jedna, je tedy výraz log 2 záporná hodnota a pro získání kladné hodnoty množství informace ve vzorci (2.1) je před znaménkem minus znak součtu.

    Pokud je pravděpodobnost výskytu jednotlivých událostí stejná a tvoří se celá skupina události, tj.

    pak se vzorec (2.1) převede na vzorec R. Hartleyho:

    Ve vzorcích (2.1) a (2.2) poměr mezi množstvím informací a v souladu s tím je pravděpodobnost (nebo počet) jednotlivých událostí vyjádřena pomocí logaritmu.

    Použití logaritmů ve vzorcích (2.1) a (2.2) lze vysvětlit následovně. Pro jednoduchost uvažování použijeme vztah (2.2). Postupně přiřadíme k argumentu N hodnoty vybrané například z řady čísel: 1, 2, 4, 8, 16, 32, 64 atd. Chcete-li určit, která událost N Nastaly stejně pravděpodobné události, pro každé číslo řady je nutné postupně provést výběrové operace ze dvou možných událostí.

    Ano, v N= 1, počet operací bude 0 (pravděpodobnost události je 1), s N= 2, počet operací bude roven 1, s N= 4 počet operací bude 2, s N= 8, počet operací bude 3 atd. Dostaneme tedy následující řadu čísel: 0, 1, 2, 3, 4, 5, 6 atd., které lze považovat za odpovídající hodnotám funkce ve vztahu (2.2).

    Posloupnost číselných hodnot, které argument nabývá N, je řada známá v matematice jako řada čísel, která tvoří geometrickou posloupnost, a posloupnost hodnot čísel, které funkce nabývá , bude řada tvořící aritmetickou progresi. Logaritmus ve vzorcích (2.1) a (2.2) tedy zakládá vztah mezi řadami reprezentujícími geometrickou a aritmetickou posloupnost, což je v matematice docela dobře známé.

    Pro kvantifikaci (odhad) jakékoliv fyzikální veličiny je nutné určit měrnou jednotku, která se v teorii měření nazývá tzv. opatření .


    Jak již bylo uvedeno, informace musí být před zpracováním, přenosem a uložením zakódovány.

    Kódování se provádí pomocí speciálních abeced (znakových systémů). V informatice, která studuje procesy získávání, zpracování, přenosu a ukládání informací pomocí výpočetních (počítačových) systémů, se používá především binární kódování, ve kterém se používá znakový systém, skládající se ze dvou znaků 0 a 1. Z tohoto důvodu vzorců (2.1) a (2.2) se jako základ logaritmu použije číslo 2.

    Na základě pravděpodobnostní přístup Pro určení množství informace lze tyto dva symboly binárního znakového systému považovat za dvě různé možné události, proto se jako jednotka množství informace bere takové množství informace, které obsahuje zprávu, která snižuje nejistotu. znalostí o polovinu (před přijetím událostí je jejich pravděpodobnost 0,5, po získání - 1 se nejistota odpovídajícím způsobem sníží: 1 / 0,5 \u003d 2, tj. 2krát). Taková jednotka informace se nazývá bit (z anglického slova binární číslicebinární číslice). Tedy jako měřítko pro posouzení množství informací na syntaktické úrovni, za předpokladu binární kódování, obdržel jeden bit.

    Další největší jednotkou měření množství informací je bajt, což je sekvence osmi bitů, tj.

    1 bajt = 2 3 bity = 8 bitů.

    V informatice se také široce používají jednotky měření množství informací, které jsou násobky bajtu, ale na rozdíl od nich metrický systém míry, kde se koeficient 10n používá jako násobky násobků jednotek, kde n = 3, 6, 9 atd., ve více jednotkách měření množství informace se používá koeficient 2n. Tato volba je vysvětlena skutečností, že počítač v zásadě pracuje s čísly nikoli v desítkové soustavě, ale v in binární systém zúčtování.

    Bajtové násobky jednotky pro měření množství informací se zadávají následovně:

    1 kilobajt (KB) = 210 bajtů = 1024 bajtů;

    1 megabajt (MB) = 210 KB = 1024 KB;

    1 gigabajt (GB) = 210 MB = 1024 MB;

    1 terabajt (TB) = 210 GB = 1024 GB;

    1 petabajt (PB) = 210 TB = 1024 TB;

    1 exabajt (Ebyte) = 210 PB = 1024 PB.

    Jednotky měření množství informací, v jejichž názvu jsou předpony „kilo“, „mega“ atd., z hlediska teorie měření nejsou správné, protože tyto předpony se používají v metrickém systému měr, ve kterých je koeficient použit jako násobky násobných jednotek 10 n , kde n = 3, 6, 9 atd. K odstranění této nesprávnosti mezinárodní organizace Mezinárodní elektrotechnická komise, která vytváří standardy pro průmysl elektronických technologií, schválila řadu nových předpon pro jednotky měření množství informací: kibi (kibi), mebi (mebi), gibi (gibi), tebi (tebi), peti (peti ), exbi (exbi). Stále se však používají stará označení pro jednotky měření množství informací a trvá dlouho, než se nové názvy široce používají.

    Pravděpodobnostní přístup se také používá při určování množství informací prezentovaných pomocí znakových systémů. Uvažujeme-li symboly abecedy jako množinu možných zpráv N, pak množství informací, které nese jeden znak abecedy, lze určit vzorcem (2.1). S ekvipravděpodobným výskytem každého znaku abecedy v textu zprávy lze k určení množství informací použít vzorec (2.2).

    Množství informací, které nese jeden znak abecedy, čím více, tím více znaků je v této abecedě zahrnuto. Počet znaků obsažených v abecedě se nazývá mohutnost abecedy. Množství informací (objem informací) obsažené ve zprávě zakódované pomocí znakového systému a obsahující určitý počet znaků (symbolov) se určí pomocí vzorce:

    Kde PROTI– informační objem zprávy; = log 2 N, informační objem jednoho symbolu (znaku); NA– počet symbolů (znaků) ve zprávě; N– síla abecedy (počet znaků v abecedě).

    Informace – co to je? Na čem je založena? Jaké cíle sleduje a jaké úkoly plní? O tom všem budeme hovořit v rámci tohoto článku.

    obecná informace

    V jakých případech se používá sémantický způsob měření informací? Využívá se podstata informace, zajímavá je obsahová stránka přijaté zprávy – to jsou indicie pro její použití. Nejprve si ale vysvětlíme, co to je. Je třeba poznamenat, že sémantický způsob měření informací je obtížný formalizovaný přístup, který ještě není plně zformován. Používá se k měření množství významu v datech, která byla přijata. Jinými slovy, kolik informací z obdržených informací je k tomu nezbytné tento případ. Tento přístup se používá k určení obsahu přijatých informací. A pokud mluvíme o sémantickém způsobu měření informací, používáme pojem tezaurus, který je s uvažovaným tématem nerozlučně spjat. co to představuje?

    tezaurus

    Rád bych uvedl malý úvod a odpověděl na jednu otázku ohledně sémantického způsobu měření informací. Kdo do něj vstoupil? Tuto metodu navrhl zakladatel kybernetiky Norbert Wiener, která se však výrazně rozvinula pod vlivem našeho krajana A. Yu.Schradera. Jaký je název používaný k označení souhrnu informací, které má příjemce informací. Pokud tezaurus korelujeme s obsahem zprávy, která byla přijata, pak můžeme zjistit, jak moc to snížilo nejistotu. Rád bych napravil jednu chybu, pod jejímž vlivem často padá velký počet lidí. Věří tedy, že sémantický způsob měření informací zavedl Claude Shannon. Není přesně známo, jak tato mylná představa vznikla, ale tento názor je nesprávný. Claude Shannon zavedl statistický způsob měření informací, jehož „dědic“ je považován za sémantický.

    Grafický přístup k určení množství sémantické informace v přijaté zprávě

    Proč potřebuješ něco kreslit? Metoda sémantického měření využívá této příležitosti k vizuální prezentaci dat užitečnosti dat ve formě snadno srozumitelných obrázků. Co to v praxi znamená? Pro vysvětlení stavu věcí je vykreslena závislost ve formě grafu. Pokud uživatel nemá žádné znalosti o podstatě zprávy, která byla přijata (rovná se nule), pak objem sémantické informace se bude rovnat stejné hodnotě. Je možné najít optimální hodnotu? Ano! Toto je název tezauru, kde je množství sémantických informací maximální. Podívejme se na malý příklad. Předpokládejme, že uživatel obdržel zprávu napsanou v neznámém cizím jazyce nebo si člověk může přečíst, co je tam napsáno, ale to už pro něj není novinka, protože to všechno je známo. V takových případech se říká, že zpráva neobsahuje žádné sémantické informace.

    Historický vývoj

    Pravděpodobně se o tom mělo diskutovat trochu výše, ale ještě není pozdě to dohnat. Zpočátku sémantický způsob měření informací představil Ralph Hartley v roce 1928. Dříve bylo zmíněno, že jako zakladatel je často zmiňován Claude Shannon. Proč nastal takový zmatek? Faktem je, že ačkoliv sémantický způsob měření informací zavedl Ralph Hartley v roce 1928, byli to Claude Shannon a Warren Weaver, kteří jej v roce 1948 zobecnili. Poté zakladatel kybernetiky Norbert Wiener vytvořil myšlenku metody tezauru, která získala největší uznání v podobě opatření vyvinutého Yu. I. Schneiderem. Je třeba poznamenat, že abychom tomu porozuměli, je nutné vysoká úroveň znalost.

    Účinnost

    Co nám metoda tezauru dává v praxi? Je skutečným potvrzením teze, že informace má takovou vlastnost, jako je relativita. Je třeba poznamenat, že má relativní (nebo subjektivní) hodnotu. Aby bylo možné objektivně hodnotit vědecké informace, byl zaveden koncept univerzálního tezauru. Míra jeho změny ukazuje význam znalostí, které lidstvo dostává. Zároveň nelze přesně říci, jaký konečný výsledek (nebo meziprodukt) lze z informací získat. Vezměme si například počítače. Počítačová technologie byla vytvořena na základě technologie lamp a bitového stavu každého konstrukčního prvku a původně sloužila k provádění výpočtů. Nyní má téměř každý člověk něco, co funguje na základě této technologie: rádio, telefon, počítač, TV, notebook. Dokonce moderní lednice, sporáky a umyvadla obsahují nějakou elektroniku, jejíž provoz je založen na informacích o usnadnění používání těchto domácích zařízení osobou.

    Vědecký přístup

    Kde se studuje sémantický způsob měření informací? Informatika je věda, která se zabývá různými aspekty této problematiky. Jaká je funkce? Metoda je založena na použití systému "pravda/nepravda" nebo bitového systému "jedna/nula". Když dorazí určitá informace, je rozdělena do samostatných bloků, které jsou pojmenovány jako jednotky řeči: slova, slabiky a podobně. Každý blok má určitou hodnotu. Podívejme se na malý příklad. Dva přátelé stojí vedle sebe. Jeden se otočí na druhého se slovy: "Zítra máme volno." Když dny na odpočinek - každý ví. Proto je hodnota této informace nulová. Ale když druhý řekne, že zítra pracuje, tak pro prvního to bude překvapení. V tomto případě se skutečně může ukázat, že plány, které postavil jeden člověk, například jít na bowling nebo se ponořit do dílny, budou porušeny. Každá část popisovaného příkladu může být popsána pomocí jedniček a nul.

    Operace s koncepty

    Ale co jiného se používá kromě tezauru? Co dalšího potřebujete vědět, abyste pochopili sémantický způsob měření informací? Základními pojmy, které lze dále studovat, jsou znakové systémy. Jsou chápány jako prostředky k vyjádření významu, jako jsou pravidla pro výklad znaků nebo jejich kombinací. Podívejme se na další příklad z informatiky. Počítače pracují s podmíněnými nulami a jedničkami. V zásadě je nízká vysokého napětí, který je přiváděn do součástí zařízení. Navíc přenášejí tyto jednotky a nuly bez konce a hrany. Jak je dokáže technologie rozlišit? Na to byla nalezena odpověď – přerušení. Když jsou přenášeny stejné informace, získávají se různé bloky, jako jsou slova, fráze a jednotlivé významy. V ústní lidské řeči se pauzy také používají k rozdělení dat do samostatných bloků. Jsou tak neviditelné, že si jich většinou všimneme na „stroji“. V dopise k tomu slouží tečky a čárky.

    Zvláštnosti

    Dotkněme se také tématu vlastností, které má sémantický způsob měření informace. Už víme, že se tak nazývá speciální přístup, který hodnotí důležitost informací. Dá se říci, že data, která budou takto vyhodnocována, budou objektivní? Ne, to není pravda. Informace jsou subjektivní. Podívejme se na příklad školy. Existuje vynikající student, který předčí schválený program, a průměrný průměrný student, který studuje to, co je prezentováno ve třídě. Za prvé, většina informací, které dostane ve škole, bude málo zajímavá, protože to už ví a neslyší / nečte poprvé. V subjektivní rovině to pro něj tedy nebude příliš cenné (možná kvůli individuálním poznámkám učitele, kterých si všiml při prezentaci svého předmětu). Zatímco průměrný student o nových informacích slyšel něco jen vzdáleně, proto je pro něj hodnota dat, která budou v hodinách prezentována, řádově větší.

    Závěr

    Je třeba poznamenat, že v informatice není sémantický způsob měření informace jedinou možností, v rámci které lze řešit existující problémy. Výběr by měl záviset na současných cílech a příležitostech. Pokud je tedy téma zajímavé nebo je o něj potřeba, pak lze jen důrazně doporučit jeho podrobnější prostudování a zjištění, jaké další způsoby měření informací kromě sémantiky existují.

    Při realizaci informační procesy vždy dochází k přenosu informace v prostoru a čase od zdroje informace k přijímači (přijímači). V tomto případě jsou informace přenášeny pomocí různé znaky nebo symboly, jako je přirozený nebo umělý (formální) jazyk, umožňující jeho vyjádření v nějaké formě zvané zpráva.

    Zpráva- forma reprezentace informace ve formě souboru znaků (symbolov) sloužících k přenosu.

    Zpráva jako soubor znaků z pohledu sémiotiky ( z řečtiny setneion - znamení, znamení) - věda, která studuje vlastnosti znaků a znakových systémů - lze studovat na třech úrovních:

    1) syntaktický , kde jsou uvažovány vnitřní vlastnosti zpráv, tj. vztahy mezi znaky, které odrážejí strukturu daného znakového systému. Vnější vlastnosti jsou studovány na sémantické a pragmatické úrovni. Na této úrovni jsou zvažovány problémy doručování zpráv příjemci jako množiny znaků s ohledem na typ média a způsob prezentace informace, rychlost přenosu a zpracování, velikosti kódů reprezentace informací, spolehlivost a přesnost převodu těchto kódů atd., zcela abstrahující od sémantického obsahu zpráv a jejich zamýšleného účelu. Na této úrovni se informace uvažované pouze ze syntaktických pozic obvykle nazývají data, protože na sémantické stránce v tomto případě nezáleží.

    Moderní teorie informace zkoumá především problémy této úrovně. Opírá se o pojem „množství informací“, což je míra četnosti používání značek, která v žádném případě neodráží význam ani důležitost přenášených zpráv. V tomto ohledu se někdy říká, že moderní teorie informace je na syntaktické úrovni.

    2) sémantický , která analyzuje vztah mezi znaky a předměty, jednání, vlastnosti, které označují, tedy sémantický obsah sdělení, jeho vztah ke zdroji informace. Problémy sémantické úrovně souvisejí s formalizací a zohledňováním významu přenášených informací, určujících míru korespondence mezi obrazem objektu a objektem samotným. Na danou úroveň informace, které informace odrážejí, se analyzují, zvažují se sémantické souvislosti, tvoří se pojmy a reprezentace, odhaluje se význam, obsah informace a provádí se její zobecnění.

    3) pragmatický , kde se uvažuje vztah mezi sdělením a příjemcem, tedy spotřebitelský obsah sdělení, jeho vztah k příjemci.

    Na této úrovni jsou zajímavé důsledky získání a použití těchto informací spotřebitelem. Problémy na této úrovni souvisí s určením hodnoty a užitečnosti použití informací při vývoji rozhodnutí spotřebitele k dosažení jeho cíle. Hlavní problém je v tom, že hodnota, užitečnost informace může být pro různé příjemce zcela odlišná a navíc závisí na řadě faktorů, jako je například včasnost jejího doručení a využití.


    Pro každou z výše uvedených úrovní problémů přenosu informací existují přístupy k měření množství informací a jejich vlastní míry informací. Jedná se o míry informace na úrovni syntaktické, sémantické a pragmatické.

    Míry informace na syntaktické úrovni. Kvantitativní hodnocení informace na této úrovni nesouvisí s obsahem informace, ale operuje s neosobní informací, která nevyjadřuje sémantický vztah k objektu. V tomto ohledu toto opatření umožňuje posoudit informační toky v objektech tak rozmanité povahy, jako jsou komunikační systémy, počítacích strojů, řídicí systémy, nervový systémživý organismus atd.

    Pro měření informací na syntaktické úrovni jsou zavedeny dva parametry: množství informace (dat) - V d(volumetrický přístup) a množství informací - (entropický přístup).

    Objem informace V d (objemový přístup). Při zavádění informačních procesů se informace přenášejí ve formě zprávy, což je soubor znaků nějaké abecedy. Přitom každý nová postava ve zprávě zvyšuje množství informací reprezentovaných posloupností znaků dané abecedy. Jestliže se nyní množství informací obsažených ve zprávě o jednom znaku bere jako jedna, pak se množství informací (dat) V d v jakékoli jiné zprávě bude rovnat počtu znaků (číslic) v této zprávě. Protože stejné informace může prezentovat mnoho různé způsoby(pomocí různých abeced), pak se jednotka informace (data) odpovídajícím způsobem změní.

    Ano, v desítková soustava kalkulu, jedna číslice má váhu rovnou 10, a jednotka informace tedy bude dit (desetinné místo P P dit. Například čtyřmístné číslo 2009 má objem dat V d = 4 dit.

    V binárním číselném systému má jedna číslice váhu rovnou 2, a proto bude jednotka informace bit (bit (binární číslice)). V tomto případě zpráva ve formuláři n-bitové číslo má množství dat V d = P bit. Například osmibitový binární kód 11001011 má objem dat Vd = 8 bitů.

    V moderním počítačová věda spolu s minimální datovou jednotkou bit běžně používaná agregovaná měrná jednotka byte, rovných 8 bitům. Je to osm bitů, které jsou potřeba pro zakódování kteréhokoli z 256 znaků abecedy počítačové klávesnice (256=28).

    Při práci s velkým množstvím informací se k výpočtu jejich množství používají větší jednotky měření:

    1 kilobajt (KB) = 1024 bajtů = 2 10 bajtů,

    1 megabajt (MB) = 1024 kB = 220 bajtů = 1 048 576 bajtů;

    1 Gigabajt (GB) = 1024 MB = 230 bajtů = 1 073 741 824 bajtů;

    V Nedávno V souvislosti s nárůstem objemu zpracovávaných informací vznikají takové odvozené jednotky jako:

    1 terabajt (TB) = 1024 GB = 240 bajtů = 1 099 511 627 776 bajtů;

    1 petabajt (PB) = 1024 TB = 250 bajtů = 1 125 899 906 842 624 bajtů.

    Je třeba poznamenat, že v binárním (počítačovém) systému měření informací se na rozdíl od metrického systému jednotky s předponami „kilo“, „mega“ atd. získávají vynásobením hlavní jednotky ne 10 3 \u003d 1000 , 10 6 \u003d 1 000 000 atd. a na 2 10 = 1 024, 2 20 = 1 048 576 atd.

    Množství informací I (entropický přístup). V teorii informace a kódování je přijat entropický přístup k měření informace. Tento přístup je založen na skutečnosti, že skutečnost získání informace je vždy spojena s poklesem diverzity nebo neurčitosti (entropie) systému. Na základě toho množství informací ve zprávě je definováno jako opatření ke snížení nejistoty stavu daného systému po přijetí zprávy. Nejistotu lze interpretovat jako málo toho, jak pozorovatel ví o daném systému. Jakmile pozorovatel ve fyzickém systému něco identifikoval, entropie systému se snížila, protože systém se stal pro pozorovatele uspořádanějším.

    Tedy s přístupem entropie informací se rozumí kvantitativní hodnota nejistoty, která zmizela v průběhu jakéhokoli procesu (testů, měření atd.). V tomto případě je entropie zavedena jako míra nejistoty H a množství informací je:

    I = H dub – H aps

    kde, H apr - apriorní entropie o stavu studovaného systému nebo procesu;

    H aps je aposteriorní entropie.

    A posteriori (z lat. a posteriori – z následujícího) - pocházející ze zkušeností (zkoušky, měření).

    A priori (z lat. a priori - z předchozího) je pojem, který charakterizuje znalost, která předchází zkušenosti (testu), a je na ní nezávislá.

    V případě, že během testu byla odstraněna existující nejistota (byl získán konkrétní výsledek, tj. H = 0), množství obdržené informace se shoduje s počáteční entropií

    Za zkoumaný systém uvažujme diskrétní zdroj informací (zdroj diskrétních zpráv), čímž máme na mysli fyzický systém, který má konečnou množinu možných stavů ( a i}, i = .

    Vše připraveno A \u003d (a 1, a 2, ... a n) stavy systému v teorii informace se nazývá abstraktní abeceda nebo abeceda zdroje zprávy.

    Samostatné státy a 1, a 2,..., a n se nazývají písmena nebo symboly abecedy.

    Takový systém může v každém časovém okamžiku náhodně zaujmout jednu z konečných množin možných stavů a i. Říká se, že různé stavy jsou realizovány jako výsledek jejich volby zdrojem.

    Příjemce informace (zprávy) má určitou představu o možném výskytu určitých událostí. Tyto reprezentace jsou obecně nespolehlivé a jsou vyjádřeny pravděpodobnostmi, s nimiž očekává tu či onu událost. Obecné opatření nejistota (entropie) je charakterizována určitou matematickou závislostí na těchto pravděpodobností, množství informace ve zprávě je určeno tím, jak moc se míra nejistoty po přijetí zprávy sníží.

    Pojďme si tuto myšlenku vysvětlit na příkladu.

    Předpokládejme, že máme 32 různých karet. Možnost výběru jedné karty z balíčku je 32. Před výběrem je přirozené předpokládat, že šance na výběr konkrétní karty jsou u všech karet stejné. Výběrem tuto nejistotu eliminujeme. V tomto případě lze nejistotu charakterizovat počtem možných ekvipravděpodobných voleb. Pokud nyní definujeme množství informace jako míru eliminace nejistoty, pak lze informaci získanou jako výsledek volby charakterizovat číslem 32. Výhodnější je však použít nikoli toto číslo samotné, ale logaritmus odhadu získaného výše v základu 2:

    kde m je počet možných stejně pravděpodobných voleb (Když m=2, získáme informaci v jednom bitu). Tedy v našem případě

    H = log232 = 5.

    Uvedený přístup patří anglickému matematikovi R. Hartleymu (1928). Má to zajímavý výklad. Vyznačuje se počtem otázek s odpověďmi „ano“ nebo „ne“, což vám umožňuje určit, jakou kartu si osoba vybrala. 5 otázek stačí.

    Pokud při výběru karty není možnost vzhledu každé karty stejná (více pravděpodobná), pak dostáváme statistický přístup k měření informací navržený C. Shannonem (1948). V tomto případě se míra informace měří podle vzorce:

    Kde - pravděpodobnost volby i znak abecedy.

    Je snadné vidět, že pokud pravděpodobnosti p1, ..., p n jsou si rovni, pak je každý z nich 1/N a Shannonův vzorec se změní na Hartleyho vzorec.

    Míry informace na sémantické úrovni. Měřit sémantický obsah informace, tedy její množství na sémantickou úroveň, nejrozšířenější je míra tezauru, která spojuje sémantické vlastnosti informace se schopností uživatele přijímat příchozí zprávu. Aby příjemce porozuměl a použil přijaté informace, musí mít určité znalosti. Úplná neznalost předmětu neumožňuje extrahovat užitečné informace z přijaté zprávy o tomto předmětu. S rostoucími znalostmi o předmětu roste i jejich počet užitečné informace Vytažené ze zprávy.

    Nazveme-li znalosti příjemce o daném předmětu tezaurus (tj. určitý soubor slov, pojmů, názvů objektů spojených sémantickými vztahy), pak lze množství informací obsažených v určitém sdělení odhadnout podle stupně změny v jednotlivém tezauru pod vlivem tohoto sdělení.

    tezaurus- soubor informací, které má uživatel nebo systém.

    Jinými slovy, množství sémantických informací extrahovaných příjemcem z příchozích zpráv závisí na stupni připravenosti jeho tezauru na vnímání takové informace.

    V závislosti na vztahu mezi sémantickým obsahem informace S a uživatelský tezaurus Sp množství sémantických informací se mění Je, vnímaná uživatelem a jím zahrnutá v budoucnu do svého tezauru. Charakter této závislosti je znázorněn na Obr. 2.1. Zvažte dva omezující případy, kdy se množství sémantické informace Ic rovná 0:

    a) když Sp = 0, uživatel nevnímá (nerozumí) příchozí informaci;

    b) pro S -> ∞ uživatel „ví všechno“ a příchozí informace nepotřebuje.

    Rýže. 1.2. Závislost množství sémantické informace,

    vnímaný spotřebitelem, z jeho tezauru I c \u003d f (S p)

    Spotřebitel získává maximum sémantické informace při koordinaci jejího sémantického obsahu S se svým tezaurem S p (S = S p opt), kdy jsou příchozí informace pro uživatele srozumitelné a přinášejí mu dříve neznámé (v jeho tezauru chybějící) informace.

    Proto je množství sémantických informací ve zprávě, množství nových znalostí přijatých uživatelem, relativní hodnotou. Stejná zpráva může mít význam pro kompetentního uživatele a být bezvýznamná pro nekompetentního uživatele.

    Při hodnocení sémantického (smysluplného) aspektu informace je nutné usilovat o harmonizaci hodnot S a Sp.

    Relativní mírou množství sémantické informace může být obsahový faktor C, který je definován jako poměr množství sémantické informace k jejímu objemu:

    C \u003d I s / V d

    Míry informací na pragmatické úrovni. Toto měřítko určuje užitečnost informací pro dosažení cíle uživatele. Tato míra je také relativní hodnotou vzhledem ke zvláštnostem použití těchto informací v konkrétním systému.

    Jeden z prvních ruských vědců, A.A. Charkeviče, který navrhl vzít jako měřítko hodnoty informace množství informací nezbytných k dosažení cíle, tedy vypočítat přírůstek pravděpodobnosti dosažení cíle. Pokud tedy před přijetím informace byla pravděpodobnost dosažení cíle rovna p 0 a po obdržení - p 1, pak je hodnota informace určena jako logaritmus poměru p 1 / p 0:

    I \u003d log 2 p 1 - log 2 p 0 \u003d log 2 (p 1 / p 0)

    Hodnota informace se tedy měří v jednotkách informace, v tomto případě v bitech.

    ÚROVNĚ PROBLÉMŮ S PŘENOSEM INFORMACÍ

    Při zavádění informačních procesů vždy dochází k přenosu informace v prostoru a čase od zdroje informace k příjemci (příjemci). Současně se k přenosu informací používají různé znaky nebo symboly, například přirozený nebo umělý (formální) jazyk, což umožňuje, aby byly vyjádřeny v nějaké formě nazývané zpráva.

    Zpráva- forma reprezentace informace ve formě souboru znaků (symbolov) používaných k přenosu.

    Zpráva jako soubor znaků z hlediska sémiotiky (z řec. semeion- znak, znak) - věda, která studuje vlastnosti znaků a znakových systémů - lze studovat na třech úrovních:

    1) syntaktický, kde jsou uvažovány vnitřní vlastnosti zpráv, tj. vztahy mezi znaky, které odrážejí strukturu daného znakového systému. Vnější vlastnosti jsou studovány na sémantické a pragmatické úrovni;

    2) sémantický, kde se analyzuje vztah mezi znaky a předměty, akcemi, kvalitami, které označují, tj. sémantický obsah sdělení, jeho vztah ke zdroji informace;

    3) pragmatický, kde je uvažován vztah mezi zprávou a příjemcem, tedy spotřebitelský obsah zprávy, její vztah k příjemci.

    S přihlédnutím k určitému vztahu mezi problémy přenosu informací a úrovněmi studia znakových systémů se tedy dělí do tří rovin: syntaktické, sémantické a pragmatické.

    Problémy syntaktická úroveň se týkají vytvoření teoretických základů pro stavbu informační systémy, jejíž hlavní výkonnostní ukazatele by se blížily maximu možnému a zároveň by se zlepšovaly stávající systémy s cílem zlepšit efektivitu jejich využití. Je to čisté technické problémy zlepšení komunikačních metod a jejich nosiče materiálu- signály. Na této úrovni jsou zvažovány problémy doručování zpráv příjemci jako množiny znaků s ohledem na typ média a způsob prezentace informace, rychlost přenosu a zpracování, velikosti kódů reprezentace informací, spolehlivost a přesnost převodu těchto kódů atd., zcela abstrahující od sémantického obsahu zpráv a jejich zamýšleného účelu. Na této úrovni se informace uvažované pouze ze syntaktických pozic obvykle nazývají data, protože na sémantické stránce v tomto případě nezáleží.

    Moderní teorie informace zkoumá především problémy této úrovně. Opírá se o pojem „množství informací“, což je míra četnosti používání značek, která v žádném případě neodráží význam ani důležitost přenášených zpráv. V tomto ohledu se někdy říká, že moderní teorie informace je na syntaktické úrovni.

    Problémy sémantickou úroveň jsou spojeny s formalizací a zohledněním významu přenášených informací, určujících míru korespondence mezi obrazem předmětu a předmětem samotným. Na této úrovni se analyzují informace, které informace odrážejí, zvažují se sémantické souvislosti, tvoří se pojmy a myšlenky, odhaluje se význam a obsah informací a provádí se jejich zobecnění.

    Problémy na této úrovni jsou extrémně složité, protože sémantický obsah informace závisí více na příjemci než na sémantice zprávy prezentované v jakémkoli jazyce.

    Na pragmatické úrovni jsou zajímavé důsledky získání a použití těchto informací spotřebitelem. Problémy na této úrovni souvisí s určením hodnoty a užitečnosti použití informací při vývoji rozhodnutí spotřebitele k dosažení jeho cíle. Hlavní problém je v tom, že hodnota, užitečnost informace může být pro různé příjemce zcela odlišná a navíc závisí na řadě faktorů, jako je například včasnost jejího doručení a využití. Vysoké požadavky na rychlost předávání informací jsou často diktovány tím, že kontrolní akce musí být prováděny v reálném čase, tj. s rychlostí změny stavu řízených objektů nebo procesů. Zpoždění v doručení nebo použití informací může být katastrofální.

    Téma 2. Základy reprezentace a zpracování informací v počítači

    Literatura

    1. Informatika v ekonomii: Učebnice / Ed. BÝT. Odintsová, A.N. Romanová. - M .: Učebnice Vuzovského, 2008.

    2. Informatika: Základní kurz: Učebnice / Ed. S.V. Simonovič. - Petrohrad: Petr, 2009.

    3. Informatika. Obecný kurz: Učebnice / Spoluautor: A.N. Guda, M.A. Butáková, N.M. Nechitailo, A.V. Černov; Pod součtem vyd. V A. Kolesnikov. – M.: Dashkov i K, 2009.

    4. Informatika pro ekonomy: Učebnice / Ed. Matyushka V.M. - M.: Infra-M, 2006.

    5. Ekonomická informatika: Úvod do ekonomické analýzy informačních systémů - M.: INFRA-M, 2005.

    Míry informací (syntaktické, sémantické, pragmatické)

    K měření informací lze použít různé přístupy, ale nejrozšířenější statistický(pravděpodobnostní), sémantický a n ragmatický metody.

    Statistický(Pravděpodobnostní) metodu měření informace vyvinul K. Shannon v roce 1948, který navrhl považovat množství informace za míru nejistoty stavu systému, odstraněné v důsledku získávání informací. Kvantifikovaná nejistota se nazývá entropie. Pokud po obdržení nějaké zprávy pozorovatel získá Dodatečné informace o systému X, nejistota se snižuje. Dodatečné množství přijatých informací je definováno jako:

    kde je další množství informací o systému X přijaté ve formě zprávy;

    Počáteční nejistota (entropie) systému X;

    Konečná nejistota (entropie) systému X, po obdržení zprávy.

    Pokud systém X může být v jednom z diskrétních stavů, jejichž počet n a pravděpodobnost nalezení systému v každém z nich je rovna a součet pravděpodobností všech stavů je roven jedné, pak se entropie vypočítá podle Shannonova vzorce:

    kde je entropie systému X;

    A- základ logaritmu, který určuje jednotku měření informace;

    n– počet stavů (hodnot), ve kterých se systém může nacházet.

    Entropie je kladná hodnota, a protože pravděpodobnosti jsou vždy menší než jedna a jejich logaritmus je záporný, znaménko mínus ve vzorci K. Shannona činí entropii kladnou. Tedy stejná entropie, ale s opačným znaménkem, je brána jako míra množství informace.

    Vztah mezi informací a entropií lze chápat takto: získání informace (její nárůst) současně znamená pokles neznalosti nebo informační nejistoty (entropie)

    Statistický přístup tedy bere v úvahu pravděpodobnost výskytu zpráv: zpráva, která je méně pravděpodobná, je považována za více informativní, tzn. nejméně očekávané. Množství informací dosáhne maximální hodnota pokud jsou události stejně pravděpodobné.

    R. Hartley navrhl následující vzorec pro měření informací:

    I=log2n ,

    Kde n- počet stejně pravděpodobných událostí;

    – míra informace ve zprávě o výskytu jednoho z n Události

    Měření informace se vyjadřuje v jejím objemu. Nejčastěji se to týká objemu paměti počítače a množství dat přenášených komunikačními kanály. Za jednotku se považuje takové množství informace, při kterém je nejistota poloviční, taková jednotka informace se nazývá bit .

    Pokud se jako základ logaritmu v Hartleyho vzorci použije přirozený logaritmus (), pak jednotka informace je nat ( 1 bit = ln2 ≈ 0,693 nat). Pokud je jako základ logaritmu použito číslo 3, pak - banální pokud 10, tak - dit (hartley).

    V praxi se častěji používá větší jednotka - byte(byte) je osm bitů. Tato jednotka byla vybrána, protože ji lze použít ke kódování libovolného z 256 znaků abecedy počítačové klávesnice (256=28).

    Kromě bajtů se informace měří v polovičních slovech (2 bajty), slovech (4 bajty) a dvojitých slovech (8 bajtů). Ještě větší jednotky informací jsou také široce používány:

    1 kilobajt (kB - kilobajt) = 1024 bajtů = 2 10 bajtů,

    1 megabajt (MB - megabajt) = 1024 kB = 2 20 bajtů,

    1 gigabajt (GB - gigabajt) = 1024 MB = 2 30 bajtů.

    1 terabajt (TB - terabajt) = 1024 GB = 2 40 bajtů,

    1 petabajt (PB - petabajt) = 1024 TB = 2 50 bajtů.

    V roce 1980 ruský matematik Yu.Manin navrhl myšlenku konstrukce kvantový počítač, v souvislosti s níž existovala taková jednotka informace jako qubit ( kvantový bit, qubit ) - "kvantový bit" - míra množství paměti v teoreticky možné formě počítače, který využívá kvantové nosiče, například spiny elektronů. Qubit může nabývat nikoli dvou různých hodnot („0“ a „1“), ale několik, odpovídajících normalizovaným kombinacím dvou základních spinových stavů, což dává více možné kombinace. 32 qubitů tedy může zakódovat asi 4 miliardy stavů.

    sémantický přístup. Syntaktické měřítko nestačí, pokud nechcete určit množství dat, ale množství informací potřebných ve zprávě. V tomto případě se uvažuje sémantické hledisko, které umožňuje určit obsah informace.

    Pro měření sémantického obsahu informace můžete použít tezaurus jejího příjemce (spotřebitele). Myšlenku metody tezauru navrhl N. Wiener a rozvinul náš domácí vědec A.Yu. Schrader.

    tezaurus volal soubor informací v držení příjemce informace. Korelace tezauru s obsahem přijaté zprávy umožňuje zjistit, jak moc snižuje nejistotu.

    Závislost množství sémantické informace zprávy na tezauru příjemce

    Podle závislosti zobrazené v grafu, pokud uživatel nemá žádný tezaurus (znalost podstaty příchozí zprávy, tj. = 0), nebo přítomnost takového tezauru, který se nezměnil v důsledku zpráva (), pak se množství sémantické informace v ní rovná nule. Optimální tezaurus () bude takový, ve kterém bude množství sémantické informace maximální (). Například sémantické informace v příchozí zprávě na neznámý cizí jazyk bude nula, ale situace bude stejná, pokud pokud zpráva již není novinkou, protože uživatel už všechno ví.

    pragmatické opatření informace určuje jeho užitečnost při dosahování cílů spotřebitele. K tomu stačí určit pravděpodobnost dosažení cíle před a po obdržení zprávy a porovnat je. Hodnota informace (podle A.A. Kharkeviče) se vypočítá podle vzorce:

    kde je pravděpodobnost dosažení cíle před přijetím zprávy;

    Pravděpodobnost dosažení cílového pole přijetí zprávy;