• OLAP a OLTP systémy OLTP - online transakční zpracování dat OLAP - online zpracování analytických dat. Systémy OLTP a OLAP

    Systémy OLTP a OLAP

    V předchozím pododdílu bylo uvedeno, že za účelem adekvátního zastoupení předmětová oblast, snadnost vývoje a údržby databáze by měl být vztah uveden do třetí normální formy (existují formy normalizace a vyšších řádů, ale v praxi se používají poměrně zřídka), to znamená být silně normalizován. Slabě normalizované vztahy však mají i své výhody, z nichž hlavní je, že pokud se do databáze přistupuje převážně pouze s dotazy a úpravy a doplňování dat se provádějí velmi zřídka, je jejich výběr mnohem rychlejší. To je vysvětleno skutečností, že ve slabě normalizovaných vztazích již bylo jejich spojení, jak to bylo, vytvořeno a čas procesoru se na to nevynakládá. Existují dvě třídy systémů, pro které více se hodí silně a slabě normalizovaným vztahům.

    Silně normalizované datové modely se dobře hodí pro aplikace OLTP − Na- čára transakce zpracovává se (OLTP) - aplikace operativní zpracování transakce. Typickými příklady aplikací OLTP jsou systémy skladové účetnictví, objednávky vstupenek, provozování bankovních systémů a další. Hlavní funkcí takových systémů je vykonávat velký počet krátké transakce. Samotné transakce jsou celkem jednoduché, ale problémy jsou v tom, že takových transakcí je hodně, provádějí se současně a pokud dojde k chybám, musí se transakce vrátit zpět a vrátit systém do stavu, ve kterém byl před zahájením transakce. Téměř všechny databázové dotazy v aplikacích OLTP se skládají z příkazů vložení, aktualizace a odstranění. Požadavky na výběr jsou určeny především k tomu, aby uživatelům poskytly výběr dat z různých druhů adresářů. Většina požadavků je tedy známa předem ve fázi návrhu systému. Rozhodující pro aplikace OLTP je rychlost a spolehlivost provádění krátkých aktualizací dat. Čím vyšší je úroveň normalizace dat v aplikacích OLTP, tím je rychlejší a spolehlivější. K odchylkám od tohoto pravidla může dojít, když již ve fázi vývoje jsou známy některé často se vyskytující dotazy, které vyžadují propojení vztahů a jejichž rychlost provádění výrazně ovlivňuje chod aplikací.

    Dalším typem aplikací jsou aplikace OLAP − Na- čára Analytická zpracovává se (OLAP) - aplikace online analytického zpracování dat. Jedná se o zobecněný pojem, který charakterizuje principy budování systémů pro podporu rozhodování – Decision Support System (DSS), datových skladů – Data Warehouse, data miningových systémů – Data Mining. Tyto systémy jsou navrženy tak, aby nacházely závislosti mezi daty, prováděly dynamickou analýzu na principu „co když...“ a podobné úkoly. Aplikace OLAP pracují s velkým množstvím dat nashromážděných v podniku nebo převzatých z jiných zdrojů. Takové systémy se vyznačují následujícími vlastnostmi:

      nová data jsou do systému přidávána poměrně zřídka ve velkých blocích, například jednou za měsíc nebo čtvrtletí; data přidaná do systému nejsou obvykle nikdy smazána;
      data před načtením procházejí různými přípravnými procedurami souvisejícími s jejich uvedením do určitých formátů a podobně; požadavky do systému jsou neregulované a poměrně složité; rychlost provádění dotazu je důležitá, ale ne kritická.

    Databáze v aplikacích OLAP jsou obvykle reprezentovány jako jedna nebo více hyperkrychlí, jejichž rozměry jsou referenčními daty, a buňky samotné hyperkrychle ukládají hodnoty těchto dat. Fyzicky lze hyperkrychli postavit na základě speciálního vícerozměrného datového modelu - Multidimenzionální OLAP (MOLAP) nebo reprezentované pomocí relačního datového modelu - vztahový OLAP (ROLAP).

    V systémech OLAP, které používají relační model data, je vhodné uchovávat data ve formě slabě normalizovaných vztahů obsahujících předem vypočítaná hlavní souhrnná data. Redundance dat a problémy s ní spojené zde nejsou nijak hrozné, protože se aktualizují poměrně zřídka a spolu s aktualizací dat se přepočítávají i součty.

    Charakteristiky a rozsah úkolů efektivně řešených každou technologií jsou vysvětleny následovně. srovnávací tabulka:

    Charakteristický

    OLTP

    OLAP

    Účel systému

    Registrace, operativní vyhledávání a zpracování transakcí, regulovaná analýza

    Práce s historickými daty, analytické zpracování, prognózování, modelování

    Uložená data

    funkční, detailní

    Pokrývající velké časové období, agregované

    Datový typ

    strukturovaný

    heterogenní

    "stáří" dat

    Aktuální (několik měsíců)

    Historické (na léta) a předpověděné

    Frekvence aktualizace dat

    Vysoké, malé porce

    Malé, velké porce

    Úroveň agregace dat

    Podrobné údaje

    V podstatě - agregovaná data

    Dominantní operace

    Zadávání dat, vyhledávání, aktualizace

    Analýza dat

    Jak se data používají

    Předvídatelný

    Nepředvídatelné

    Na úrovni transakcí

    Na úrovni celé databáze

    Druh činnosti

    operační, taktický

    Analytické, strategické

    Priority

    Flexibilita
    Autonomie uživatele

    Velký počet výkonných zaměstnanců

    Relativně málo vrcholového managementu

    Srovnání OLTP a OLAP

    Charakteristický

    OLTP

    OLAP

    Povaha žádostí

    Spousta jednoduchých transakcí

    Komplexní transakce

    Uložená data

    Provozní, detailní

    Pokrývající velké časové období, agregované

    Druh činnosti

    operační, taktický

    Analytické, strategické

    Datový typ

    strukturovaný

    heterogenní

    Charakteristika systému

    Účetní systém (OLTP)

    OLAP

    Uživatelská interakce

    Na úrovni transakcí

    Na úrovni celé databáze

    Data použitá při přístupu uživatele do systému

    Samostatné záznamy

    Záznam skupin

    Doba odezvy

    Sekundy

    Několik sekund až několik minut

    Využití hardwarových prostředků

    stabilní

    dynamický

    Povaha dat

    Hlavně primární (většina nízká úroveň detail)

    Většinou deriváty (kumulativní hodnoty)

    Povaha přístupu k databázi

    Předdefinované nebo statické přístupové cesty a datové vztahy

    Nedefinované nebo dynamické přístupové cesty a datové vztahy

    Variabilita dat

    Vysoká (data se aktualizují při každé transakci)

    Nízká (data se během dotazu aktualizují jen zřídka)

    Priority

    Vysoký výkon Vysoká dostupnost

    Flexibilita
    Autonomie uživatele

    OLAP systémy

    OLAP (anglicky online analytické zpracování, real-time analytické zpracování) je technologie zpracování dat, která spočívá v přípravě souhrnných (agregovaných) informací na základě velkých datových polí strukturovaných podle vícerozměrného principu. Implementace technologie OLAP jsou komponenty softwarová řešení třída business intelligence.

    Zakladatel termínu OLAP – Edgar Codd, navrhl v roce 1993 „12 zákonů analytického zpracování v reálném čase“.

    Firmy jich mají často několik informační systémy– skladové účetní systémy, účetní systémy, ERP systémy pro automatizaci jednotlivců výrobní procesy, systémy pro shromažďování reportů z firemních oddělení a také spousta souborů, které jsou roztroušeny na počítačích zaměstnanců.

    S tolika různorodými zdroji informací je často velmi obtížné získat odpovědi na klíčové otázky o fungování společnosti a vidět velký obraz. A kdy nezbytné informace je umístěn v jednom z používaných systémů nebo lokálním souboru, je často zastaralý nebo je v rozporu s informacemi získanými z jiného systému.

    Tento problém je efektivně řešen pomocí informačních a analytických systémů vybudovaných na bázi technologií OLAP (jiné názvy: OLAP systém, Business Intelligence System, Business Intelligence). Systémy OLAP integrují stávající účetní systémy a poskytují uživateli nástroje pro analýzu velkého množství dat v reálném čase, dynamický návrh sestav, sledování a předpovídání klíčových obchodních ukazatelů.

    Výhody OLAP systémů

    Informace hrají klíčovou roli v řízení společnosti. I malé firmy zpravidla využívají několik informačních systémů k automatizaci různých oblastí činnosti. Získávání analytických zpráv v informačních systémech založených na tradičních databázích je spojeno s řadou omezení:

    Vývoj každé zprávy vyžaduje práci programátora.



    Reporty jsou generovány velmi pomalu (často několik hodin), čímž se zpomaluje chod celého informačního systému.

    Data získaná z různých strukturních prvků společnosti nejsou jednotná a často protichůdná.

    Systémy OLAP jsou svou ideologií své konstrukce navrženy tak, aby analyzovaly velké množství informací, což vám umožní překonat omezení tradičních informačních systémů.

    Vytvoření systému OLAP v podniku umožní:

    Integrujte data z různých informačních systémů a vytvořte jedinou verzi pravdy

    · Navrhujte nové zprávy pomocí několika kliknutí myší bez účasti programátorů.

    · Analýza dat v reálném čase pro jakoukoli kategorii a obchodní ukazatele na jakékoli úrovni detailů.

    Monitorujte a předvídejte klíčové obchodní ukazatele

    Při práci se systémem OLAP můžete vždy rychle najít odpovědi na vznikající otázky, vidět celkový obraz a neustále sledovat stav podniku. Zároveň si můžete být jisti, že používáte pouze aktuální informace.

    Výsledky implementace systému OLAP

    Management dostává kompletní jasnou představu o situaci a jednotný mechanismus pro účetnictví, kontrolu a analýzu.

    Automatizací interních obchodních procesů a zvýšením produktivity zaměstnanců se snižuje potřeba lidských zdrojů.

    OLAP akce

    Důvodem pro použití OLAP pro zpracování dotazů je rychlost. Relační databáze ukládají entity do samostatných tabulek, které jsou obvykle dobře normalizované. Tato struktura je vhodná pro operační databáze (OLTP systémy), ale složité multitabulkové dotazy jsou v ní relativně pomalé.

    Struktura OLAP vytvořená z produkčních dat se nazývá krychle OLAP. Krychle se vytvoří spojením tabulek pomocí hvězdicového schématu nebo schématu sněhové vločky. Ve středu hvězdicového schématu je tabulka faktů, která obsahuje klíčová fakta, která jsou dotazována. K tabulce faktů je připojeno více tabulek s rozměry. Tyto tabulky ukazují, jak lze analyzovat agregovaná relační data. Počet možných agregací je určen počtem způsobů, jakými lze hierarchicky zobrazit původní data.

    Všichni zákazníci mohou být například seskupeni podle města nebo regionu země (západ, východ, sever atd.), takže 50 měst, 8 regionů a 2 země tvoří 3 úrovně hierarchie se 60 členy. Zákazníci mohou být také seskupeni podle produktů; pokud existuje 250 produktů ve 2 kategoriích, 3 produktových skupinách a 3 výrobních divizích, pak bude počet agregátů 16560. Při přidávání dimenzí do schématu bude počet možnosti rychle dosáhne desítek milionů i více.

    OLAP kostka obsahuje základní data a informace o dimenzích (agregátech). Kostka potenciálně obsahuje všechny informace, které mohou být vyžadovány k zodpovězení jakýchkoli dotazů. Vzhledem k obrovskému počtu jednotek často dochází k úplnému výpočtu pouze u některých měření, u ostatních se provádí „na vyžádání“.

    Spolu se základním konceptem existují tři typy OLAP:

    OLAP s mnoha dimenzemi (Multidimenzionální OLAP - MOLAP);

    relační OLAP (Relational OLAP - ROLAP);

    hybridní OLAP (Hybrid OLAP - HOLAP).

    MOLAP je klasickou formou OLAP, proto se často nazývá jednoduše OLAP. Využívá sumační databázi, speciální variantu procesoru prostorové databáze, a vytváří požadované schéma prostorových dat, přičemž zachovává jak podkladová data, tak agregace.

    ROLAP pracuje přímo s relačním úložištěm, fakta a tabulky s dimenzemi se ukládají do relačních tabulek a pro ukládání agregátů se vytvářejí další relační tabulky.

    HOLAP používá relační tabulky k ukládání základních dat a multidimenzionální tabulky k ukládání agregátů.

    Speciálním případem ROLAP je ROLAP v reálném čase (R-ROLAP). Na rozdíl od ROLAP nevytváří R-ROLAP další relační tabulky pro ukládání agregátů, ale agregáty se počítají v době dotazu. V tomto případě se vícerozměrný dotaz do systému OLAP automaticky převede na dotaz SQL na relační data.

    Každý typ úložiště má určité výhody, i když v jejich hodnocení panuje nesouhlas. různých výrobců. MOLAP je nejvhodnější pro malé datové sady, rychle počítá agregace a vrací odpovědi, ale generuje obrovské množství dat. ROLAP je hodnocen jako škálovatelnější řešení a zároveň využívá co nejmenší prostor. V tomto případě je rychlost zpracování výrazně snížena. HOLAP je uprostřed těchto dvou přístupů, docela dobře se škáluje a rychle se zpracovává. Architektura R-ROLAP umožňuje multidimenzionální analýzu dat OLTP v reálném čase.

    Obtížnost aplikace OLAP spočívá ve vytváření dotazů, výběru podkladových dat a návrhu schématu, což vede k moderní produkty OLAP přichází s velkým množstvím předem nakonfigurovaných dotazů. Další problém je v podkladových datech. Musí být úplné a konzistentní.

    OLAP implementace

    Historicky prvním systémem správy vícerozměrných databází, který je v podstatě implementací OLAP, je systém Express, vyvinutý v roce 1970 společností IRI (později práva k produktu získala společnost Oracle Corporation a proměnila se v možnost OLAP pro databázi Oracle). Termín OLAP zavedl Edgar Codd v publikaci v Computerworld v roce 1993, ve které navrhl 12 principů analytického zpracování, podobných 12 pravidlům pro relační databáze, které formuloval o deset let dříve, jako referenční produkt, který splňuje navrhované principy. Codd uvedl Arborův systém Essbase (získaný v roce 1997 Hyperionem, který v roce 2007 koupil Oracle). Je pozoruhodné, že publikace byla následně odstraněna z archivů Computerworld kvůli možnému střetu zájmů, jak Codd později uvedl poradenské služby pro Arbor.

    Další známé produkty OLAP: Microsoft Analysis Services (dříve nazývané OLAP Services, součást SQL Server), SAS OLAP Server, TM1, PowerPlay, SAP BW, MicroStrategy Ingelligence Server, Mondrian, Analytical Complex PROGNOZ.

    Z hlediska implementace se dělí na „fyzický OLAP“ a „virtuální“ (relační, anglicky Relational OLAP, ROLAP). "Fyzické" se zase v závislosti na implementaci dělí na vícerozměrné (anglický vícerozměrný OLAP, MOLAP) a hybridní - (anglický hybridní OLAP, HOLAP).

    V prvním případě existuje program, který ve fázi předběžného načítání dat do OLAP ze zdrojů provede předběžný výpočet agregátů (výpočty založené na několika počátečních hodnotách, například „Celkem za měsíc“), které jsou následně uloženy ve speciální vícerozměrné databázi, která poskytuje rychlá extrakce a ekonomické skladování. Příklady takových produktů jsou Microsoft Analysis Services, Oracle OLAP Option, Essbase, SAS OLAP Server, TM1, PowerPlay.

    Hybridní OLAP je kombinace. Samotná data jsou uložena v relační databázi, zatímco agregáty jsou uloženy ve vícerozměrné.

    V implementacích ROLAP jsou všechna data ukládána a zpracovávána systémy správy relačních databází a agregáty nemusí vůbec existovat nebo mohou být vytvořeny při prvním požadavku v DBMS nebo mezipaměti analytického softwaru. Příklady takových produktů jsou SAP BW, Microstrategy Intelligence Server, Mondrian.

    Z uživatelského hlediska vypadají všechny možnosti ve schopnostech podobně. OLAP nachází největší využití v produktech pro finanční plánování, datové sklady, řešení business intelligence.

    Systémy OLTP (Online Transaction Processing Systems)

    OLTP (Online Transaction Processing), transakční systém - zpracování transakcí v reálném čase. Způsob organizace databáze, ve kterém systém pracuje s malými transakcemi, ale s velkým tokem a zároveň klient vyžaduje od systému minimální dobu odezvy.

    Termín OLTP se také používá pro systémy (aplikace). Systémy OLTP jsou určeny pro zadávání, strukturované ukládání a zpracování informací (operací, dokumentů) v reálném čase.

    Problémem integrity je zajistit správnost dat databáze v daném okamžiku. K jejímu porušení může dojít v následujících případech: 1. při zadávání a aktualizaci, kdy jsou uvedeny nesprávné údaje. 2. když data používá několik uživatelů současně. 3. v případě poruch APS.

    Řešení problémů integrity musí být zvažováno z programového a organizačního hlediska. Pro software 1. potřebujete řadu organizačních akcí (pro sledování zadání), uživatel musí znát vstupní pravidla a omezení. Pro problémy 2-3 - standardní nástroje DBMS nebo speciální softwarové moduly. DBMS - 2 hlavní integritní omezení: 1. strukturální omezení (nastavená funkčními vazbami a kontrolovaná kontrolou rovnosti databázových hodnot) 2. omezení reálných hodnot. Vyžadovat, aby hodnoty polí patřily do určitého rozsahu, nebo se jedná o závislost mezi hodnotami některých polí. (datové typy a vstupní masky). Omezení může DBMS nastavit kdykoli, ale DBMS nemusí omezení přijmout (pokud je již mnoho záznamů nesplňuje), pokud existuje shoda, je zapsáno do slovníku a použito. Omezení se liší podle úrovně obtížnosti:

    2. omezení sady atributů řetězce. (poloha - průtoky, kraje - města).

    3. omezení na mnoha linkách současně.

    Všechna tato omezení jsou statistická, ale když se databáze přesouvá z jednoho stavu do druhého, je nutné uspokojit integritní omezení před začátkem všech změn a po skončení všech, ne každé. Taková omezení se nazývají odložená a v souvislosti s nimi je zaveden pojem transakcí. Transakce je z pohledu uživatele dokončená akce na databázi. Zároveň je logickou jednotkou fungování systému. Transakce implementuje nějakou aplikační funkci, například převod peněz z jednoho účtu na druhý v bankovním systému.

    Musí mít 4 vlastnosti: 1. Atomicita (nedělitelnost): provádí se jako jediná operace přístupu k databázi, musí být provedena úplně nebo nemusí být provedena vůbec. 2. Konzistence - zaručuje vzájemnou integritu dat po dokončení zpracování transakce. 3. Izolace (každá transakce může změnit data, která jsou dočasně v nekonzistentním stavu). Zároveň je přístup dalších transakcí k těmto údajům zakázán až do doby dokončení transakce. 4. trvanlivost - pokud je transakce úspěšná, pak se změny neztratí. Výsledkem transakce může být její potvrzení (akce potvrzení změn v databázi) nebo rollback (zrušení transakce a vrácení databáze do stavu před jejím zahájením). Mechanismus commitu a rollbacku je založen na použití transakčního logu, kde se ukládá stav PŘED (v několika iteracích) a PO. Některé dialekty SQL zahrnují mezilehlé příkazy commit (tečka-to-dot rollback).

    Monitory zpracování transakcí (TPM) jsou softwarové systémy(viz zprostředkovatel nebo middleware), řešení problému efektivní řízení informačních a výpočetních zdrojů v distribuovaném systému. Poskytují flexibilní, otevřené prostředí pro vývoj a správu. mobilní aplikace, zaměřená na online zpracování distribuovaných transakcí. Mezi nejdůležitější vlastnosti TPM - škálovatelnost, podpora funkční úplnosti a integrity aplikace, dosažení maximální výkon při zpracování dat za nízké náklady, zachování integrity dat v heterogenním prostředí. Moduly TPM se spoléhají na třívrstvý model klient-server

    Na moderní trh transakční monitory, hlavními „aktéry“ jsou takové systémy jako ACMS (DEC), CICS (IBM), TOP END (NCR), TUXEDO Sytem (Novell).

    datové sklady jsou tvořeny na základě dlouhodobě fixovaných snímků operačních databází informační systém a možná i jiné externí zdroje. Datové sklady využívají databázové technologie, OLAP, data mining, vizualizaci dat.

    Hlavní charakteristiky datových skladů.

    • obsahuje historická data;
    • uchovává podrobné informace, jakož i částečně a úplně shrnuté údaje;
    • data jsou většinou statická;
    • neregulovaný, nestrukturovaný a heuristický způsob zpracování dat;
    • střední a nízká intenzita zpracování transakcí;
    • nepředvídatelný způsob využití dat;
    • určené pro analýzu;
    • soustředěný na předmětové oblasti;
    • podpora strategického rozhodování;
    • slouží relativně malému počtu vedoucích pracovníků.

    Pojmem OLAP (On-Line Analytical Processing) se označuje model prezentace dat a tím i technologie jejich zpracování v datových skladech. OLAP k poskytování využívá vícerozměrný pohled na agregovaná data rychlý přístup strategicky důležitá informace pro účely hloubkové analýzy. Aplikace OLAP by měly mít následující základní vlastnosti:

    • multidimenzionální prezentace dat;
    • podpora složitých výpočtů;
    • správné zohlednění faktoru času.

    Výhody OLAP:

    • povýšení výkon výrobní pracovníci, vývojáři aplikační programy. Včasný přístup ke strategickým informacím.
    • poskytuje uživatelům dostatek příležitostí k tomu, aby vlastní změny do schématu.
    • Aplikace OLAP spoléhají na datové sklady a OLTP systémy, které od nich získávají aktuální data, která šetří kontrola integrity firemní data.
    • snížení zátěže systémů OLTP a datové sklady.

    OLAP a OLTP. Charakteristika a hlavní rozdíly

    OLAP OLTP
    Úložiště dat by měla zahrnovat jak interní firemní data, tak externí data hlavním zdrojem informací vstupujících do provozní databáze jsou aktivity společnosti a analýza dat vyžaduje zapojení externích zdrojů informací (například statistické výkazy)
    Objem analytických databází je minimálně o řád větší než objem provozních. pro spolehlivou analýzu a předpovědi v úložiště dat potřebujete mít informace o činnosti korporace a stavu trhu několik let Pro operativní zpracování jsou vyžadována data za posledních několik měsíců
    Úložiště dat by měly obsahovat jednotně prezentované a dohodnuté informace, které se co nejvíce blíží obsahu provozních databází. Komponenta je potřebná k extrahování a „čištění“ informací z různých zdrojů. V mnoha velkých korporacích existuje několik provozních informačních systémů s vlastními databázemi současně (z historických důvodů). Provozní databáze mohou obsahovat sémanticky ekvivalentní informace prezentované v různých formátech, s různými údaji o čase jejich přijetí, někdy dokonce protichůdné.
    Sadu dotazů proti analytické databázi nelze předvídat. datové sklady existují, aby odpovídaly na požadavky analytiků ad hoc. Počítejte pouze s tím, že žádosti nebudou přicházet příliš často a ovlivní velké množství informací. Velikosti analytických databází podporují používání dotazů s agregací (součet, min, max, průměrná hodnota atd.) Systémy zpracování dat jsou navrženy pro řešení konkrétních problémů. Informace z databáze jsou vybírány často a v malých částech. Obvykle je sada dotazů do provozní databáze známa již během návrhu
    Při malé variabilitě analytických databází (pouze při načítání dat) se řazení polí ukazuje jako rozumné, více rychlé metody indexování pro hromadné vzorkování, ukládání předem agregovaných dat Systémy zpracování dat jsou ze své podstaty vysoce variabilní, což je zohledněno v používaných DBMS (normalizovaná struktura databáze, řádky jsou uloženy mimo pořadí, B-stromy pro indexování, transakční)
    Informace analytických databází jsou pro společnost natolik zásadní, že je vyžadována velká granulace ochrany (individuální přístupová práva k určitým řádkům a/nebo sloupcům tabulky) Pro systémy zpracování dat to obvykle stačí informační bezpečnost na úrovni stolu

    Coddova pravidla pro OLAP systémy

    V roce 1993 Codd publikoval OLAP pro uživatele analytiků: Jaké by to mělo být. V něm nastínil základní koncepty online analytického zpracování a určil 12 pravidel, která musí produkty splňovat, aby mohly poskytovat online analytické zpracování.

    1. Konceptuální vícerozměrná reprezentace. Model OLAP musí být ve svém jádru multidimenzionální. Vícerozměrný koncepční diagram nebo vlastní reprezentace usnadňuje modelování a analýzu i výpočty.
    2. Průhlednost. Uživatel je schopen získat všechna potřebná data ze stroje OLAP, aniž by tušil, odkud pocházejí. Bez ohledu na to, zda je produkt OLAP součástí nástrojů uživatele nebo ne, tato skutečnost by měla být pro uživatele neviditelná. Pokud je OLAP poskytován klient-server computing, pak by tato skutečnost měla být také pokud možno pro uživatele neviditelná. OLAP by měl být dodáván v kontextu skutečně otevřené architektury, která umožňuje uživateli, ať je kdekoli, komunikovat se serverem pomocí analytického nástroje. Kromě toho musí být také dosaženo transparentnosti, když analytický nástroj spolupracuje s homogenními a heterogenními databázovými prostředími.
    3. Dostupnost. OLAP musí poskytnout své vlastní logické schéma pro přístup do heterogenního databázového prostředí a provádění vhodných transformací pro poskytování dat uživateli. Navíc je nutné se předem postarat o to, kde a jak a jaké typy fyzické organizace dat budou skutečně použity. Systém OLAP by měl přistupovat pouze k údajům, která jsou skutečně potřebná, a nikoli aplikovat obecný princip„kuchyňský trychtýř“, který s sebou nese zbytečné vstupy.
    4. Konstantní výkon při vytváření zpráv. Výkon reporting by neměl výrazně klesat s růstem počtu dimenzí a velikosti databáze.
    5. Architektura klient-server. Nejen, že se vyžaduje, aby byl produkt produktem klient/server, ale také se vyžaduje, aby komponenta serveru byla dostatečně inteligentní, aby se různí klienti mohli připojit s minimálním úsilím a programováním.
    6. Obecná mnohorozměrnost. Všechny rozměry musí být stejné, každý rozměr musí být ekvivalentní jak ve struktuře, tak v operačních schopnostech. Pravda, dodatečná operační schopnosti pro jednotlivá měření (zřejmě je implikován čas), ale např doplňkové funkce by měla být dána jakékoli dimenzi. Nemělo by to být tak, že základní datové struktury, výpočetní formáty nebo formáty zpráv byly specifičtější pro jednu dimenzi.
    7. Dynamické ovládání řídké matrice. Systémy OLAP by měly automaticky upravovat své fyzické schéma na základě typu modelu, objemů dat a řídkosti databáze.
    8. Podpora více uživatelů. Nástroj OLAP musí poskytovat schopnost sdílení (žádost a dodatek), integrita a bezpečnost.
    9. Neomezené křížové operace. Pro všechna měření musí být povoleny všechny druhy operací.
    10. Intuitivní manipulace s daty. Manipulace s daty byla prováděna prostřednictvím přímých akcí na buňkách v režimu zobrazení bez použití nabídek a vícenásobných operací.
    11. Flexibilní možnosti hlášení. Měření by měla být umístěna ve zprávě způsobem, který si uživatel přeje.
    12. Neomezený

    V oblasti informačních technologií existují dvě vzájemně se doplňující oblasti:

    Technologie zaměřené na operativní (transakční) zpracování dat. Tyto technologie jsou základem ekonomických informačních systémů určených pro provozní zpracování dat. Takové systémy se nazývají OLTP(zpracování online transakcí) systémy;

    Technologie zaměřené na analýzu dat a rozhodování. Tyto technologie jsou základem ekonomických informačních systémů určených k analýze

    nashromážděná data. Takové systémy se nazývají OLAP

    (analytické zpracování online) systémy.

    Hlavní účel OLAP systémů- dynamický vícerozměrný

    analýza historických a současných dat, stabilní v čase, analýza

    trendy, modelování a předpovídání budoucnosti. Takový

    systémy se zpravidla zaměřují na libovolné zpracování,

    předem regulované žádosti. Jako hlavní

    Charakteristiky těchto systémů jsou následující:

    Podpora vícerozměrné reprezentace dat, rovnost všech dimenzí, nezávislost výkonu na počtu dimenzí;

    Přehlednost pro uživatele struktury, způsoby ukládání a zpracování dat;

    Automatické mapování logické datové struktury na externí systémy;

    Dynamické zpracování řídkých matic efektivním způsobem.

    Termín OLAP je relativně nový a někdy je v různých literárních zdrojích interpretován odlišně. Tento termín je často ztotožňován s podporou rozhodování (DSS (Decision Support Systems) - systémy pro podporu rozhodování. A jako synonymum pro druhý termín používají Data Warehousing - datové sklady, což znamená soubor organizačních řešení, softwaru a hardwaru, které poskytují analytikům s informacemi založenými na datech z nižších systémů zpracování transakcí a dalších zdrojů

    „Datové sklady“ umožňují zpracovávat data nashromážděná po dlouhou dobu. Tato data jsou heterogenní (a nemusí být nutně strukturovaná). Pro „datové sklady“ je multidimenzionální povaha dotazů neodmyslitelná. Obrovské množství dat, složitost struktury dat i dotazů vyžaduje použití speciálních metod pro přístup k informacím.

    V jiných zdrojích je pojem Systém podpory rozhodování (DSS) považován za širší. Datové sklady a online nástroje pro analytické zpracování mohou sloužit jako jedna z komponent architektury DSS.

    OLAP vždy zahrnuje interaktivní zpracování dotazů a následnou víceprůchodovou analýzu informací, která umožňuje identifikovat různé, ne vždy zřejmé, trendy pozorované v předmětné oblasti.

    Někdy se rozlišuje „OLAP v užším slova smyslu“ – jedná se o systémy, které poskytují pouze výběr dat v různých sekcích, a „OLAP v širším smyslu“, nebo jednoduše OLAP, který zahrnuje:

    Podpora editace databáze více uživateli.

    Modelovací funkce, včetně výpočetních mechanismů pro získávání odvozených výsledků, jakož i agregace a kombinování dat;

    Prognózování, trendování a statistická analýza.

    Každý z těchto typů IS samozřejmě vyžaduje specifickou organizaci dat a také speciální softwarové nástroje zajišťující efektivní provádění úkolů, které před námi stojí.

    OLAP - nástroje poskytují analýzu obchodních informací o různých parametrech, jako je typ produktu, geografická poloha kupujícího, čas transakce a prodejce, z nichž každý umožňuje vytvoření hierarchie pohledů. Takže pro čas můžete použít roční, čtvrtletní, měsíční a dokonce i týdenní a denní intervaly; geografické členění může být podle měst, států, regionů, zemí nebo v případě potřeby podle celých polokoulí.

    Systémy OLAP lze rozdělit do tří tříd.

    Nejsložitější a nejdražší z nich jsou založeny na proprietárních technologiích. multidimenzionální databázové servery. Tyto systémy poskytují celý cyklus zpracování OLAP a buď obsahují kromě serverové komponenty vlastní integrované klientské rozhraní, nebo se používají pro analýzu dat externí programy práci s tabulkami. Produkty této třídy jsou nejvhodnější pro použití ve velkých informačních skladech. Jejich údržba vyžaduje celý tým zaměstnanců, kteří se podílejí jak na instalaci a údržbě systému, tak na vytváření reprezentací dat pro koncové uživatele. Obvykle jsou tyto balíčky poměrně drahé. Příklady produktů v této třídě zahrnují Arbor Software's Essbase, IRI's Express (nyní součást Oracle), Pilot Software's Lightship a další.

    Je třeba poznamenat, že jednou z možností, jak zajistit rychlé zpracování dat při jejich analýze, je organizace dat ve formě vícerozměrných databází (MDD). Informace v MDD se neukládají jako indexované záznamy v tabulkách, ale ve formě logicky uspořádaných polí. Neexistuje jediný univerzálně uznávaný model vícerozměrného ukládání dat. MDD nemá standardizovanou metodu přístupu k datům a může splňovat požadavky specifického analytického zpracování dat.

    Po zvážení všech věcí lze srovnání mezi různými produkty MDD provádět pouze v nejobecnějších kategoriích. Na spodním konci trhu existují pouze jednouživatelské a malé LAN prohlížeče pro multidimenzionální data. Přestože mají poměrně vysokou úroveň funkčnosti a snadno se používají, mají tyto systémy omezený rozsah. a chybí jim nástroje potřebné k implementaci OLAP – zpracování v nejširším slova smyslu. Mezi produkty, které spadají do této kategorie, patří Cognos' PowerPlay, Andyne's PaBlo a Business Objects' Mercury. Drahý sektor trhu představují Acumate ES od Kenan Technologies, Express od Oracle, Gentium od Planning Sciences a Holos od Holistic Systems. Liší se natolik svými schopnostmi, že kteroukoli z nich lze bezpečně oddělit do samostatné kategorie. A konečně, čisté systémy MDD: Essbase společnosti Arbor Software, LightShip Server společnosti Pilot Software a TM/1 Sinper [N. Raden (trh se softwarem)].

    Druhá třída nástrojů OLAP - relační systémy OLAP(ROLA). Zde se k ukládání dat používají staré relační DBMS a mezi databází a klientským rozhraním je organizována vrstva metadat definovaná správcem systému. Prostřednictvím této mezivrstvy může klientská komponenta interagovat s relační databází jako s multidimenzionální. Stejně jako prvotřídní nástroje jsou systémy ROLAP dobře uzpůsobeny pro práci s velkými informačními sklady, vyžadují značné náklady na údržbu ze strany specialistů informačního oddělení a umožňují víceuživatelský provoz. Produkty tohoto typu zahrnují IQ/Vision od IQ Software Corporation, DSS/Server a DSS/Agent od MicroStrategy a DecisionSuite od Information Advantage.

    ROLAP - nástroje implementují funkce podpory rozhodování v doplňku přes procesor relační databáze.

    Takový softwarových produktů musí splňovat řadu požadavků, zejména:

    Mají výkonný generátor SQL optimalizovaný pro OLAP, který vám umožňuje používat víceprůchodové příkazy SQL SELECT a / nebo korelované poddotazy;

    Mít dostatečně vyvinuté nástroje pro netriviální zpracování, které zajistí pořadí, srovnávací analýza a výpočet procent v rámci třídy;

    Generování SQL příkazů optimalizovaných pro cílovou relační DBMS, včetně podpory pro rozšíření tohoto jazyka, která jsou v ní dostupná;

    Poskytnout mechanismy pro popis datového modelu pomocí metadat a umožnit použití těchto metadat k vytváření dotazů v reálném čase;

    Zahrňte mechanismus, který vám umožní vyhodnotit kvalitu sestavování kontingenčních tabulek z hlediska rychlosti výpočtu, nejlépe s akumulací statistik o jejich použití.

    Za třetí, relativně nový typ OLAP -nástroje - desktopové nástroje pro dotazy a vytváření sestav, doplněné o funkce OLAP nebo integrované s externími nástroji, které takové funkce provádějí. Tyto vysoce pokročilé systémy extrahují data z původních zdrojů, transformují je a umístí je do dynamické vícerozměrné databáze, která běží na PC koncového uživatele. Tento přístup, který umožňuje obejít se bez drahého multidimenzionálního databázového serveru a složité mezilehlé metadatové vrstvy potřebné pro nástroje ROLAP, zároveň poskytuje dostatečnou efektivitu analýzy. Tyto desktopové nástroje jsou nejvhodnější pro práci s malými, jednoduše organizovanými databázemi. Potřeba kvalifikované údržby je u nich nižší než u jiných OLAP systémů a přibližně odpovídá úrovni konvenčních prostředí pro zpracování dotazů. Mezi hlavní hráče na tomto trhu patří Brio Technology se systémem Brio Query Enterprise, Business Objects se stejnojmenným produktem a Cognos s PowerPlay.

    Počet produktů OLAP kompatibilních s webem je v současnosti na vzestupu.

    Důležitou otázkou je přizpůsobení OLAP zbytku softwaru. Přestože dodavatelé OLAP začínají nabízet některé způsoby interakce s SQL DBMS a dalšími nástroji, uživatelé a analytici varují, že úroveň integrace se liší a pravděpodobně bude vyžadovat značné množství kódování, včetně psaní SQL dotazů. Navíc integrovat OLAP se zbytkem software podniky neexistuje žádný průmyslový standard.

    Řešení tohoto problému může být následující. Mnoho společností například umísťuje databáze OLAP jako přední část svých datových skladů. Díky tomuto přístupu úložiště zásobuje jádro multidimenzionálního OLAP ukázkami dat, ke kterým mají uživatelé přístup, aby mohli rychle provádět složité dotazy. Cílem je vytvořit dotazovací prostředí, které před uživatelem skryje umístění dat. Toto prostředí bude automaticky spouštět složité dotazy proti multidimenzionálnímu procesoru nebo vyhledávat podrobné informace a jednoduché dotazy na relačních serverech. Pro společnosti, které se touto cestou nemohou vydat, hrají důležitou roli při nastavování propojení mezi nástroji OLAP a dalším softwarem poradenské firmy.

    OLTP systémy, který je vysoce účinným prostředkem pro realizaci operativního zpracování, se ukázal jako málo využitelný pro úlohy analytického zpracování. To je způsobeno následujícím:

    1. Pomocí tradičních systémů OLTP můžete sestavit analytickou zprávu a dokonce i předpověď jakékoli složitosti, ale předem regulovanou. Jakýkoli krok stranou, jakýkoli neregulovaný požadavek koncového uživatele zpravidla vyžaduje znalost datové struktury a poměrně vysokou kvalifikaci programátora;

    2. Řada funkcionalit nezbytných pro operační systémy je pro analytické úlohy nadbytečná a zároveň nemusí odrážet předmětnou oblast. Většina analytických úloh vyžaduje použití externích specializovaných nástrojů pro analýzu, prognózování a modelování. Pevná struktura databáze neumožňuje dosáhnout přijatelného výkonu v případě složitých výběrů a řazení, a proto vyžaduje mnoho času na organizaci bran.

    3. na rozdíl od transakčních systémů analytické systémy nevyžadují, a tudíž ani neposkytují pokročilé prostředky k zajištění integrity dat, jejich zálohování a obnovy. To nejen zjednodušuje samotné implementační nástroje, ale také snižuje interní režii, a tudíž zlepšuje výkon při získávání dat.

    Rozsah úloh efektivně řešených každým ze systémů bude určen na základě srovnávacích charakteristik systémů OLTP a OLAP (tabulka 8).

    Systémy OLTP a OLAP V předchozí podkapitole bylo uvedeno, že pro adekvátní reprezentaci předmětné oblasti, snadnost vývoje a údržby databáze by měly být vztahy redukovány na třetí normální formu (existují formy normalizace a vyšší řády, ale v praxi se používají poměrně zřídka), pak musí být vysoce normalizovány. Slabě normalizované vztahy však mají i své výhody, z nichž hlavní je, že pokud se do databáze přistupuje převážně pouze s dotazy a úpravy a doplňování dat se provádějí velmi zřídka, je jejich výběr mnohem rychlejší. To je vysvětleno skutečností, že ve slabě normalizovaných vztazích již bylo jejich spojení, jak to bylo, vytvořeno a čas procesoru se na to nevynakládá. Existují dvě třídy systémů, pro které jsou vhodnější silně a slabě normalizované vztahy. Vysoce normalizované datové modely se dobře hodí pro aplikace OLTP - On-Line Transaction Processing (OLTP) - online aplikace pro zpracování transakcí. Typickými příklady aplikací OLTP jsou systémy řízení zásob, systémy tiketování, provozní bankovní systémy a další. Hlavní funkcí takových systémů je provádět velké množství krátkých transakcí. Samotné transakce jsou celkem jednoduché, ale problémy jsou v tom, že takových transakcí je hodně, provádějí se současně a pokud dojde k chybám, musí se transakce vrátit zpět a vrátit systém do stavu, ve kterém byl před zahájením transakce. Téměř všechny databázové dotazy v aplikacích OLTP se skládají z příkazů vložení, aktualizace a odstranění. Požadavky na výběr jsou určeny především k tomu, aby uživatelům poskytly výběr dat z různých druhů adresářů. Většina požadavků je tedy známa předem ve fázi návrhu systému. Rozhodující pro aplikace OLTP je rychlost a spolehlivost provádění krátkých aktualizací dat. Čím vyšší je úroveň normalizace dat v aplikacích OLTP, tím je rychlejší a spolehlivější. K odchylkám od tohoto pravidla může dojít, když již ve fázi vývoje jsou známy některé často se vyskytující dotazy, které vyžadují propojení vztahů a jejichž rychlost provádění výrazně ovlivňuje chod aplikací. Dalším typem aplikací jsou OLAP aplikace - On-Line Analytical Processing (OLAP) - aplikace online analytického zpracování dat. Jedná se o zobecněný pojem, který charakterizuje principy budování systémů pro podporu rozhodování – Decision Support System (DSS), datových skladů – Data Warehouse, data miningových systémů – Data Mining. Tyto systémy jsou navrženy tak, aby nacházely závislosti mezi daty, prováděly dynamickou analýzu na principu „co když...“ a podobné úkoly. Aplikace OLAP pracují s velkým množstvím dat nashromážděných v podniku nebo převzatých z jiných zdrojů. Takové systémy se vyznačují následujícími vlastnostmi: * nová data jsou do systému přidávána poměrně zřídka ve velkých blocích, například jednou za měsíc nebo čtvrtletí; * data přidaná do systému se zpravidla nikdy nesmažou; * data před načtením procházejí různými přípravnými procedurami souvisejícími s jejich převedením do určitých formátů a podobně; * požadavky do systému jsou neregulované a poměrně složité; * Rychlost provádění dotazu je důležitá, ale není kritická. Databáze v aplikacích OLAP jsou obvykle reprezentovány jako jedna nebo více hyperkrychlí, jejichž rozměry jsou referenčními daty, a buňky samotné hyperkrychle ukládají hodnoty těchto dat. Fyzicky lze hyperkrychli postavit na základě speciálního vícerozměrného datového modelu - Multidimenzionální OLAP (MOLAP) nebo reprezentovat pomocí relačního datového modelu - Relační OLAP (ROLAP). V systémech OLAP, které používají relační datový model, je vhodné ukládat data ve formě slabě normalizovaných vztahů obsahujících předem vypočítaná základní souhrnná data. Redundance dat a problémy s ní spojené zde nejsou nijak hrozné, protože se aktualizují poměrně zřídka a spolu s aktualizací dat se přepočítávají i součty. Charakteristiky a rozsah úloh efektivně řešených každou technologií jsou vysvětleny v následující srovnávací tabulce: Charakteristika OLTPOLAP Účel systému Registrace, online vyhledávání a zpracování transakcí, regulovaná analýza Práce s historickými daty, analytické zpracování, prognózování, modelování Uložená data Provozní, podrobné Pokrývá velké časové období, agregované (několik měsíců) Historické (roky) a předpokládané Frekvence aktualizací datVysoká, po malých „kouscích“Malá, po velkých „kusech“Úroveň agregace datPodrobná dataVětšinou agregovaná dataDominantní operaceZadávání dat, vyhledávání, aktualizaceDatová analýzaJak jsou data používána PředvídatelnáNepředvídatelnáUživatelská interakce Na úrovni transakcí Na úrovni dat celé databáze Typ aktivityProvozní,taktickéAnalytické, strategickéPriorityVysoký výkon Vysoká dostupnostFlexibilita Autonomie uživateleKategorie uživatelůVelký počet výkonných zaměstnancůRelativně málo výkonných zaměstnanců Porovnání OLTP vs. OLAP Mnoho funkcí OLTP Povaha dotazu jednoduché transakceKomplexní transakceUložená dataOperační, granulární,Dlouhodobá, agregovanáTyp aktivityAnalytický, strategický -GicDatový typStrukturovanýRůznýtypSystémová charakteristikaÚčetní systém (OLTP)OLAPUinterakce uživatele Na úrovni transakce Na úrovni celé databáze Data používaná, když uživatel přistupuje k systémuJednotlivé záznamySkupiny záznamů až minutyReakceHodnota využití StableDynamicData charakter Většinou primární (nejnižší úroveň podrobností)Většinou odvozené (souhrnné hodnoty) Vzorce přístupu k databázi Předdefinované nebo statické přístupové cesty a datové vztahy Nedefinované nebo dynamické přístupové cesty a datové vztahy Nestálost dat Vysoká (data jsou aktualizována s každou transakcí) Nízká (data je zřídka aktualizován během dotazu) Priority Vysoký výkon Vysoká dostupnost Flexibilita Autonomie uživatele