• Metody redukce rozměrů pro analýzu dat. Zmenšení rozměrů. Metody redukce rozměrů

    Ve vícerozměrné statistické analýze je každý objekt popsán vektorem, jehož rozměr je libovolný (ale stejný pro všechny objekty). Člověk však může přímo vnímat pouze číselné údaje nebo body v rovině. Analyzovat shluky bodů v trojrozměrném prostoru je již mnohem obtížnější. Přímé vnímání dat vyšších dimenzí je nemožné. Proto je zcela přirozené chtít přejít od vícerozměrného vzorku k nízkorozměrným datům, abyste se „na to mohli podívat“.

    Kromě touhy po zviditelnění existují další motivy pro zmenšení rozměru. Ty faktory, na kterých nezávisí proměnná, která je pro výzkumníka zajímavá, pouze brání statistické analýze. Za prvé, shromažďování informací o nich spotřebovává zdroje. Za druhé, jak lze prokázat, jejich zařazení do analýzy zhoršuje vlastnosti statistických postupů (zejména zvyšuje rozptyl odhadů parametrů a charakteristik rozdělení). Proto je žádoucí se takových faktorů zbavit.

    Proberme si z hlediska redukce rozměrů příklad použití regresní analýzy k prognóze tržeb, diskutovaný v pododdíle 3.2.3. Za prvé, v tomto příkladu bylo možné snížit počet nezávislých proměnných ze 17 na 12. Za druhé bylo možné zkonstruovat nový faktor - lineární funkci 12 zmíněných faktorů, která předpovídá objem prodeje lépe než všechny ostatní lineární kombinace faktorů. Můžeme tedy říci, že v důsledku toho se dimenze problému snížila z 18 na 2. Konkrétně se jednalo o jeden nezávislý faktor (lineární kombinace uvedená v podkapitole 3.2.3) a jeden závislý faktor – objem prodeje.

    Při analýze vícerozměrných dat se obvykle nepovažuje za jeden, ale za mnoho problémů, zejména rozdílný výběr nezávislých a závislých proměnných. Zvažte proto problém redukce rozměrů v následující formulaci. Vzhledem k vícerozměrnému vzorku. Je nutné z něj přejít na množinu vektorů menšího rozměru, zachovat strukturu výchozích dat pokud možno bez ztráty informací obsažených v datech. Úloha je specifikována v rámci každé konkrétní metody redukce rozměrů.

    Metoda hlavní součásti je jednou z nejčastěji používaných metod redukce rozměrů. Jeho hlavní myšlenkou je sekvenční identifikace směrů, ve kterých mají data největší šíření. Nechť vzorek sestává z vektorů rovnoměrně rozložených s vektorem X = (X(1), X(2), … , X(n)). Zvažte lineární kombinace

    Y(λ(1), λ(2), …, λ( n)) = λ(1) X(1) +λ(2) X(2) + … + λ( n)X(n),

    λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

    Zde vektor λ = (λ(1), λ(2), …, λ( n)) leží na jednotkové sféře v n-rozměrný prostor.

    V metodě hlavní složky se nejprve zjistí směr maximálního rozptylu, tzn. takové λ, při kterém rozptyl náhodné veličiny dosáhne svého maxima Y(λ) = Y(λ(1), λ(2), …, λ( n)). Potom vektor λ definuje první hlavní složku a množství Y(λ) je projekce náhodného vektoru X na ose první hlavní komponenty.

    Pak, z hlediska lineární algebry, uvažujeme nadrovinu v n-rozměrný prostor, kolmý na první hlavní komponentu, a promítnout všechny prvky vzorku do této nadroviny. Rozměr nadroviny je o 1 menší než rozměr původního prostoru.

    V uvažované nadrovině se postup opakuje. Nalézá se v něm směr největšího šíření, tzn. druhá hlavní složka. Potom přidělte nadrovinu kolmou k prvním dvěma hlavním komponentám. Jeho rozměr je o 2 menší než rozměr původního prostoru. Další je další iterace.

    Z hlediska lineární algebry mluvíme o sestrojení nové báze v n-rozměrný prostor, jehož orty jsou hlavními složkami.

    Rozptyl odpovídající každé nové hlavní složce je menší než u předchozí. Obvykle se zastaví, když je nižší než daný práh. Pokud je vybráno k hlavní komponenty, to znamená, že n-dimenzionální prostor se podařilo dostat k- rozměrové, tzn. zmenšit rozměr od n-před k, prakticky bez zkreslení struktury zdrojových dat .

    Pro vizuální analýzu dat se často používají projekce původních vektorů do roviny prvních dvou hlavních komponent. Obvykle je dobře viditelná datová struktura, rozlišují se kompaktní shluky objektů a samostatně alokované vektory.

    Metoda hlavní složky je jednou z metod faktorová analýza. Různé algoritmy faktorové analýzy spojuje skutečnost, že u všech dochází k přechodu na nový základ v původním n-rozměrný prostor. Důležitý je pojem „faktorové zatížení“, který se používá k popisu role výchozího faktoru (proměnné) při vytváření určitého vektoru z nové báze.

    Novou myšlenkou oproti metodě hlavních komponentů je, že na základě zatížení jsou faktory rozděleny do skupin. Jedna skupina kombinuje faktory, které mají podobný vliv na prvky nového základu. Poté se doporučuje ponechat jednoho zástupce z každé skupiny. Někdy se místo výběru zástupce výpočtem vytvoří nový faktor, který je pro danou skupinu ústřední. K redukci dimenze dochází při přechodu na systém faktorů, které jsou zástupci skupin. Zbývající faktory jsou vyřazeny.

    Popsaný postup lze provést nejen pomocí faktorové analýzy. Hovoříme o shlukové analýze vlastností (faktorů, proměnných). K rozdělení prvků do skupin lze použít různé algoritmy shlukové analýzy. Stačí zadat vzdálenost (měřítko přiblížení, ukazatel rozdílu) mezi prvky. Nechat X A Na- dvě znamení. Rozdíl d(X, Y) mezi nimi lze měřit pomocí výběrových korelačních koeficientů:

    d 1 (X,Y) = 1 – rn(X,Y), d 2 (X,Y) = 1 – ρ n(X,Y),

    Kde rn(X, Y) je výběrový lineární Pearsonův korelační koeficient, ρ n(X, Y) je Spearmanův korelační koeficient pořadí vzorku.

    Vícerozměrné škálování. O použití vzdáleností (míry blízkosti, ukazatele rozdílu) d(X, Y) mezi funkcemi X A Na byla založena rozsáhlá třída vícerozměrných metod škálování. Hlavní myšlenkou této třídy metod je reprezentovat každý objekt bodem v geometrickém prostoru (obvykle dimenze 1, 2 nebo 3), jehož souřadnice jsou hodnoty skrytých (latentních) faktorů, které dohromady objekt dostatečně popsat. V tomto případě jsou vztahy mezi objekty nahrazeny vztahy mezi body - jejich zástupci. Tedy údaje o podobnosti objektů - podle vzdáleností mezi body, údaje o nadřazenosti - podle vzájemného uspořádání bodů.

    V praxi se používá řada různých modelů vícerozměrného škálování. Všichni čelí problému odhadu skutečného rozměru faktorového prostoru. Uvažujme tento problém na příkladu zpracování dat o podobnosti objektů pomocí metrického škálování.

    Nech to být n objektů O(1), O(2), …, Ó(n), pro každou dvojici objektů O(i), Ó(j) je dána míra jejich podobnosti s(i, j). To si myslíme vždycky s(i, j) = s(j, i). Původ čísel s(i, j) je irelevantní pro popis toho, jak algoritmus funguje. Mohly být získány buď přímým měřením, nebo s využitím odborníků, nebo výpočtem ze souboru popisných charakteristik nebo jiným způsobem.

    V euklidovském prostoru uvažováno n objekty musí být reprezentovány konfigurací n bodů a euklidovské vzdálenosti d(i, j) mezi odpovídajícími body. Stupeň korespondence mezi množinou objektů a množinou bodů, které je reprezentují, se určí porovnáním matic podobnosti || s(i, j)|| a vzdálenosti || d(i, j)||. Metrický funkcionál podobnosti má tvar

    Geometrické uspořádání musí být zvoleno tak, aby funkcionál S dosáhl své minimální hodnoty.

    Komentář. V nemetrickém škálování se místo blízkosti měr blízkosti a samotných vzdáleností uvažuje blízkost uspořádání na množině měr blízkosti a množině odpovídajících vzdáleností. Místo funkčnosti S jsou použity analogy Spearmanových a Kendallových hodnostních korelačních koeficientů. Jinými slovy, nemetrické škálování předpokládá, že míry blízkosti jsou měřeny na ordinální stupnici.

    Nechť má rozměr euklidovský prostor m. Zvažte minimální střední čtvercovou chybu

    ,

    kde minimum je převzato ze všech možných konfigurací n body v m-dimenzionální euklidovský prostor. Lze ukázat, že uvažovaného minima je dosaženo na nějaké konfiguraci. Je jasné, že s růstem m veličina α m monotónně klesá (přesněji neroste). Dá se ukázat, že kdy m > n– 1 se rovná 0 (pokud s(i, j) je metrika). Pro zvýšení možností smysluplné interpretace je žádoucí působit v prostoru co nejmenšího rozměru. V tomto případě však musí být rozměr zvolen tak, aby body představovaly objekty bez velkých zkreslení. Nabízí se otázka: jak racionálně zvolit rozměr, tzn. přirozené číslo m?

    V rámci deterministické analýzy dat se zdá, že na tuto otázku neexistuje rozumná odpověď. Proto je nutné studovat chování α m v určitých pravděpodobnostních modelech. Pokud blízkost měří s(i, j) jsou náhodné proměnné, jejichž rozdělení závisí na „skutečné dimenzi“ m 0 (a případně na některých dalších parametrech), pak v klasickém matematicko-statistickém stylu můžeme nastavit problém odhadu m 0 , vyhledávat konzistentní skóre a tak dále.

    Začněme sestavovat pravděpodobnostní modely. Předpokládáme, že objekty jsou body v euklidovském prostoru dimenze k, Kde k dostatečně velký. To je ten "skutečný rozměr". m 0 , znamená, že všechny tyto body leží na nadrovině dimenze m 0 Předpokládejme pro jednoznačnost, že uvažovaná množina bodů je výběr z kruhového normálního rozdělení s rozptylem σ 2 (0). To znamená, že objekty O(1), O(2), …, Ó(n) jsou kolektivně nezávislé náhodné vektory, z nichž každý je konstruován jako ζ(1) E(1) + ζ(2) E(2) + … + ζ( m 0)E(m 0), kde E(1), E(2), … , E(m 0) je ortonormální báze v podprostoru dimenze m 0 , kde leží uvažované body a ζ(1), ζ(2), … , ζ( m 0) jsou kolektivně nezávislé jednorozměrné normální náhodné veličiny s matematickým očekáváním) a rozptyl σ 2 (0).

    Zvažte dva modely pro získání měření blízkosti s(i, j). V prvním z nich s(i, j) se liší od euklidovské vzdálenosti mezi odpovídajícími body v důsledku skutečnosti, že body jsou známé s deformacemi. Nechat S(1),S(2), … , S(n) jsou považovány za body. Pak

    s(i, j) = d(C(i) + ε( i), C(j) + ε( j)), i, j = 1, 2, … , n,

    Kde d je euklidovská vzdálenost mezi body v k-rozměrný prostor, vektory ε(1), ε(2), … , ε( n) představují vzorek z kruhového normálního rozdělení v k-rozměrný prostor s nulovým matematickým očekáváním a kovarianční maticí σ 2 (1) , Kde je matice identity. Jinými slovy, ε( i) = η(1) E(1) + η(2) E(2) + … + η( k)E(k), kde E(1), E(2), …, E(k) je ortonormální základ v k-rozměrný prostor a (η( i, t), i= 1, 2, …, n, t= 1, 2, … , k) je množina jednorozměrných náhodných veličin nezávislých v množině s nulovým matematickým očekáváním a rozptylem σ 2 (1).

    Ve druhém modelu jsou zkreslení uložena přímo na samotné vzdálenosti:

    s(i,j) = d(C(i), C(j)) + ε( i,j), i,j = 1, 2, … , n, ij,

    kde (ε( i, j), i, j = 1, 2, … , n) jsou kolektivně nezávislé normální náhodné veličiny s matematickým očekáváním) a rozptyl σ 2 (1).

    Článek ukazuje, že pro oba formulované modely je minimální střední kvadratická chyba α m pro n→ ∞ konverguje v pravděpodobnosti k

    F(m) = F 1 (m) + σ 2 (1) ( km), m = 1, 2, …, k,

    Takže funkce F(m) je lineární na intervalech a a klesá rychleji na prvním intervalu než na druhém. Z toho vyplývá, že statistiky

    je konzistentní odhad skutečné dimenze m 0 .

    Z pravděpodobnostní teorie tedy vyplývá doporučení - jako odhad dimenze faktorového prostoru, použití m*. Všimněte si, že takové doporučení formuloval jako heuristické jeden ze zakladatelů multidimenzionálního škálování J. Kraskal. Vycházel ze zkušeností praktického využití vícerozměrného škálování a výpočetních experimentů. Pravděpodobnostní teorie umožnila toto heuristické doporučení doložit.

    Předchozí

    V důsledku prostudování materiálu kapitoly 5 by student měl:

    vědět

    • základní pojmy a problémy redukce rozměrů:
    • přístupy k řešení problému transformace prostoru rysů;

    být schopný

    • použijte metodu hlavních komponent k přechodu na standardizované ortogonální prvky;
    • vyhodnotit pokles informačního obsahu dat s poklesem dimenze prostoru rysů;
    • řešit problém konstrukce optimálních vícerozměrných měřítek pro studium objektů;

    vlastní

    • metody redukce rozměrů pro řešení aplikovaných problémů statistické analýzy;
    • dovednosti interpretace proměnných v prostoru transformovaných prvků.

    Základní pojmy a problémy redukce rozměrů

    Na první pohled platí, že čím více informací o předmětech studia v podobě souboru znaků je charakterizujících bude k vytvoření modelu použito, tím lépe. Příliš mnoho informací však může snížit efektivitu analýzy dat. Existuje dokonce termín "prokletí dimenzionality" (prokletí dimenze), charakterizující problémy práce s vysokorozměrnými daty. Potřeba zmenšení rozměru v té či oné podobě souvisí s řešením různých statistických problémů.

    Neinformativní vlastnosti jsou zdrojem dodatečného šumu a ovlivňují přesnost odhadu parametrů modelu. Navíc datové sady s velkým počtem funkcí mohou obsahovat skupiny korelovaných proměnných. Přítomnost takových skupin znaků znamená duplikaci informací, což může zkreslit specifikaci modelu a ovlivnit kvalitu odhadu jeho parametrů. Čím vyšší je rozměr dat, tím větší je množství výpočtů při jejich algoritmickém zpracování.

    Podle principu k tomu použitých proměnných lze rozlišovat dva směry při zmenšování dimenze prostoru prvků: výběr prvků z existující výchozí sady a vytváření nových prvků transformací původních dat. V ideálním případě by zmenšená reprezentace dat měla mít rozměr odpovídající rozměru vlastní datům. (vnitřní dimenze).

    Hledání co nejinformativnějších rysů, které charakterizují zkoumaný jev, je zřejmým způsobem, jak zmenšit rozměr problému, který nevyžaduje transformaci původních proměnných. To umožňuje udělat model kompaktnější a vyhnout se ztrátám spojeným s rušivým efektem neinformativních prvků. Výběr informativních znaků spočívá v nalezení nejlepší podmnožiny z množiny všech výchozích proměnných. Kritériem pro pojem „nejlepší“ může být buď nejvyšší kvalita modelování pro danou dimenzi prostoru prvků, nebo nejmenší datová dimenze, při které je možné model dané kvality postavit.

    Přímé řešení problému vytvoření nejlepšího modelu je spojeno s výčtem všech možných kombinací vlastností, což se většinou jeví jako nadměrně pracné. Proto se zpravidla uchylujte k přímému nebo obrácenému výběru vlastností. V postupech přímého výběru jsou proměnné postupně přidávány od počáteční sady, dokud není dosaženo požadované kvality modelu. V algoritmech postupného zmenšování prostoru původních znaků (reverzní výběr) jsou postupně odstraňovány nejméně vypovídající proměnné, dokud není informační obsah modelu redukován na přijatelnou úroveň.

    Je třeba mít na paměti, že informační obsah znaků je relativní. Výběr by měl poskytovat vysoký informační obsah množiny znaků, nikoli celkový informační obsah proměnných, které jej tvoří. Přítomnost korelace mezi znaky tedy snižuje jejich celkový informační obsah v důsledku duplikace informací, které jsou jim společné. Přidání nové funkce k již vybraným proto poskytuje zvýšení informačního obsahu do té míry, že obsahuje užitečné informace, které nejsou přítomny v dříve vybraných proměnných. Nejjednodušší situací je výběr vzájemně ortogonálních znaků, ve kterém je selekční algoritmus implementován extrémně jednoduše: proměnné jsou seřazeny podle své informativnosti a je použito takové složení prvních znaků v tomto žebříčku, které poskytuje danou informativnost.

    Omezení metod výběru prvků pro zmenšení rozměru prostoru je spojeno s předpokladem přímé přítomnosti nezbytných prvků v počátečních datech, což se obvykle ukáže jako nesprávné. Alternativním přístupem k redukci rozměrů je transformace prvků do redukované sady nových proměnných. Na rozdíl od výběru počátečních rysů zahrnuje vytváření prostoru nových rysů vytváření nových proměnných, které jsou obvykle funkcemi původních prvků. Tyto proměnné, ne přímo pozorovatelné, bývají označovány jako latentní, popř latentní. Během procesu tvorby mohou být tyto proměnné vybaveny různými užitečnými vlastnostmi, jako je ortogonalita. V praxi jsou počáteční prvky obvykle propojeny, takže transformace jejich prostoru na ortogonální generuje nové souřadnice prvků, které nemají za následek duplikování informací o studovaných objektech.

    Zobrazení objektů v novém prostoru ortogonálních prvků umožňuje vizualizovat užitečnost každého z prvků z hlediska rozdílů mezi těmito objekty. Pokud jsou souřadnice nové báze uspořádány podle rozptylu charakterizujícího rozptyl hodnot pro ně pro uvažovaná pozorování, je zřejmé, že z praktického hlediska některé rysy s malými hodnotami rozptylů jsou k ničemu, protože objekty podle těchto znaků jsou prakticky nerozeznatelné ve srovnání s jejich rozdíly v informativnějších proměnných. V takové situaci lze hovořit o tzv. degeneraci původního prostoru rysů z k proměnné a skutečný rozměr tohoto prostoru T může být menší než originál (m< k).

    Zmenšení prostoru rysů je doprovázeno určitým poklesem informačního obsahu dat, ale míru přijatelné redukce lze určit předem. Extrakce rysů promítá sadu počátečních proměnných do prostoru nižší dimenze. Komprese prostoru prvků do 2-3D může být užitečná pro vizualizaci dat. Proces formování prostoru nových funkcí tedy obvykle vede k menší množině skutečně informativních proměnných. Na jejich základě lze sestavit lepší model jako založený na menším počtu nejinformativnějších prvků.

    Vytváření nových proměnných na základě původních se využívá pro latentní sémantickou analýzu, kompresi dat, klasifikaci a rozpoznávání vzorů, což zvyšuje rychlost a efektivitu procesů učení. Komprimovaná data se obvykle používají pro další analýzu a modelování.

    Jednou z důležitých aplikací transformace prostoru příznaků a redukce rozměrů je konstrukce syntetických latentních kategorií na základě naměřených hodnot příznaků. Tyto latentní znaky mohou charakterizovat obecné určité rysy studovaného jevu, integrovat konkrétní vlastnosti pozorovaných objektů, což umožňuje sestavit integrální indikátory různých úrovní zobecnění informací.

    Zásadní je role metod redukce příznakového prostoru při studiu problému duplikace informací ve výchozích příznacích, vedoucí k „nabobtnání“ rozptylu odhadů koeficientů regresních modelů. Přechod na nové proměnné, ideálně ortogonální a smysluplně interpretované, je účinným modelovacím nástrojem v podmínkách multikolinearity výchozích dat.

    Transformace počátečního prostoru rysů na ortogonální je vhodná pro řešení klasifikačních problémů, protože umožňuje rozumně aplikovat určité míry blízkosti nebo rozdílů objektů, jako je euklidovská vzdálenost nebo druhá mocnina euklidovské vzdálenosti. V regresní analýze umožňuje konstrukce regresní rovnice na hlavních komponentech vyřešit problém multikolinearity.

    Redukce rozměrů (redukce dat)

    Redukce dimenzionality dat je v analytických technologiích chápána jako proces jejich transformace do podoby, která je pro analýzu a interpretaci nejvhodnější. Obvykle se toho dosahuje snížením jejich objemu, snížením počtu použitých prvků a rozmanitosti jejich hodnot.

    Analyzovaná data jsou často neúplná, když špatně odrážejí závislosti a vzorce zkoumaných obchodních procesů. Důvodem může být nedostatečný počet pozorování, absence znaků, které odrážejí podstatné vlastnosti předmětů. V tomto případě se použije obohacení dat.

    Redukce rozměrů se uplatní v opačném případě, kdy jsou data nadbytečná. K redundanci dochází, když lze problém analýzy vyřešit se stejnou úrovní účinnosti a přesnosti, ale s použitím menšího rozměru dat. To umožňuje snížit čas a výpočetní náklady na řešení problému, učinit data a výsledky jejich analýzy lépe interpretovatelné a srozumitelné pro uživatele.

    Snížení počtu pozorování dat se uplatní, pokud lze získat řešení srovnatelné kvality na vzorku menší velikosti, čímž se sníží výpočetní a časové náklady. To platí zejména pro algoritmy, které nejsou škálovatelné, kdy i malé snížení počtu záznamů vede k výraznému zisku ve výpočetním čase.

    Snížit počet vlastností má smysl tehdy, když jsou informace potřebné pro kvalitativní řešení problému obsaženy v určité podmnožině vlastností a není nutné je využít všechny. To platí zejména pro korelované vlastnosti. Například charakteristiky „Věk“ a „Pracovní zkušenosti“ v podstatě nesou stejné informace, takže jednu z nich lze vyloučit.

    Nejúčinnějším prostředkem ke snížení počtu funkcí je faktorová analýza a analýza hlavních komponent.

    Snížení rozmanitosti hodnot prvků má smysl, například pokud je přesnost reprezentace dat nadměrná a místo skutečných hodnot lze použít celočíselné hodnoty, aniž by byla ohrožena kvalita modelu. Zároveň se však sníží množství paměti zabrané daty a výpočetní náklady.

    Podmnožina dat získaná v důsledku redukce rozměrů by měla převzít z původní množiny tolik informací, kolik je nutné k vyřešení problému s danou přesností, a výpočetní a časové náklady na redukci dat by neměly znehodnocovat přínosy z toho plynoucí.

    Analytický model postavený na redukovaném souboru dat by se měl stát snadněji zpracovatelným, implementovaným a pochopitelným než model postavený na původním souboru.

    Rozhodnutí zvolit metodu redukce rozměrů je založeno na apriorních znalostech o vlastnostech řešeného problému a očekávaných výsledcích, jakož i na omezeném čase a výpočetních zdrojích.

    • Ve statistice, strojovém učení a teorii informací je redukce rozměrů transformací dat, která spočívá ve snížení počtu proměnných získáním hlavních proměnných. Transformaci lze rozdělit na výběr prvků a extrakci prvků.

    Související pojmy

    Odkazy v literatuře

    – načítání a předzpracování vstupních dat, – ruční a automatické označování stimulačních materiálů (výběr oblastí zájmu), – algoritmus pro výpočet následnické reprezentační matice, – sestavení rozšířené datové tabulky s hodnotami vstupních proměnných potřebných pro následné analýza, – metoda zmenšení rozměrů prostory prvků (metoda hlavních komponent), – vizualizace zatížení komponent pro výběr interpretovaných komponent, – algoritmus učení rozhodovacího stromu, – algoritmus odhadu prediktivní schopnosti stromu, – vizualizace rozhodovacího stromu.

    Související pojmy (pokračování)

    Techniky spektrálního shlukování používají spektrum (vlastní hodnoty) matice podobnosti dat k provedení redukce rozměrů před shlukováním v prostorech nižších rozměrů. Matice podobnosti je uvedena jako vstup a skládá se z kvantitativních odhadů relativní podobnosti každé dvojice bodů v datech.

    Spektrální metody jsou třídou technik používaných v aplikované matematice k numerickému řešení některých diferenciálních rovnic, případně zahrnující rychlou Fourierovu transformaci. Cílem je přepsat řešení diferenciálních rovnic jako součet některých "základních funkcí" (například jak Fourierovy řady jsou součtem sinusoid) a poté zvolit koeficienty v součtu tak, aby co nejlépe vyhovovaly diferenciální rovnici.

    Matematická analýza (klasická matematická analýza) - soubor úseků matematiky odpovídající historickému úseku pod názvem "analýza infinitesimál", kombinuje diferenciální a integrální počet.

    Diferenciální evoluce je vícerozměrná matematická optimalizační metoda, která patří do třídy stochastických optimalizačních algoritmů (to znamená, že pracuje s náhodnými čísly) a využívá některé myšlenky genetických algoritmů, ale na rozdíl od nich nevyžaduje práci s proměnnými v binárním kódu.

    Metoda diskrétních prvků (DEM) je skupina numerických metod navržených pro výpočet pohybu velkého počtu částic, jako jsou molekuly, zrnka písku, štěrk, oblázky a další zrnitá média. Metoda byla původně použita Cundallem v roce 1971 k řešení problémů v mechanice hornin.

    Účel studia:

    Vyhodnocení efektivity technik snižování dimenzionality dat pro optimalizaci jejich aplikace v rozpoznávací (identifikační) praxi.

    Cíle výzkumu:

    1. Přehled literárních zdrojů o existujících metodách snižování dimenzionality dat.

    2. Provádění výzkumu (experimentů) za účelem porovnání účinnosti algoritmů používaných v praxi ke snížení datové dimenze v klasifikačních problémech

    Metody výzkumu (software):

    Programovací jazyk C++, knihovna OpenCV

    Vnímání vysokorozměrných dat pro člověka je obtížné a někdy nemožné. V tomto ohledu se stalo zcela přirozené chtít přejít od vícerozměrného vzorku k datům malých rozměrů, abyste je „mohli prohlížet“, vyhodnocovat a používat, včetně plnění úkolů rozpoznávání. Kromě přehlednosti vám redukce rozměrů umožňuje zbavit se faktorů (informací), které narušují statistickou analýzu, prodlužují dobu sběru informací, zvyšují rozptyl odhadů parametrů a charakteristik rozdělení.

    Redukce rozměrů je transformace původních vysokorozměrných dat do nové reprezentace nižších rozměrů, která zachovává základní informace. V ideálním případě se rozměr transformované reprezentace shoduje s vnitřním rozměrem dat. Vnitřní dimenze dat je minimální počet proměnných potřebných k vyjádření všech možných vlastností dat. Analytický model postavený na redukovaném souboru dat by se měl stát snadněji zpracovatelným, implementovaným a pochopitelným než model postavený na původním souboru.

    Rozhodnutí zvolit metodu redukce rozměrů je založeno na znalostech o vlastnostech řešeného problému a očekávaných výsledcích, stejně jako na omezených časech a výpočetních zdrojích. Podle přehledů literatury jsou nejběžněji používanými metodami snižování dimenzionality Principal Component Analisys (PCA), Independent Component Analisys (ICA) a Singular Value Decomposition (SVD).

    Analýza hlavních komponent (PCA) je nejjednodušší metodou redukce rozměrů dat. Je široce používán k transformaci funkcí při současném snížení datové dimenze v problémech klasifikace. Metoda je založena na projekci dat do nového souřadnicového systému menších rozměrů, který je určen vlastními vektory a vlastními hodnotami matice. Matematicky je metoda hlavní komponenty ortogonální lineární transformace.

    Hlavní myšlenkou metody je vypočítat vlastní čísla a vlastní vektory matice kovariance dat, aby se minimalizoval rozptyl. Kovarianční matice se používá k určení rozptylu kolem průměru vzhledem k sobě navzájem. Kovariance dvou náhodných proměnných (dimenzí) je mírou jejich lineární závislosti:

    kde je matematické očekávání náhodné veličiny X, je matematické očekávání náhodné veličiny Y. Vzorec (1) můžeme také napsat jako:

    kde je střední hodnota X, kde je střední hodnota Y, N je rozměr dat.

    Po výpočtu vlastních vektorů a vlastních hodnot jsou jejich hodnoty seřazeny v sestupném pořadí. Složky se tedy získávají v sestupném pořadí podle důležitosti. Vlastní vektor s největší vlastní hodnotou je hlavní složkou datové sady. Hlavní složky se získají vynásobením řádků z vlastních vektorů seřazenými vlastními hodnotami. Pro nalezení optimálního prostoru nižší dimenze se používá vzorec (3), podle kterého se vypočítá minimální chyba mezi původním souborem dat a souborem získaným podle následujícího kritéria:

    kde P je rozměr nového prostoru, N je rozměr původního vzorku, jsou vlastní čísla a je prahová hodnota. V průběhu algoritmu získáme matici s daty MP, lineárně transformovanou z MN, načež PCA najde lineární zobrazení M, které minimalizuje vyhodnocovací funkci:

    kde je euklidovská vzdálenost mezi body a , je euklidovská vzdálenost mezi body a , , . Minimum tohoto odhadu lze vypočítat provedením spektrálního rozkladu Gramovy matice a vynásobením vlastních vektorů této matice kořenem odpovídajících vlastních hodnot.

    Analýza nezávislých složek ( ICA ) , na rozdíl od PCA je to poměrně nová metoda, která si však rychle získává na popularitě. Je založen na myšlence lineární transformace dat do nových komponent, které jsou co možná nejvíce statisticky nezávislé a nemusí být vzájemně ortogonální. Pro výzkum v této práci byl zvolen algoritmus FastICa, který je podrobně popsán v článku. Hlavními cíli této metody je centrování (odečtení průměru z dat) a „bělení“ (lineární transformace vektoru x na vektor s nekorelovanými souřadnicemi, jejichž rozptyl je roven jedné).

    Kritériem nezávislosti ve FastICA je negaussiánství, které se měří pomocí koeficientu špičatosti:

    U gaussovských náhodných proměnných je tato hodnota nulová, takže FastICA svou hodnotu maximalizuje. Jestliže jsou „odbarvená“ data, pak kovarianční maticí „odbarvených“ dat je matice identity.

    Taková proměna je vždy možná. Populární metoda „bělení“ využívá spektrální rozklad kovarianční matice , kde je ortogonální matice vlastních vektorů a je diagonální matice vlastních hodnot,. Ukazuje se, že "bělení" může být reprezentováno jako:

    kde se matice vypočítá operací po komponentách:

    Experimenty

    Pro experimentální studium navržených metod byly použity storyboardové videosekvence z databáze CASIA GAIT. Databáze obsahuje sekvence binárních obrázků odpovídajících jednotlivým snímkům videosekvence, na kterých již byly vybrány pohybující se objekty.

    Z celého souboru videosekvencí bylo náhodně vybráno 15 tříd, ve kterých je úhel záběru 90 stupňů, lidé jsou vyobrazeni v běžném nezimním oblečení a bez tašek. V každé třídě bylo 6 sekvencí. Délka každé sekvence byla alespoň 60 snímků. Třídy byly rozděleny do tréninkových a testovacích sad po 3 sekvencích.

    Vlastnosti získané metodami PCA a ICA byly použity k trénování klasifikátoru, kterým byl v této práci stroj podpůrných vektorů (Support Vector Machines, SVM).

    Pro zjištění kvality metody byla hodnocena přesnost klasifikace, definovaná jako podíl správně klasifikovaných objektů. Během experimentu byl také zaznamenáván čas strávený v tréninkovém a testovacím režimu.

    Obrázek 1. a) Analýza hlavních komponent (PCA) b) Metoda nezávislých složek (ICA)

    Obrázek 1(a,b) ukazuje závislost přesnosti klasifikace na hodnotě dimenze výstupních dat po transformaci. Je vidět, že v PCA se přesnost klasifikace výrazně nemění s nárůstem počtu komponent, zatímco při použití ICA začíná přesnost klesat od určité hodnoty.

    Obrázek 2. Závislost klasifikačního času na počtu komponent A) PCA , b) ICA

    Obrázek 2(a,b) ukazuje závislost doby klasifikace na počtu komponent PCA a ICA. Nárůst rozměru byl v obou případech doprovázen lineárním nárůstem doby zpracování. Z grafů je vidět, že klasifikátor SVM běžel rychleji po redukci rozměrů pomocí analýzy hlavních komponent (PCA).

    Metody Principal Component Analisys (PCA), Independent Component Analisys (ICA) pracovaly dostatečně rychle as určitými parametry byly v klasifikačním problému získány vysoké výsledky. Ale u dat se složitou strukturou tyto metody ne vždy dosahují požadovaného výsledku. Proto je v poslední době stále více pozornosti věnováno lokálním nelineárním metodám, které promítají data na určitou varietu, což umožňuje zachovat datovou strukturu.

    Do budoucna se počítá s rozšířením jak seznamu algoritmů sloužících k vytvoření indikativního popisu, tak seznamu používaných klasifikačních metod. Další důležitou oblastí výzkumu je zkrácení doby zpracování.

    Bibliografie:

    1. Jolliffe, I.T., Principal Component Analysis, Springer, 2002
    2. Hyvärinen a Erkki Oja, Nezávislá analýza komponent: Algoritmy a aplikace, Neuronové sítě, 13, 2000
    3. Josiński, H. Extrakce rysů a klasifikace video sekvencí chůze na základě HMM pro účely identifikace člověka / Springer, 2013 - Vol 481.