• Metode smanjenja dimenzionalnosti za analizu podataka. Smanjenje dimenzionalnosti. Metode smanjenja dimenzionalnosti

    U multivarijatnoj statističkoj analizi svaki objekt je opisan vektorom čija je dimenzija proizvoljna (ali ista za sve objekte). Međutim, osoba može izravno percipirati samo numeričke podatke ili točke na ravnini. Analizirati klastere točaka u trodimenzionalnom prostoru puno je teže. Izravna percepcija višedimenzionalnih podataka je nemoguća. Stoga je sasvim prirodno poželjeti prijeći s višedimenzionalnog uzorka na niskodimenzionalne podatke tako da ih "možete pogledati".

    Osim želje za jasnoćom, postoje i drugi motivi smanjivanja dimenzionalnosti. Oni čimbenici o kojima ne ovisi varijabla od interesa za istraživača samo ometaju statističku analizu. Prije svega, sredstva se troše na prikupljanje informacija o njima. Drugo, kao što se može dokazati, njihovo uključivanje u analizu pogoršava svojstva statističkih postupaka (osobito povećava disperziju procjena parametara i karakteristika distribucije). Stoga je preporučljivo riješiti se takvih čimbenika.

    Razmotrimo, sa stajališta smanjenja dimenzionalnosti, primjer korištenja regresijske analize za predviđanje obujma prodaje, o čemu se govori u pododjeljku 3.2.3. Prvo, u ovom primjeru bilo je moguće smanjiti broj nezavisnih varijabli sa 17 na 12. Drugo, bilo je moguće konstruirati novi faktor - linearnu funkciju 12 navedenih faktora, koja bolje predviđa obujam prodaje od svih ostalih linearnih kombinacija faktora. Stoga možemo reći da se time dimenzija problema smanjila s 18 na 2. Naime, ostao je jedan nezavisan faktor (linearna kombinacija navedena u potpoglavlju 3.2.3.) i jedan ovisan - obujam prodaje.

    Pri analizi multivarijatnih podataka obično se ne razmatra jedan nego mnogo problema, posebice različit odabir neovisnih i zavisnih varijabli. Stoga razmotrite problem smanjenja dimenzionalnosti u sljedećoj formulaciji. Dat je multivarijatni uzorak.

    Potrebno je prijeći s njega na skup vektora niže dimenzije, čuvajući strukturu izvornih podataka što je više moguće, bez gubitka informacija sadržanih u podacima ako je moguće. Zadatak je specificiran u okviru svake pojedine metode redukcije dimenzionalnosti. je jedna od najčešće korištenih tehnika smanjenja dimenzionalnosti. Njegova glavna ideja je dosljedno identificirati smjerove u kojima podaci imaju najveću raspršenost. Neka se uzorak sastoji od vektora identično raspoređenih s vektorom = (X(1), X(2), … , X(x n

    )). Razmotrimo linearne kombinacije Y x(λ(1), λ(2), …, λ( X)) = λ(1) X(1) + λ(2) x)X(x),

    (2) + … + λ( x) = 1.

    λ 2 (1) + λ 2 (2) + …+ λ 2 ( x Ovdje je vektor λ = (λ(1), λ(2), …, λ( x)) leži na jediničnoj sferi u

    -dimenzionalni prostor. )). Razmotrimo linearne kombinacije(λ) = )). Razmotrimo linearne kombinacije Y x U metodi glavne komponente najprije se pronalazi smjer maksimalnog raspršenja, tj. takav λ pri kojem varijanca slučajne varijable doseže svoj maksimum )). Razmotrimo linearne kombinacije)). Tada vektor λ zadaje prvu glavnu komponentu i količinu (λ) je projekcija slučajnog vektora X

    prema osi prve glavne komponente. x Zatim, u smislu linearne algebre, razmotrite hiperravninu u

    -dimenzionalni prostor, okomito na prvu glavnu komponentu, i projicirati sve elemente uzorka na tu hiperravninu. Dimenzija hiperravnine je za 1 manja od dimenzije izvornog prostora.

    U hiperravnini koja se razmatra, postupak se ponavlja. U njemu se nalazi pravac najvećeg raspršenja, tj. druga glavna komponenta. Zatim se identificira hiperravnina okomita na prve dvije glavne komponente. Njegova dimenzija je 2 manja od dimenzije izvornog prostora. Sljedeća je sljedeća iteracija. x Sa stajališta linearne algebre, govorimo o konstruiranju nove baze u

    -dimenzionalni prostor, čiji su vektori glavne komponente. Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano k x glavne komponente, to znači da od Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano- -dimenzionalni prostor u koji smo se uspjeli preseliti x dimenzionalni, tj. smanjiti dimenziju od Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano, -do .

    praktički bez iskrivljavanja strukture izvornih podataka

    Za vizualnu analizu podataka često se koriste projekcije izvornih vektora na ravninu prve dvije glavne komponente. Obično je struktura podataka jasno vidljiva, razlikuju se kompaktni klasteri objekata i pojedinačni vektori. Metoda glavne komponente jedna je od metoda. faktorska analiza x Različite algoritme faktorske analize ujedinjuje činjenica da kod svih postoji prijelaz na novu osnovu u izvornoj

    Nova ideja u usporedbi s metodom glavne komponente je da se faktori dijele u skupine na temelju opterećenja. Čimbenici koji imaju sličan utjecaj na elemente nove osnove spojeni su u jednu skupinu. Zatim se preporuča ostaviti po jednog predstavnika iz svake skupine. Ponekad se, umjesto da se predstavnik izabere kalkulacijom, formira novi čimbenik koji je središnji za dotičnu skupinu. Smanjenje dimenzionalnosti događa se kada se prijeđe na sustav faktora koji su predstavnici grupa. Ostali faktori se odbacuju.

    Opisani postupak može se provesti ne samo pomoću faktorske analize. Riječ je o klaster analizi obilježja (faktora, varijabli). Da biste podijelili značajke u grupe, možete koristiti različite algoritme analize klastera. Dovoljno je unijeti udaljenost (mjeru blizine, pokazatelj razlike) između obilježja. Neka X I U- dva znaka. Razlika d(Njegova glavna ideja je dosljedno identificirati smjerove u kojima podaci imaju najveću raspršenost. Neka se uzorak sastoji od vektora identično raspoređenih s vektorom, )). Razmotrimo linearne kombinacije) između njih može se mjeriti korištenjem koeficijenata korelacije uzorka:

    d 1 (X,Y) = 1 – r n(X,Y), d 2 (X,Y) = 1 – ρ n(X,Y),

    Gdje r n(Njegova glavna ideja je dosljedno identificirati smjerove u kojima podaci imaju najveću raspršenost. Neka se uzorak sastoji od vektora identično raspoređenih s vektorom, )). Razmotrimo linearne kombinacije) – uzorak linearnog Pearsonovog koeficijenta korelacije, ρ n(Njegova glavna ideja je dosljedno identificirati smjerove u kojima podaci imaju najveću raspršenost. Neka se uzorak sastoji od vektora identično raspoređenih s vektorom, )). Razmotrimo linearne kombinacije) – koeficijent korelacije Spearmanova ranga uzorka.

    Višedimenzionalno skaliranje. O korištenju udaljenosti (mjere blizine, pokazatelji razlike) d(Njegova glavna ideja je dosljedno identificirati smjerove u kojima podaci imaju najveću raspršenost. Neka se uzorak sastoji od vektora identično raspoređenih s vektorom, )). Razmotrimo linearne kombinacije) između znakova X I U osnovana je opsežna klasa metoda višedimenzionalnog skaliranja. Glavna ideja ove klase metoda je predstaviti svaki objekt kao točku u geometrijskom prostoru (obično dimenzija 1, 2 ili 3), čije su koordinate vrijednosti skrivenih (latentnih) faktora, koji zajedno adekvatno opisati predmet. U ovom slučaju, odnosi između objekata zamijenjeni su odnosima između točaka - njihovih predstavnika. Dakle, podaci o sličnosti objekata - prema udaljenostima između točaka, podaci o superiornosti - prema međusobnom položaju točaka.

    U praksi se koristi niz različitih višedimenzionalnih modela skaliranja.

    Kod svih se javlja problem procjene stvarne dimenzije faktorskog prostora. Razmotrimo ovaj problem na primjeru obrade podataka o sličnosti objekata korištenjem metričkog skaliranja. x Neka bude objekti(1), objekti(2), …, OKO(x O objekti(), za svaki par objekata), OKO(ja j ) dana je mjera njihove sličnosti(), za svaki par objekata, ja s ) dana je mjera njihove sličnosti(), za svaki par objekata, ja) = ) dana je mjera njihove sličnosti(ja, ), za svaki par objekata). Vjerujemo da uvijek ) dana je mjera njihove sličnosti(), za svaki par objekata, ja). Podrijetlo brojeva

    ) nije važno za opisivanje rada algoritma. Mogli su se dobiti ili izravnim mjerenjem, ili korištenjem stručnjaka, ili izračunom iz skupa opisnih karakteristika, ili na neki drugi način. x objekti moraju biti predstavljeni konfiguracijom x točaka, a mjera blizine reprezentativnih točaka je euklidska udaljenost d(), za svaki par objekata, ja) između odgovarajućih točaka. ) dana je mjera njihove sličnosti(), za svaki par objekata, ja Stupanj podudarnosti između skupa objekata i skupa točaka koje ih predstavljaju određuje se usporedbom matrica sličnosti || d(), za svaki par objekata, ja)|| i udaljenosti ||

    )||. Metrički funkcional sličnosti ima oblik

    Geometrijska konfiguracija mora biti odabrana tako da funkcional S postigne svoju minimalnu vrijednost. Komentar. U nemetričkom skaliranju, umjesto blizine mjera blizine i samih udaljenosti, razmatra se blizina poredaka na skupu mjera blizine i skupu odgovarajućih udaljenosti. Umjesto funkcionalnosti S

    koriste se analozi koeficijenata korelacije ranga Spearman i Kendall. Drugim riječima, nemetričko skaliranje pretpostavlja da se mjere blizine mjere na ordinalnoj skali. Neka euklidski prostor ima dimenziju m

    ,

    . Razmotrite minimalnu srednju kvadratnu pogrešku x gdje je minimum preuzet preko svih mogućih konfiguracija Neka euklidski prostor ima dimenziju ukazuje u Neka euklidski prostor ima dimenziju-dimenzionalni euklidski prostor. Može se pokazati da se razmatrani minimum postiže pri određenoj konfiguraciji. Jasno je da s rastom Neka euklidski prostor ima dimenziju > x vrijednost α m monotono opada (točnije ne raste). Može se pokazati da kada ) dana je mjera njihove sličnosti(), za svaki par objekata, ja– 1 jednako je 0 (ako Neka euklidski prostor ima dimenziju?

    ) – metrički). Kako bi se povećale mogućnosti smislene interpretacije, poželjno je djelovati u prostoru najmanje moguće dimenzije. U ovom slučaju, međutim, dimenzija mora biti odabrana tako da točke predstavljaju objekte bez velikih izobličenja. Postavlja se pitanje: kako racionalno odabrati dimenziju, tj. prirodni broj ) dana je mjera njihove sličnosti(), za svaki par objekata, jaČini se da u okviru determinističke analize podataka nema razumnog odgovora na ovo pitanje. Stoga je potrebno proučavati ponašanje α m u određenim probabilističkim modelima. Ako mjere blizine Neka euklidski prostor ima dimenziju) su slučajne varijable čija distribucija ovisi o “pravoj dimenziji” Neka euklidski prostor ima dimenziju 0 (i, moguće, na nekim drugim parametrima), onda možemo postaviti problem procjene u klasičnom matematičko-statističkom stilu

    0, potražite dosljedne procjene itd. Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano Počnimo graditi probabilističke modele. Pretpostavimo da su objekti točke u euklidskom prostoru dimenzija Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano, Gdje Neka euklidski prostor ima dimenziju dovoljno velik. Da je "prava dimenzija". Neka euklidski prostor ima dimenziju 0 . objekti(1), objekti(2), …, OKO(x Pretpostavimo za određenost da je skup točaka koje razmatramo uzorak iz kružne normalne distribucije s varijancom σ 2 (0). To znači da objekti ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1) e ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(1) + ζ(2) Neka euklidski prostor ima dimenziju 0)) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(Neka euklidski prostor ima dimenziju(2) + … + ζ( ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(1), ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(2), … , ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(Neka euklidski prostor ima dimenziju 0), gdje Neka euklidski prostor ima dimenziju 0) – ortonormirana baza u potprostoru dimenzije Neka euklidski prostor ima dimenziju 0 u kojoj leže točke koje se razmatraju, i ζ(1), ζ(2), … , ζ(

    0) su kolektivno neovisne jednodimenzionalne normalne slučajne varijable s matematičkim očekivanjem) i varijancom σ 2 (0). ) dana je mjera njihove sličnosti(), za svaki par objekata, ja Razmotrimo dva modela za dobivanje mjera blizine ) dana je mjera njihove sličnosti(), za svaki par objekata, ja). U prvom od njih ) razlikuju se od euklidske udaljenosti između odgovarajućih točaka zbog činjenice da su točke poznate s iskrivljenjima.(1),Neka(2), … , ) razlikuju se od euklidske udaljenosti između odgovarajućih točaka zbog činjenice da su točke poznate s iskrivljenjima.(x S

    ) dana je mjera njihove sličnosti(), za svaki par objekata, ja) = d(S(), za svaki par objekata) + ε( ), za svaki par objekata), S(ja) + ε( ja)), ), za svaki par objekata, ja = 1, 2, … , x,

    Gdje d) su točke koje se razmatraju. Zatim Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano c x– Euklidska udaljenost između točaka u Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano-dimenzionalni prostor, vektori ε(1), ε(2), … , ε( ) predstavljaju uzorak iz kružne normalne distribucije u Počnimo graditi probabilističke modele. Pretpostavimo da su objekti točke u euklidskom prostoru dimenzija ) predstavljaju uzorak iz kružne normalne distribucije u-dimenzionalni prostor s nultim matematičkim očekivanjem i kovarijancijskom matricom σ 2 (1) ), za svaki par objekata ja ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)– matrica identiteta. Drugim riječima, ε( ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)) = η(1) Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano)) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano(1) + η(2) ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(1), ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(2), …, ) kolektivno su neovisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1)(Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano(2) + … + η( Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano), Gdje ), za svaki par objekata, ) – ortonormirana baza u), ), za svaki par objekata-dimenzionalni prostor, i (η( ) – ortonormirana baza u t

    = 1, 2, … , n,

    ) dana je mjera njihove sličnosti(= 1, 2, … , k) – skup neovisno neovisnih jednodimenzionalnih slučajnih varijabli s nultim matematičkim očekivanjem i varijancom σ 2 (1).) = d(S(), za svaki par objekata), S(ja)) + ε( = 1, 2, … , k) – skup neovisno neovisnih jednodimenzionalnih slučajnih varijabli s nultim matematičkim očekivanjem i varijancom σ 2 (1).), = 1, 2, … , k) – skup neovisno neovisnih jednodimenzionalnih slučajnih varijabli s nultim matematičkim očekivanjem i varijancom σ 2 (1). = 1, 2, … , x, ), za svaki par objekataja,

    U drugom modelu, distorzije se nameću izravno samim udaljenostima: ), za svaki par objekata, ja), ), za svaki par objekata, ja = 1, 2, … , x ja,j

    gdje je (ε( x) – kolektivno neovisne normalne slučajne varijable s matematičkim očekivanjem) i varijancom σ 2 (1).

    Rad pokazuje da je za oba formulirana modela minimalna srednja kvadratna pogreška α m at(Neka euklidski prostor ima dimenziju) = Rad pokazuje da je za oba formulirana modela minimalna srednja kvadratna pogreška α m at 1 (Neka euklidski prostor ima dimenziju→ ∞ konvergira u vjerojatnosti prema Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabranoNeka euklidski prostor ima dimenziju), Neka euklidski prostor ima dimenziju = 1, 2, …, Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano,

    f Rad pokazuje da je za oba formulirana modela minimalna srednja kvadratna pogreška α m at(Neka euklidski prostor ima dimenziju) + σ 2 (1)(

    Dakle funkcija Neka euklidski prostor ima dimenziju 0 .

    ) je linearan na intervalima i , au prvom intervalu opada brže nego u drugom. Slijedi ta statistika Neka euklidski prostor ima dimenziju je dosljedna procjena prave dimenzije

    Dakle, preporuka proizlazi iz teorije vjerojatnosti - koristiti kao procjenu dimenzije faktorskog prostora

    *. Napominjemo da je takvu preporuku kao heuristiku formulirao jedan od utemeljitelja višedimenzionalnog skaliranja, J. Kruskal.

    Polazio je od iskustva praktične uporabe višedimenzionalnog skaliranja i računalnih eksperimenata. Teorija vjerojatnosti omogućila je opravdanje ove heurističke preporuke.

    • Prethodno
    • pristupi rješavanju problema transformacije prostora obilježja;

    moći

    • koristiti metodu glavne komponente za prelazak na standardizirane ortogonalne značajke;
    • procijeniti smanjenje informativnog sadržaja podataka pri smanjenju dimenzije prostora obilježja;
    • riješiti problem konstruiranja optimalnih višedimenzionalnih ljestvica za proučavanje objekata;

    vlastiti

    • metode smanjenja dimenzionalnosti za rješavanje primijenjenih problema statističke analize;
    • vještine tumačenja varijabli u transformiranom prostoru značajki.

    Osnovni pojmovi i problemi redukcije dimenzionalnosti

    Na prvi pogled, što će se više informacija o objektima proučavanja u obliku skupa karakteristika koje ih karakteriziraju koristiti za izradu modela, to bolje. Međutim, previše informacija može smanjiti učinkovitost analize podataka. Postoji čak i izraz "prokletstvo dimenzionalnosti" (tijek dimenzionalnosti), karakterizirajući probleme rada s visokodimenzionalnim podacima. Potreba za smanjenjem dimenzionalnosti u ovom ili onom obliku povezana je s rješavanjem različitih statističkih problema.

    Neinformativne značajke izvor su dodatnog šuma i utječu na točnost procjene parametara modela. Osim toga, skupovi podataka s velikim brojem značajki mogu sadržavati skupine koreliranih varijabli. Prisutnost takvih skupina značajki znači dupliciranje informacija, što može iskriviti specifikaciju modela i utjecati na kvalitetu procjene njegovih parametara. Što je veća dimenzija podatka, veća je količina izračuna tijekom njegove algoritamske obrade.

    U smanjenju dimenzija prostora značajki na principu varijabli koje se za to koriste mogu se razlikovati dva smjera: odabir značajki iz postojećeg početnog skupa i formiranje novih značajki transformacijom izvornih podataka. U idealnom slučaju, smanjeni prikaz podataka trebao bi imati dimenziju koja odgovara dimenziji svojstvenoj podacima (intrinzična dimenzionalnost).

    Potraga za najinformativnijim značajkama koje karakteriziraju fenomen koji se proučava očigledan je smjer smanjenja dimenzije problema, koji ne zahtijeva transformaciju izvornih varijabli. To vam omogućuje da model učinite kompaktnijim i izbjegnete gubitke povezane s ometajućim učinkom neinformativnih značajki. Odabir informativnih značajki sastoji se od pronalaženja najboljeg podskupa iz skupa svih izvornih varijabli. Kriteriji za koncept "najboljeg" mogu biti ili najviša kvaliteta modeliranja za danu dimenziju prostora značajki ili najmanja dimenzija podataka na kojoj je moguće izgraditi model dane kvalitete.

    Izravno rješenje problema stvaranja najboljeg modela uključuje pretraživanje svih mogućih kombinacija značajki, što se obično čini iznimno napornim. Stoga se u pravilu pribjegava izravnoj ili obrnutoj selekciji svojstava. U postupcima izravnog odabira, varijable se sekvencijalno dodaju iz početnog skupa dok se ne postigne tražena kvaliteta modela. U algoritmima za sekvencijalno smanjenje izvornog prostora značajki (inverzni odabir), najmanje informativne varijable postupno se uklanjaju dok se ne postigne prihvatljivo smanjenje informacijskog sadržaja modela.

    Treba uzeti u obzir da je informacijski sadržaj značajki relativan. Odabir treba osigurati visok informacijski sadržaj skupa značajki, a ne ukupni informacijski sadržaj njegovih sastavnih varijabli. Dakle, prisutnost korelacije između značajki smanjuje njihov ukupni informacijski sadržaj zbog dupliciranja informacija koje su im zajedničke. Dakle, dodavanje novog obilježja već odabranim omogućuje povećanje informativnog sadržaja do te mjere da sadrži korisne informacije koje nedostaju u prethodno odabranim varijablama. Najjednostavnija situacija je odabir međusobno ortogonalnih obilježja, pri čemu se algoritam odabira provodi krajnje jednostavno: varijable se rangiraju prema sadržaju informacija, a koristi se sastav prvih obilježja u tom rangiranju, čime se osigurava navedeni sadržaj informacija. .

    Ograničenja metoda odabira značajki u svrhu smanjivanja dimenzija prostora povezana su s pretpostavkom o izravnoj prisutnosti potrebnih značajki u izvornim podacima, što se obično pokaže netočnim. Alternativni pristup smanjenju dimenzionalnosti uključuje transformaciju značajki u reducirani skup novih varijabli. Za razliku od odabira početnih značajki, formiranje novog prostora značajki uključuje stvaranje novih varijabli, koje su obično funkcije izvornih značajki. Ove varijable, koje se ne mogu izravno promatrati, često se nazivaju skrivenim, ili latentan. Tijekom procesa kreiranja, ovim varijablama mogu se dati različita korisna svojstva, kao što je ortogonalnost. U praksi su izvorna obilježja obično međusobno povezana, pa transformacija njihova prostora u ortogonalni generira nove koordinate-znakove u kojima nema efekta dupliciranja informacija o predmetima koji se proučavaju.

    Mapiranje objekata u novom ortogonalnom prostoru značajki stvara mogućnost vizualizacije korisnosti svake značajke u smislu razlika između tih objekata. Ako su koordinate nove baze raspoređene disperzijom, koja karakterizira širenje vrijednosti za njih za promatranja koja se razmatraju, tada beskorisnost s praktičnog stajališta nekih značajki s malim vrijednostima varijance postaje očita, jer objekti temeljeni na ovim značajkama praktički se ne razlikuju u usporedbi s njihovim razlikama u informativnijim varijablama. U takvoj situaciji možemo govoriti o tzv. degeneraciji izvornog obilježja prostora iz Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano varijable, i stvarna dimenzija ovog prostora T može biti manji od originala (m< Varijanca koja odgovara svakoj novoj glavnoj komponenti manja je nego za prethodnu. Obično prestaju kada je manji od zadanog praga. Ako je odabrano).

    Smanjenje prostora obilježja popraćeno je određenim smanjenjem informativnog sadržaja podataka, ali se razina prihvatljivog smanjenja može odrediti unaprijed. Ekstrakcija značajki projicira skup originalnih varijabli u niži dimenzionalni prostor. Sažimanje prostora značajki u dvije ili tri dimenzije može biti korisno za vizualizaciju podataka. Dakle, proces formiranja novog prostora značajki obično dovodi do manjeg skupa istinski informativnih varijabli. Na njihovoj osnovi može se izgraditi kvalitetniji model koji se temelji na manjem broju najinformativnijih značajki.

    Formiranje novih varijabli na temelju izvornih koristi se za latentnu semantičku analizu, kompresiju podataka, klasifikaciju i prepoznavanje uzoraka, povećavajući brzinu i učinkovitost procesa učenja. Komprimirani podaci obično se koriste za daljnju analizu i modeliranje.

    Jedna važna primjena transformacije prostora značajki i smanjenja dimenzionalnosti je konstrukcija sintetičkih latentnih kategorija na temelju izmjerenih vrijednosti značajki. Ove latentne značajke mogu karakterizirati određene opće značajke fenomena koji se proučava, integrirajući pojedinačna svojstva promatranih objekata, što omogućuje konstruiranje integralnih pokazatelja različitih razina generalizacije informacija.

    Značajna je uloga metoda redukcije prostora značajki u proučavanju problema dupliciranja informacija u izvornim značajkama, što dovodi do "bubrenja" varijance procjena koeficijenata regresijskog modela. Prijelaz na nove, idealno ortogonalne i smisleno interpretabilne varijable učinkovito je sredstvo modeliranja u uvjetima multikolinearnosti izvornih podataka.

    Transformacija izvornog prostora značajki u ortogonalni prostor pogodna je za rješavanje problema klasifikacije, budući da vam omogućuje razumnu primjenu određenih mjera blizine ili razlika između objekata, kao što je euklidska udaljenost ili kvadrat euklidske udaljenosti. U regresijskoj analizi, konstruiranje regresijske jednadžbe pomoću glavnih komponenti omogućuje nam rješavanje problema multikolinearnosti.

    Smanjenje podataka

    U analitičkim tehnologijama smanjenje dimenzionalnosti podataka odnosi se na proces njihovog pretvaranja u oblik koji je najprikladniji za analizu i interpretaciju. To se obično postiže smanjenjem njihova volumena, smanjenjem broja korištenih obilježja i raznolikosti njihovih značenja.

    Često su analizirani podaci nepotpuni kada slabo odražavaju ovisnosti i obrasce poslovnih procesa koji se proučavaju. Razlozi za to mogu biti nedovoljan broj opažanja, odsutnost znakova koji odražavaju bitna svojstva objekata. U ovom slučaju primjenjuje se obogaćivanje podataka.

    Smanjenje dimenzionalnosti primjenjuje se u suprotnom slučaju, kada su podaci suvišni. Redundancija se javlja kada se problem analize može riješiti s istom razinom učinkovitosti i točnosti, ali korištenjem manje dimenzije podataka. To vam omogućuje da smanjite vrijeme i računalne troškove rješavanja problema, čineći podatke i rezultate njihove analize razumljivijim za korisnika.

    Smanjenje broja promatranja podataka koristi se ako se rješenje usporedive kvalitete može dobiti iz manje veličine uzorka, čime se smanjuju troškovi računanja i vremena. Ovo se posebno odnosi na algoritme koji nisu skalabilni, gdje čak i malo smanjenje broja zapisa dovodi do značajnog dobitka u vremenu računanja.

    Ima smisla smanjiti broj značajki kada su informacije potrebne za kvalitetno rješenje problema sadržane u određenom podskupu značajki i nije ih potrebno koristiti sve. Ovo posebno vrijedi za korelirane značajke. Na primjer, obilježja “Dob” i “Radno iskustvo” u biti nose istu informaciju, pa se jedno od njih može isključiti.

    Najučinkovitiji način smanjenja broja značajki je faktorska analiza i metoda glavnih komponenti.

    Smanjenje raznolikosti vrijednosti značajki ima smisla, na primjer, ako je točnost prikaza podataka pretjerana i cijeli brojevi se mogu koristiti umjesto stvarnih vrijednosti bez degradacije kvalitete modela. Ali to će smanjiti količinu memorije koju zauzimaju podaci i troškove računanja.

    Podskup podataka dobiven kao rezultat redukcije dimenzionalnosti trebao bi od izvornog skupa naslijediti onoliko informacija koliko je potrebno za rješavanje problema sa zadanom točnošću, a računalni i vremenski troškovi redukcije podataka ne bi trebali obezvrijediti koristi dobivene time.

    Analitički model izgrađen od smanjenog skupa podataka trebao bi biti lakši za obradu, implementaciju i razumijevanje od modela izgrađenog od originalnog skupa.

    Odluka o izboru metode redukcije dimenzionalnosti temelji se na apriornom znanju o karakteristikama problema koji se rješava i očekivanim rezultatima, kao i ograničenom vremenu i računalnim resursima.

    • U statistici, strojnom učenju i teoriji informacija, smanjenje dimenzionalnosti je transformacija podataka koja se sastoji od smanjenja broja varijabli dobivanjem glavnih varijabli. Transformacija se može podijeliti na odabir značajki i ekstrakciju značajki.

    Povezani pojmovi

    Spominje u literaturi

    – učitavanje i pretprocesiranje ulaznih podataka, – ručno i automatsko označavanje podražajnih materijala (odabir područja interesa), – algoritam za izračun matrice reprezentacije nasljednika, – konstrukcija proširene tablice podataka s vrijednostima ulaznih varijabli potrebnih za naknadna analiza, – metoda smanjenje dimenzionalnosti prostor značajki (metoda glavne komponente), – vizualizacija opterećenja komponenti za odabir interpretabilnih komponenti, – algoritam za treniranje stabla odlučivanja, – algoritam za procjenu prediktivne sposobnosti stabla, – vizualizacija stabla odlučivanja.

    Povezani koncepti (nastavak)

    Tehnike spektralnog klasteriranja koriste spektar (svojstvene vrijednosti) matrice sličnosti podataka za izvođenje redukcije dimenzionalnosti prije grupiranja u niže dimenzionalne prostore. Matrica sličnosti pruža se kao ulaz i sastoji se od kvantitativnih procjena relativne sličnosti svakog para točaka u podacima.

    Spektralne metode su klasa tehnika koje se koriste u primijenjenoj matematici za numeričko rješavanje određenih diferencijalnih jednadžbi, koje vjerojatno uključuju brzu Fourierovu transformaciju. Ideja je prepisati rješenje diferencijalnih jednadžbi kao zbroj nekih "bazisnih funkcija" (kao što su Fourierovi redovi zbroj sinusoida), a zatim izabrati koeficijente u zbroju kako bi što bolje zadovoljili diferencijalnu jednadžbu.

    Matematička analiza (klasična matematička analiza) - skup grana matematike koji odgovaraju povijesnom dijelu koji se naziva "infinitezimalna analiza", kombinira diferencijalni i integralni račun.

    Diferencijalna evolucija je metoda višedimenzionalne matematičke optimizacije koja pripada klasi algoritama stohastičke optimizacije (to jest, radi pomoću slučajnih brojeva) i koristi neke ideje genetskih algoritama, ali za razliku od njih ne zahtijeva rad s varijablama u binarnom kodu .

    Metoda diskretnih elemenata (DEM, od engleskog Discrete element method) je obitelj numeričkih metoda dizajniranih za izračunavanje kretanja velikog broja čestica, kao što su molekule, zrnca pijeska, šljunak, kamenčići i drugi zrnati mediji. Metodu je prvobitno primijenio Cundall 1971. za rješavanje problema mehanike stijena.

    Svrha studije:

    Procjena učinkovitosti tehnika smanjenja dimenzionalnosti podataka za optimizaciju njihove upotrebe u praksi prepoznavanja (identifikacije).

    Ciljevi istraživanja:

    1. Pregled literaturnih izvora o postojećim metodama smanjenja dimenzionalnosti podataka.

    2. Provođenje istraživanja (eksperimenata) za usporedbu učinkovitosti algoritama koji se koriste u praksi za smanjenje dimenzionalnosti podataka u problemima klasifikacije

    Metode istraživanja (softver):

    C++ programski jezik, OpenCV biblioteka

    Opažanje visokodimenzionalnih podataka ljudima je teško, a ponekad i nemoguće. U tom smislu, postalo je sasvim prirodno željeti prijeći s višedimenzionalnog uzorkovanja na male dimenzionalne podatke kako bi se "mogli pogledati", ocijeniti i koristiti, uključujući za postizanje zadataka prepoznavanja. Osim jasnoće, smanjenje dimenzionalnosti omogućuje vam da se riješite čimbenika (informacija) koji ometaju statističku analizu, produžujući vrijeme prikupljanja informacija, povećavajući disperziju procjena parametara i karakteristika distribucija.

    Smanjenje dimenzionalnosti je transformacija visokodimenzionalnih izvornih podataka u novi nižedimenzionalni prikaz koji čuva temeljne informacije. U idealnom slučaju, dimenzija transformirane reprezentacije odgovara intrinzičnoj dimenziji podataka. Unutarnja dimenzija podataka minimalan je broj varijabli potrebnih za izražavanje svih mogućih svojstava podataka. Analitički model izgrađen od smanjenog skupa podataka trebao bi biti lakši za obradu, implementaciju i razumijevanje od modela izgrađenog od originalnog skupa.

    Odluka o odabiru metode redukcije dimenzionalnosti temelji se na poznavanju karakteristika problema koji se rješava i očekivanih rezultata, kao i ograničenog vremena i računalnih resursa. Prema pregledima literature, najčešće korištene metode smanjenja dimenzionalnosti uključuju analizu glavnih komponenti (PCA), analizu neovisnih komponenti (ICA) i dekompoziciju singularne vrijednosti (SVD).

    Analiza glavnih komponenti (PCA) - najjednostavnija metoda za smanjenje dimenzionalnosti podataka. Široko se koristi za transformaciju značajki uz smanjenje dimenzionalnosti podataka u problemima klasifikacije. Metoda se temelji na projiciranju podataka na novi koordinatni sustav niže dimenzije, koji je određen svojstvenim vektorima i svojstvenim vrijednostima matrice. S matematičkog gledišta, metoda glavne komponente je ortogonalna linearna transformacija.

    Glavna ideja metode je izračunati svojstvene vrijednosti i svojstvene vektore matrice kovarijance podataka kako bi se varijanca svela na minimum. Matrica kovarijance se koristi za određivanje širenja oko srednje vrijednosti u odnosu na drugu. Kovarijanca dviju slučajnih varijabli (dimenzija) je mjera njihove linearne ovisnosti:

    gdje je matematičko očekivanje slučajne varijable X, je matematičko očekivanje slučajne varijable Y. Formulu (1) također možemo napisati u obliku:

    gdje je prosjek X, gdje je prosjek Y, N je dimenzija podataka.

    Nakon izračuna svojstvenih vektora i svojstvenih vrijednosti, njihove vrijednosti se poredaju silaznim redoslijedom. Dakle, komponente se dobivaju prema sve manjoj važnosti. Svojstveni vektor s najvećom svojstvenom vrijednošću glavna je komponenta skupa podataka. Glavne komponente se dobivaju množenjem redova svojstvenih vektora sortiranim svojstvenim vrijednostima. Za pronalaženje optimalnog prostora niže dimenzije koristi se formula (3) kojom se izračunava minimalna pogreška između izvornog skupa podataka i onog dobivenog prema sljedećem kriteriju:

    gdje je P dimenzija novog prostora, N je dimenzija originalnog uzorka, su svojstvene vrijednosti i je vrijednost praga. Tijekom rada algoritma dobivamo matricu s podacima MP, linearno transformiranu iz MN, nakon čega PCA pronalazi linearno preslikavanje M koje minimizira funkciju procjene:

    gdje je euklidska udaljenost između točaka i , je euklidska udaljenost između točaka i , , . Minimum ove evaluacijske funkcije može se izračunati izvođenjem spektralne dekompozicije Gramove matrice i množenjem svojstvenih vektora ove matrice s korijenom odgovarajućih svojstvenih vrijednosti.

    Neovisna analiza komponenti ( ICA ) , za razliku od PCA, to je relativno nova metoda, ali brzo stječe popularnost. Temelji se na ideji linearne transformacije podataka u nove komponente koje su što je više moguće statistički neovisne i nisu nužno ortogonalne jedna drugoj. Za istraživanje u ovom radu odabran je FastICa algoritam, detaljno opisan u članku. Glavni ciljevi ove metode su centriranje (oduzimanje prosjeka od podataka) i izbjeljivanje (linearna transformacija vektora x u vektor s nekoreliranim koordinatama čija je varijanca jednaka jedinici).

    Kriterij za neovisnost u FastICA-i je ne-Gausovost, koja se mjeri pomoću koeficijenta kurtosis:

    Za Gaussove slučajne varijable ova vrijednost je nula, tako da FastICA maksimizira njezinu vrijednost. Ako su "izbijeljeni" podaci, tada je matrica kovarijance "izbijeljenih" podataka matrica identiteta.

    Takva transformacija je uvijek moguća. Popularna metoda izbjeljivanja koristi spektralnu dekompoziciju matrice kovarijance , gdje je ortogonalna matrica svojstvenih vektora, a je dijagonalna matrica svojstvenih vrijednosti,. Ispada da se "izbjeljivanje" može predstaviti kao:

    gdje se matrica izračunava operacijom po komponentama:

    Eksperimenti

    Za eksperimentalno istraživanje predloženih metoda korištene su video sekvence s scenarijima iz baze podataka CASIA GAIT. Baza podataka sadrži sekvence binarnih slika koje odgovaraju pojedinačnim okvirima video sekvence, na kojima su već identificirani pokretni objekti.

    Iz cjelokupnog seta video sekvenci nasumično je odabrano 15 klasa u kojima je kut snimanja 90 stupnjeva, ljudi su prikazani u običnoj ne-zimskoj odjeći i bez torbi. U svakom razredu bilo je 6 nizova. Dužina svake sekvence bila je najmanje 60 okvira. Razredi su bili podijeljeni u skupove za obuku i testiranje od po 3 sekvence.

    Značajke dobivene kao rezultat PCA i ICA metoda korištene su za obuku klasifikatora, koji je u ovom radu bio Support Vector Machines (SVM).

    Kako bi se utvrdila kvaliteta metode, procijenjena je točnost klasifikacije, definirana kao udio ispravno klasificiranih objekata. Tijekom eksperimenta također je zabilježeno vrijeme provedeno u modu treninga i testiranja.

    Slika 1. a) Analiza glavne komponente (PCA) b) Metoda neovisne komponente (ICA)

    Slika 1(a,b) prikazuje ovisnost točnosti klasifikacije o vrijednosti dimenzije izlaznih podataka nakon transformacije. Može se vidjeti da se u PCA točnost klasifikacije neznatno mijenja kako se broj komponenti povećava, ali kada se koristi ICA, točnost počinje padati, počevši od određene vrijednosti.

    Slika 2. Ovisnost vremena klasifikacije o broju komponenti A) PCA , b) ICA

    Na slici 2(a,b) prikazana je ovisnost vremena klasifikacije o broju komponenti PCA i ICA. Povećanje dimenzionalnosti u oba slučaja pratilo je linearno povećanje vremena obrade. Iz grafikona se može vidjeti da je SVM klasifikator radio brže nakon smanjenja dimenzionalnosti korištenjem analize glavnih komponenti (PCA).

    Metode Principal Component Analisys (PCA), Independent Component Analisys (ICA) radile su prilično brzo te su uz određene parametre dobiveni dobri rezultati u zadatku klasifikacije. Ali s podacima sa složenom strukturom, ove metode ne postižu uvijek željeni rezultat. Stoga se u posljednje vrijeme sve više pozornosti posvećuje lokalnim nelinearnim metodama koje izvode projekciju podataka na određenu raznolikost koja omogućuje očuvanje strukture podataka.

    U budućnosti se planira proširiti i popis algoritama koji se koriste za generiranje opisa obilježja i popis korištenih metoda klasifikacije. Čini se da je još jedno važno područje istraživanja smanjenje vremena obrade.

    Reference:

    1. Jolliffe, I.T., Analiza glavnih komponenti, Springer, 2002
    2. Hyvärinen i Erkki Oja, Neovisna analiza komponenti: Algoritmi i aplikacije, Neuralne mreže, 13, 2000.
    3. Josiński, H. Izdvajanje značajki i HMM-bazirana klasifikacija video sekvenci hoda u svrhu identifikacije ljudi/ Springer, 2013. - Svezak 481.