• Veri analizi için boyut indirgeme yöntemleri. Boyut küçültme. Boyut azaltma yöntemleri

    Çok değişkenli istatistiksel analizde, her nesne, boyutu rastgele olan (ancak tüm nesneler için aynı olan) bir vektör tarafından tanımlanır. Ancak bir kişi doğrudan bir düzlem üzerindeki yalnızca sayısal verileri veya noktaları algılayabilir. Üç boyutlu uzayda nokta kümelerini analiz etmek zaten çok daha zordur. Yüksek boyutlu verilerin doğrudan algılanması imkansızdır. Bu nedenle, çok değişkenli bir örneklemden “bakabilirsin” diye düşük boyutlu verilere geçmek istemek oldukça doğaldır.

    Görünürlük arzusuna ek olarak, boyutu küçültmek için başka nedenler de var. Araştırmacının ilgilendiği değişkenin bağlı olmadığı faktörler sadece istatistiksel analizi engellemez. İlk olarak, onlar hakkında bilgi toplamak kaynakları tüketir. İkinci olarak, kanıtlanabileceği gibi, analize dahil edilmeleri istatistiksel prosedürlerin özelliklerini kötüleştirir (özellikle, parametre tahminlerinin varyansını ve dağılımların özelliklerini arttırır). Bu nedenle, bu tür faktörlerden kurtulmak arzu edilir.

    Alt bölüm 3.2.3'te tartışılan, satışları tahmin etmek için regresyon analizi kullanma örneğini boyut azaltma açısından tartışalım. İlk olarak, bu örnekte, bağımsız değişken sayısını 17'den 12'ye düşürmek mümkün oldu. İkinci olarak, yeni bir faktör - bahsedilen 12 faktörün, satış hacmini diğer tüm doğrusallardan daha iyi tahmin eden doğrusal bir fonksiyonu - oluşturmak mümkün oldu. faktörlerin kombinasyonları. Bu nedenle, sonuç olarak sorunun boyutunun 18'den 2'ye düştüğünü söyleyebiliriz. Yani, bir bağımsız faktör (alt bölüm 3.2.3'te verilen doğrusal kombinasyon) ve bir bağımlı faktör - satış hacmi vardı.

    Çok değişkenli verileri analiz ederken, genellikle bir değil, birçok problem olarak kabul edilir, özellikle bağımsız ve bağımlı değişkenleri farklı şekilde seçmek. Bu nedenle, aşağıdaki formülasyonda boyut azaltma problemini göz önünde bulundurun. Çok değişkenli bir örnek verildiğinde. Mümkünse verilerde bulunan bilgileri kaybetmeden, ilk verilerin yapısını olabildiğince koruyarak, ondan daha küçük boyutlu bir vektörler kümesine geçmek gerekir. Görev, her bir özel boyut indirgeme yöntemi çerçevesinde belirtilir.

    Temel Bileşen Yöntemi en sık kullanılan boyut indirgeme yöntemlerinden biridir. Ana fikri, verilerin en fazla yayıldığı yönleri sıralı olarak belirlemektir. Numunenin vektörle eşit olarak dağıtılan vektörlerden oluşmasına izin verin X = (X(1), X(2), … , X(N)). Doğrusal kombinasyonları düşünün

    Y(λ(1), λ(2), …, λ( N)) = λ(1) X(1) +λ(2) X(2) + … + λ( N)X(N),

    λ 2 (1) + λ 2 (2) + …+ λ 2 ( N) = 1.

    Burada λ = (λ(1), λ(2), …, λ( N)) birim küre üzerinde yer alır N-boyutlu uzay.

    Temel bileşenler yönteminde öncelikle maksimum saçılmanın yönü bulunur, yani rasgele değişkenin varyansının maksimum değerine ulaştığı böyle bir λ Y(λ) = Y(λ(1), λ(2), …, λ( N)). Daha sonra λ vektörü ilk temel bileşeni tanımlar ve miktar Y(λ) rastgele bir vektörün izdüşümüdür X birinci ana bileşenin ekseni üzerinde.

    Daha sonra, lineer cebir açısından, bir hiperdüzlem düşünülür. N-boyutlu uzay, birinci ana bileşene dik ve numunenin tüm öğelerini bu hiperdüzlem üzerine yansıtır. Hiperdüzlemin boyutu, orijinal uzayın boyutundan 1 eksiktir.

    Söz konusu hiperdüzlemde, prosedür tekrarlanır. En büyük yayılmanın yönü içinde bulunur, yani. ikinci ana bileşen. Ardından, ilk iki ana bileşene dik bir hiperdüzlem tahsis edin. Boyutu, orijinal mekanın boyutundan 2 daha azdır. Sonraki, bir sonraki yinelemedir.

    Doğrusal cebir açısından bakıldığında, yeni bir temel oluşturmaktan bahsediyoruz. N Ortları temel bileşenler olan boyutlu uzay.

    Her yeni temel bileşene karşılık gelen varyans, bir öncekinden daha küçüktür. Genellikle belirli bir eşiğin altına düştüğünde dururlar. seçilirse k ana bileşenler, bunun anlamı N-boyutlu uzaya gitmeyi başardı k- boyutlu, yani boyutu küçültmek N-önce k, pratik olarak kaynak verinin yapısını bozmadan .

    Görsel veri analizi için, orijinal vektörlerin ilk iki temel bileşenin düzlemi üzerindeki izdüşümleri sıklıkla kullanılır. Genellikle, veri yapısı açıkça görülebilir, kompakt nesne kümeleri ve ayrı ayrı tahsis edilmiş vektörler ayırt edilir.

    Temel bileşen yöntemi, yöntemlerden biridir. faktor analizi. Çeşitli faktör analizi algoritmaları, hepsinde orijinalde yeni bir temele geçiş olduğu gerçeğiyle birleştirilmiştir. N-boyutlu uzay. Belirli bir vektörün yeni bir temelden oluşmasında başlangıçtaki faktörün (değişkenin) rolünü anlatmak için kullanılan “faktör yükü” kavramı önemlidir.

    Temel bileşenler yöntemine kıyasla yeni bir fikir, yüklere bağlı olarak faktörlerin gruplara ayrılmasıdır. Bir grup, yeni temelin unsurları üzerinde benzer etkiye sahip faktörleri birleştirir. Daha sonra her gruptan bir temsilci bırakılması önerilir. Bazen, hesaplayarak bir temsilci seçmek yerine, söz konusu grubun merkezinde yer alan yeni bir faktör oluşturulur. Boyut küçültme, grupların temsilcisi olan bir faktörler sistemine geçişte gerçekleşir. Faktörlerin geri kalanı atılır.

    Açıklanan prosedür sadece faktör analizi yardımıyla gerçekleştirilemez. Özelliklerin (faktörler, değişkenler) küme analizinden bahsediyoruz. Özellikleri gruplara ayırmak için çeşitli küme analizi algoritmaları kullanılabilir. Özellikler arasındaki mesafeyi (yakınlık ölçüsü, fark göstergesi) girmeniz yeterlidir. İzin vermek X Ve -de- iki işaret. Fark D(X, Y) aralarında örnek korelasyon katsayıları kullanılarak ölçülebilir:

    D 1 (X,Y) = 1 – rn(X,Y), D 2 (X,Y) = 1 – ρ N(X,Y),

    Nerede rn(X, Y) örnek doğrusal Pearson korelasyon katsayısıdır, ρ N(X, Y) Spearman'ın örnek sıra korelasyon katsayısıdır.

    Çok boyutlu ölçekleme. Mesafelerin kullanımı üzerine (yakınlık ölçüleri, farklılık göstergeleri) D(X, Y) özellikler arasında X Ve -de kapsamlı bir çok boyutlu ölçekleme yöntemleri sınıfı oluşturuldu. Bu yöntem sınıfının ana fikri, her bir nesneyi, koordinatları birlikte gizli (gizli) faktörlerin değerleri olan geometrik uzayda (genellikle 1, 2 veya 3 boyutunda) bir nokta ile temsil etmektir. nesneyi yeterince tanımlayın. Bu durumda, nesneler arasındaki ilişkilerin yerini noktalar arasındaki ilişkiler alır - temsilcileri. Bu nedenle, nesnelerin benzerliğine ilişkin veriler - noktalar arasındaki mesafelere göre, üstünlük verileri - noktaların karşılıklı düzenlenmesine göre.

    Uygulamada bir dizi farklı çok boyutlu ölçekleme modeli kullanılmaktadır. Hepsi faktör uzayının gerçek boyutunu tahmin etme sorunuyla karşı karşıya. Bu sorunu, metrik ölçekleme kullanarak nesnelerin benzerliğine ilişkin veri işleme örneğini kullanarak ele alalım.

    Olsun N nesneler HAKKINDA(1), HAKKINDA(2), …, Ö(N), her nesne çifti için HAKKINDA(Ben), Ö(J) benzerliklerinin ölçüsü verilir S(Ben, J). Biz her zaman olduğunu düşünüyoruz S(Ben, J) = S(J, Ben). sayıların kökeni S(Ben, J) algoritmanın nasıl çalıştığını açıklamakla ilgisizdir. Doğrudan ölçümle veya uzmanların kullanımıyla veya bir dizi tanımlayıcı özelliğin hesaplanmasıyla veya başka bir yolla elde edilebilirler.

    Öklid uzayında, dikkate alınan N nesneler bir yapılandırma ile temsil edilmelidir N noktalar ve Öklid mesafesi D(Ben, J) karşılık gelen noktalar arasında. Bir dizi nesne ile onları temsil eden bir dizi nokta arasındaki yazışma derecesi, benzerlik matrisleri || karşılaştırılarak belirlenir. S(Ben, J)|| ve mesafeler || D(Ben, J)||. Metrik benzerlik fonksiyoneli şu şekildedir:

    Geometrik konfigürasyon, fonksiyonel S minimum değerine ulaşacak şekilde seçilmelidir.

    Yorum. Metrik olmayan ölçeklemede, yakınlık ve mesafe ölçülerinin yakınlığı yerine, yakınlık ölçüleri kümesindeki sıralamaların yakınlığı ve karşılık gelen mesafeler kümesi dikkate alınır. işlevsellik yerine S Spearman's ve Kendall's rank korelasyon katsayılarının analogları kullanılır. Başka bir deyişle, metrik olmayan ölçekleme, yakınlık ölçülerinin sıralı bir ölçekte ölçüldüğünü varsayar.

    Öklid uzayının boyutu olsun M. Minimum ortalama kare hatasını göz önünde bulundurun

    ,

    tüm olası konfigürasyonlarda minimumun alındığı yer N puan M-boyutlu Öklid uzayı. Bazı konfigürasyonlarda dikkate alınan minimum değere ulaşıldığı gösterilebilir. Açıktır ki, büyüme ile Mα m miktarı monoton olarak azalır (daha doğrusu artmaz). Gösterilebilir ki, ne zaman M > N– 1, 0'a eşittir (eğer S(Ben, J) bir metriktir). Anlamlı yorumlama olanaklarını artırmak için, mümkün olan en küçük boyutlu bir alanda hareket etmek arzu edilir. Ancak bu durumda, boyut, noktaların büyük bozulmalar olmadan nesneleri temsil edeceği şekilde seçilmelidir. Soru ortaya çıkıyor: boyutun rasyonel olarak nasıl seçileceği, yani. doğal sayı M?

    Deterministik veri analizi çerçevesinde, bu sorunun makul bir cevabı yok gibi görünüyor. Bu nedenle, belirli olasılıksal modellerde α m'nin davranışını incelemek gerekir. Eğer yakınlık önlemleri S(Ben, J), dağılımı "gerçek boyuta" bağlı olan rastgele değişkenlerdir. M 0 (ve muhtemelen diğer bazı parametrelerde), o zaman klasik matematiksel ve istatistiksel tarzda tahmin problemini ayarlayabiliriz. M 0 , tutarlı puanları arayın vb.

    Olasılık modelleri oluşturmaya başlayalım. Nesnelerin Öklid boyut uzayındaki noktalar olduğunu varsayıyoruz. k, Nerede k yeterince geniş. "gerçek boyut"un M 0 , tüm bu noktaların bir hiper boyut düzleminde olduğu anlamına gelir M 0 . Kesinlik için, söz konusu noktalar kümesinin varyansı σ 2 (0) olan dairesel bir normal dağılımdan bir örnek olduğunu varsayalım. Bunun anlamı, nesnelerin HAKKINDA(1), HAKKINDA(2), …, Ö(N), her biri ζ(1) olarak yapılandırılan, toplu olarak bağımsız rastgele vektörlerdir. e(1) + ζ(2) e(2) + … + ζ( M 0)e(M 0), nerede e(1), e(2), … , e(M 0) boyutun alt uzayında ortonormal bir temeldir M 0 , dikkate alınan noktaların bulunduğu yer ve ζ(1), ζ(2), … , ζ( M 0) toplu olarak bağımsız tek boyutlu normal rasgele değişkenlerdir ve matematiksel beklenti) ve varyans σ 2 (0).

    Yakınlık ölçüleri elde etmek için iki model düşünün S(Ben, J). ilkinde S(Ben, J) noktaların bozulmalarla bilinmesi nedeniyle karşılık gelen noktalar arasındaki Öklid mesafesinden farklıdır. İzin vermek İle(1),İle(2), … , İle(N) puan olarak kabul edilir. Daha sonra

    S(Ben, J) = D(C(Ben) + ε( Ben), C(J) + ε( J)), Ben, J = 1, 2, … , N,

    Nerede D noktalar arasındaki Öklid mesafesi k-boyutlu uzay, vektörler ε(1), ε(2), … , ε( N) dairesel bir normal dağılımdan bir örneği temsil eder. k sıfır matematiksel beklenti ve kovaryans matrisi σ 2 (1) ile boyutlu uzay BEN, Nerede BEN kimlik matrisidir. Başka bir deyişle, ε( Ben) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), Nerede e(1), e(2), …, e(k) ortonormal bir temeldir k-boyutlu uzay ve (η( Ben, T), Ben= 1, 2, …, n, T= 1, 2, … , k) sıfır matematiksel beklenti ve varyans σ 2 (1) ile kümeden bağımsız tek boyutlu rastgele değişkenler kümesidir.

    İkinci modelde, bozulmalar doğrudan mesafelere uygulanır:

    S(ben j) = D(C(Ben), C(J)) + ε( ben j), ben j = 1, 2, … , N, BenJ,

    nerede (ε( Ben, J), Ben, J = 1, 2, … , N) matematiksel beklenti) ve varyans σ 2 (1) ile toplu olarak bağımsız normal rastgele değişkenlerdir.

    Makale, her iki formüle edilmiş model için, ortalama karesel hatanın minimumunun α m olduğunu göstermektedir. N→ ∞ olasılıkta şuna yakınsar:

    F(M) = F 1 (M) + σ 2 (1)( kM), M = 1, 2, …, k,

    Yani fonksiyon F(M) ve aralıklarında doğrusaldır ve birinci aralıkta ikinciye göre daha hızlı azalır. İstatistikler

    gerçek boyutun tutarlı bir tahminidir M 0 .

    Bu nedenle, olasılık teorisinden bir öneri gelir - faktör uzayının boyutunun bir tahmini olarak, kullanın M*. Böyle bir önerinin, çok boyutlu ölçeklendirmenin kurucularından biri olan J. Kraskal tarafından buluşsal olarak formüle edildiğine dikkat edin. Çok boyutlu ölçeklemenin pratik kullanım deneyiminden ve hesaplamalı deneylerden yola çıktı. Olasılık teorisi, bu buluşsal tavsiyeyi doğrulamayı mümkün kıldı.

    Öncesi

    5. bölümün materyalini çalışmanın bir sonucu olarak, öğrenci şunları yapmalıdır:

    Bilmek

    • boyut indirgemenin temel kavramları ve sorunları:
    • öznitelik uzayının dönüşümü sorununu çözmeye yönelik yaklaşımlar;

    yapabilmek

    • standartlaştırılmış ortogonal özelliklere geçmek için temel bileşen yöntemini kullanın;
    • özellik uzayının boyutunda bir azalma ile verilerin bilgi içeriğindeki azalmayı değerlendirmek;
    • nesneleri incelemek için en uygun çok boyutlu ölçekleri oluşturma problemini çözmek;

    sahip olmak

    • istatistiksel analizin uygulamalı problemlerini çözmek için boyut indirgeme yöntemleri;
    • dönüştürülmüş öznitelik uzayındaki değişkenleri yorumlama becerileri.

    Boyut indirgemenin temel kavramları ve sorunları

    İlk bakışta, bir model oluşturmak için onları karakterize eden bir dizi özellik biçimindeki çalışma nesneleri hakkında ne kadar fazla bilgi kullanılacaksa o kadar iyidir. Ancak, çok fazla bilgi veri analizinin etkinliğini azaltabilir. "Boyutsallığın laneti" terimi bile var. (boyutun laneti), yüksek boyutlu verilerle çalışma sorunlarını karakterize eder. Boyutu şu ya da bu şekilde küçültme ihtiyacı, çeşitli istatistiksel problemlerin çözümü ile ilgilidir.

    Bilgi vermeyen özellikler ek bir gürültü kaynağıdır ve model parametre tahmininin doğruluğunu etkiler. Ek olarak, çok sayıda özelliğe sahip veri kümeleri, ilişkili değişken gruplarını içerebilir. Bu tür özellik gruplarının varlığı, modelin özelliklerini bozabilecek ve parametrelerinin tahmin kalitesini etkileyebilecek bilgilerin tekrarı anlamına gelir. Veri boyutu ne kadar yüksek olursa, algoritmik işleme sırasındaki hesaplama miktarı da o kadar yüksek olur.

    Bunun için kullanılan değişkenlerin ilkesine göre öznitelik uzayının boyutunu küçültmede iki yön ayırt edilebilir: özniteliklerin mevcut başlangıç ​​kümesinden seçilmesi ve orijinal verilerin dönüştürülerek yeni özniteliklerin oluşturulması. İdeal olarak, verilerin küçültülmüş bir gösterimi, verilerin doğasında bulunan boyuta karşılık gelen bir boyuta sahip olmalıdır. (içsel boyut).

    İncelenen fenomeni karakterize eden en bilgilendirici özelliklerin araştırılması, orijinal değişkenlerin dönüştürülmesini gerektirmeyen sorunun boyutunu azaltmanın açık bir yoludur. Bu, modeli daha derli toplu hale getirmeyi ve bilgi vermeyen özelliklerin girişim etkisiyle ilişkili kayıpları önlemeyi mümkün kılar. Bilgilendirici özelliklerin seçimi, tüm başlangıç ​​değişkenleri kümesinin en iyi alt kümesinin bulunmasından oluşur. "En iyi" kavramının kriterleri, özellik uzayının belirli bir boyutu için en yüksek modelleme kalitesi veya belirli bir kalitede bir model oluşturmanın mümkün olduğu en küçük veri boyutu olabilir.

    En iyi modeli yaratma probleminin doğrudan çözümü, genellikle aşırı derecede zahmetli görünen tüm olası özellik kombinasyonlarının sayılmasıyla ilişkilidir. Bu nedenle, kural olarak, doğrudan veya tersine özellik seçimine başvurunuz. Doğrudan seçim prosedürlerinde, değişkenler ilk kümeden modelin gerekli kalitesi elde edilene kadar sırayla eklenir. Orijinal öznitelik uzayının art arda indirgenme algoritmalarında (ters seçim), modelin bilgi içeriği kabul edilebilir bir düzeye indirilene kadar en az bilgi verici değişkenler adım adım çıkarılır.

    İşaretlerin bilgi içeriğinin göreceli olduğu unutulmamalıdır. Seçim, onu oluşturan değişkenlerin toplam bilgi içeriğini değil, bir dizi özelliğin yüksek bilgi içeriğini sağlamalıdır. Bu nedenle, özellikler arasında bir korelasyonun varlığı, ortak bilgilerin tekrarlanması nedeniyle genel bilgi içeriklerini azaltır. Bu nedenle, önceden seçilmiş olanlara yeni bir özellik eklemek, daha önce seçilen değişkenlerde olmayan faydalı bilgileri içerdiği ölçüde bilgi içeriğinde artış sağlar. En basit durum, seçim algoritmasının son derece basit bir şekilde uygulandığı, karşılıklı olarak ortogonal özelliklerin seçilmesidir: değişkenler, bilgi verme derecelerine göre sıralanır ve bu sıralamadaki ilk özelliklerin, verilen bilgi sağlamayı sağlayan böyle bir bileşimi kullanılır.

    Uzayın boyutunu azaltmak için özellik seçme yöntemlerinin sınırlandırılması, genellikle yanlış olduğu ortaya çıkan, gerekli özelliklerin ilk verilerde doğrudan var olduğu varsayımıyla ilişkilidir. Boyut indirgemeye yönelik alternatif bir yaklaşım, özellikleri indirgenmiş yeni değişkenler grubuna dönüştürmektir. Başlangıç ​​özniteliklerinin seçiminin aksine, yeni öznitelik uzayının oluşturulması, genellikle orijinal özniteliklerin fonksiyonları olan yeni değişkenlerin yaratılmasını içerir. Doğrudan gözlemlenemeyen bu değişkenlere genellikle gizli veya gizli Oluşturma işlemi sırasında, bu değişkenlere dikeylik gibi çeşitli faydalı özellikler kazandırılabilir. Uygulamada, ilk özellikler genellikle birbirine bağlıdır, bu nedenle uzaylarının ortogonal olana dönüştürülmesi, incelenen nesneler hakkındaki bilgileri çoğaltma etkisine sahip olmayan yeni özellik koordinatları üretir.

    Nesneleri yeni bir ortogonal özellik uzayında görüntülemek, her bir özelliğin kullanışlılığını bu nesneler arasındaki farklar açısından görselleştirmeyi mümkün kılar. Yeni bazın koordinatları, incelenen gözlemler için onlar için değerlerin dağılımını karakterize eden varyansa göre sıralanırsa, pratik bir bakış açısından, küçük varyans değerlerine sahip bazı özelliklerin olduğu açıktır. yararsızdır, çünkü bu özelliklere sahip nesneler, daha bilgilendirici değişkenlerdeki farklılıklarına kıyasla pratik olarak ayırt edilemez. Böyle bir durumda, orijinal özellik uzayının sözde dejenerasyonundan bahsedebiliriz. k değişkenler ve bu uzayın gerçek boyutu T orijinalinden daha az olabilir (m< k).

    Özellik uzayının küçülmesine, verinin bilgi içeriğinde belirli bir azalma eşlik eder, ancak kabul edilebilir azalmanın düzeyi önceden belirlenebilir. Özellik çıkarımı, bir dizi başlangıç ​​değişkenini daha düşük boyutlu bir uzaya yansıtır. Özellik alanını 2-3B'ye sıkıştırmak, veri görselleştirme için yararlı olabilir. Bu nedenle, yeni bir özellik uzayı oluşturma süreci genellikle daha küçük bir gerçekten bilgilendirici değişkenler kümesine yol açar. Onlara dayanarak, daha az sayıda en bilgilendirici özelliği temel alarak daha iyi bir model oluşturulabilir.

    Orijinal değişkenlere dayalı olarak yeni değişkenlerin oluşturulması, gizli semantik analiz, veri sıkıştırma, sınıflandırma ve örüntü tanıma için kullanılır, öğrenme süreçlerinin hızını ve verimliliğini artırır. Sıkıştırılmış veriler genellikle daha fazla analiz ve modelleme için kullanılır.

    Özellik uzayı dönüşümü ve boyut indirgemenin önemli uygulamalarından biri, ölçülen özellik değerlerine dayalı sentetik gizli kategorilerin oluşturulmasıdır. Bu gizli işaretler, incelenen olgunun genel belirli özelliklerini karakterize edebilir, gözlemlenen nesnelerin belirli özelliklerini bütünleştirir, bu da çeşitli bilgi genelleştirme düzeylerinin ayrılmaz göstergelerinin oluşturulmasını mümkün kılar.

    Regresyon modellerinin katsayılarının tahminlerinin varyansının "şişmesine" yol açan, ilk özelliklerdeki bilgilerin tekrarlanması probleminin incelenmesinde özellik alanı azaltma yöntemlerinin rolü esastır. İdeal olarak ortogonal ve anlamlı bir şekilde yorumlanan yeni değişkenlere geçiş, başlangıç ​​verilerinin çoklu bağlantı koşullarında etkili bir modelleme aracıdır.

    İlk özellik uzayının ortogonal hale dönüştürülmesi, Öklid mesafesi veya Öklid mesafesinin karesi gibi belirli yakınlık ölçülerinin veya nesnelerin farklılıklarının makul bir şekilde uygulanmasına izin verdiği için, sınıflandırma problemlerini çözmek için uygundur. Regresyon analizinde, regresyon denkleminin temel bileşenler üzerinde oluşturulması, çoklu doğrusal bağlantı probleminin çözülmesini sağlar.

    Boyut azaltma (Veri azaltma)

    Analitik teknolojilerde, veri boyutsallığının azaltılması, bunların analiz ve yorumlama için en uygun forma dönüştürülmesi süreci olarak anlaşılmaktadır. Genellikle hacimlerini azaltarak, kullanılan özelliklerin sayısını ve değerlerinin çeşitliliğini azaltarak elde edilir.

    Analiz edilen veriler, incelenmekte olan iş süreçlerinin bağımlılıklarını ve kalıplarını yeterince yansıtmadığında genellikle eksiktir. Bunun nedenleri yetersiz sayıda gözlem, nesnelerin temel özelliklerini yansıtan işaretlerin olmaması olabilir. Bu durumda, veri zenginleştirme uygulanır.

    Boyut küçültme, veri gereksiz olduğunda tersi durumda uygulanır. Fazlalık, analiz problemi aynı düzeyde verimlilik ve doğrulukla ancak daha küçük bir veri boyutu kullanılarak çözülebildiğinde ortaya çıkar. Bu, sorunu çözmek için harcanan zamanı ve hesaplama maliyetlerini azaltmayı, verileri ve bunların analiz sonuçlarını kullanıcı için daha yorumlanabilir ve anlaşılır hale getirmeyi mümkün kılar.

    Daha küçük boyutlu bir numune üzerinde karşılaştırılabilir kalitede bir çözüm elde edilebiliyorsa, veri gözlem sayısının azaltılması uygulanır, böylece hesaplama ve zaman maliyetleri azaltılır. Giriş sayısındaki küçük bir azalma bile hesaplama süresinde önemli bir kazanıma yol açtığında, bu özellikle ölçeklenebilir olmayan algoritmalar için geçerlidir.

    Niteliksel bir problem çözümü için gerekli bilgi, özelliklerin belirli bir alt kümesinde yer aldığında ve hepsinin kullanılması gerekli olmadığında, özelliklerin sayısını azaltmak mantıklıdır. Bu özellikle ilişkili özellikler için geçerlidir. Örneğin, "Yaş" ve "İş deneyimi" özellikleri temelde aynı bilgileri taşır, dolayısıyla bunlardan biri hariç tutulabilir.

    Öznitelik sayısını azaltmanın en etkili yolu faktör analizi ve temel bileşenler analizidir.

    Özellik değerlerinin çeşitliliğini azaltmak, örneğin veri temsilinin doğruluğu aşırı ise ve modelin kalitesinden ödün vermeden gerçek değerler yerine tamsayı değerlerin kullanılabilmesi mantıklıdır. Ancak aynı zamanda, verilerin kapladığı bellek miktarı ve hesaplama maliyetleri azalacaktır.

    Boyut azaltmanın bir sonucu olarak elde edilen verilerin alt kümesi, sorunu belirli bir doğrulukla çözmek için gerekli olduğu kadar bilgiyi orijinal kümeden devralmalıdır ve veri azaltmanın hesaplama ve zaman maliyetleri, ondan elde edilen faydaların değerini düşürmemelidir.

    Azaltılmış bir veri seti üzerine inşa edilen bir analitik modelin işlenmesi, uygulanması ve anlaşılması, orijinal set üzerine inşa edilen bir modele göre daha kolay hale gelmelidir.

    Bir boyutluluk indirgeme yöntemi seçme kararı, çözülmekte olan problemin özellikleri ve beklenen sonuçlar ile sınırlı zaman ve bilgi işlem kaynakları hakkında önsel bilgilere dayanmaktadır.

    • İstatistikte, makine öğreniminde ve bilgi teorisinde, boyutluluk azaltma, temel değişkenleri elde ederek değişken sayısını azaltmayı içeren bir veri dönüşümüdür. Dönüşüm, özellik seçimi ve özellik çıkarma olarak ikiye ayrılabilir.

    Ilgili kavramlar

    Literatürdeki referanslar

    – giriş verilerinin yüklenmesi ve ön işlenmesi, – uyarıcı malzemelerin manuel ve otomatik olarak etiketlenmesi (ilgi alanlarının seçimi), – ardıl temsil matrisinin hesaplanması için algoritma, – sonraki için gerekli olan giriş değişkenlerinin değerleri ile genişletilmiş bir veri tablosunun oluşturulması analiz metodu boyut küçültmeözellik uzayları (temel bileşen yöntemi), – yorumlanan bileşenlerin seçimi için bileşen yüklerinin görselleştirilmesi, – karar ağacı öğrenme algoritması, – ağaç tahmin yeteneği tahmin algoritması, – karar ağacı görselleştirmesi.

    İlgili kavramlar (devamı)

    Spektral kümeleme teknikleri, daha düşük boyutlu uzaylarda kümelemeden önce boyut indirgeme gerçekleştirmek için verinin benzerlik matrisinin spektrumunu (özdeğerler) kullanır. Benzerlik matrisi girdi olarak verilir ve verilerdeki her bir nokta çiftinin göreli benzerliğinin nicel tahminlerinden oluşur.

    Spektral yöntemler, muhtemelen Hızlı Fourier Dönüşümünü içeren, bazı diferansiyel denklemleri sayısal olarak çözmek için uygulamalı matematikte kullanılan bir teknikler sınıfıdır. Fikir, diferansiyel denklemlerin çözümünü bazı "temel fonksiyonların" toplamı olarak yeniden yazmaktır (Fourier serisinin sinüzoidlerin toplamı olması gibi) ve ardından diferansiyel denklemi mümkün olan en iyi şekilde karşılamak için toplamdaki katsayıları seçmektir.

    Matematiksel analiz (klasik matematiksel analiz) - "sonsuz küçüklerin analizi" adı altında tarihsel bölüme karşılık gelen bir dizi matematik bölümü, diferansiyel ve integral hesabı birleştirir.

    Diferansiyel evrim, stokastik optimizasyon algoritmaları sınıfına ait olan (yani, rasgele sayılar kullanarak çalışan) ve genetik algoritmaların bazı fikirlerini kullanan, ancak bunların aksine ikili koddaki değişkenlerle çalışmayı gerektirmeyen çok boyutlu bir matematiksel optimizasyon yöntemidir.

    Ayrık Eleman Yöntemi (DEM), moleküller, kum taneleri, çakıl, çakıl taşları ve diğer taneli ortamlar gibi çok sayıda parçacığın hareketini hesaplamak için tasarlanmış bir sayısal yöntemler ailesidir. Yöntem ilk olarak 1971 yılında Cundall tarafından kaya mekaniği problemlerini çözmek için uygulanmıştır.

    Bu çalışmanın amacı:

    Tanıma (tanımlama) uygulamasında uygulamalarını optimize etmek için veri boyutluluk azaltma tekniklerinin etkinliğinin değerlendirilmesi.

    Araştırma hedefleri:

    1. Veri boyutsallığını azaltmak için mevcut yöntemlere ilişkin literatür kaynaklarının gözden geçirilmesi.

    2. Sınıflandırma problemlerinde veri boyutunu azaltmak için pratikte kullanılan algoritmaların etkinliğini karşılaştırmak için araştırmalar (deneyler) yapmak

    Araştırma yöntemleri (yazılım):

    C++ programlama dili, OpenCV kütüphanesi

    Bir kişi için yüksek boyutlu verilerin algılanması zordur ve bazen imkansızdır. Bu bağlamda, tanıma görevlerini yerine getirmek de dahil olmak üzere "onlara bakabilmeniz", değerlendirmeniz ve kullanmanız için çok boyutlu bir örnekten küçük boyutlu verilere geçmek istemek oldukça doğal hale geldi. Netliğe ek olarak, boyutluluk azaltma, istatistiksel analize müdahale eden faktörlerden (bilgilerden) kurtulmanıza, bilgi toplama süresini uzatmanıza, parametrelerin tahminlerindeki varyansı ve dağılımların özelliklerini artırmanıza olanak tanır.

    Boyut azaltma, orijinal yüksek boyutlu verilerin, temel bilgileri koruyan yeni bir düşük boyutlu temsile dönüştürülmesidir. İdeal olarak, dönüştürülen temsilin boyutu, verilerin içsel boyutuyla eşleşir. İçsel veri boyutu, verilerin tüm olası özelliklerini ifade etmek için gereken minimum değişken sayısıdır. Azaltılmış bir veri seti üzerine inşa edilen bir analitik modelin işlenmesi, uygulanması ve anlaşılması, orijinal set üzerine inşa edilen bir modele göre daha kolay hale gelmelidir.

    Bir boyutluluk indirgeme yöntemi seçme kararı, çözülmekte olan problemin özellikleri ve beklenen sonuçların yanı sıra sınırlı zaman ve bilgi işlem kaynakları hakkındaki bilgilere dayanmaktadır. Literatür incelemelerine göre, en yaygın kullanılan boyut indirgeme yöntemleri Temel Bileşen Analizi (PCA), Bağımsız Bileşen Analizi (ICA) ve Singular Value Decomposition (SVD)'dir.

    Temel bileşen analizi (PCA) veri boyutsallığını azaltmanın en basit yöntemidir. Sınıflandırma problemlerinde veri boyutunu azaltırken özellikleri dönüştürmek için yaygın olarak kullanılır. Yöntem, özvektörler ve matris özdeğerleri tarafından belirlenen daha küçük boyutlu yeni bir koordinat sistemine veri projeksiyonuna dayanır. Matematiksel olarak, temel bileşen yöntemi bir ortogonal doğrusal dönüşümdür.

    Yöntemin ana fikri, varyansı en aza indirmek için veri kovaryans matrisinin özdeğerlerini ve özvektörlerini hesaplamaktır. Kovaryans matrisi, ortalamanın birbirine göre dağılımını belirlemek için kullanılır. İki rasgele değişkenin (boyut) kovaryansı, doğrusal bağımlılıklarının bir ölçüsüdür:

    X rasgele değişkeninin matematiksel beklentisi, Y rasgele değişkeninin matematiksel beklentisidir. Formül (1)'i şu şekilde de yazabiliriz:

    ortalama X nerede, ortalama Y nerede, N verinin boyutudur.

    Özvektörler ve özdeğerler hesaplandıktan sonra değerleri azalan düzende sıralanır. Böylece bileşenler azalan önem sırasına göre elde edilir. En büyük özdeğere sahip özvektör, veri setinin ana bileşenidir. Temel bileşenler, özvektörlerden gelen satırların sıralanmış özdeğerlerle çarpılmasıyla elde edilir. Alt boyutun optimal alanını bulmak için, orijinal veri seti ile aşağıdaki kriter tarafından elde edilen arasındaki minimum hatanın hesaplandığı formül (3) kullanılır:

    burada P yeni alanın boyutudur, N orijinal örneğin boyutudur, özdeğerlerdir ve eşik değeridir. Algoritma sırasında, MN'den doğrusal olarak dönüştürülmüş MP verisine sahip bir matris elde ederiz, ardından PCA, değerlendirme işlevini en aza indiren bir doğrusal eşleme M bulur:

    burada noktalar arasındaki Öklid mesafesi ve , noktalar arasındaki Öklid mesafesi ve , , . Bu tahmin edicinin minimumu, Gram matrisinin spektral ayrışımı gerçekleştirilerek ve bu matrisin özvektörlerinin karşılık gelen özdeğerlerin kökü ile çarpılmasıyla hesaplanabilir.

    Bağımsız bileşenlerin analizi ( ICA ) , PCA'dan farklı olarak, oldukça yeni bir yöntemdir, ancak hızla popülerlik kazanmaktadır. Verilerin mümkün olduğunca istatistiksel olarak bağımsız olan ve birbirine ortogonal olması gerekmeyen yeni bileşenlere doğrusal olarak dönüştürülmesi fikrine dayanır. Bu çalışmadaki araştırma için, makalede ayrıntılı olarak açıklanan FastICa algoritması seçildi. Bu yöntemin ana hedefleri ortalama (verilerden ortalamanın çıkarılması) ve "beyazlaştırma"dır (x vektörünün, varyansı bire eşit olan ilişkisiz koordinatlara sahip bir vektöre doğrusal dönüşümü).

    FastICA'da bağımsızlık kriteri, basıklık katsayısı kullanılarak ölçülen Gauss olmama durumudur:

    Gauss rasgele değişkenleri için bu değer sıfırdır, dolayısıyla FastICA değerini maksimize eder. Eğer "ağartılmış" veri ise, "ağartılmış" verinin kovaryans matrisi birim matristir.

    Böyle bir dönüşüm her zaman mümkündür. Popüler bir "beyazlatma" yöntemi, kovaryans matrisinin spektral ayrışmasını kullanır. , burada özvektörlerin ortogonal matrisidir ve özdeğerlerin köşegen matrisidir,. "Beyazlatmanın" şu şekilde temsil edilebileceği ortaya çıktı:

    matrisin bileşen bazında işlemle hesaplandığı yer:

    deneyler

    Önerilen yöntemlerin deneysel çalışması için, CASIA GAIT veri tabanından storyboard'lu video sekansları kullanıldı. Veritabanı, üzerinde hareketli nesnelerin önceden seçilmiş olduğu video dizisinin tek tek karelerine karşılık gelen ikili görüntü dizilerini içerir.

    Tüm video dizilerinden, çekim açısının 90 derece olduğu, insanların kışlık olmayan sıradan giysiler içinde ve çantasız tasvir edildiği 15 sınıf rastgele alındı. Her sınıfta 6 dizi vardı. Her dizinin uzunluğu en az 60 kareydi. Sınıflar, her biri 3 diziden oluşan eğitim ve test setlerine ayrıldı.

    PCA ve ICA yöntemleri sonucunda elde edilen öznitelikler, bu çalışmada destek vektör makinesi (Support Vector Machines, SVM) olan sınıflandırıcıyı eğitmek için kullanılmıştır.

    Yöntemin kalitesini belirlemek için doğru sınıflandırılan nesnelerin oranı olarak tanımlanan sınıflandırma doğruluğu değerlendirildi. Deney sırasında, eğitim ve test modunda geçirilen süre de kaydedildi.

    Şekil 1. a) Temel bileşen analizi (PCA) b) Bağımsız bileşenler yöntemi (ICA)

    Şekil 1(a,b), sınıflandırma doğruluğunun dönüşümden sonra çıktı veri boyutunun değerine bağımlılığını göstermektedir. PCA'da bileşen sayısı arttıkça sınıflandırma doğruluğunun önemli ölçüde değişmediği, ICA kullanıldığında ise doğruluğun belli bir değerden itibaren düşmeye başladığı görülmektedir.

    Şekil 2. Sınıflandırma süresinin bileşen sayısına bağımlılığı A) PCA , B) ICA

    Şekil 2(a,b), sınıflandırma süresinin PCA ve ICA bileşenlerinin sayısına bağımlılığını göstermektedir. Her iki durumda da boyuttaki artışa işlem süresinde doğrusal bir artış eşlik etti. Temel Bileşen Analizi (PCA) kullanılarak boyut indirgeme işleminden sonra DVM sınıflandırıcısının daha hızlı çalıştığı grafiklerden görülebilir.

    Yöntemler Temel Bileşen Analizi (PCA), Bağımsız Bileşen Analizi (ICA) yeterince hızlı çalıştı ve belirli parametrelerle sınıflandırma probleminde yüksek sonuçlar alındı. Ancak karmaşık yapıya sahip verilerde bu yöntemler her zaman istenilen sonuca ulaşamamaktadır. Bu nedenle, son zamanlarda verileri belirli bir manifold üzerine yansıtan ve veri yapısını korumayı mümkün kılan doğrusal olmayan yerel yöntemlere giderek daha fazla önem verilmektedir.

    Gelecekte, hem gösterge niteliğinde bir açıklama oluşturmak için kullanılan algoritmalar listesinin hem de kullanılan sınıflandırma yöntemleri listesinin genişletilmesi planlanmaktadır. Bir diğer önemli araştırma alanı da işlem süresinin azaltılmasıdır.

    Kaynakça:

    1. Joliffe, I.T., Temel Bileşen Analizi, Springer, 2002
    2. Hyvärinen ve Erkki Oja, Independent Component Analysis: Algorithms and Applications, Neural Networks, 13, 2000
    3. Josiński, H. İnsan Tanımlaması Amacıyla Yürüyüş Video Dizilerinin Özellik Çıkarımı ve HMM Tabanlı Sınıflandırması/ Springer, 2013 - Cilt 481.