• Kendall'ın korelasyon katsayısı hesaplama örneği. Kendall'ın sıralama korelasyon katsayısı. Bu iki denklemi çözmek,

    Ekonomik ve sosyal uygulamanın ihtiyaçları, yalnızca nicel değil, aynı zamanda nitel faktörlerin de doğru bir şekilde kaydedilmesine izin veren süreçlerin nicel olarak tanımlanması için yöntemlerin geliştirilmesini gerektirir. Niteliksel özelliklerin değerleri, özelliğin azalma (artma) derecesine göre sıralanabilmesi veya sıralanabilmesi koşuluyla, niteliksel özellikler arasındaki ilişkinin yakınlığını değerlendirmek mümkündür. Kalitatif, doğru bir şekilde ölçülemeyen bir işarettir, ancak nesneleri birbiriyle karşılaştırmanıza ve dolayısıyla onları azalan veya artan kalite sırasına göre düzenlemenize olanak tanır. Ve sıralama ölçeklerindeki ölçümlerin gerçek içeriği, ölçülen özelliğin ciddiyetine göre nesnelerin düzenlenme sırasıdır.

    Pratik amaçlar için, sıra korelasyonunun kullanılması çok faydalıdır. Örneğin, bir ürünün iki kalite özelliği arasında yüksek dereceli bir korelasyon kurulursa, o zaman sadece bir özellik için ürünlerin kontrol edilmesi yeterlidir, bu da maliyeti düşürür ve kontrolü hızlandırır.

    Örnek olarak, birkaç işletme için pazarlanabilir ürünlerin mevcudiyeti ile genel satış maliyetleri arasında bir ilişkinin varlığını düşünebiliriz. 10 gözlem sırasında aşağıdaki tablo elde edildi:

    X değerlerini artan düzende sıralayalım, her değere sıra numarası (sıralama) atanacaktır:

    Böylece,

    Gözlem sonucunda elde edilen X ve Y çiftlerinin rankları ile birlikte kaydedildiği aşağıdaki tabloyu oluşturalım:

    Derecelerdeki farkı şu şekilde belirterek, Spearman örnek korelasyon katsayısını hesaplamak için formülü yazıyoruz:

    burada n, aynı zamanda sıra çiftlerinin sayısı olan gözlem sayısıdır.

    Spearman katsayısı aşağıdaki özelliklere sahiptir:

    X ve Y niteliksel özellikleri arasında, i'nin tüm değerleri için nesnelerin sıralarının aynı olması anlamında tam bir doğrudan ilişki varsa, o zaman Spearman örnek korelasyon katsayısı 1'dir. Gerçekten de, formülde yerine koyarsak, biz 1 al

    X ve Y niteliksel özellikleri arasında, sıralamanın sıralamaya karşılık gelmesi anlamında tam bir ters ilişki varsa, Spearman örnek korelasyon katsayısı -1'dir.

    Gerçekten, eğer

    Değeri Spearman korelasyon katsayısı formülüne yerleştirerek -1 elde ederiz.

    Niteliksel özellikler arasında ne tam ne de tam geri bildirim yoksa Spearman örneklem korelasyon katsayısı -1 ile 1 arasındadır ve değeri 0'a yaklaştıkça özellikler arasındaki ilişki küçülür.

    Yukarıdaki örneğe göre P değerini bulacağız, bunun için aşağıdaki değerlerle tabloyu tamamlayacağız ve:

    Kendall'ın örnek korelasyon katsayısı. İki niteliksel özellik arasındaki ilişkiyi Kendall sıra korelasyon katsayısını kullanarak değerlendirebilirsiniz.

    N büyüklüğündeki örneklemdeki nesnelerin sıraları şöyle olsun:

    X işareti ile:

    Y: bazında. Sağda büyük sıralar olduğunu, sağda büyük sıralar olduğunu, sağda büyük sıralar olduğunu varsayalım. Sıraların toplamı için notasyonu tanıtalım

    Benzer şekilde, gösterimi sağda yatan sıraların sayısının toplamı olarak, ancak daha küçük olarak tanıtıyoruz.

    Kendall'ın örnek korelasyon katsayısı şu şekilde yazılır:

    n, örneklem büyüklüğüdür.

    Kendall katsayısı, Spearman katsayısı ile aynı özelliklere sahiptir:

    X ve Y'nin niteliksel özellikleri arasında, i'nin tüm değerleri için nesnelerin sıralarının aynı olması anlamında tam bir doğrudan ilişki varsa, o zaman Kendall örnek korelasyon katsayısı 1'dir. Gerçekten de sağda n-1 dereceleri büyüktür, bu nedenle, What ayarladığımız gibi. Daha sonra. Ve Kendall katsayısı: .

    X ve Y özellikleri arasında, sıralamanın sıralamaya karşılık gelmesi anlamında tam bir ters ilişki varsa, o zaman Kendall'ın örnek korelasyon katsayısı -1'dir. Sağda rütbe yok, bu nedenle büyük. Aynı şekilde. R+=0 ​​değerini Kendall katsayı formülünde yerine koyarsak -1 elde ederiz.

    Yeterince büyük bir örneklem büyüklüğü ve 1'e yakın olmayan sıra korelasyon katsayılarının değerleri ile yaklaşık eşitlik gerçekleşir:

    Kendall katsayısı, Spearman katsayısından daha muhafazakar bir korelasyon tahmini veriyor mu? (sayısal değer? her zaman küçüktür). Katsayının hesaplanmasına rağmen? katsayıyı hesaplamaktan daha az zaman alır, seriye yeni bir terim eklenirse katsayıyı yeniden hesaplamak daha kolaydır.

    Katsayının önemli bir avantajı, üçüncünün etkisini ortadan kaldırarak iki sıra özelliği arasındaki "saf" ilişkinin derecesini değerlendirmeyi mümkün kılan kısmi sıra korelasyon katsayısını belirlemek için kullanılabilmesidir:

    Sıra korelasyon katsayılarının önemi. Örnek verilere dayanarak sıra korelasyonunun gücünü belirlerken, aşağıdaki soruyu dikkate almak gerekir: Belirli bir örnek sıra korelasyon katsayısı varsa, genel popülasyonda bir korelasyon olduğu sonucuna ne kadar güvenilirlikle güvenilebilir? elde edildi. Başka bir deyişle, gözlemlenen sıra korelasyonlarının önemi, dikkate alınan iki sıralamanın istatistiksel bağımsızlığı hipotezine dayalı olarak test edilmelidir.

    Nispeten büyük bir örneklem büyüklüğü n ile, sıra korelasyon katsayılarının önemi normal dağılım tablosu (Ek Tablo 1) kullanılarak kontrol edilebilir. Spearman katsayısının önemini test etmek için mi? (n>20 için) değeri hesapla

    ve Kendall katsayısının önemini test etmek için? (n>10 için) değeri hesapla

    burada S=R+- R-, n örneklem büyüklüğüdür.

    Ayrıca, anlamlılık düzeyi a ayarlanır, kritik değer tcr (?, k) Student dağılımının kritik noktaları tablosundan belirlenir ve hesaplanan değer veya onunla karşılaştırılır. Serbestlik derecesi sayısı k = n-2 olarak kabul edilir. veya> tcr ise, veya değerleri anlamlı olarak kabul edilir.

    Fechner korelasyon katsayısı.

    Son olarak, az miktarda ilk bilgi olduğunda bir bağlantının var olduğu gerçeğini oluşturmak için kullanılması tavsiye edilen, bağlantının temel yakınlık derecesini karakterize eden Fechner katsayısından bahsetmeliyiz. Hesaplamasının temeli, her varyasyon serisinin aritmetik ortalamasından sapmaların yönünü dikkate almak ve aralarındaki ilişkinin ölçüldüğü iki seri için bu sapmaların işaretlerinin tutarlılığını belirlemektir.

    Bu katsayı aşağıdaki formülle belirlenir:

    na, bireysel değerlerin aritmetik ortalamalarından sapma belirtilerinin tesadüf sayısıdır; nb - sırasıyla uyumsuzluk sayısı.

    Fechner katsayısı -1.0 arasında değişebilir<= Кф<= +1,0.

    Derece korelasyonunun uygulamalı yönleri. Daha önce belirtildiği gibi, sıra korelasyon katsayıları yalnızca iki sıra özelliği arasındaki ilişkinin nitel bir analizi için değil, aynı zamanda sıra ve nicel özellikler arasındaki ilişkinin gücünü belirlemek için de kullanılabilir. Bu durumda, niceliksel niteliğin değerleri sıralanır ve bunlara karşılık gelen sıralar atanır.

    İki nicel özellik arasındaki bağlantının gücünü belirlerken sıra korelasyon katsayılarının hesaplanmasının da tavsiye edildiği birkaç durum vardır. Yani, birinin (veya her ikisinin) dağılımının normal dağılımdan önemli ölçüde sapması ile, sıra katsayıları iken, örnek korelasyon katsayısı r'nin anlamlılık düzeyinin belirlenmesi yanlış olur? Ve? önem düzeyinin belirlenmesinde bu tür kısıtlamalarla ilişkilendirilmez.

    Bu tür başka bir durum, iki niceliksel özellik arasındaki ilişki doğrusal olmadığında (ancak monoton olduğunda) ortaya çıkar. Örneklemdeki nesne sayısı azsa veya ilişkinin işareti araştırmacı için anlamlıysa, o zaman korelasyon ilişkisinin kullanılması? burada uygun olmayabilir. Derece korelasyon katsayısının hesaplanması, kişinin bu zorlukları atlamasına izin verir.

    pratik kısım

    Görev 1. Korelasyon ve regresyon analizi

    Sorunun ifadesi ve resmileştirilmesi:

    Ekipmanın durumuna (arıza için) ve üretilen parça sayısına ilişkin bir dizi gözlem temelinde derlenen ampirik bir örnek verilir. Örnek, başarısız ekipmanın hacmi ile üretilen öğelerin sayısı arasındaki ilişkiyi dolaylı olarak karakterize eder. Numunenin anlamına göre, üretilen ürünlerin çalışır durumda kalan ekipman üzerinde üretildiği görülebilir, çünkü arızalı ekipmanın% 'si ne kadar fazlaysa, o kadar az üretilen ürün demektir. Korelasyon-regresyon bağımlılığı, yani bağımlılığın şeklini belirlemek, regresyon fonksiyonunu değerlendirmek (regresyon analizi) ve ayrıca rastgele değişkenler arasındaki ilişkiyi belirlemek ve yakınlığını değerlendirmek (korelasyon analizi) için örneklemi incelemek gerekir. Korelasyon analizinin ek bir görevi, bir değişkenin regresyon denklemini diğerine göre değerlendirmektir. Ek olarak, %30 ekipman arızası ile üretilen ürün sayısını tahmin etmek gerekir.

    Tablodaki yukarıdaki örneği, "Ekipman arızası, %" verisini X olarak, "Ürün sayısı" verisini Y olarak belirterek resmileştiriyoruz:

    İlk veri. tablo 1

    Problemin fiziksel anlamına göre, üretilen ürün sayısının (Y) doğrudan ekipman arıza yüzdesine bağlı olduğu, yani Y'nin X'e bağımlılığı olduğu görülebilir. Korelasyondan farklı olarak, X, bağımsız bir değişken veya faktör, Y'nin değeri - ona bağlı olarak veya etkili bir özellik olarak hareket eder. Bu nedenle, yeterli bir ekonomik ve matematiksel modelin sentezlenmesi gerekmektedir; X = 30'da Y'nin değerini tahmin etmenin mümkün olacağı, X ve Y değerleri arasındaki ilişkiyi karakterize eden Y = f(X) işlevini belirleyin (bulun, seçin). problem, korelasyon-regresyon analizi kullanılarak gerçekleştirilebilir.

    Korelasyon-regresyon problemlerini çözme yöntemlerinin kısa bir incelemesi ve seçilen çözüm yönteminin doğrulanması.

    Etkili özelliği etkileyen faktörlerin sayısına göre regresyon analizi yöntemleri, tek ve çok faktörlü olarak ayrılır. Tek faktör - bağımsız faktörlerin sayısı = 1, yani Y = F(X)

    çok faktörlü - faktör sayısı> 1, yani

    İncelenen bağımlı değişkenlerin (çıktı özellikleri) sayısına göre, regresyon görevleri bir ve birçok üretken özelliğe sahip görevlere de bölünebilir. Genel olarak birçok etkili özelliği olan bir görev şu şekilde yazılabilir:

    Korelasyon-regresyon analizi yöntemi, formun yaklaşık (yaklaşık) bağımlılığının parametrelerini bulmaktan oluşur.

    Yukarıdaki görevde yalnızca bir bağımsız değişken göründüğünden, yani sonucu etkileyen yalnızca bir faktöre olan bağımlılık araştırıldığından, çalışma tek faktörlü bağımlılık veya eşleştirilmiş regresyon üzerine uygulanmalıdır.

    Yalnızca bir faktörün varlığında, bağımlılık şu şekilde tanımlanır:

    Spesifik bir regresyon denkleminin yazılma şekli, faktör ile elde edilen özellik arasındaki istatistiksel ilişkiyi gösteren ve aşağıdakileri içeren bir fonksiyonun seçimine bağlıdır:

    lineer regresyon, formun denklemi,

    parabolik, formun denklemi

    kübik, formun denklemi

    hiperbolik, formun denklemi

    semilogaritmik, formun denklemi

    üstel, formun denklemi

    güç, formun denklemi.

    Fonksiyonu bulmak, regresyon denkleminin parametrelerini belirlemeye ve denklemin kendisinin güvenilirliğini değerlendirmeye indirgenir. Parametreleri belirlemek için hem en küçük kareler yöntemini hem de en küçük modüller yöntemini kullanabilirsiniz.

    Bunlardan ilki, Yi ampirik değerlerinin hesaplanan ortalama Yi'den sapmalarının karelerinin toplamının minimum olması gerektiğidir.

    En az modül yöntemi, Yi ampirik değerleri ile hesaplanan Yi ortalamaları arasındaki farkın modüllerinin toplamını en aza indirmekten oluşur.

    Problemi çözmek için en basit ve istatistiksel özellikler açısından iyi tahminler veren en küçük kareler yöntemini seçiyoruz.

    En küçük kareler yöntemini kullanarak regresyon analizi problemini çözme teknolojisi.

    Gerçek değer y'nin hesaplanan değerden sapmasını tahmin ederek değişkenler arasındaki bağımlılık türünü (doğrusal, ikinci dereceden, kübik vb.) belirleyebilirsiniz:

    nerede - ampirik değerler, - yaklaşık fonksiyon için hesaplanan değerler. Çeşitli fonksiyonlar için Si değerlerini tahmin edip en küçüğünü seçerek yaklaşık bir fonksiyon seçiyoruz.

    Bir fonksiyonun türü, her fonksiyon için bulunan katsayıların belirli bir denklem sisteminin çözümü olarak bulunmasıyla belirlenir:

    lineer regresyon, tip denklemi, sistem -

    parabolik, formun denklemi, sistem -

    kübik, tip denklemi, sistem -

    Sistemi çözdükten sonra, yardımıyla analitik fonksiyonun belirli bir ifadesine ulaştığımızı ve buna sahip olarak hesaplanan değerleri bulduğumuzu buluruz. Ardından, sapma S'nin bir tahminini bulmak ve minimum için analiz yapmak için tüm veriler var.

    Doğrusal bir bağımlılık için, X faktörü ile etkin özellik Y arasındaki ilişkinin yakınlığını bir korelasyon katsayısı r biçiminde tahmin ediyoruz:

    Göstergenin ortalama değeri;

    Faktörün ortalama değeri;

    y - göstergenin deneysel değeri;

    x - faktörün deneysel değeri;

    standart sapma x;

    y cinsinden standart sapma.

    Korelasyon katsayısı r = 0 ise, özellikler arasındaki ilişkinin önemsiz veya yok olduğu, r = 1 ise, özellikler arasında çok yüksek bir fonksiyonel ilişkinin olduğu kabul edilir.

    Chaddock tablosunu kullanarak, işaretler arasındaki ilişkinin yakınlığının niteliksel bir değerlendirmesini yapmak mümkündür:

    Chaddock tablosu Tablo 2.

    Doğrusal olmayan bir bağımlılık için, aşağıdaki bağımlılıklardan hesaplanan korelasyon oranı (0 1) ve korelasyon indeksi R belirlenir.

    burada değer, regresyon bağımlılığından hesaplanan göstergenin değeridir.

    Hesaplamaların doğruluğunun bir tahmini olarak, ortalama göreceli yaklaşım hatasının değerini kullanırız.

    Yüksek doğrulukta, %0-12 aralığındadır.

    İşlevsel bağımlılığın seçimini değerlendirmek için belirleme katsayısını kullanırız.

    Belirleme katsayısı, faktöriyel ve toplam varyans arasındaki oranı, daha kesin olarak faktöriyel varyansın toplam içindeki payını ifade ettiğinden, fonksiyonel bir modelin seçim kalitesinin "genelleştirilmiş" bir ölçüsü olarak kullanılır.

    Korelasyon indeksi R'nin önemini değerlendirmek için Fisher'in F-testi kullanılır. Kriterin gerçek değeri aşağıdaki formülle belirlenir:

    m, regresyon denkleminin parametre sayısı, n ise gözlem sayısıdır. Değer, kabul edilen önem düzeyi ve serbestlik derecesi sayısı u dikkate alınarak F-kriter tablosundan belirlenen kritik değer ile karşılaştırılır. Eğer, o zaman korelasyon indeksi R'nin değeri anlamlı olarak kabul edilir.

    Seçilen regresyon formu için regresyon denkleminin katsayıları hesaplanır. Kolaylık sağlamak için, hesaplama sonuçları aşağıdaki yapıya sahip bir tabloya dahil edilmiştir (genellikle sütun sayısı ve görünümleri regresyonun türüne göre değişir):

    Tablo 3

    Sorunun çözümü.

    Ekonomik bir fenomen üzerinde gözlemler yapıldı - ürün çıktısının ekipman arıza yüzdesine bağımlılığı. Bir dizi değer alındı.

    Seçilen değerler Tablo 1'de açıklanmıştır.

    Verilen örneğe ampirik bağımlılığın bir grafiğini oluşturuyoruz (Şekil 1)

    Grafiğin biçimiyle, analitik bağımlılığın doğrusal bir fonksiyon olarak temsil edilebileceğini belirliyoruz:

    X ve Y arasındaki ilişkiyi değerlendirmek için ikili korelasyon katsayısını hesaplayın:

    Bir yardımcı tablo oluşturalım:

    Tablo 4

    Katsayıları bulmak için bir denklem sistemini çözüyoruz ve:

    ilk denklemden, değeri yerine koyarak

    ikinci denklemde şunu elde ederiz:

    Bulduk

    Regresyon denkleminin biçimini alıyoruz:

    9. Bulunan ilişkinin sıkılığını tahmin etmek için r korelasyon katsayısını kullanırız:

    Chaddock tablosuna göre, r = 0.90 için X ve Y arasındaki ilişkinin çok yüksek olduğunu, dolayısıyla regresyon denkleminin güvenilirliğinin de yüksek olduğunu buluyoruz. Hesaplamaların doğruluğunu değerlendirmek için, ortalama göreceli yaklaşım hatasının değerini kullanırız:

    Değerin, regresyon denkleminin yüksek derecede güvenilirliğini sağladığına inanıyoruz.

    X ve Y arasındaki doğrusal bir ilişki için belirleme indeksi, r: korelasyon katsayısının karesine eşittir. Bu nedenle, toplam varyasyonun %81'i X faktör özelliğindeki bir değişiklikle açıklanmaktadır.

    Doğrusal bir bağımlılık durumunda mutlak değer olarak r korelasyon katsayısına eşit olan korelasyon indeksi R'nin önemini değerlendirmek için Fisher'in F-testi kullanılır. Gerçek değeri aşağıdaki formüle göre belirleriz:

    m, regresyon denkleminin parametre sayısı, n ise gözlem sayısıdır. Yani, n = 5, m = 2.

    Kabul edilen anlamlılık düzeyi = 0.05 ve serbestlik derecesi sayısını dikkate alarak kritik tablo değerini elde ederiz. Çünkü, korelasyon indeksi R'nin değeri anlamlı olarak kabul edilmektedir.

    X = 30'da Y'nin tahmin edilen değerini hesaplayalım:

    Bulunan fonksiyonun bir grafiğini oluşturalım:

    11. Korelasyon katsayısının hatasını standart sapmanın değerine göre belirleyin

    ve ardından normalleştirilmiş sapmanın değerini belirleyin

    %95 olasılıkla > 2 oranından, elde edilen korelasyon katsayısının anlamlılığından bahsedebiliriz.

    Görev 2. Doğrusal optimizasyon

    Seçenek 1.

    Bölgenin kalkınma planı, toplam üretim hacmi 9 milyon ton olan 3 petrol sahasının işletmeye alınmasını öngörüyor. İlk sahada üretim hacmi en az 1 milyon ton, ikincide - 3 milyon ton, üçüncüde - 5 milyon ton. Bu verimliliği elde etmek için en az 125 kuyu açılmalıdır. Bu planın uygulanması için 25 milyon ruble tahsis edildi. sermaye yatırımları (gösterge K) ve 80 km boru (gösterge L).

    Her sahanın planlı verimliliğinin sağlanması için optimum (maksimum) kuyu sayısının belirlenmesi gerekmektedir. Görevle ilgili ilk veriler tabloda verilmiştir.

    İlk veri

    Sorun bildirimi yukarıda verilmiştir.

    Problemde belirtilen koşulları ve kısıtlamaları resmileştiriyoruz. Bu optimizasyon problemini çözmenin amacı, problemdeki mevcut kısıtlamaları dikkate alarak her alan için optimum kuyu sayısı ile petrol üretiminin maksimum değerini bulmaktır.

    Problemin gerekliliklerine uygun olarak hedef fonksiyon şu şekilde olacaktır:

    her alan için kuyu sayısı nerede.

    Aşağıdakiler için görevdeki mevcut kısıtlamalar:

    boru uzunluğu:

    her alandaki kuyu sayısı:

    1 kuyu inşaat maliyeti:

    Doğrusal optimizasyon problemleri, örneğin aşağıdaki yöntemlerle çözülür:

    grafik olarak

    tek yönlü yöntem

    Grafik yöntemin kullanılması, yalnızca iki değişkenli doğrusal optimizasyon problemlerini çözerken uygundur. Daha fazla sayıda değişkenle, bir cebirsel aparatın kullanılması gereklidir. Simplex yöntemi adı verilen doğrusal optimizasyon problemlerini çözmek için genel bir yöntemi düşünün.

    Simlex yöntemi, çoğu optimizasyon probleminin çözümünde kullanılan yinelemeli hesaplamaların tipik bir örneğidir. Yöneylem araştırması modelleri yardımıyla problem çözmeyi sağlayan bu tür yinelemeli prosedürler dikkate alınır.

    Simplex yöntemini kullanarak bir optimizasyon problemini çözmek için, Xi bilinmeyenlerinin sayısının denklem sayısından büyük olması gerekir, yani denklem sistemi

    ilişki m memnun

    A=m'ye eşitti.

    A matrisinin sütununu olarak ve serbest terimler sütununu olarak belirtin

    (1) sisteminin temel çözümü, (1) sisteminin çözümü olan m bilinmeyenli bir kümedir.

    Simplex yönteminin algoritması kısaca şu şekilde açıklanmaktadır:

    Tür eşitsizliği olarak yazılan orijinal kısıtlama<= (=>) , artık değişkeni kısıtlamanın sol tarafına ekleyerek (sol taraftan fazlalık değişkeni çıkararak) bir eşitlik olarak temsil edilebilir.

    Örneğin, orijinal kısıtlamanın sol tarafına

    orijinal eşitsizliğin eşitliğe dönüşmesinin bir sonucu olarak artık bir değişken eklenir.

    Orijinal kısıtlama boru tüketimini belirtiyorsa, değişken o kaynağın kalan veya kullanılmayan kısmı olarak yorumlanmalıdır.

    Amaç fonksiyonunun maksimize edilmesi, aynı fonksiyonun ters işaretli olarak minimize edilmesine eşdeğerdir. Yani, bizim durumumuzda

    eşdeğerdir

    Aşağıdaki formun temel çözümü için bir tek yönlü tablo derlenir:

    Bu tablo, bu hücrelerdeki sorunu çözdükten sonra temel bir çözüm olacağını gösterir. - bir sütunu sütunlardan birine bölmekten özel; - etkinleştirme sütunuyla ilgili tablonun hücrelerindeki değerler için ek sıfırlama çarpanları. - amaç fonksiyonunun min değeri -Z, - bilinmeyenler için amaç fonksiyonundaki katsayıların değerleri.

    Değerler arasında herhangi bir pozitif bulun. Aksi takdirde, sorun çözülmüş olarak kabul edilir. Buna sahip tablonun herhangi bir sütununu seçin, bu sütuna "izin veren" sütun denir. Çözümleme sütununun öğeleri arasında pozitif sayılar yoksa, amaç fonksiyonunun çözümleri kümesindeki sınırsızlığı nedeniyle problem çözülemez. Çözünürlük sütununda pozitif sayılar varsa, 5. adıma geçin.

    Sütun, payı sütunun öğeleri olan ve paydada - çözümleme sütununun karşılık gelen öğeleri olan kesirler ile doldurulur. Tüm değerlerden en küçüğü seçilir. En küçük sonucun olduğu satıra "izin veren" satır denir. İzin veren çizgi ile izin verilen sütunun kesiştiği noktada, bir şekilde, örneğin renkle vurgulanan, izin veren bir öğe bulunur.

    İlk tek yönlü tabloya dayanarak, aşağıdaki tablo derlenir, burada:

    Satır vektörü sütun vektörüyle değiştirildi

    izin veren dize, izin veren öğeye bölünen aynı dizi ile değiştirilir

    tablonun diğer satırlarının her biri, çözünürlük sütununun hücresinde 0'ı elde etmek için bu satırın çözünürlükle toplamı ile özel olarak seçilmiş bir ek faktörle çarpılarak değiştirilir.

    Yeni tablo ile 4. maddeye dönüyoruz.

    Sorunun çözümü.

    Problem bildirimine dayanarak, aşağıdaki eşitsizlik sistemine sahibiz:

    ve amaç fonksiyonu

    Ek değişkenler ekleyerek eşitsizlik sistemini bir denklem sistemine dönüştürüyoruz:

    Amaç fonksiyonunu eşdeğerine indirgeyelim:

    İlk simpleks tablosunu oluşturalım:

    Bir izin sütunu seçelim. Sütunu hesaplayalım:

    Değerleri tabloya giriyoruz. En küçüğü = 10 ile, etkinleştirme dizesini belirleriz: . Çözümleme satırı ile çözümleme sütununun kesiştiği noktada, çözümleme elemanını = 1 buluruz. Tablonun bir kısmını ek faktörlerle doldururuz, öyle ki: çözme dizesi bunlarla çarpılır, tablonun geri kalan satırlarına eklenir, çözümleme sütununun öğelerinde 0 oluşturur.

    İkinci tek yönlü tabloyu oluşturuyoruz:

    İçinde bir çözüm sütunu alıyoruz, değerleri hesaplıyoruz, bir tabloya koyuyoruz. En azından izin veren bir dizi elde ederiz. Çözen öğe 1 olacaktır. Ek çarpanları buluyoruz, sütunları dolduruyoruz.

    Aşağıdaki tek yönlü tabloyu oluşturuyoruz:

    Benzer şekilde, bir çözümleme sütunu, bir çözümleme satırı ve bir çözümleme öğesi = 2 buluyoruz. Aşağıdaki tek yönlü tabloyu oluşturuyoruz:

    -Z satırında pozitif değer olmadığı için bu tablo sonludur. İlk sütun bilinmeyenlerin istenen değerlerini verir, yani. optimal temel çözüm:

    Bu durumda amaç fonksiyonunun değeri -Z = -8000 olup Zmax = 8000'e eşittir. Problem çözülmüştür.

    Görev 3. Küme analizi

    Sorunun formülasyonu:

    Tabloda verilen verilere göre nesnelerin bölümlenmesini gerçekleştirin. Çözüm yönteminin seçimi, bir veri bağımlılık grafiği oluşturmak için bağımsız olarak gerçekleştirilecektir.

    Seçenek 1.

    İlk veri

    Belirtilen türdeki sorunları çözmek için yöntemlerin gözden geçirilmesi. Çözüm yönteminin gerekçesi.

    Küme analizinin görevleri aşağıdaki yöntemler kullanılarak çözülür:

    "Benzersizlik" veya "nesneler arası mesafe" kümelerinin oluşturulmasında birleştirme veya ağaç kümeleme yöntemi kullanılır. Bu mesafeler tek boyutlu veya çok boyutlu uzayda tanımlanabilir.

    İki yönlü birleştirme, verilerin "nesneler" ve "nesnelerin özellikleri" açısından değil, gözlemler ve değişkenler açısından yorumlandığı durumlarda (nispeten nadiren) kullanılır. Hem gözlemlerin hem de değişkenlerin aynı anda anlamlı kümelerin keşfine katkıda bulunması beklenir.

    K-means yöntemi. Küme sayısıyla ilgili zaten bir hipotez olduğunda kullanılır. Sisteme tam olarak, örneğin mümkün olduğu kadar farklı olacak şekilde üç küme oluşturmasını söyleyebilirsiniz. Genel durumda, K-means yöntemi, birbirinden mümkün olduğunca uzak konumlanmış tam olarak K farklı küme oluşturur.

    Mesafeleri ölçmenin aşağıdaki yolları vardır:

    Öklid mesafesi. Bu, en yaygın mesafe türüdür. Çok boyutlu uzayda basitçe geometrik bir mesafedir ve şu şekilde hesaplanır:

    Öklid mesafesinin (ve karesinin) standart verilerden değil orijinal verilerden hesaplandığına dikkat edin.

    Şehir bloğu mesafesi (Manhattan mesafesi). Bu mesafe basitçe koordinatlar üzerindeki farkların ortalamasıdır. Çoğu durumda, bu mesafe ölçüsü, olağan Öklid mesafesiyle aynı sonuçlara yol açar. Ancak, bu ölçüm için bireysel büyük farklılıkların (aykırı değerlerin) etkisinin azaldığını (kareleri alınmadığı için) not ediyoruz. Manhattan mesafesi aşağıdaki formül kullanılarak hesaplanır:

    Chebyshev mesafesi. Bu mesafe, herhangi bir koordinatta (herhangi bir boyutta) farklılık gösteren iki nesneyi "farklı" olarak tanımlamak istediğinde yararlı olabilir. Chebyshev mesafesi aşağıdaki formülle hesaplanır:

    Güç mesafesi. Bazen, karşılık gelen nesnelerin çok farklı olduğu bir boyutla ilgili ağırlığın kademeli olarak arttırılması veya azaltılması istenir. Bu, bir güç yasası mesafesi kullanılarak elde edilebilir. Güç mesafesi aşağıdaki formülle hesaplanır:

    burada r ve p kullanıcı tanımlı parametrelerdir. Birkaç hesaplama örneği, bu önlemin nasıl "işlediğini" gösterebilir. p parametresi, bireysel koordinatlardaki farklılıkların kademeli olarak ağırlıklandırılmasından, r parametresi, nesneler arasındaki büyük mesafelerin kademeli olarak ağırlıklandırılmasından sorumludur. Her iki parametre - r ve p, ikiye eşitse, bu mesafe Öklid mesafesi ile çakışır.

    Anlaşmazlık yüzdesi. Bu ölçü, veriler kategorik olduğunda kullanılır. Bu mesafe aşağıdaki formülle hesaplanır:

    Problemi çözmek için, koşullara ve problem ifadesine (nesnelerin bölümlenmesini gerçekleştirmek için) en uygun olan ilişkilendirme yöntemini (ağaç benzeri kümeleme) seçeceğiz. Buna karşılık, birleştirme yöntemi, bağlantı kurallarının birkaç çeşidini kullanabilir:

    Tek bağlantı (en yakın komşu yöntemi). Bu yöntemde, iki küme arasındaki mesafe, farklı kümelerdeki en yakın iki nesne (en yakın komşu) arasındaki mesafe ile belirlenir. Yani, iki kümedeki herhangi iki nesne birbirine karşılık gelen bağlantı mesafesinden daha yakındır. Bu kural, bir anlamda, kümeler oluşturmak için nesneleri birbirine dizmelidir ve ortaya çıkan kümeler, uzun "dizgiler" ile temsil edilme eğilimindedir.

    Tam bağlantı (en uzak komşuların yöntemi). Bu yöntemde, kümeler arasındaki mesafeler, farklı kümelerdeki herhangi iki nesne arasındaki en büyük mesafe ile tanımlanır (yani "en uzak komşular").

    Bunun gibi başka birçok küme birleştirme yöntemi de vardır (örneğin, ağırlıksız eşleştirme, ağırlıklı eşleştirme, vb.).

    Çözüm yöntemi teknolojisi. Göstergelerin hesaplanması.

    İlk adımda her nesne ayrı bir küme olduğunda bu nesneler arasındaki mesafeler seçilen ölçüye göre belirlenir.

    Özelliklerin ölçü birimleri problemde belirtilmediği için çakıştığı varsayılır. Bu nedenle, ilk verileri normalleştirmeye gerek yoktur, bu nedenle hemen mesafe matrisinin hesaplanmasına geçiyoruz.

    Sorunun çözümü.

    İlk verilere dayalı olarak bir bağımlılık grafiği oluşturalım (Şekil 2)

    Nesneler arasındaki mesafe olarak olağan Öklid mesafesini alalım. Sonra formüle göre:

    nerede l - işaretler; k - özellik sayısı, 1 ve 2 nesneleri arasındaki mesafe:

    Kalan mesafeleri hesaplamaya devam ediyoruz:

    Elde edilen değerlerden bir tablo oluşturacağız:

    En küçük mesafe. Bu, 3,6 ve 5 öğelerinin tek bir kümede birleştirildiği anlamına gelir. Aşağıdaki tabloyu elde ederiz:

    En küçük mesafe. 3,6,5 ve 4 numaralı elementler tek bir kümede birleştirilir, iki kümeden bir tablo alırız:

    3 ve 6 numaralı elemanlar arasındaki minimum mesafe eşittir. Bu, 3 ve 6 öğelerinin bir kümede birleştiği anlamına gelir. Yeni oluşan küme ile diğer öğeler arasındaki maksimum mesafeyi seçiyoruz. Örneğin, küme 1 ile küme 3,6 arasındaki mesafe max(13.34166, 13.60147)= 13.34166'dır. Aşağıdaki tabloyu oluşturalım:

    İçinde minimum mesafe, küme 1 ve 2 arasındaki mesafedir. 1 ve 2'yi bir kümede birleştirerek şunu elde ederiz:

    Böylece, "uzak komşu" yöntemi kullanılarak, aralarındaki mesafe 13.60147 olan 1.2 ve 3.4.5.6 olmak üzere iki küme elde edildi.

    Sorun çözüldü.

    Uygulamalar. Uygulama paketlerini kullanarak problem çözme (MS Excel 7.0)

    Korelasyon-regresyon analizi sorunu.

    İlk verileri tabloya giriyoruz (Şekil 1)

    "Servis / Veri Analizi" menüsünü seçin. Görünen pencerede "Regresyon" satırını seçin (Şek. 2).

    Bir sonraki pencerede, X ve Y için giriş aralıklarını ayarlayacağız, güvenilirlik seviyesini% 95'te bırakacağız ve çıktı verilerini ayrı bir "Rapor Sayfası" sayfasına yerleştireceğiz (Şekil 3).

    Hesaplamadan sonra, “Rapor Sayfası” sayfasında regresyon analizinin nihai verilerini alıyoruz:

    Ayrıca, yaklaşıklaştırma fonksiyonunun bir dağılım grafiğini veya "Seçim Grafiği"ni görüntüler:


    Hesaplanan değerler ve sapmalar, tabloda sırasıyla "Öngörülen Y" ve "Kalıntılar" sütunlarında görüntülenir.

    İlk verilere ve sapmalara dayanarak, artıkların bir grafiği oluşturulur:

    Optimizasyon sorunu


    Başlangıç ​​verilerini şu şekilde giriyoruz:

    İstenen bilinmeyenler X1, X2, X3 sırasıyla C9, D9, E9 hücrelerine girilir.

    Amaç fonksiyonunun X1, X2, X3'teki katsayıları sırasıyla C7, D7, E7'ye girilir.

    Amaç işlevi, B11 hücresine şu formülle girilir: =C7*C9+D7*D9+E7*E9.

    Görevdeki mevcut kısıtlamalar

    Boru uzunluğu için:

    C5, D5, E5, F5, G5 hücrelerine girin

    Her alandaki kuyu sayısı:

    X3 £ 100; C8, D8, E8 hücrelerine giriyoruz.

    1 kuyu yapım maliyeti:

    C6, D6, E6, F6, G6 hücrelerine giriyoruz.

    C5*C9+D5*D9+E5*E9 toplam uzunluğunu hesaplama formülü B5 hücresine, C6*C9+D6*D9+E6*E9 toplam maliyetini hesaplama formülü B6 hücresine yerleştirilir.


    "Araçlar / Çözüm ara" menüsünde seçiyoruz, girilen ilk verilere göre bir çözüm bulmak için parametreleri giriyoruz (Şekil 4):

    "Parametreler" düğmesine tıklayarak, bir çözüm aramak için aşağıdaki parametreleri ayarlıyoruz (Şekil 5):


    Bir çözüm aradıktan sonra, sonuçlarla ilgili bir rapor alırız:

    Microsoft Excel 8.0e Sonuç Raporu

    Oluşturulan rapor: 17.11.2002 01:28:30

    Hedef Hücre (Maksimum)

    Sonuç

    Toplam üretim

    Değiştirilebilir hücreler

    Sonuç

    kuyu sayısı

    kuyu sayısı

    kuyu sayısı

    Kısıtlamalar

    Anlam

    Uzunluk

    İlgili

    Proje maliyeti

    bağlı değil.

    kuyu sayısı

    bağlı değil.

    kuyu sayısı

    İlgili

    kuyu sayısı

    İlgili

    İlk tablo, çözülmekte olan problemin amaç fonksiyonunun yerleştirildiği hedef hücrenin ilk ve son (optimal) değerini gösterir. İkinci tabloda ise değiştirilecek hücrelerde yer alan optimize edilecek değişkenlerin ilk ve son değerlerini görüyoruz. Sonuç raporunun üçüncü tablosu sınırlamalar hakkında bilgi içerir. "Değer" sütunu, gerekli kaynakların ve optimize edilmiş değişkenlerin optimal değerlerini içerir. "Formül" sütunu, bu verileri içeren hücrelere referanslar şeklinde yazılmış, tüketilen kaynaklar ve optimize edilmiş değişkenler üzerindeki sınırları içerir. Durum sütunu, bu kısıtlamaların bağlı mı yoksa ilişkisiz mi olduğunu belirler. Burada "bağlı", katı eşitlikler biçiminde optimal çözümde uygulanan kısıtlamalardır. Kaynak limitleri için "Fark" sütunu, kullanılan kaynakların dengesini belirler, örn. gerekli kaynak miktarı ile kullanılabilirliği arasındaki fark.

    Benzer şekilde çözüm arayışının sonucunu “Sürdürülebilirlik Raporu” şeklinde yazarak aşağıdaki tabloları elde ederiz:

    Microsoft Excel 8.0e Sürdürülebilirlik Raporu

    Çalışma sayfası: [Optimizasyon problemi çözümü.xls] Üretim optimizasyonu problemi çözümü

    Oluşturulan rapor: 17.11.2002 01:35:16

    Değiştirilebilir hücreler

    İzin verilebilir

    İzin verilebilir

    Anlam

    fiyat

    katsayı

    Arttırmak

    Azaltmak

    kuyu sayısı

    kuyu sayısı

    kuyu sayısı

    Kısıtlamalar

    sınırlama

    İzin verilebilir

    İzin verilebilir

    Anlam

    sağ kısım

    Arttırmak

    Azaltmak

    Uzunluk

    Proje maliyeti

    Stabilite raporu, değişken (optimize edilmiş) değişkenler ve model kısıtlamaları hakkında bilgi içerir. Bu bilgi, problemin çözümü açısından yukarıda açıklanan doğrusal problemlerin optimizasyonunda kullanılan simpleks yöntemi ile ilgilidir. Ortaya çıkan optimal çözümün, model parametrelerindeki olası değişikliklere ne kadar duyarlı olduğunu değerlendirmenizi sağlar.

    Raporun ilk bölümü, alanlardaki kuyu sayısı hakkında değerler içeren değişken hücreler hakkında bilgi içerir. "Sonuç değeri" sütunu, optimize edilecek değişkenlerin optimal değerlerini gösterir. "Hedef Katsayısı" sütunu, amaç fonksiyonu katsayı değerlerinin başlangıç ​​verilerini içerir. Sonraki iki sütun, bulunan optimum çözümü değiştirmeden bu katsayıların izin verilen artışını ve düşüşünü göstermektedir.

    Stabilite raporunun ikinci kısmı, optimize edilen değişkenlere uygulanan kısıtlamalar hakkında bilgi içerir. İlk sütun, optimum çözüm için kaynak gereksinimlerini gösterir. İkincisi, kullanılan kaynak türleri için gölge fiyat değerlerini içerir. Son iki sütun, mevcut kaynakların miktarındaki olası artış veya azalmaya ilişkin verileri içerir.

    kümelenme sorunu

    Problemi çözmek için adım adım bir yöntem yukarıda verilmiştir. Sorunun çözülmesindeki ilerlemeyi gösteren Excel tabloları şunlardır:

    "en yakın komşu yöntemi"

    Küme analizi probleminin çözümü - "EN YAKIN KOMŞU YÖNTEMİ"

    İlk veri

    burada x1 çıktı hacmidir;

    x2 - ana maliyetin ortalama yıllık maliyeti

    endüstriyel üretim fonları

    "uzak komşu yöntemi"

    Kümeleme analizi probleminin çözümü - "UZAK KOMŞU YÖNTEMİ"

    İlk veri

    burada x1 çıktı hacmidir;

    x2 - ana maliyetin ortalama yıllık maliyeti

    endüstriyel üretim fonları

    Normallik varsayımına dayalı kriterlerin uygulanmasını sınırlayan faktörlerden biri de örneklem büyüklüğüdür. Örnek yeterince büyük olduğu sürece (örneğin, 100 veya daha fazla gözlem), değişkenin ana kütledeki dağılımının normal olduğundan emin olmasanız bile, örnek dağılımının normal olduğunu varsayabilirsiniz. Bununla birlikte, örneklem küçükse, bu testler yalnızca değişkenin gerçekten normal dağıldığına dair bir güven varsa kullanılmalıdır. Ancak, bu varsayımı küçük bir örneklem üzerinde test etmenin bir yolu yoktur.

    Normallik varsayımına dayalı kriterlerin kullanımı da ölçüm ölçeğiyle sınırlıdır (bkz. Veri analizinin temel kavramları bölümü). t-testi, regresyon vb. istatistiksel yöntemler, orijinal verilerin sürekli olduğunu varsayar. Ancak, verilerin doğru bir şekilde ölçülmesi yerine basitçe sıralandığı (sıralı bir ölçekte ölçüldüğü) durumlar vardır.

    Tipik bir örnek, İnternet'teki sitelerin derecelendirmeleridir: ilk konum, maksimum ziyaretçi sayısına sahip site tarafından işgal edilir, ikinci konum, kalan siteler arasında (siteler arasında) maksimum ziyaretçi sayısına sahip site tarafından işgal edilir. ilk site kaldırıldı), vb. Derecelendirmeleri bilerek, bir siteye gelen ziyaretçi sayısının diğerine göre daha fazla olduğunu söyleyebiliriz, ancak ne kadar fazla olduğunu söylemek imkansız. 5 siteniz olduğunu hayal edin: İlk 5 sırada yer alan A, B, C, D, E. İçinde bulunduğumuz ayda A, B, C, D, E ve bir önceki ayda D, E, A, B, C sıralamasına sahip olduğumuzu varsayalım. Soru, derecelendirmelerde önemli değişiklikler olup olmadığıdır. sitelerin mi değil mi? Bu durumda, açıkçası, bu iki veri setini karşılaştırmak için bir t-testi kullanamayız ve belirli olasılık hesaplamaları alanına giriyoruz (ve herhangi bir istatistiksel test bir olasılık hesaplaması içerir!). Yaklaşık olarak şu şekilde akıl yürütürüz: İki site düzenlemesindeki farkın tamamen rastgele nedenlerden kaynaklanma olasılığı ne kadardır veya bu fark çok büyüktür ve tamamen şansla açıklanamaz. Bu tartışmalarda, sitelerin yalnızca sıralarını veya permütasyonlarını kullanıyoruz ve sitelere gelen ziyaretçi sayısına ilişkin belirli bir dağıtım türü kullanmıyoruz.

    Küçük örneklerin analizi ve zayıf ölçeklerde ölçülen veriler için parametrik olmayan yöntemler kullanılır.

    Parametrik olmayan prosedürlere kısa bir genel bakış

    Esasen, her parametrik kriter için en az bir parametrik olmayan alternatif vardır.

    Genel olarak, bu prosedürler aşağıdaki kategorilerden birine girer:

    • bağımsız örnekler için fark kriterleri;
    • bağımlı örnekler için fark kriterleri;
    • değişkenler arasındaki bağımlılık derecesinin değerlendirilmesi.

    Genel olarak, veri analizinde istatistiksel kriterlere yaklaşım pragmatik olmalı ve gereksiz teorik düşüncelerle yüklenmemelidir. Elinizin altındaki bir STATISTICA bilgisayarıyla, verilerinize birçok kriteri kolayca uygulayabilirsiniz. Yöntemlerin bazı tuzaklarını bilerek, deneyerek doğru çözümü seçeceksiniz. Arsa gelişimi oldukça doğaldır: iki değişkenin değerlerini karşılaştırmanız gerekirse, t-testini kullanırsınız. Ancak her gruptaki varyansların normallik ve eşitlik varsayımına dayandığı unutulmamalıdır. Bu varsayımlardan kurtulmak, özellikle küçük örnekler için yararlı olan parametrik olmayan testlere yol açar.

    t testinin geliştirilmesi, karşılaştırılan grupların sayısı ikiden fazla olduğunda kullanılan varyans analizine yol açar. Parametrik olmayan prosedürlerin karşılık gelen gelişimi, klasik varyans analizinden çok daha zayıf olmasına rağmen, parametrik olmayan varyans analizine yol açar.

    Bağımlılığı değerlendirmek veya biraz gösterişli bir şekilde ifade etmek gerekirse, bağlantının yakınlık derecesi Pearson korelasyon katsayısı hesaplanır. Açıkça söylemek gerekirse, kullanımının, örneğin verilerin ölçüldüğü ölçeğin türü ve bağımlılığın doğrusal olmaması ile ilgili sınırlamaları vardır, bu nedenle alternatif olarak, parametrik olmayan veya sıra adı verilen korelasyon katsayıları örneğin sıralanmış veriler için kullanılanlar da kullanılır. Veriler nominal bir ölçekte ölçülüyorsa, bunları doğruluk için çeşitli varyasyonlar ve düzeltmelerle Pearson'ın ki-kare testini kullanan olasılık tablolarında sunmak doğaldır.

    Dolayısıyla, özünde, verilerin özelliklerine bağlı olarak bilmeniz ve kullanabilmeniz gereken yalnızca birkaç tür kriter ve prosedür vardır. Belirli bir durumda hangi kriterin uygulanması gerektiğini belirlemeniz gerekir.

    Parametrik olmayan yöntemler, örneklem büyüklüğü küçük olduğunda en uygundur. Çok fazla veri varsa (örneğin, n > 100), parametrik olmayan istatistikleri kullanmak genellikle anlamsızdır.

    Örnek boyutu çok küçükse (örneğin, n = 10 veya daha az), normal yaklaşımı kullanan parametrik olmayan testler için anlamlılık düzeyleri yalnızca kaba tahminler olarak kabul edilebilir.

    Bağımsız gruplar arasındaki farklar. Ortalama kan basıncı veya beyaz kan hücresi sayımı gibi bazı ortalama değerlere göre karşılaştırılması gereken iki numune (örneğin, erkekler ve dişiler) varsa, o zaman bağımsız bir numune t-testi kullanılabilir.

    Bu testin parametrik olmayan alternatifleri Wald-Wolfowitz, Mann-Whitney )/n serisi testidir; burada x i, i'inci değerdir, n gözlem sayısıdır. Değişken negatif değerler veya sıfır (0) içeriyorsa, geometrik ortalama hesaplanamaz.

    Harmonik ortalama

    Harmonik ortalama bazen frekansları ortalamak için kullanılır. Harmonik ortalama şu formülle hesaplanır: HS = n/S(1/x i) burada HS harmonik ortalamadır, n gözlem sayısıdır, x i i numaralı gözlemin değeridir. Değişken sıfır (0) içeriyorsa, harmonik ortalama hesaplanamaz.

    Varyans ve standart sapma

    Örnek varyansı ve standart sapma, verilerde en sık kullanılan değişkenlik (varyasyon) ölçüleridir. Varyans, değişkenin değerlerinin örnek ortalamadan sapmalarının karelerinin toplamının n-1'e bölünmesi (ancak n'ye değil) olarak hesaplanır. Standart sapma, varyans tahmininin karekökü olarak hesaplanır.

    kapsam

    Bir değişkenin aralığı, maksimum eksi minimum olarak hesaplanan oynaklığın bir ölçüsüdür.

    Çeyrek aralığı

    Üç aylık aralık, tanımı gereği şu şekildedir: üst çeyrek eksi alt çeyrek (%75 yüzdelik eksi %25 yüzdelik). %75'lik yüzdelik dilim (üst çeyrek), gözlemlerin %75'inin solundaki değer ve %25'lik yüzdelik dilim (alt çeyrek), gözlemlerin %25'ini oluşturan solundaki değer olduğundan, çeyrek aralık, gözlemlerin %50'sini (değişkenin değerleri) içeren medyanın etrafındaki aralıktır.

    asimetri

    Çarpıklık, bir dağılımın şeklinin bir özelliğidir. Çarpıklık negatifse dağılım sola çarpıktır. Çarpıklık pozitif ise dağılım sağa çarpıktır. Standart normal dağılımın çarpıklığı 0'dır. Çarpıklık üçüncü momentle ilişkilidir ve şu şekilde tanımlanır: çarpıklık = n × M 3 /[(n-1) × (n-2) × s 3 ], burada M 3 şu: (x i -xortalama x) 3 , s 3 - üçüncü güce yükseltilmiş standart sapma, n - gözlem sayısı.

    Aşırı

    Basıklık, dağılım şeklinin bir özelliğidir, yani zirvesinin keskinliğinin bir ölçüsüdür (basıklığı 0 olan normal dağılıma göre). Genel bir kural olarak, normal dağılımdan daha keskin bir zirveye sahip dağılımlar pozitif basıklığa sahiptir; zirvesi normal dağılımın zirvesinden daha az keskin olan dağılımlar negatif basıklığa sahiptir. Basıklık dördüncü an ile ilişkilendirilir ve aşağıdaki formülle belirlenir:

    basıklık = /[(n-1) × (n-2) × (n-3) × s 4 ], burada M j: (x-x ortalama x , s 4, dördüncü kuvvete standart sapmadır, n, gözlem sayısı

    Sıralama yapılırken uzman, değerlendirilen unsurları tercihlerine göre artan (azalan) bir düzende düzenlemeli ve her birine doğal sayılar şeklinde dereceler vermelidir. Doğrudan sıralamada en çok tercih edilen elemanın sıralaması 1 (bazen 0), en az tercih edilen elemanın sıralaması ise m'dir.

    Bilirkişi, kendi görüşüne göre bazı unsurların tercihlerinin aynı olması nedeniyle katı bir sıralama yapamıyorsa, bu unsurlara aynı dereceleri vermesine izin verilir. Sıralamaların toplamının sıralanan elemanların yerlerinin toplamına eşit olmasını sağlamak için standartlaştırılmış sıralar kullanılır. Standartlaştırılmış sıralama, sıralanmış serilerdeki tercih bakımından eşit olan öğe sayılarının aritmetik ortalamasıdır.

    Örnek 2.6. Uzman altı maddeyi tercihlerine göre şu şekilde sıraladı:

    Daha sonra bu elemanların standartlaştırılmış sıralamaları şu şekilde olacaktır:

    Böylece, elemanlara atanan derecelerin toplamı, doğal sayıların toplamına eşit olacaktır.

    Öğeleri sıralayarak tercih ifadesinin doğruluğu, önemli ölçüde sunum setinin kardinalitesine bağlıdır. Derecelendirme prosedürü, değerlendirilen öğelerin sayısı 10'dan fazla olmadığında (ortaya çıkan tercihin yakınlık derecesine ve “doğruya” göre) en güvenilir sonuçları verir. Sunum setinin sınırlayıcı gücü 20'yi geçmemelidir.

    Sıralamaların işlenmesi ve analizi, bireysel tercihlere dayalı bir grup tercihi ilişkisi oluşturmak için gerçekleştirilir. Bu durumda, aşağıdaki görevler belirlenebilir: a) iki uzmanın sunum dizisinin unsurları üzerindeki sıralaması arasındaki bağlantının sıkılığının belirlenmesi; b) iki unsur arasındaki ilişkinin, bu unsurların çeşitli özelliklerine ilişkin grup üyelerinin bireysel görüşlerine göre belirlenmesi; c) ikiden fazla uzmanın yer aldığı bir gruptaki uzmanların ortak görüşlerinin değerlendirilmesi.

    İlk iki durumda, sıra korelasyon katsayısı, ilişkinin sıkılığının bir ölçüsü olarak kullanılır. Yalnızca katı veya katı olmayan sıralamaya izin verilip verilmediğine bağlı olarak, Kendall'ın veya Spearman'ın sıra korelasyon katsayısı kullanılır.

    (a) sorunu için Kendall'ın sıra korelasyon katsayısı

    Nerede M- eleman sayısı; r 1 ben - ilk uzman tarafından atanan sıralama Ben-inci eleman; r 2 ben – aynı, ikinci uzman.

    Problem (b) için, bileşenler (2.5) şu anlama gelir: m, değerlendirilen iki öğenin karakteristik sayısıdır; r 1 ben(r 2 i) - bir grup uzman tarafından belirlenen birinci (ikinci) öğenin sıralamasındaki i'inci özelliğin sırası.

    Kesin sıralama, sıra korelasyon katsayısını kullanır R Mızrakçı:


    bileşenleri (2.5) ile aynı anlama sahiptir.

    Korelasyon katsayıları (2.5), (2.6) -1 ile +1 arasında değişmektedir. Korelasyon katsayısı +1 ise sıralamalar aynı demektir; -1'e eşitse, o zaman - zıttır (sıralamalar birbirine terstir). Korelasyon katsayısının sıfıra eşit olması, sıralamaların doğrusal olarak bağımsız (ilişkisiz) olduğu anlamına gelir.

    Bu yaklaşımla (uzman, rastgele hata içeren bir "ölçme aracıdır") bireysel sıralamalar rastgele olarak kabul edildiğinden, elde edilen korelasyon katsayısının önemi hakkındaki hipotezin istatistiksel olarak test edilmesi sorunu ortaya çıkar. Bu durumda Neyman-Pearson testi kullanılır: α kriterinin anlamlılık düzeyine göre belirlenirler ve korelasyon katsayısının dağılım yasalarını bilerek eşik değerini belirlerler. ca, korelasyon katsayısının elde edilen değeri ile karşılaştırılır. Kritik alan sağ elini kullanır (uygulamada, genellikle önce ölçüt değeri hesaplanır ve eşik düzeyiyle karşılaştırılan önem düzeyi ondan belirlenir. α ).

    Sıra korelasyon katsayısı τ Kendall, m > 10 için aşağıdaki parametrelerle normale yakın bir dağılıma sahiptir:

    burada M [τ] matematiksel beklentidir; D [τ] dağılımdır.

    Bu durumda, standart normal dağılım fonksiyonunun tabloları kullanılır:

    ve kritik bölgenin sınırı τ α denklemin kökü olarak tanımlanır

    Katsayının hesaplanan değeri τ ≥ τ α ise, sıralamaların gerçekten iyi bir uyum içinde olduğu kabul edilir. Tipik olarak, α değeri 0.01-0.05 aralığında seçilir. m ≤ 10 için m'nin dağılımı Tablo'da verilmiştir. 2.1.

    Spearman katsayısı ρ kullanılarak iki sıralamanın tutarlılığının öneminin kontrol edilmesi, Student'ın m > 10 için dağıtım tabloları kullanılarak aynı sırayla gerçekleştirilir.

    Bu durumda, değer

    Öğrencinin dağılımına iyi yaklaşan bir dağılıma sahiptir. M– 2 serbestlik derecesi. -de M> 30, ρ dağılımı, M [ρ] = 0 ve D [ρ] = olan normal olanla iyi bir uyum içindedir.

    m ≤ 10 için, ρ'nın önemi Tablo kullanılarak kontrol edilir. 2.2.

    Sıralamalar kesin değilse, Spearman katsayısı

    burada ρ (2.6)'ya göre hesaplanır;

    burada k1 , k2 sırasıyla birinci ve ikinci sıralamadaki katı olmayan farklı grupların sayısıdır; ben i, aynı sıraların sayısıdır Ben-inci grup. Spearman'ın sıra korelasyon katsayıları ρ ve Kendall's τ'nin pratik kullanımında, ρ katsayısının minimum varyans açısından daha doğru bir sonuç verdiği unutulmamalıdır.

    Tablo 2.1.Kendall'ın sıra korelasyon katsayısının dağılımı

    Kendall korelasyon katsayısı, ilişkili sıra olmaması koşuluyla, değişkenler iki sıralı ölçekle temsil edildiğinde kullanılır. Kendall katsayısının hesaplanması, eşleşme ve tersine çevirme sayılarının sayılmasıyla ilişkilidir. Bu prosedürü önceki problemin örneğinde ele alalım.

    Sorunu çözmek için algoritma aşağıdaki gibidir:

      Tablodaki verileri yeniden biçimlendiriyoruz. 8.5 böylece sıralardan biri (bu durumda sıra X i) derecelendirildi. Başka bir deyişle, çiftleri değiştiririz X Ve y doğru sırada ve verileri tablonun 1. ve 2. sütunlarına giriyoruz. 8.6.

    Tablo 8.6

    X Ben

    y Ben

    2. 2. sıranın "sıralama derecesini" belirleyin ( y Ben). Bu prosedür aşağıdaki sırayla gerçekleştirilir:

    a) sıralanmamış serinin ilk değerini "3" alın. Sıra sayısını sayma altında verilen numara, hangi Daha karşılaştırılan değer. Bu tür 9 değer vardır (6, 7, 4, 9, 5, 11, 8, 12 ve 10 sayıları). "Tesadüf" sütununa 9 sayısını giriyoruz. Sonra değerlerin sayısını sayarız azüç. Bu tür 2 değer vardır (sıra 1 ve 2); "ters çevirme" sütununa 2 sayısını girin.

    b) 3 sayısını atın (zaten onunla çalıştık) ve sonraki "6" değeri için prosedürü tekrarlayın: eşleşme sayısı 6'dır (sıra 7, 9, 11, 8, 12 ve 10), inversiyonlar 4'tür (sıra 1, 2, 4 ve 5). 6 sayısını "tesadüf" sütununa, 4 sayısını "inversiyon" sütununa giriyoruz.

    c) Benzer şekilde sıra sonuna kadar işlem tekrarlanır; her "işlenmiş" değerin daha fazla dikkate alınmadığı unutulmamalıdır (yalnızca bu sayının altında kalan sıralar hesaplanır).

    Not

    Hesaplamalarda hata yapmamak için, her "adım" ile tesadüflerin ve tersine çevirmelerin toplamının bir azaldığı akılda tutulmalıdır; Her seferinde bir değer değerlendirme dışı bırakıldığı için bu anlaşılabilir bir durumdur.

    3. Eşleşmelerin toplamı hesaplanır (R) ve inversiyonların toplamı (Q); veriler bir ve üç değiştirilebilir Kendall katsayı formülüne (8.10) girilir. İlgili hesaplamalar yapılır.

    T (8.10)

    Bizim durumumuzda:

    Masada. XIV Uygulamaları, belirli bir numune için katsayının kritik değerleridir: τ cr. = 0.45; 0,59. Ampirik olarak elde edilen değer tablo değeri ile karşılaştırılır.

    Çözüm

    τ = 0,55 > τ cr. = 0.45. Korelasyon seviye 1 için istatistiksel olarak anlamlıdır.

    Not:

    Gerekirse (örneğin, kritik değerler tablosunun yokluğunda), istatistiksel anlamlılık T Kendall şöyle bir formülle tanımlanabilir:

    (8.11)

    Nerede S* = P - Q+ 1 eğer P< Q , Ve S* = P - Q - 1 eğer P > Q.

    Değerler z karşılık gelen anlamlılık seviyesi için Pearson ölçümüne karşılık gelir ve karşılık gelen tablolara göre bulunur (ekte yer almaz. Standart anlamlılık seviyeleri için z cr = 1,96 (β 1 = 0,95 için) ve 2,58 (β 2 = 0,99 için). Kendall korelasyon katsayısı şu durumlarda istatistiksel olarak anlamlıdır: z > z kr

    bizim durumumuzda S* = P - Q– 1 = 35 ve z= 2.40, yani, ilk sonuç doğrulandı: işaretler arasındaki korelasyon, 1. anlamlılık düzeyi için istatistiksel olarak anlamlıdır.

    SIRALAMA İLİŞKİSİNİN KENDALL KATSAYISI

    İki rasgele değişkenin (özelliklerin) bağımlılık örnek ölçülerinden biri X ve Y,örnek elemanların sıralamasına göre (X 1 , Y x), .. ., (Х n, Y n). K. k. r. için. bu nedenle, anlamına gelir sıralama istatistikçileri ve formül tarafından belirlenir

    Nerede ri- O çifte ait U ( X, Y), hangi Xraven için ben, S = 2N-(n-1)/2, N-örnek eleman sayısı, hem j>i hem de rj >r ben. Her zaman Bağımlılığın seçici bir ölçüsü olarak K. ila. to., M. Kendall tarafından yaygın olarak kullanılmıştır (M. Kendall, bkz.).

    K. k. r. k. rastgele değişkenlerin bağımsızlığı hipotezini test etmek için kullanılır. Bağımsızlık hipotezi doğruysa, o zaman E t =0 ve D t =2(2n+5)/9n(n-1) olur. Küçük bir örneklem büyüklüğü ile, istatistiksel kontrol bağımsızlık hipotezleri özel tablolar kullanılarak yapılır (bkz.). n>10 için, m'nin dağılımı için normal yaklaşım kullanılır:

    bağımsızlık hipotezi reddedilir, değilse kabul edilir. Burada bir . - anlamlılık düzeyi, u a /2 normal dağılımın yüzde noktasıdır. K. k. r. k., herhangi biri gibi, yalnızca örneğin öğeleri bu özelliklere göre sıralanabiliyorsa, iki niteliksel özelliğin bağımlılığını tespit etmek için kullanılabilir. Eğer X, Y p korelasyon katsayısına sahip bir ortak normale sahip olmak, ardından K ile arasındaki ilişki. ve şu şekildedir:

    Ayrıca bakınız Spearman sıra korelasyonu, Sıra testi.

    Aydınlatılmış.: Kendal M., Sıra korelasyonları, çev. İngilizceden, M., 1975; Van der Waerden B.L., Mathematical, çev. Almancadan, M., 1960; Bolshev L. N., Smirnov N. V., Matematiksel istatistik tabloları, M., 1965.

    A. V. Prokhorov.


    Matematiksel ansiklopedi. - M.: Sovyet Ansiklopedisi. I. M. Vinogradov. 1977-1985.

    Diğer sözlüklerde "KENDALL RANK KATSAYISI" nın ne olduğuna bakın:

      İngilizce verimli, sıralama korelasyonlu Kendall; Almanca Kendalls Rangkorrelationsko etkili. Tüm nesne çiftlerinin sıralamasının iki değişkene göre karşılık gelme derecesini belirleyen korelasyon katsayısı. antinaz. Sosyoloji Ansiklopedisi, 2009 ... Sosyoloji Ansiklopedisi

      KENDALL SIRALAMA KATSAYISI- İngilizce. verimli, sıralama korelasyonu Kendall; Almanca Kendalls Rangkorrelationsko etkili. Tüm nesne çiftlerinin sıralamasının iki değişkene göre yazışma derecesini belirleyen korelasyon katsayısı ... Açıklayıcı Sosyoloji Sözlüğü

      Bağımsız gözlem sonuçlarının (X1, Y1) sıralamasına dayalı olarak, iki rastgele değişkenin (özelliklerin) X ve Y bağımlılığının ölçüsü. . ., (Xn,Yn). X değerlerinin sıraları doğal sırada ise i=1, . . ., n,a Ri sıra Y karşılık gelen…… Matematiksel Ansiklopedi

      Korelasyon katsayısı- (Korelasyon katsayısı) Korelasyon katsayısı, iki rasgele değişkenin bağımlılığının istatistiksel bir göstergesidir. Korelasyon katsayısının tanımı, korelasyon katsayısı türleri, korelasyon katsayısının özellikleri, hesaplama ve uygulama ... ... yatırımcı ansiklopedisi

      Genel olarak konuşursak, kesinlikle işlevsel bir karaktere sahip olmayan rastgele değişkenler arasındaki bağımlılık. İşlevsel bağımlılığın aksine, K., kural olarak, niceliklerden biri yalnızca verilen diğerine değil, aynı zamanda ... ... Matematiksel Ansiklopedi

      Korelasyon (korelasyon bağımlılığı), iki veya daha fazla rasgele değişken (veya kabul edilebilir bir doğruluk derecesi ile böyle kabul edilebilecek değişkenler) arasındaki istatistiksel bir ilişkidir. Aynı zamanda, bir veya ... ... Wikipedia'nın değerlerindeki değişiklikler

      korelasyon- (Korelasyon) Korelasyon, iki veya daha fazla rasgele değişkenin istatistiksel bir ilişkisidir Korelasyon kavramı, korelasyon türleri, korelasyon katsayısı, korelasyon analizi, fiyat korelasyonu, döviz çiftlerinin korelasyonu Forex İçerikleri ... ... yatırımcı ansiklopedisi

      S. m. veya sık sık adlandırıldığı gibi, "küçük n" istatistikleri, 20. yüzyılın ilk on yılında, W. Gosset'in aldığı dünyanın kabul ettiği t dağılımını yerleştirdiği çalışmasının yayınlanmasıyla belirlendi. biraz sonra ... ... Psikolojik Ansiklopedi

      Maurice Kendall Sir Maurice George Kendall Doğum tarihi: 6 Eylül 1907 (1907 09 06) Doğum yeri: Kettering, Birleşik Krallık Ölüm tarihi ... Wikipedia

      Tahmin etmek- (Tahmin) Tahminin tanımı, tahminin görevleri ve ilkeleri Tahminin tanımı, tahminin görevleri ve ilkeleri, tahmin yöntemleri İçerik İçerik Tanım Tahminin temel kavramları Tahminin görevleri ve ilkeleri ... ... yatırımcı ansiklopedisi