• Excel'de doğrusal regresyon yöntemi. Microsoft Excel'de belirleme katsayısının hesaplanması

    Regresyon analizi V Microsoft Excel- en eksiksiz kılavuzlarİş zekası alanında regresyon analizi problemlerinin çözümünde MS Excel'in kullanılması üzerine. Konrad Carlberg açıkça açıklıyor teorik sorular Hem kendiniz regresyon analizi yaparken hem de başkaları tarafından yapılan analizlerin sonuçlarını değerlendirirken birçok hatadan kaçınmanıza yardımcı olacak bilgi. Basit korelasyonlar ve t-testlerinden çoklu kovaryans analizine kadar tüm materyaller gerçek örneklere dayanmaktadır ve bunlara aşağıdakiler eşlik etmektedir: Detaylı Açıklama karşılık gelen adım adım prosedürler.

    Bu kitap, Excel'in regresyon işlevlerinin artılarını ve eksilerini tartışıyor, seçeneklerin ve argümanların her birinin kullanılmasının sonuçlarını inceliyor ve tıbbi araştırmalardan finansal analize kadar çeşitli alanlarda regresyon tekniklerinin nasıl güvenilir bir şekilde uygulanacağını açıklıyor.

    Konrad Carlberg. Microsoft Excel'de regresyon analizi. - M .: Diyalektik, 2017. - 400 s.

    Notu veya formatında indirin, formattaki örnekler

    Bölüm 1. Veri değişkenliğinin tahmin edilmesi

    İstatistikçilerin elinde birçok varyasyon (değişkenlik) göstergesi vardır. Bunlardan biri, bireysel değerlerin ortalamadan sapmalarının karelerinin toplamıdır. Excel bunun için SQUADROT() işlevini kullanır. Ancak daha sıklıkla dispersiyon kullanılır. Varyans, sapmaların karelerinin ortalamasıdır. Varyans, incelenmekte olan veri kümesindeki değerlerin sayısına duyarlı değildir (sapmaların karelerinin toplamı ölçüm sayısıyla birlikte artarken).

    Excel, varyans döndüren iki işlev sunar: VARP.D() ve VARP.V():

    • İşlenecek değerler bir popülasyon oluşturuyorsa VAR.G() fonksiyonunu kullanın. Yani aralığın içerdiği değerler ilgilendiğiniz tek değerlerdir.
    • İşlenecek değerler daha büyük bir popülasyondan bir örnek oluşturuyorsa VAR.V() fonksiyonunu kullanın. Varyansını da tahmin edebileceğiniz ek değerlerin olduğunu varsayar.

    Ortalama veya korelasyon katsayısı gibi bir değer genel nüfus bazında hesaplanıyorsa buna parametre denir. Bir örnek esas alınarak hesaplanan benzer bir değere istatistik denir. Sapmaları geri saymak ortalamadan bu sette, başka herhangi bir değerden saydığınızda elde ettiğinizden daha küçük miktardaki sapmaların karelerinin toplamını elde edeceksiniz. Benzer bir ifade dağılım için de geçerlidir.

    Örneklem boyutu ne kadar büyük olursa, istatistiğin hesaplanan değeri de o kadar doğru olur. Ancak istatistiğin değerinin parametrenin değeriyle aynı olduğundan emin olabileceğiniz, popülasyon büyüklüğünden daha küçük bir örneklem yoktur.

    Diyelim ki, fark ne kadar küçük olursa olsun, ortalamaları nüfus ortalamasından farklı olan 100 yükseklikten oluşan bir kümeniz var. Numunenin varyansını hesapladığınızda bir değer elde edersiniz, örneğin 4. Bu değer, 100 büyüme değerinin her birinin numune ortalaması dışındaki herhangi bir değerden sapması hesaplanarak elde edilebilecek diğer tüm değerlerden daha azdır. genel nüfus için gerçek ortalamayı da içerir. Bu nedenle, hesaplanan varyans, bir şekilde örnek ortalamasını değil popülasyon parametresini bilip kullandığınızda elde edeceğiniz varyanstan farklı olacak ve daha az bir ölçüde olacaktır.

    Örneklem için belirlenen ortalama kareler toplamı, popülasyon varyansının daha düşük bir tahminini sağlar. Bu şekilde hesaplanan varyansa denir. yerinden edilmiş değerlendirme. Önyargıyı ortadan kaldırmak ve tarafsız bir tahmin elde etmek için sapmaların karelerinin toplamını bölmenin yeterli olduğu ortaya çıktı. N, Nerede Nörneklem büyüklüğü ve n - 1.

    Değer n - 1 serbestlik derecesinin sayısı (sayı) denir. Bu değeri hesaplamanın farklı yolları vardır, ancak bunların hepsi ya örneklem büyüklüğünden bir miktar sayı çıkarmayı ya da gözlemlerin içine düştüğü kategori sayısını saymayı içerir.

    DISP.G() ve DISP.V() işlevleri arasındaki farkın özü aşağıdaki gibidir:

    • VARI.G() işlevinde, karelerin toplamı gözlem sayısına bölünür ve dolayısıyla varyansın taraflı tahminini, yani gerçek ortalamayı temsil eder.
    • VAR.B() işlevinde, karelerin toplamı gözlem sayısından 1 çıkarılarak bölünür; serbestlik derecesi sayısına göre; bu, numunenin alındığı popülasyonun varyansının daha doğru, tarafsız bir tahminini verir.

    standart sapma (İngilizce) standart sapma, SD) – evet Kare kök dağılımdan:

    Sapmaların karesi, ölçüm ölçeğini orijinalin karesi olan başka bir metriğe çevirir: metre - metrekareye, dolar - doların karesine vb. Standart sapma varyansın kareköküdür ve bizi orijinal birimlere geri getirir. Hangisi daha uygun.

    Veriler bazı manipülasyonlara tabi tutulduktan sonra genellikle standart sapmanın hesaplanması gerekir. Ve bu durumlarda sonuçların şüphesiz standart sapmalar olmasına rağmen, bunlara genel olarak denir. standart hatalar. Standart ölçüm hatası, orantı standart hatası ve ortalamanın standart hatası dahil olmak üzere çeşitli standart hata türleri vardır.

    Diyelim ki 50 eyaletin her birinden rastgele seçilmiş 25 yetişkin erkeğin boyuna ilişkin veri topladınız. Daha sonra, her eyaletteki yetişkin erkeklerin ortalama boyunu hesaplarsınız. Ortaya çıkan 50 ortalama değer de gözlem olarak kabul edilebilir. Bundan standart sapmalarını hesaplayabilirsiniz; ortalamanın standart hatası. Pirinç. 1. 1250 orijinal bireysel değerin dağılımını (50 eyaletin her birinde 25 erkeğin boyuna ilişkin veriler) 50 eyaletin ortalama değerlerinin dağılımıyla karşılaştırmanıza olanak tanır. Ortalamanın standart hatasını tahmin etmeye yönelik formül (yani bireysel gözlemlerin değil, ortalamaların standart sapması):

    ortalamanın standart hatası nerede; S orijinal gözlemlerin standart sapmasıdır; Nörnekteki gözlemlerin sayısıdır.

    Pirinç. 1. Eyaletten eyalete ortalama değerlerdeki değişim, bireysel gözlemlerdeki değişimden çok daha azdır

    İstatistikte, istatistiksel büyüklükleri belirtmek için Yunan ve Latin harflerinin kullanımına ilişkin bir gelenek vardır. Genel popülasyonun parametrelerini Yunan harfleriyle ve örnek istatistikleri Latin harfleriyle belirtmek gelenekseldir. Dolayısıyla popülasyonun standart sapmasından bahsediyorsak bunu σ olarak yazarız; örneğin standart sapması dikkate alınırsa s notasyonunu kullanırız. Ortalamaların sembollerine gelince, bunlar birbirleriyle pek uyuşmuyor. Nüfus ortalaması Yunanca μ harfiyle gösterilir. Ancak X̅ sembolü geleneksel olarak örnek ortalamayı temsil etmek için kullanılır.

    z-puanı gözlemin dağılımdaki konumunu standart sapma birimleri cinsinden ifade eder. Örneğin z = 1,5, gözlemin ortalamadan 1,5 standart sapma uzakta, daha yüksek değerlere doğru olduğu anlamına gelir. Terim z-puanı bireysel değerlendirmeler için kullanılır; numunenin bireysel elemanlarına atfedilen ölçümler için. Bu tür istatistikler için (örneğin eyalet ortalaması) bu terim kullanılır. z değeri:

    burada X̅ numunenin ortalama değeridir, μ genel popülasyonun ortalama değeridir, numune kümesinin ortalamalarının standart hatasıdır:

    burada σ genel popülasyonun standart hatasıdır (bireysel ölçümler), Nörneklem büyüklüğüdür.

    Diyelim ki golf eğitmenisiniz. Uzun zamandır vuruş menzilini ölçebiliyorsunuz ve ortalama 205 yarda ve standart sapmasının 36 yarda olduğunu biliyorsunuz. Menzilinizi 10 yarda artıracağını iddia ederek size yeni bir sopa teklif edildi. Sonraki 81 kulüp müdaviminin her birinden yeni bir kulüp denemesini ve menzillerini kaydetmesini istiyorsunuz. Yeni bir sopayla yapılan vuruşun ortalama menzilinin 215 yarda olduğu ortaya çıktı. 10 yardlık bir farkın (215 - 205) yalnızca örnekleme hatasından kaynaklanma olasılığı nedir? Veya başka bir deyişle, daha büyük bir testte yeni bir kulübün mevcut uzun vadeli ortalama 205 yarda kıyasla menzilinde bir artış göstermeme olasılığı nedir?

    Bunu bir z değeri üreterek test edebiliriz. Ortalamanın standart hatası:

    Sonra z değeri:

    Örnek ortalamasının popülasyon ortalamasından 2,5σ uzakta olma olasılığını bulmamız gerekiyor. Olasılık küçükse, fark şanstan değil, yeni kulübün kalitesinden kaynaklanmaktadır. Excel'de z puanının olasılığını belirlemek için hazır bir işlev yoktur. Ancak =1-NORM.ST.DAĞ(z-değeri, DOĞRU) formülünü kullanabilirsiniz; burada NORM.ST.DAĞ(), z değerinin solundaki normal eğrinin altındaki alanı döndürür (Şekil 2) .

    Pirinç. 2. NORM.S.DIST() işlevi, z değerinin solundaki eğrinin altındaki alanı döndürür; Bir resmi büyütmek için üzerine sağ tıklayın ve Resmi yeni sekmede aç

    NORM.S.DAĞ() işlevinin ikinci bağımsız değişkeni iki değer alabilir: DOĞRU - işlev, ilk bağımsız değişken tarafından belirtilen noktanın solundaki eğrinin altındaki alanı döndürür; YANLIŞ - Fonksiyon, ilk argümanda belirtilen noktadaki eğrinin yüksekliğini döndürür.

    Popülasyonun ortalaması (μ) ve standart sapması (σ) bilinmiyorsa t değeri kullanılır (bkz. ). Z- ve t-puanı yapıları, t-değerini bulmak için popülasyon parametresi σ'nun bilinen değeri yerine örnek sonuçlarından elde edilen standart sapmanın kullanılması bakımından farklılık gösterir. Normal eğri tek bir şekle sahiptir ve t değerlerinin dağılımının şekli, df serbestlik derecesine (İngilizce'den) bağlı olarak değişir. özgürlük derecesi) temsil ettiği numunenin. Numunenin serbestlik derecesi sayısı n - 1, Nerede N- numune boyutu (Şekil 3).

    Pirinç. 3. σ parametresi bilinmediğinde ortaya çıkan t dağılımlarının şekli normal dağılımın şeklinden farklıdır

    Excel'in t-dağılımı için Öğrenci t-dağılımı olarak da adlandırılan iki işlevi vardır: STUDENT.DIST() eğrinin altındaki alanı verilen t değerinin soluna ve STUDENT.DIST.RT() sağına döndürür.

    Bölüm 2. Korelasyon

    Korelasyon, bir dizi sıralı çiftin elemanları arasındaki bağımlılığın bir ölçüsüdür. Korelasyon karakterize edilir Pearson korelasyon katsayıları- R. Katsayı -1,0 ila +1,0 aralığında değerler alabilir.

    Nerede Sx Ve Sy değişkenlerin standart sapmalarıdır X Ve e, seksi– kovaryans:

    Bu formülde kovaryans, değişkenlerin standart sapmalarına bölünür. X Ve e böylece kovaryanstan birim ile ilgili ölçeklendirme etkileri kaldırılır. Excel CORREL() işlevini kullanır. Bu işlevin adı, STDEV(), VARV() veya COVARIANCE() gibi işlevlerin adlarında kullanılan G ve C niteleyici öğelerini içermez. Örnek korelasyon katsayısı taraflı bir tahmin sağlasa da, önyargının nedeni varyans veya standart sapma durumunda olduğundan farklıdır.

    Genel korelasyon katsayısının büyüklüğüne bağlı olarak (genellikle Yunanca harfle gösterilir) ρ ), korelasyon katsayısı Rörneklem büyüklüğü azaldıkça artan yanlılık etkisi ile yanlı bir tahmin verir. Bununla birlikte, bu önyargıyı, örneğin standart sapmayı hesaplarken, karşılık gelen formüle gözlem sayısını değil, serbestlik derecesi sayısını koyduğumuz gibi düzeltmeye çalışmıyoruz. Gerçekte kovaryansı hesaplamak için kullanılan gözlem sayısının büyüklük üzerinde hiçbir etkisi yoktur.

    Standart korelasyon katsayısı, birbiriyle doğrusal bir ilişkiyle ilişkili değişkenlerle kullanılmak üzere tasarlanmıştır. Verilerde doğrusal olmama ve/veya hataların (aykırı değerler) varlığı, korelasyon katsayısının yanlış hesaplanmasına yol açar. Veri sorunlarını teşhis etmek için dağılım grafikleri önerilir. Bu, Excel'de hem yatay hem de dikey eksenleri değer eksenleri olarak ele alan tek grafik türüdür. Çizgi grafik ise sütunlardan birini kategori ekseni olarak tanımlıyor ve bu da verinin resmini bozuyor (Şekil 4).

    Pirinç. 4. Regresyon çizgileri aynı görünüyor ancak denklemlerini birbirleriyle karşılaştırın

    Çizgi grafiğini oluşturmak için kullanılan gözlemler yatay eksen boyunca eşit uzaklıktadır. Bu eksendeki bölme etiketleri sayısal değerler değil, yalnızca etiketlerdir.

    Korelasyon çoğu zaman nedensel bir ilişkinin olduğu anlamına gelse de, bunun kanıtı olarak kullanılamaz. İstatistikler bir teorinin doğru mu yanlış mı olduğunu göstermek için kullanılmaz. Gözlem sonuçlarına ilişkin birbiriyle çelişen açıklamaları hariç tutmak için planlanmış deneyler. İstatistikler aynı zamanda bu tür deneyler sırasında toplanan bilgileri özetlemek ve kanıta dayalı olarak kararın yanlış olma olasılığını ölçmek için de kullanılır.

    Bölüm 3 Basit Regresyon

    İki değişken ilişkiliyse, yani korelasyon katsayısının değeri 0,5'ten büyükse, o zaman bir değişkenin bilinmeyen değerini diğerinin bilinen değerinden tahmin etmek (bir miktar doğrulukla) mümkündür. Şekil 2'de verilen verilere dayanarak fiyatın tahmin edilen değerlerini elde etmek. 5'te, olası birkaç yoldan herhangi birini kullanabilirsiniz, ancak neredeyse kesinlikle Şekil 2'de gösterileni kullanmayacaksınız. 5. Yine de okumalısınız çünkü korelasyon ve tahmin arasındaki ilişkiyi bu kadar açık bir şekilde ortaya koyabilecek başka bir yol yoktur. Şek. B2:C12 aralığındaki Şekil 5, on evden oluşan rastgele bir örnektir ve her evin alanı (metrekare cinsinden) ve satış fiyatı hakkında veri sağlar.

    Pirinç. 5. Satış fiyatı tahminleri düz bir çizgi oluşturur

    Ortalamaları, standart sapmaları ve korelasyon katsayısını (aralık A14:C18) bulun. Alan z-puanlarını hesaplayın (E2:E12). Örneğin, E3 hücresi şu formülü içerir: =(B3-$B$14)/$B$15. Tahmini fiyat z-puanlarını (F2:F12) hesaplayın. Örneğin, F3 hücresi şu formülü içerir: =E3*$B$18. Z-puanlarını dolar fiyatlarına dönüştürün (H2:H12). HZ hücresinde formül şu şekildedir: =F3*$C$15+$C$14.

    Tahmin edilen değerin her zaman 0 olan ortalamaya doğru kayma eğiliminde olduğuna dikkat edin. Korelasyon katsayısı sıfıra ne kadar yakınsa, tahmin edilen z puanı da sıfıra o kadar yakın olur. Örneğimizde alan ile satış fiyatı arasındaki korelasyon katsayısı 0,67, tahmin fiyatı ise 1,0*0,67 yani. 0.67. Bu, standart sapmanın üçte ikisine eşit, ortalama değerin üzerindeki değerin fazlalığına karşılık gelir. Korelasyon katsayısı 0,5'e eşit olsaydı, tahmin fiyatı 1,0 * 0,5 olurdu, yani. 0,5. Bu, standart sapmanın yalnızca yarısına eşit olan, ortalama değerin üzerindeki değerin fazlalığına karşılık gelir. Korelasyon katsayısının değeri idealden farklı olduğunda; -1,0'dan büyük ve 1,0'dan küçükse, yordayıcı değişkenin tahmini, ortalama değerine, yordayıcı (bağımsız) değişkenin kendi tahmininden daha yakın olmalıdır. Bu olguya ortalamaya gerileme veya basitçe gerileme denir.

    Regresyon çizgisi denkleminin katsayılarını belirlemek için Excel'de çeşitli işlevler vardır (Excel'de buna eğilim çizgisi denir) y=kx + B. Belirlemek için k işlev görür

    =EĞİM(bilinen_y-değerleri; bilinen_x-değerleri)

    Burada en tahmin edilen değişkendir ve X bağımsız bir değişkendir. Bu değişken sırasına kesinlikle uymanız gerekir. Regresyon çizgisinin eğimi, korelasyon katsayısı, değişkenlerin standart sapmaları ve kovaryans birbiriyle yakından ilişkilidir (Şekil 6). INTERCEPT() işlevi dikey eksende regresyon çizgisinin kestiği değeri döndürür:

    = INTERCUT(bilinen_y-değerleri; bilinen_x-değerleri)

    Pirinç. 6. Standart sapmalar arasındaki oran, kovaryansı bir korelasyon katsayısına ve regresyon çizgisinin eğimine dönüştürür

    SLOPE() ve INTERCEPT() işlevlerine argüman olarak sağlanan x ve y değerlerinin sayısının aynı olması gerektiğini unutmayın.

    Regresyon analizi başka bir yöntemi kullanır önemli gösterge– R 2 (R-kare) veya belirleme katsayısı. arasındaki ilişkinin genel veri değişkenliğine ne kadar katkı sağladığını belirler. X Ve en. Excel'in, CORREL() işleviyle tamamen aynı argümanları alan QVPIRSON() işlevi vardır.

    Aralarında sıfır olmayan korelasyon katsayısına sahip iki değişkenin varyansı açıkladığı veya varyansın açıklandığı söylenir. Açıklanan varyans genellikle yüzde olarak ifade edilir. Bu yüzden R 2 = 0,81, iki değişkenin varyansının (dağılımının) %81'inin açıklandığı anlamına gelir. Geriye kalan %19 ise rastgele dalgalanmalardan kaynaklanmaktadır.

    Excel'de hesaplamaları basitleştiren bir TREND işlevi vardır. TREND() işlevi:

    • sağladığınız bilinen değerleri alır X ve bilinen değerler en;
    • regresyon çizgisinin eğimini ve sabiti (bölüm) hesaplar;
    • tahmini değerleri döndürür en regresyon denkleminin bilinen değerlere uygulanmasıyla belirlenir X(Şekil 7).

    TREND() fonksiyonu bir dizi fonksiyonudur (eğer daha önce bu tarz fonksiyonlara rastlamadıysanız tavsiye ederim).

    Pirinç. 7. TREND() işlevini kullanmak, bir çift SLOPE() ve INTERCEPT() işlevini kullanmaya kıyasla hesaplamaları hızlandırmanıza ve basitleştirmenize olanak tanır.

    TREND() işlevini G3:G12 hücrelerine dizi formülü olarak girmek için G3:G12 aralığını seçin, TREND formülünü (SZ:S12; OT:B12) girin, tuşları basılı tutun ve ancak o zaman tuşuna basın . Formülün küme parantezleri ( ve ) içine alındığını unutmayın. Excel bu formülün dizi formülü olarak algılandığını bu şekilde söylüyor. Parantezleri kendiniz girmeyin: Bir formülün parçası olarak bunları kendiniz girmeye çalışırsanız, Excel girişinizi normal bir metin dizesi olarak değerlendirecektir.

    TREND() fonksiyonunun iki argümanı daha vardır: new_values_x Ve yapı. Birincisi geleceğe yönelik bir tahmin oluşturmanıza olanak tanır ve ikincisi, regresyon çizgisini başlangıç ​​noktasından geçmeye zorlayabilir (DOĞRU değeri, Excel'e hesaplanan sabiti, YANLIŞ değeri - sabit = 0'ı kullanmasını söyler). Excel, grafik üzerinde orijinden geçecek şekilde bir regresyon çizgisi çizmenize olanak tanır. Bir dağılım grafiği çizerek başlayın, ardından veri serisi işaretçilerinden birine sağ tıklayın. Açılan içerik menüsündeki öğeyi seçin. Trend çizgisi ekle; bir seçenek seçin Doğrusal; gerekirse paneli aşağı kaydırın, kutuyu işaretleyin Bir kavşak kurun; ilişkili metin kutusunun 0,0 olarak ayarlandığından emin olun.

    Üç değişkeniniz varsa ve üçüncüsünün etkisini hariç tutarak ikisi arasındaki korelasyonu belirlemek istiyorsanız, şunu kullanabilirsiniz: kısmi korelasyon. Üniversiteyi bitirmiş şehir sakinlerinin yüzdesi ile şehir kütüphanelerindeki kitap sayısı arasındaki ilişkiyle ilgilendiğinizi varsayalım. 50 şehir için veri topladınız ama... Sorun şu ki, bu parametrelerin her ikisi de belirli bir şehrin sakinlerinin refahına bağlı olabilir. Elbette, sakinlerinin tam olarak aynı düzeyde refaha sahip olduğu başka 50 şehir bulmak çok zor.

    Refahın hem kütüphane desteği hem de üniversite eğitimi üzerindeki etkisini ortadan kaldırmak için istatistiksel yöntemler uygulayarak, ilgilendiğiniz değişkenler, yani kitap sayısı ve mezun sayısı arasındaki ilişkiyi daha iyi ölçebilirsiniz. Diğer değişkenlerin değerleri sabit olduğunda, iki değişken arasındaki bu koşullu korelasyona kısmi korelasyon denir. Bunu hesaplamanın bir yolu denklemi kullanmaktır:

    Nerede RCB . K- Kolej (Üniversite) ve Kitaplar (Kitaplar) değişkenleri arasındaki, Zenginlik (Zenginlik) değişkeninin hariç tutulan etkisi (sabit değer) arasındaki korelasyon katsayısı; RCB- Üniversite ve Kitap değişkenleri arasındaki korelasyon katsayısı; RCW- Üniversite ve Refah değişkenleri arasındaki korelasyon katsayısı; Rsiyah beyaz- Kitaplar ve Refah değişkenleri arasındaki korelasyon katsayısı.

    Öte yandan kısmi korelasyon artık analizine dayalı olarak hesaplanabilir, yani. tahmin edilen değerler ile bunlarla ilişkili gerçek gözlemler arasındaki farklar (her iki yöntem de Şekil 8'de gösterilmektedir).

    Pirinç. 8. Artık Korelasyon Olarak Kısmi Korelasyon

    Korelasyon katsayıları matrisinin (B16:E19) hesaplanmasını basitleştirmek için paketi kullanın. Excel analizi(Menü Veri –> Analiz –> Veri analizi). Varsayılan olarak bu paket Excel'de etkin değildir. Yüklemek için menüye gidin Dosya –> Seçenekler –> eklentiler. Açılan pencerenin alt kısmında Seçeneklerexcel alanı bul Kontrol, seçme eklentilerexcel, tıklamak Gitmek. Eklentinin yanındaki kutuyu işaretleyin Analiz paketi. A'ya tıklayın veri analizi, bir seçenek seçin Korelasyon. Giriş aralığı olarak $B$2:$D$13 belirtin, kutuyu işaretleyin İlk satırdaki etiketler, çıktı aralığı olarak $B$16:$E$19'u belirtin.

    Diğer bir olasılık ise yarı kısmi bir korelasyon tanımlamaktır. Örneğin boy ve yaşın kilo üzerindeki etkisini araştırıyorsunuz. Yani iki belirleyici değişkeniniz var: boy ve yaş ve bir öngörücü değişken, ağırlık. Bir yordayıcı değişkenin diğeri üzerindeki etkisini hariç tutmak, ancak yordayıcı değişkeni hariç tutmak istiyorsunuz:

    burada H - Boy (Boy), W - Ağırlık (Ağırlık), A - Yaş (Yaş); Yarı-kısmi korelasyon katsayısı indeksi, hangi değişkenin hangi değişkenden çıkarıldığını belirtmek için parantez kullanır. Bu durumda W(H.A) gösterimi, Yaş değişkeninin etkisinin Boy değişkeninden kaldırıldığını ancak Ağırlık değişkeninden kaldırılmadığını gösterir.

    Tartışılan konunun çok da önemli olmadığı izlenimi edinilebilir. Sonuçta en önemli şey, genel regresyon denkleminin ne kadar doğru çalıştığıdır; bireysel değişkenlerin açıklanan toplam varyansa göreceli katkıları sorunu ise ikincil görünmektedir. Ancak durum böyle değil. Çoklu regresyon denkleminde herhangi bir değişkenin kullanılıp kullanılmayacağını düşünmeye başladığınız anda konu önem kazanmaya başlar. Analiz için model seçiminin doğruluğunun değerlendirilmesini etkileyebilir.

    Bölüm 4. LINEST() İşlevi

    LINEST() işlevi 10 regresyon analizi istatistiğini döndürür. LINEST() işlevi bir dizi işlevidir. Girmek için beş satır ve iki sütun içeren bir aralık seçin, formülü yazın ve tuşuna basın. (Şekil 9):

    DOT(B2:B21;A2:A21;DOĞRU;DOĞRU)

    Pirinç. 9. LINEST() işlevi: a) D2:E6 aralığını seçin, b) formülü formül çubuğunda gösterildiği gibi girin, c) tıklayın

    LINEST() işlevi şunu döndürür:

    • regresyon katsayısı (veya eğim, D2 hücresi);
    • segment (veya sabit, E3 hücresi);
    • regresyon katsayısı ve sabitlerin standart hataları (D3:E3 aralığı);
    • regresyon için belirleme katsayısı R2 (hücre D4);
    • tahminin standart hatası (E4 hücresi);
    • Tam regresyon için F testi (hücre D5);
    • kalan kareler toplamı için serbestlik derecesi sayısı (E5 hücresi);
    • karelerin regresyon toplamı (hücre D6);
    • kalan kareler toplamı (E6 hücresi).

    Bu istatistiklerin her birine ve etkileşimlerine bakalım.

    standart hata bizim durumumuzda bu, örnekleme hataları için hesaplanan standart sapmadır. Yani bu, genel popülasyonun bir istatistiğe sahip olduğu ve örneklemin başka bir istatistiğe sahip olduğu bir durumdur. Regresyon katsayısını standart hataya bölmek size 2,092/0,818 = 2,559 değerini verir. Başka bir deyişle, 2,092'lik bir regresyon katsayısı sıfırdan iki buçuk standart hata uzaktadır.

    Regresyon katsayısı sıfırsa, tahmin edilen değişkenin en iyi tahmini ortalamasıdır. İki buçuk standart hata oldukça büyük bir sayıdır ve popülasyona ilişkin regresyon katsayısının sıfırdan farklı bir değere sahip olduğunu rahatlıkla varsayabilirsiniz.

    Fonksiyonu kullanarak popülasyondaki gerçek değeri 0,0 ise, 2,092'lik bir örnek regresyon katsayısı elde etme olasılığını belirleyebilirsiniz.

    ÖĞRENCİ.MESAFE.PH (t-testi = 2,559; serbestlik derecesi sayısı = 18)

    Genel olarak serbestlik derecesi sayısı = n - k - 1 olup burada n gözlem sayısı, k ise yordayıcı değişkenlerin sayısıdır.

    Bu formül 0,00987 değerini veya %1'e yuvarlanmış değerini döndürür. Bize şunu söylüyor: Eğer popülasyon için regresyon katsayısı %0 ise, o zaman hesaplanan regresyon katsayısı değeri 2,092 olan 20 kişilik bir örneklem elde etme olasılığı %1'dir.

    F testi (Şekil 9'daki D5 hücresi), tam regresyona ilişkin olarak, basit ikili regresyon katsayısına ilişkin t testiyle aynı işlevi yerine getirir. F testi, regresyon için R2 belirleme katsayısının gerçekten de popülasyonda 0,0 değerine sahip olduğu hipotezini reddedecek kadar büyük olup olmadığını test etmek için kullanılır; bu, yordayıcı ve yordayıcı değişken tarafından açıklanan varyansın olmadığını gösterir. . Yalnızca bir yordayıcı değişken olduğunda, F testi tam olarak t testinin karesine eşittir.

    Şu ana kadar aralık değişkenlerini ele aldık. Birden fazla değer alabilen değişkenleriniz varsa; basit isimlerörneğin, Erkek ve Kadın veya Sürüngen, Amfibi ve Balık, bunları sayısal bir kod olarak temsil eder. Bu tür değişkenlere nominal denir.

    R2 istatistikleri açıklanan varyansın oranını ölçer.

    Tahminin standart hatası.Şek. Tablo 4.9, Boy değişkeni ile ilişkisi temel alınarak elde edilen Ağırlık değişkeninin tahmin değerlerini göstermektedir. E2:E21 aralığı, Ağırlık değişkenine ilişkin artıkların değerlerini içerir. Daha kesin olarak, bu artıklara hata denir - dolayısıyla tahminin standart hatası terimi takip eder.

    Pirinç. 10. Hem R2 hem de tahminin standart hatası, regresyon kullanılarak elde edilen tahminlerin doğruluğunu ifade eder.

    Tahminin standart hatası ne kadar küçük olursa, regresyon denklemi o kadar doğru olur ve denklemden elde edilen herhangi bir tahminin gerçek gözlemle eşleşmesine o kadar yakın beklersiniz. Tahminin standart hatası bu beklentileri ölçmenin bir yolunu sağlar. Belirli bir boya sahip kişilerin %95'inin ağırlığı şu aralıkta olacaktır:

    (yükseklik * 2,092 - 3,591) ± 2,092 * 21,118

    F istatistiği gruplararası varyansın grup içi varyansa oranıdır. Bu isim, 20. yüzyılın başında varyans analizini (ANOVA, Varyans Analizi) geliştiren Sir'in onuruna istatistikçi George Snedecor tarafından tanıtıldı.

    Belirleme katsayısı R2, regresyonla ilişkili toplam kareler toplamının oranını ifade eder. (1 - R 2) değeri, artıklarla - tahmin hatalarıyla ilişkili toplam kareler toplamının oranını ifade eder. F testi, DOT işlevi (Şekil 11'deki F5 hücresi), karelerin toplamları (G10:J11 aralığı) ve varyans kesirleri (G14:J15 aralığı) kullanılarak elde edilebilir. Formüller ekteki Excel dosyasında incelenebilir.

    Pirinç. 11. F kriterinin hesaplanması

    Nominal değişkenler kullanıldığında kukla kodlama kullanılır (Şekil 12). Değerleri kodlamak için 0 ve 1 değerlerinin kullanılması uygundur. F olasılığı aşağıdaki fonksiyon kullanılarak hesaplanır:

    F.DAĞ.PH(K2;I2;I3)

    Burada, F.DIST.RT() işlevi, değeri I2 ve I3 hücrelerinde verilen serbestlik derecelerine sahip iki veri kümesi için merkezi F dağılımını (Şekil 13) takiben bir F testi elde etme olasılığını döndürür. K2 hücresinde verilen değerle aynıdır.

    Pirinç. 12. Kukla değişkenleri kullanan regresyon analizi

    Pirinç. 13. λ = 0 için merkezi F dağılımı

    Bölüm 5 Çoklu Regresyon

    Tek tahmin değişkenli basit ikili regresyondan çoklu regresyona geçtiğinizde, bir veya daha fazla tahmin değişkeni eklersiniz. Tahminci değişken değerlerini, iki tahminci için A ve B sütunları veya üç tahminci için A, B ve C gibi bitişik sütunlarda saklayın. LINEST() işlevini içeren bir formül girmeden önce, beş satır ve öngörücü değişkenlerin sayısı kadar sütunun yanı sıra sabit için bir tane daha seçin. İki yordayıcı değişkenli regresyon durumunda aşağıdaki yapı kullanılabilir:

    DOT(A2: A41; B2: C41;; DOĞRU)

    Benzer şekilde üç değişken durumunda:

    DOT(A2:A61;B2:D61;;DOĞRU)

    Diyelim ki, aterotromboza neden olan aterosklerotik plakların oluşumundan sorumlu olduğu düşünülen düşük yoğunluklu lipoproteinler olan LDL düzeyleri üzerinde yaş ve diyetin olası etkisini incelemek istiyorsunuz (Şekil 14).

    Pirinç. 14. Çoklu Regresyon

    Çoklu regresyonun R2'si (F13 hücresinde gösterilmektedir), herhangi bir basit regresyonun (E4, H4) R2'sinden daha büyüktür. Çoklu regresyonda aynı anda birden fazla yordayıcı değişken kullanılır. Bu durumda R2 neredeyse her zaman artar.

    Herhangi bir basit için Doğrusal Denklem Tek tahminci regresyonda, denklem tahminciyi bir sabitle çarptığından ve her çarpıma başka bir sabit eklendiğinden, tahminci ile tahminci arasında her zaman mükemmel bir korelasyon olacaktır. Çoklu regresyonda bu etki korunmaz.

    Çoklu regresyon için LINEST() tarafından döndürülen sonuçların gösterimi (Şekil 15). Regresyon katsayıları LINEST() tarafından döndürülen sonuçların bir parçası olarak görüntülenir değişkenlerin ters sırasına göre(G–H–I, C–B–A'ya karşılık gelir).

    Pirinç. 15. Çalışma sayfasında katsayılar ve bunların standart hataları ters sırada gösterilmektedir.

    Tek bir yordayıcı değişkenle regresyon analizinde kullanılan ilke ve prosedürler, birden çok yordayıcı değişkeni hesaba katacak şekilde kolayca uyarlanabilir. Bu adaptasyonun büyük kısmının yordayıcı değişkenlerin birbirleri üzerindeki etkisinin ortadan kaldırılmasına bağlı olduğu ortaya çıktı. İkincisi özel ve yarı-özel korelasyonlarla ilişkilidir (Şekil 16).

    Pirinç. 16. Çoklu regresyon, artıkların ikili regresyonu yoluyla ifade edilebilir (Excel dosyasındaki formüllere bakın)

    Excel'de t ve F dağılımları hakkında bilgi sağlayan işlevler vardır. STUDENT.DIST() ve F.DIST() gibi adları DIST kısmı içeren işlevler, bağımsız değişken olarak bir t veya F testi alır ve belirtilen değerin gözlemlenme olasılığını döndürür. STUDENT.INV() ve F.INV() gibi adları bir OBR parçası içeren işlevler, argüman olarak bir olasılık değeri alır ve belirtilen olasılığa karşılık gelen bir kriter değeri döndürür.

    Kuyruk bölgelerinin kenarlarını kesen t dağılımının kritik değerlerini aradığımız için, bu olasılığa karşılık gelen bir değer döndüren STUDENT.INV() işlevlerinden birine argüman olarak %5'i iletiyoruz. (Şekil 17, 18).

    Pirinç. 17. İki kuyruklu t testi

    Pirinç. 18. Tek kuyruklu t testi

    Tek kuyruklu alfa bölgesi durumunda karar kuralı oluşturarak testin istatistiksel gücünü artırırsınız. Deneyinize başladığınızda pozitif (veya negatif) bir regresyon katsayısı beklemek için her türlü nedene sahip olduğunuzdan eminseniz, tek kuyruklu bir test yapmalısınız. Bu durumda popülasyonda sıfır regresyon katsayısı hipotezini reddederek doğru kararı verme olasılığınız daha yüksek olacaktır.

    İstatistikçiler bu terimi kullanmayı tercih ediyor yönlendirilmiş test terim yerine tek kuyruk testi ve terim yönlendirilmemiş test terim yerine iki kuyruklu test. Yönlü ve yönsüz terimleri tercih edilir çünkü bunlar, dağılımın kuyruklarının doğasından ziyade hipotezin türünü vurgular.

    Modellerin karşılaştırılmasına dayalı olarak yordayıcıların etkisini değerlendirmeye yönelik bir yaklaşım.Şek. Şekil 19, Diyet değişkeninin regresyon denklemine katkısını test eden bir regresyon analizinin sonuçlarını göstermektedir.

    Pirinç. 19. Sonuçlarındaki farklılıkları kontrol ederek iki modeli karşılaştırmak

    LINEST() (H2:K6 aralığı) sonuçları benim dediğim şeyle ilgilidir komple model Diyet, Yaş ve HDL üzerindeki LDL değişkenini geriletir. H9:J13 aralığında hesaplamalar, öngörücü değişken Diyet dikkate alınmadan sunulur. Ben buna sınırlı model diyorum. Tam modelde LDL bağımlı değişkenindeki varyansın %49,2'si yordayıcı değişkenler tarafından açıklanmaktadır. Sınırlı modelde LDL'nin yalnızca %30,8'i Yaş ve HDL tarafından açıklanmaktadır. Diyet değişkeninin modelden çıkarılmasından kaynaklanan R2 kaybı 0,183'tür. G15:L17 aralığında, Diyet değişkeninin etkisinin yalnızca 0,0288 olasılıkla rastgele olduğunu gösteren hesaplamalar yapılmıştır. Geriye kalan %97,1'lik kısımda Diyetin LDL üzerinde etkisi vardır.

    Bölüm 6. Regresyon analizine ilişkin varsayımlar ve uyarılar

    "Varsayım" terimi kesin olarak tanımlanmamıştır ve kullanılma şekli, eğer varsayım karşılanmazsa, tüm analizin sonuçlarının en azından sorgulanabilir veya muhtemelen geçersiz olacağını düşündürmektedir. Aslında durum böyle değildir, ancak varsayımın ihlal edilmesinin tabloyu temelden değiştirdiği durumlar kesinlikle vardır. Ana varsayımlar şunlardır: a) Y değişkeninin artıkları, regresyon çizgisi boyunca X'in herhangi bir noktasında normal olarak dağıtılır; b) Y değerleri X değerlerine doğrusal olarak bağlıdır; c) artıkların varyansı her X noktasında yaklaşık olarak aynıdır; d) kalıntılar arasında hiçbir ilişki yoktur.

    Varsayımların önemli bir rol oynamaması durumunda istatistikçiler, varsayımın ihlaliyle ilgili olarak analizin sağlamlığından bahseder. Özellikle, grup ortalamaları arasındaki farkları test etmek için regresyon kullandığınızda, Y değerlerinin ve dolayısıyla artıkların normal şekilde dağıldığı varsayımı önemli değildir: testler normallik varsayımının ihlaline karşı dayanıklıdır. Grafikleri kullanarak verileri analiz etmek önemlidir. Örneğin, eklentiye dahil Veri analizi alet Regresyon.

    Veriler varsayımlarla eşleşmiyorsa doğrusal regresyon, doğrusal dışında başka yaklaşımlar da kullanımınıza açıktır. Bunlardan biri lojistik regresyondur (Şekil 20). Tahmin edici değişkenin üst ve alt sınırlarına yakın yerlerde, doğrusal regresyon gerçekçi olmayan tahminlerle sonuçlanır.

    Pirinç. 20. Lojistik regresyon

    Şek. Şekil 6.8, yıllık gelir ile ev satın alma olasılığı arasındaki ilişkiyi araştırmayı amaçlayan iki veri analizi yönteminin sonuçlarını göstermektedir. Açıkçası, gelir arttıkça satın alma olasılığı da artacaktır. Grafikler, doğrusal regresyon yoluyla ev satın alma olasılığını tahmin eden sonuçlar ile farklı bir yaklaşım kullanarak elde edebileceğiniz sonuçlar arasındaki farkları tespit etmenizi kolaylaştırır.

    İstatistikçilerin dilinde, gerçekte doğru olan sıfır hipotezini reddetmeye Tip I hata denir.

    Eklentide Veri analizi teklif edildi kullanışlı araçüretmek rastgele numaralar Bu, kullanıcının ortalama ve standart sapmanın yanı sıra istenen dağılım şeklini (örneğin Normal, Binom veya Poisson) belirtmesine olanak tanır.

    STUDENT.DIST() ailesinin işlevleri arasındaki farklar. Excel 2010'dan başlayarak, bir dağılımın kesirini belirli bir t-testi değerinin soluna ve/veya sağına döndüren üç farklı işlev biçimi mevcuttur. STUDENT.DIST() işlevi, belirttiğiniz t testi değerinin solundaki dağılım eğrisinin altındaki alanın oranını döndürür. Diyelim ki 36 gözleminiz var, dolayısıyla analiz edilecek serbestlik derecesi sayısı 34 ve t-testi değeri 1,69'dur. Bu durumda formül

    ÖĞRENCİ.DAĞ(+1.69;34;DOĞRU)

    0,05 veya %5 değerini döndürür (Şekil 21). ÖĞRENCİ.DAĞ() işlevinin üçüncü bağımsız değişkeni DOĞRU veya YANLIŞ olabilir. DOĞRU olarak ayarlanırsa işlev, verilen t testinin solundaki eğrinin altındaki kümülatif alanı kesir olarak ifade ederek döndürür. YANLIŞ ise işlev, t testine karşılık gelen noktadaki eğrinin göreceli yüksekliğini döndürür. STUDENT.DAĞ() işlevinin diğer sürümleri - STUDENT.DAĞ.PX() ve STUDENT.DAĞ.2X() - bağımsız değişken olarak yalnızca t-testi değerini ve serbestlik derecesi sayısını alır ve üçüncü bir bağımsız değişken gerektirmez .

    Pirinç. 21. Dağılımın sol kuyruğundaki daha koyu gölgeli alan, büyük pozitif t-testi değerinin solundaki eğrinin altındaki alanın oranına karşılık gelir.

    T testinin sağındaki alanı belirlemek için formüllerden birini kullanın:

    1 - ÖĞRENCİ.DAĞ (1, 69; 34; DOĞRU)

    ÖĞRENCİ.MESAFE.PH(1.69;34)

    Eğrinin altındaki toplam alan %100 olmalıdır; bu nedenle, fonksiyonun döndürdüğü t testi değerinin solundaki alan kesrinin 1'den çıkarılması, t testi değerinin sağındaki alan kesirini verir. İlgilendiğiniz alan fraksiyonunu doğrudan STUDENT.DIST.RH() işlevini kullanarak elde etmenin daha tercih edilebilir olduğunu görebilirsiniz; burada RH, dağılımın sağ kuyruğu anlamına gelir (Şekil 22).

    Pirinç. 22. Yön testi için %5 alfa alanı

    STUDENT.DIST() veya STUDENT.DIST.PH() işlevlerini kullanmak, yönlendirilmiş bir çalışma hipotezi seçtiğiniz anlamına gelir. Yönlü çalışma hipotezi, alfa değerinin %5'e ayarlanmasıyla birleştiğinde, %5'in tamamını dağılımların sağ kuyruğuna koyduğunuz anlamına gelir. Yalnızca t-testi değerinizin elde edilme olasılığı %5 veya daha azsa sıfır hipotezini reddetmeniz gerekecektir. Yönlü hipotezler genellikle daha hassas istatistiksel testlerle sonuçlanır (bu daha yüksek hassasiyet aynı zamanda daha büyük istatistiksel güç olarak da adlandırılır).

    Yönlendirilmemiş testte alfa değeri aynı %5 seviyesinde kalır ancak dağılım farklı olacaktır. İki sonuca izin vermeniz gerektiğinden, yanlış pozitif olasılığı dağılımın iki ucu arasında dağıtılmalıdır. Bu olasılığın eşit olarak dağıtılması genel olarak kabul edilmektedir (Şekil 23).

    Önceki örnekte olduğu gibi elde edilen aynı t-testi değerini ve aynı sayıda serbestlik derecesini kullanarak aşağıdaki formülü kullanın:

    ÖĞRENCİ MESAFESİ2X(1.69;34)

    STUDENT.DIST.2X() işlevi, ilk bağımsız değişken olarak negatif bir t-testi değeri verilirse, belirli bir neden olmaksızın #SAYI!

    Numuneler şunları içeriyorsa farklı numara veriler için pakette yer alan farklı varyanslara sahip iki örnekli t testini kullanın Veri analizi.

    Bölüm 7 Grup Ortalamaları Arasındaki Farkları Test Etmek İçin Regresyonun Kullanılması

    Daha önce yordayıcı değişkenler olarak anılan değişkenler, bu bölümde sonuç değişkenleri olarak anılacak ve yordayıcı değişkenler yerine faktör değişkenleri terimi kullanılacaktır.

    Nominal bir değişkeni kodlamanın en basit yaklaşımı şudur: kukla kodlama(Şek. 24).

    Pirinç. 24. Kukla kodlamaya dayalı regresyon analizi

    Herhangi bir türde kukla kodlama kullanılırken aşağıdaki kurallara uyulmalıdır:

    • Yeni veriler için ayrılan sütun sayısı, faktör düzeyi sayısından eksi olarak eşit olmalıdır
    • Her vektör bir faktör seviyesini temsil eder.
    • Genellikle kontrol grubu olan bir düzeydeki denekler, tüm vektörlerde 0 kodunu alır.

    F2:H6 =LINEST(A2:A22;C2:D22;;TRUE) hücrelerindeki formül, regresyon istatistiklerini döndürür. Karşılaştırma için, Şekil 2'de. Şekil 24, aracın döndürdüğü geleneksel varyans analizinin sonuçlarını göstermektedir Tek yönlü varyans analiziüst yapılar Veri analizi.

    Efekt kodlaması. Başka bir kodlama türünde efekt kodlaması, her grubun ortalaması, grup ortalamalarının ortalaması ile karşılaştırılır. Efekt kodlamanın bu yönü, tüm kod vektörlerinde aynı kodu alan bir grup için kod olarak 0 yerine -1 kullanılmasından kaynaklanmaktadır (Şekil 25).

    Pirinç. 25. Efekt Kodlaması

    Sahte kodlama kullanıldığında, LINEST() tarafından döndürülen sabitin değeri, tüm vektörlerde (genellikle kontrol grubu) sıfır kod atanan grubun ortalamasıdır. Efekt kodlaması durumunda, sabit genel ortalamaya eşittir (J2 hücresi).

    Genel doğrusal model, ortaya çıkan değişkenin değer bileşenlerini kavramsallaştırmanın yararlı bir yoludur:

    Y ij = μ + α j + ε ij

    Bu formülde Latin harfleri yerine Yunan harflerinin kullanılması, örneklerin alındığı popülasyona atıfta bulunduğunu vurgulamaktadır ancak yayınlanmış popülasyondan alınan örneklere atıfta bulunduğunu belirtmek için yeniden yazılabilir:

    Y ij = Y̅ + a j + e ij

    Buradaki fikir, her Y ij gözleminin aşağıdaki üç bileşenin toplamı olarak görülebilmesidir: genel ortalama μ; işleme etkisi j ve j; e ij değeri, bireysel Y ij puanının genel ortalamanın birleşik değerinden sapmasını temsil eder ve j'inci etki işleme (Şek. 26). Regresyon denkleminin amacı, artıkların karelerinin toplamını en aza indirmektir.

    Pirinç. 26. Genel Doğrusal Modelin Bileşenlerine Ayrıştırılmış Gözlemler

    Faktor analizi. Ortaya çıkan değişken ile iki veya daha fazla faktör arasındaki ilişki aynı anda araştırılıyorsa, bu durumda kullanılmasından söz edilir. faktor analizi. Tek yönlü varyans analizine bir veya daha fazla faktörün eklenmesi istatistiksel gücü artırabilir. Tek yönlü ANOVA'da, sonuç değişkenindeki bir faktöre atfedilemeyen değişiklik, artık ortalamanın karesine dahil edilir. Ancak bu varyasyonun başka bir faktörle ilişkili olması da mümkündür. Daha sonra bu varyasyon, ortalama kare hatasından çıkarılabilir; bunun azalması, F testinin değerlerinde bir artışa ve dolayısıyla testin istatistiksel gücünde bir artışa yol açar. üst yapı Veri analizi iki faktörün aynı anda işlenmesini sağlayan bir araç içerir (Şekil 27).

    Pirinç. 27. Tekrarlama Analizi Paketi ile Araç İki Yönlü Varyans Analizi

    Bu şekilde kullanılan varyans analizi aracı, sonuçta ortaya çıkan değişkenin ortalamasını ve varyansını ve ayrıca tasarıma dahil edilen her grup için sayaç değerini döndürmesi bakımından faydalıdır. Masa Varyans analizi ANOVA aracının tek yönlü sürümünün çıktısında olmayan iki parametreyi görüntüler. Varyasyon Kaynaklarına Dikkat Edin Örnek Ve sütunlar 27 ve 28. satırlarda. Değişikliğin kaynağı sütunlar cinsiyete işaret eder. Varyasyonun Kaynağı Örnek değerleri işgal eden herhangi bir değişkeni ifade eder çeşitli dizeler. Şek. 27'de CourseLech1 grubuna ait değerler 2-6. satırlarda, CourseLech2 grubuna ait değerler 7-11. satırlarda ve CourseLech3 grubuna ait değerler 12-16. satırlarda yer almaktadır.

    Ana nokta, hem Cinsiyetin (E28 hücresindeki Sütunlar etiketli) hem de Tedavinin (E27 hücresindeki Örnek etiketli) varyasyon kaynakları olarak ANOVA tablosuna dahil edilmesidir. Erkeklerin ortalamaları kadınların ortalamalarından farklı, bu da bir değişkenlik yaratıyor. Üç tedavinin ortalamaları da farklıdır; işte başka bir varyasyon kaynağı. Ayrıca Cinsiyet ve Tedavi değişkenlerinin birleşik etkisini ifade eden üçüncü bir kaynak olan Etkileşim vardır.

    Bölüm 8

    Kovaryans Analizi veya ANCOVA (Ortak Değişkenlik Analizi), önyargıyı azaltır ve istatistiksel gücü artırır. Regresyon denkleminin güvenilirliğini değerlendirmenin yollarından birinin F testleri olduğunu hatırlatmama izin verin:

    F = MS Regresyon/MS Kalıntısı

    burada MS (Ortalama Kare) ortalama karedir ve Regresyon ve Artık endeksleri sırasıyla regresyon ve artık bileşenleri gösterir. MS Kalıntısı şu formül kullanılarak hesaplanır:

    MS Artık = SS Artık / df Artık

    burada SS (Karelerin Toplamı) karelerin toplamıdır ve df serbestlik derecesinin sayısıdır. Bir regresyon denklemine kovaryans eklediğinizde, toplam kareler toplamının bir kısmı SS Kalıntısı'na değil, SS Regresyonuna dahil edilir. Bu, SS Kalıntı l'de ve dolayısıyla MS Kalıntı'da bir azalmaya yol açar. MS Kalıntısı ne kadar küçükse, F testi de o kadar büyük olur ve ortalamalar arasında hiçbir fark olmadığına ilişkin sıfır hipotezini reddetme olasılığınız da o kadar artar. Sonuç olarak, ortaya çıkan değişkenin oynaklığını yeniden dağıtırsınız. ANOVA'da kovaryans dikkate alınmadığında değişkenlik hataya girer. Ancak ANCOVA'da, değişkenliğin önceden hataya atfedilen kısmı ortak değişkene atanır ve SS Regresyonunun bir parçası olur.

    Aynı veri kümesinin önce ANOVA, ardından ANCOVA ile analiz edildiği bir örneği düşünün (Şekil 28).

    Pirinç. 28. ANOVA analizi, regresyon denklemi kullanılarak elde edilen sonuçların güvenilmez olduğunu göstermektedir

    Çalışma, kas gücünü geliştiren fiziksel egzersiz ile beyin aktivitesini harekete geçiren bilişsel egzersizin (bulmaca bulmacaları) göreceli etkilerini karşılaştırıyor. Deneyin başlangıcında her iki grup da aynı koşullarda olacak şekilde denekler rastgele iki gruba ayrıldı. Üç ay sonra deneklerin bilişsel özellikleri ölçüldü. Bu ölçümlerin sonuçları B sütununda gösterilmektedir.

    A2:C21 aralığı, efekt kodlamasını kullanarak analiz gerçekleştirmek için LINEST() işlevine iletilen ilk verileri içerir. LINEST() işlevinin sonuçları E2:F6 aralığında gösterilir; burada E2 hücresi, etki vektörüyle ilişkili regresyon katsayısını görüntüler. E8 hücresi bir t testi = 0,93 içerir ve E9 hücresi bu t testinin güvenilirliğini test eder. E9 hücresindeki değer, popülasyonda grup ortalamalarının eşit olması durumunda bu deneyde gözlemlenen grup ortalamaları arasında farkla karşılaşma olasılığının %36 olduğunu göstermektedir. Sadece birkaçı bu sonucun istatistiksel olarak anlamlı olduğunu düşünüyor.

    Şek. Şekil 29, analize bir ortak değişken eklendiğinde ne olacağını göstermektedir. Bu durumda her deneğin yaşını veri setine ekledim. Ortak değişkeni kullanan regresyon denkleminin belirleme katsayısı R2 0,80'dir (F4 hücresi). Ortak değişkeni kullanmadan elde edilen ANOVA sonuçlarını yeniden ürettiğim F15:G19 aralığındaki R2 değeri yalnızca 0,05'tir (F17 hücresi). Bu nedenle, ortak değişken içeren bir regresyon denklemi, Bilişsel Puan değişkeninin değerlerini, Etki vektörünü tek başına kullanmaktan çok daha doğru bir şekilde tahmin eder. ANCOVA için olasılık rastgele makbuz F5 hücresinde görüntülenen F testi değeri %0,01'den azdır.

    Pirinç. 29. ANCOVA bambaşka bir tabloyu geri getiriyor

    Regresyon analizi istatistiksel araştırmaların en popüler yöntemlerinden biridir. Bağımsız değişkenlerin bağımlı değişken üzerindeki etki derecesini belirlemek için kullanılabilir. Microsoft Excel'in işlevselliği, bu tür analizleri gerçekleştirmek için tasarlanmış araçlara sahiptir. Gelin bunların ne olduğuna ve nasıl kullanılacağına bir göz atalım.

    Analiz paketini bağlama

    Ancak regresyon analizi yapmanızı sağlayan fonksiyonu kullanabilmeniz için öncelikle Analiz Paketini aktif etmeniz gerekmektedir. Ancak o zaman bu prosedür için gerekli araçlar Excel şeridinde görünecektir.

    1. "Dosya" sekmesine gidin.
    2. "Ayarlar" bölümüne gidin.
    3. Excel Seçenekleri penceresi açılır. "Eklentiler" alt bölümüne gidin.
    4. Açılan pencerenin en alt kısmında “Yönetim” bloğundaki anahtarı farklı bir konumda ise “Excel Eklentileri” konumuna yeniden düzenliyoruz. "Git" düğmesine tıklayın.
    5. Excel eklentileri penceresi açılır. "Analiz Paketi"nin yanındaki kutuyu işaretleyin. "Tamam" düğmesine tıklayın.

    Şimdi, "Veri" sekmesine gittiğimizde, "Analiz" araç bloğundaki şeritte yeni bir düğme göreceğiz - "Veri Analizi".

    Regresyon analizi türleri

    Birkaç tür regresyon vardır:

    • parabolik;
    • güç;
    • logaritmik;
    • üstel;
    • gösteri;
    • hiperbolik;
    • doğrusal regresyon.

    Son tip regresyon analizinin Excel'de uygulanması hakkında daha sonra daha detaylı konuşacağız.

    Excel'de Doğrusal Regresyon

    Aşağıda örnek olarak sokaktaki ortalama günlük hava sıcaklığını ve ilgili iş günü için mağaza müşteri sayısını gösteren bir tablo bulunmaktadır. Hava sıcaklığı şeklindeki hava koşullarının bir perakende kuruluşunun katılımını tam olarak nasıl etkileyebileceğini regresyon analizi yardımıyla öğrenelim.

    Genel doğrusal regresyon denklemi şuna benzer: Y = a0 + a1x1 + ... + axk. Bu formülde Y, faktörlerin etkisini incelemeye çalıştığımız değişken anlamına gelir. Bizim durumumuzda bu alıcı sayısıdır. X'in değeri, değişkeni etkileyen çeşitli faktörlerdir. a parametreleri regresyon katsayılarıdır. Yani belirli bir faktörün önemini belirlerler. İndeks k, aynı faktörlerin toplam sayısını belirtir.


    Analiz sonuçları analizi

    Regresyon analizinin sonuçları, ayarlarda belirtilen yerde tablo şeklinde görüntülenir.

    Ana göstergelerden biri R-karesidir. Modelin kalitesini gösterir. Bizim durumumuzda bu katsayı 0,705 yani %70,5 civarındadır. Bu kabul edilebilir bir kalite seviyesidir. 0,5'in altındaki bir ilişki kötüdür.

    Bir diğer önemli gösterge ise "Y-kesişme" çizgisi ile "Katsayılar" sütununun kesişimindeki hücrede bulunur. Burada Y'nin hangi değere sahip olacağı belirtiliyor ve bizim durumumuzda bu, diğer tüm faktörlerin sıfıra eşit olduğu alıcı sayısıdır. Bu tabloda verilen değer 58.04'e eşittir.

    "Değişken X1" ve "Katsayılar" sütununun kesişimindeki değer, Y'nin X'e bağımlılık düzeyini gösterir. Bizim durumumuzda bu, mağaza müşteri sayısının sıcaklığa bağımlılık düzeyidir. 1,31 katsayısı oldukça yüksek bir etki göstergesi olarak kabul edilir.

    Gördüğünüz gibi Microsoft Excel kullanarak regresyon analiz tablosu oluşturmak oldukça kolaydır. Ancak yalnızca eğitimli bir kişi çıktıda elde edilen verilerle çalışabilir ve bunların özünü anlayabilir.

    Sorunu çözmenize yardımcı olabildiğimiz için mutluyuz.

    Sorunun özünü ayrıntılı olarak açıklayarak sorunuzu yorumlarda sorun. Uzmanlarımız mümkün olan en kısa sürede cevap vermeye çalışacaklardır.

    Bu makale size yardımcı oldu mu?

    Doğrusal regresyon yöntemi, bir dizi sıralı çifte (x, y) en iyi uyan düz bir çizgiyi tanımlamamıza olanak tanır. Doğrusal denklem olarak bilinen düz bir çizginin denklemi aşağıda verilmiştir:

    ŷ y'nin beklenen değeridir değeri belirle X,

    x - bağımsız değişken,

    a - düz bir çizgi için y eksenindeki parça,

    b, düz çizginin eğimidir.

    Aşağıdaki şekilde bu kavram grafiksel olarak gösterilmektedir:

    Yukarıdaki şekil ŷ =2+0,5x denklemiyle tanımlanan bir doğruyu göstermektedir. Y eksenindeki parça, doğrunun y ekseniyle kesişme noktasıdır; bizim durumumuzda a = 2. Doğrunun eğimi, yani çizgi yükselişinin çizgi uzunluğuna oranı 0,5 değerine sahiptir. Pozitif eğim, doğrunun soldan sağa doğru yükseldiği anlamına gelir. Eğer b = 0 ise çizgi yataydır, yani bağımlı ve bağımsız değişkenler arasında ilişki yoktur. Yani x'in değerini değiştirmek y'nin değerini etkilemez.

    ŷ ve y sıklıkla karıştırılır. Grafik, verilen denkleme göre 6 sıralı nokta çiftini ve bir doğruyu göstermektedir.

    Bu şekil x = 2 ve y = 4 sıralı ikilisine karşılık gelen noktayı göstermektedir. X= 2 ŷ'dir. Bunu aşağıdaki denklemle doğrulayabiliriz:

    ŷ = 2 + 0,5х =2 +0,5(2) =3.

    Y değeri gerçek noktadır ve ŷ değeri, belirli bir x değeri için doğrusal denklem kullanılarak beklenen y değeridir.

    Bir sonraki adım, sıralı çiftler kümesiyle en iyi eşleşen doğrusal denklemi belirlemektir; bundan önceki makalede en küçük kareler yöntemini kullanarak denklemin biçimini belirlediğimizde bahsetmiştik.

    Doğrusal Regresyon Tanımlamak için Excel'i Kullanma

    Excel'de yerleşik olan regresyon analizi aracını kullanmak için eklentiyi etkinleştirmeniz gerekir. Analiz paketi. Sekmeye tıklayarak bulabilirsiniz Dosya -> Seçenekler(2007+), görüntülenen iletişim kutusunda Seçeneklerexcel sekmeye git Eklentiler. Tarlada Kontrol seçmek eklentilerexcel ve tıklayın Gitmek. Görüntülenen pencerede yanındaki kutuyu işaretleyin analiz paketi, tıklamak TAMAM.

    Sekmede Veri grup içinde Analiz görünecek yeni düğme Veri analizi.

    Eklentinin nasıl çalıştığını göstermek için, bir erkek ve bir kızın banyoda aynı masayı paylaştığı önceki makaledeki verileri kullanalım. Banyo örneğimizin verilerini boş bir sayfanın A ve B sütunlarına girin.

    Sekmeye git Veri, grup içinde Analiz tıklamak Veri analizi. Görünen pencerede Veri analizi seçme Regresyonşekilde gösterildiği gibi seçin ve Tamam'a tıklayın.

    Pencerede gerekli regresyon parametrelerini ayarlayın Regresyon resimde gösterildiği gibi:

    Tıklamak TAMAM. Aşağıdaki şekil elde edilen sonuçları göstermektedir:

    Bu sonuçlar, önceki makalede bağımsız hesaplamalarla elde ettiğimiz sonuçlarla tutarlıdır.

    Regresyon analizi istatistiksel yöntem Bir parametrenin bir veya daha fazla bağımsız değişkene bağımlılığını göstermenize olanak sağlayan araştırma. Bilgisayar öncesi dönemde, özellikle büyük miktarda veri söz konusu olduğunda kullanımı oldukça zordu. Bugün, Excel'de nasıl regresyon oluşturulacağını öğrendikten sonra, karmaşık istatistiksel problemleri yalnızca birkaç dakika içinde çözebilirsiniz. Aşağıda somut örnekler ekonomi alanından.

    Regresyon türleri

    Kavramın kendisi 1886'da Francis Galton tarafından matematiğe tanıtıldı. Regresyon gerçekleşir:

    • doğrusal;
    • parabolik;
    • güç;
    • üstel;
    • hiperbolik;
    • gösterici;
    • logaritmik.

    örnek 1

    6 sanayi işletmesinde emekli ekip üyesi sayısının ortalama maaşa bağımlılığını belirleme problemini düşünün.

    Görev. Altı işletmede ortalama aylık maaşı ve işten ayrılan çalışan sayısını analiz ettik. Kendi iradesi. İÇİNDE tablo formu sahibiz:

    6 işletmede işten çıkarılan işçi sayısının ortalama maaşa bağımlılığının belirlenmesi sorunu için regresyon modeli Y = a0 + a1 × 1 + ... + akxk denklemi formuna sahiptir; burada хi, etkileyen değişkenler, ai regresyon katsayılarıdır ve k faktör sayısıdır.

    Bu görev için Y, ayrılan çalışanların göstergesi olup, etkileyen faktör ise X ile gösterdiğimiz maaştır.

    "Excel" elektronik tablosunun yeteneklerini kullanma

    Excel'deki regresyon analizinden önce yerleşik işlevlerin mevcut tablo verilerine uygulanması gerekir. Ancak bu amaçlar için çok kullanışlı "Analiz Araç Seti" eklentisini kullanmak daha iyidir. Etkinleştirmek için ihtiyacınız olan:

    • "Dosya" sekmesinden "Seçenekler" bölümüne gidin;
    • Açılan pencerede "Eklentiler" satırını seçin;
    • "Yönetim" satırının sağ alt kısmında bulunan "Git" butonuna tıklayın;
    • "Analiz Paketi" adının yanındaki kutuyu işaretleyin ve "Tamam"a tıklayarak işlemlerinizi onaylayın.

    Her şey doğru yapılırsa Excel çalışma sayfasının üstünde bulunan Veri sekmesinin sağ tarafında istenen düğme görünecektir.

    Excel'de Doğrusal Regresyon

    Artık ekonometrik hesaplamalar yapmak için gerekli tüm sanal araçlara sahip olduğumuza göre sorunumuzu çözmeye başlayabiliriz. Bunun için:

    • "Veri Analizi" düğmesine tıklayın;
    • Açılan pencerede "Regresyon" butonuna tıklayın;
    • görünen sekmede Y (işten ayrılan çalışan sayısı) ve X (maaşları) için değer aralığını girin;
    • İşlemlerimizi "Tamam" butonuna basarak onaylıyoruz.

    Sonuç olarak, program otomatik olarak elektronik tablonun yeni bir sayfasını regresyon analizi verileriyle dolduracaktır. Not! Excel, bu amaç için tercih ettiğiniz konumu manuel olarak ayarlama olanağına sahiptir. Örneğin, Y ve X değerlerinin bulunduğu sayfa veya hatta bu tür verileri depolamak için özel olarak tasarlanmış yeni bir çalışma kitabı bile olabilir.

    R-kare için regresyon sonuçlarının analizi

    İÇİNDE excel verileri Söz konusu örneğin verilerinin işlenmesi sırasında elde edilen form şu şekildedir:

    Öncelikle R-karenin değerine dikkat etmelisiniz. Belirleme katsayısıdır. İÇİNDE bu örnek R-kare = 0,755 (%75,5), yani modelin hesaplanan parametreleri, dikkate alınan parametreler arasındaki ilişkiyi %75,5 oranında açıklamaktadır. Belirleme katsayısının değeri ne kadar yüksek olursa, seçilen model belirli bir görev için o kadar uygulanabilir olur. 0,8'in üzerindeki R-kare değeri ile gerçek durumu doğru bir şekilde tanımladığı düşünülmektedir. R-kare tcr ise, doğrusal denklemin serbest teriminin önemsiz olduğu hipotezi reddedilir.

    Ücretsiz üye için ele alınan problemde Excel araçlarını kullanarak t = 169.20903 ve p = 2.89E-12 elde edildi, yani ücretsiz üyenin önemsizliğiyle ilgili doğru hipotezin şu şekilde olacağına dair sıfır olasılığımız var: Reddedilmiş. Bilinmeyen katsayı için t=5,79405 ve p=0,001158. Yani bilinmeyen için katsayının önemsizliğine ilişkin doğru hipotezin reddedilme olasılığı %0,12'dir.

    Dolayısıyla ortaya çıkan doğrusal regresyon denkleminin yeterli olduğu söylenebilir.

    Bir blok hisse satın almanın uygunluğu sorunu

    Excel'de çoklu regresyon, aynı Veri Analizi aracı kullanılarak gerçekleştirilir. Belirli bir uygulamalı problemi düşünün.

    NNN yönetimi, MMM SA'nın %20 hissesini satın almanın tavsiye edilebilirliği konusunda bir karar vermelidir. Paketin (JV) maliyeti 70 milyon ABD dolarıdır. NNN uzmanları benzer işlemlerle ilgili veri topladı. Hisse blokunun değerinin milyonlarca ABD doları cinsinden ifade edilen parametrelere göre aşağıdaki şekilde değerlendirilmesine karar verildi:

    • ödenecek hesaplar (VK);
    • yıllık ciro (VO);
    • alacak hesapları (VD);
    • sabit varlıkların maliyeti (SOF).

    Ayrıca işletmenin bordro borçları parametresi (V3 P) binlerce ABD doları cinsinden kullanılmaktadır.

    Excel elektronik tablosunu kullanarak çözüm

    Her şeyden önce, bir başlangıç ​​verileri tablosu oluşturmanız gerekir. Şuna benziyor:

    • "Veri Analizi" penceresini çağırın;
    • "Regresyon" bölümünü seçin;
    • "Giriş aralığı Y" kutusuna G sütunundan bağımlı değişkenlerin değer aralığını girin;
    • "Giriş aralığı X" kutusunun sağındaki kırmızı oklu simgeye tıklayın ve sayfada tüm değerlerin bir aralığını seçin. B,C sütunları, D, F.

    "Yeni Çalışma Sayfası"nı seçin ve "Tamam"a tıklayın.

    Verilen problem için regresyon analizini alın.

    Sonuçların ve sonuçların incelenmesi

    Yukarıda Excel elektronik tablosu sayfasında sunulan yuvarlatılmış verilerden regresyon denklemini "topluyoruz":

    SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

    Daha tanıdık bir matematiksel formda şu şekilde yazılabilir:

    y = 0,103*x1 + 0,541*x2 - 0,031*x3 +0,405*x4 +0,691*x5 - 265,844

    JSC "MMM" verileri tabloda sunulmaktadır:

    Bunları regresyon denkleminde yerine koyarsak 64,72 milyon ABD doları rakamı elde edilir. Bu, JSC MMM hisselerinin satın alınmaması gerektiği anlamına geliyor çünkü bunların 70 milyon ABD doları değeri oldukça abartılıyor.

    Gördüğünüz gibi Excel elektronik tablosunun ve regresyon denkleminin kullanılması, çok spesifik bir işlemin fizibilitesine ilişkin bilinçli bir karar verilmesini mümkün kıldı.

    Artık regresyonun ne olduğunu biliyorsunuz. Yukarıda tartışılan Excel'deki örnekler, ekonometri alanındaki pratik sorunları çözmenize yardımcı olacaktır.

    MS Excel paketi, doğrusal regresyon denklemi oluştururken işin çoğunu çok hızlı bir şekilde yapmanızı sağlar. Sonuçların nasıl yorumlanacağını anlamak önemlidir. Bir regresyon modeli oluşturmak için Araçlar\Veri Analizi\Regresyon'u seçin (Excel 2007'de bu mod Veri/Veri Analizi/Regresyon bölümünde bulunur). Daha sonra elde edilen sonuçları analiz için bir bloğa kopyalayın.

    İlk veri:

    Analiz sonuçları

    Rapora dahil et
    Regresyon denkleminin parametrelerinin hesaplanması
    Teorik materyal
    Standart ölçekte regresyon denklemi
    Çoklu Korelasyon Katsayısı (Çoklu Korelasyon İndeksi)
    Kısmi esneklik katsayıları
    Analiz edilen faktörlerin etkili özellik üzerindeki etkisinin karşılaştırmalı değerlendirmesi (d - ayrı belirleme katsayıları)

    Oluşturulan regresyon denkleminin kalitesinin kontrol edilmesi
    Regresyon katsayılarının önemi b i (t-istatistikleri. Öğrenci t-testi)
    Denklemin bir bütün olarak önemi (F-istatistikleri. Fisher kriteri). Belirleme katsayısı
    Kısmi F kriterleri

    Önem düzeyi 0.005 0.01 0.025 0.05 0.1 0.25 0.4

    Doğrusal bir regresyon oluşturmak, parametrelerini ve önemlerini tahmin etmek, Excel analiz paketi (Regresyon) kullanılarak çok daha hızlı yapılabilir. Elde edilen sonuçların yorumunu genel durumda ele alalım ( k açıklayıcı değişkenler) örnek 3.6'ya göre.

    Masa regresyon istatistikleri değerler verilmiştir:

    Çoklu R – çoklu korelasyon katsayısı;

    R- kare- determinasyon katsayısı R 2 ;

    Normalleştirilmiş R - kare- ayarlandı R 2 serbestlik derecesi sayısına göre ayarlanmıştır;

    standart hata regresyonun standart hatasıdır S;

    Gözlemler - gözlem sayısı N.

    Masa Varyans analizi verilen:

    1. Sütun df - serbestlik derecesi sayısı, eşit

    dize için Regresyon df = k;

    dize için Kalandf = Nk – 1;

    dize için Toplamdf = N– 1.

    2. Sütun SS- kare sapmaların toplamı, eşit

    dize için Regresyon ;

    dize için Kalan ;

    dize için Toplam .

    3. Sütun HANIM formül tarafından belirlenen varyanslar HANIM = SS/df:

    dize için Regresyon– faktör varyansı;

    dize için Kalan kalan varyanstır.

    4. Sütun F - hesaplanan değer F-formülle hesaplanan kriterler

    F = HANIM(gerileme)/ HANIM(kalan).

    5. Sütun Önem F hesaplanana karşılık gelen anlamlılık düzeyi değeridir F-İstatistik .

    Önem F= SON( F-İstatistik, df(gerileme), df(kalan)).

    Eğer önemi F < стандартного уровня значимости, то R 2 istatistiksel olarak anlamlıdır.

    Katsayılar standart hata t-istatistikleri p değeri alt %95 İlk %95
    e 65,92 11,74 5,61 0,00080 38,16 93,68
    X 0,107 0,014 7,32 0,00016 0,0728 0,142

    Bu tablo şunları gösterir:

    1. Oranlar– katsayı değerleri A, B.

    2. Standart hata regresyon katsayılarının standart hatalarıdır S a, Sb.



    3. T-İstatistik– hesaplanan değerler T -formülle hesaplanan kriterler:

    t-istatistik = Katsayılar / Standart hata.

    4.R-değer (anlam T) hesaplanana karşılık gelen anlamlılık düzeyinin değeridir T-İstatistik.

    R-değer = STUDRASP(T-İstatistik, df(kalan)).

    Eğer R-Anlam< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

    5. Alt %95 ve Üst %95 teorik doğrusal regresyon denkleminin katsayıları için %95 güven aralıklarının alt ve üst sınırlarıdır.

    KALAN ÇEKİLME
    Gözlem Tahmin edilen y Kalan e
    72,70 -29,70
    82,91 -20,91
    94,53 -4,53
    105,72 5,27
    117,56 12,44
    129,70 19,29
    144,22 20,77
    166,49 24,50
    268,13 -27,13

    Masa KALAN ÇEKİLME belirtilen:

    bir sütunda Gözlem– gözlem numarası;

    bir sütunda tahmin sen bağımlı değişkenin hesaplanan değerleri;

    bir sütunda Kalıntılar e bağımlı değişkenin gözlenen ve hesaplanan değerleri arasındaki farktır.

    Örnek 3.6. Gıda harcamalarına ilişkin mevcut veriler (arb. birimleri) sen ve kişi başına düşen gelir X dokuz aile grubu için:

    X
    sen

    Excel analiz paketinin (Regresyon) sonuçlarını kullanarak, gıda maliyetlerinin kişi başına düşen gelir değerine bağımlılığını analiz ediyoruz.

    Regresyon analizinin sonuçları genellikle şu şekilde yazılır:

    parantez içinde regresyon katsayılarının standart hataları verilmiştir.

    Regresyon katsayıları A = 65,92 ve B= 0,107. Arasındaki iletişim yönü sen Ve X regresyon katsayısının işaretini belirler B= 0,107, yani ilişki doğrudan ve olumludur. Katsayı B= 0,107 kişi başına düşen gelirin 1 arb arttığını göstermektedir. birimler Gıda maliyetleri 0,107 dönüşüm arttı. birimler

    Elde edilen modelin katsayılarının anlamlılığını tahmin edelim. Katsayıların önemi ( a, b) karşı kontrol edilir T- Ölçek:

    p-değeri ( A) = 0,00080 < 0,01 < 0,05

    p-değeri ( B) = 0,00016 < 0,01 < 0,05,

    dolayısıyla katsayılar ( a, b) %1 düzeyinde anlamlıdır ve hatta %5 anlamlılık düzeyinde daha da fazladır. Dolayısıyla regresyon katsayıları anlamlıdır ve model orijinal verilere uygundur.

    Regresyon tahmin sonuçları, regresyon katsayılarının yalnızca elde edilen değerleri ile değil aynı zamanda bunların bazı kümeleri (güven aralığı) ile de uyumludur. %95 olasılıkla katsayıların güven aralıkları (38,16 - 93,68)'dir. A ve (0,0728 - 0,142) için B.

    Modelin kalitesi belirleme katsayısı ile değerlendirilir. R 2 .

    Değer R 2 = 0,884, kişi başına düşen gelir faktörünün gıda harcamalarındaki değişimin (dağılım) %88,4'ünü açıklayabildiği anlamına gelir.

    Önem R 2 tarafından kontrol edildi F- test: anlamlılık F = 0,00016 < 0,01 < 0,05, следовательно, R 2, %1 düzeyinde anlamlıdır ve hatta %5 anlamlılık düzeyinde daha da anlamlıdır.

    İkili doğrusal regresyon durumunda korelasyon katsayısı şu şekilde tanımlanabilir: . Korelasyon katsayısının elde edilen değeri gıda harcamaları ile kişi başına düşen gelir arasındaki ilişkinin çok yakın olduğunu göstermektedir.

    Önceki notlarda, yatırım fonu getirileri, Web sayfasının yüklenme süresi veya meşrubat tüketimi gibi genellikle tek bir sayısal değişkene odaklanılmıştı. Bu ve sonraki notlarda, bir veya daha fazla sayısal değişkenin değerlerine bağlı olarak sayısal bir değişkenin değerlerini tahmin etmeye yönelik yöntemleri ele alacağız.

    Materyal bir örnekle açıklanacaktır. Bir giyim mağazasında satış hacmini tahmin etmek. Sunflowers indirimli giyim mağazaları zinciri 25 yıldır sürekli olarak genişlemektedir. Ancak şirketin şu anda yeni satış noktaları seçme konusunda sistematik bir yaklaşımı yok. Şirketin yeni mağaza açmayı planladığı yer subjektif değerlendirmelere göre belirleniyor. Seçim kriterleri uygun kiralama koşulları veya yöneticinin mağazanın ideal konumu hakkındaki fikridir. Özel Projeler ve Planlama Dairesi Başkanı olduğunuzu hayal edin. Yeni mağazalar açmak için stratejik bir plan geliştirmekle görevlendirildiniz. Bu plan, yeni açılan mağazalardaki yıllık satış tahminlerini içermelidir. Alan satmanın doğrudan gelirle ilgili olduğuna inanıyor ve bu gerçeği karar verme sürecinize dahil etmek istiyorsunuz. Yeni mağaza büyüklüğüne göre yıllık satışları tahmin eden istatistiksel bir modeli nasıl geliştirirsiniz?

    Tipik olarak bir değişkenin değerlerini tahmin etmek için regresyon analizi kullanılır. Amacı, en az bir bağımsız veya açıklayıcı değişkenin değerlerinden bağımlı değişkenin değerlerini veya tepkisini tahmin eden istatistiksel bir model geliştirmektir. Bu notta, bağımlı değişkenin değerlerini tahmin etmemizi sağlayan istatistiksel bir yöntem olan basit bir doğrusal regresyonu ele alacağız. e bağımsız değişkenin değerlerine göre X. Aşağıdaki notlarda bağımsız değişkenin değerlerini tahmin etmek için tasarlanmış çoklu regresyon modeli açıklanacaktır. e birkaç bağımlı değişkenin değerlerine göre ( X 1 , X 2 , …, X k).

    Notu veya formatında indirin, formattaki örnekler

    Regresyon modeli türleri

    Nerede ρ 1 otokorelasyon katsayısıdır; Eğer ρ 1 = 0 (otokorelasyon yok), D≈ 2; Eğer ρ 1 ≈ 1 (pozitif otokorelasyon), D≈ 0; Eğer ρ 1 = -1 (negatif otokorelasyon), D ≈ 4.

    Uygulamada Durbin-Watson kriterinin uygulanması, değerin karşılaştırılmasına dayanmaktadır. D kritik teorik değerlere sahip dL Ve d U Belirli sayıda gözlem için N, modelin bağımsız değişkenlerinin sayısı k(basit doğrusal regresyon için k= 1) ve anlamlılık düzeyi α. Eğer D< d L , rastgele sapmaların bağımsızlığı hipotezi reddedilir (dolayısıyla pozitif bir otokorelasyon vardır); Eğer D > d U hipotez reddedilmez (yani otokorelasyon yoktur); Eğer dL< D < d U karar vermek için yeterli neden yok. Hesaplanan değer ne zaman D 2'yi aşıyorsa dL Ve d U karşılaştırılan katsayının kendisi değil D ve ifade (4 – D).

    Durbin-Watson istatistiklerini Excel'de hesaplamak için Şekil 1'deki alt tabloya dönüyoruz. 14 Bakiyenin çekilmesi. İfade (10)'daki pay, = SUMMQDIFF(dizi1, dizi2) fonksiyonu kullanılarak hesaplanır ve payda = SUMMQ(dizi) (Şekil 16).

    Pirinç. 16. Durbin-Watson istatistiklerini hesaplamak için formüller

    Örneğimizde D= 0,883. Asıl soru şudur: Durbin-Watson istatistiğinin hangi değeri, pozitif bir otokorelasyonun olduğu sonucuna varacak kadar küçük kabul edilmelidir? D değerini kritik değerlerle ilişkilendirmek gerekir ( dL Ve d U) gözlem sayısına bağlı olarak N ve anlamlılık seviyesi α (Şekil 17).

    Pirinç. 17. Durbin-Watson istatistiklerinin kritik değerleri (tablo parçası)

    Dolayısıyla evinize mal teslim eden bir mağazadaki satış hacmi probleminde bir bağımsız değişken vardır ( k= 1), 15 gözlem ( N= 15) ve anlamlılık düzeyi α = 0,05. Buradan, dL= 1,08 ve Dsen= 1,36. Çünkü D = 0,883 < dL= 1,08, artıklar arasında pozitif otokorelasyon vardır, en küçük kareler yöntemi uygulanamaz.

    Eğim ve Korelasyon Katsayısı ile İlgili Hipotezlerin Test Edilmesi

    Yukarıdaki regresyon yalnızca tahmin için uygulandı. Regresyon katsayılarını belirlemek ve bir değişkenin değerini tahmin etmek e belirli bir değişken değeri için X en küçük kareler yöntemi kullanıldı. Ayrıca tahminin standart hatasını ve karışık korelasyon katsayısını da dikkate aldık. Artık analizi, en küçük kareler yönteminin uygulanabilirlik koşullarının ihlal edilmediğini ve basit doğrusal regresyon modelinin yeterli olduğunu doğrularsa, örneklem verilerine dayanarak popülasyondaki değişkenler arasında bir fark olduğu iddia edilebilir. doğrusal bağımlılık.

    BaşvuruT -eğim kriterleri. Popülasyon eğimi β 1'in sıfıra eşit olup olmadığı kontrol edilerek değişkenler arasında istatistiksel olarak anlamlı bir ilişki olup olmadığı belirlenebilir. X Ve e. Bu hipotez reddedilirse değişkenler arasında olduğu ileri sürülebilir. X Ve e doğrusal bir ilişki vardır. Boş ve alternatif hipotezler şu şekilde formüle edilmiştir: H 0: β 1 = 0 (doğrusal bir ilişki yok), H1: β 1 ≠ 0 (doğrusal bir ilişki var). A-tarikatı T-istatistik, örnek eğim ile varsayımsal popülasyon eğimi arasındaki farkın eğim tahmininin standart hatasına bölünmesine eşittir:

    (11) T = (B 1 β 1 ) / Sb 1

    Nerede B 1 örnek verilere dayalı doğrudan regresyonun eğimidir, β1 doğrudan genel popülasyonun varsayımsal eğimidir, ve test istatistikleri T Var T- ile dağıtım n - 2özgürlük derecesi.

    Mağaza büyüklüğü ile yıllık satışlar arasında α = 0,05 düzeyinde istatistiksel olarak anlamlı bir ilişki olup olmadığını kontrol edelim. T-kriterler kullanılırken diğer parametrelerle birlikte görüntülenir Analiz paketi(seçenek Regresyon). Analiz Paketinin tam sonuçları Şekil 1'de gösterilmektedir. 4, t-istatistikleriyle ilgili bir parça - şek. 18.

    Pirinç. 18. Başvuru sonuçları T

    Çünkü mağaza sayısı N= 14 (bkz. Şekil 3), kritik değer T-α = 0,05 anlamlılık düzeyindeki istatistikler aşağıdaki formülle bulunabilir: t L=STUDENT.INV(0,025;12) = -2,1788 burada 0,025 anlamlılık düzeyinin yarısıdır ve 12 = N – 2; t U\u003d ÖĞRENCİ.INR (0,975, 12) \u003d +2,1788.

    Çünkü T-istatistik = 10.64 > t U= 2,1788 (Şekil 19), boş hipotez H 0 reddedildi. Diğer tarafta, R-değeri X\u003d 1-ÖĞRENCİ.DAĞ (D3, 12, DOĞRU) formülüyle hesaplanan \u003d 10,6411, yaklaşık olarak sıfıra eşittir, dolayısıyla hipotez H 0 tekrar reddedilir. Gerçek şu ki R-değer neredeyse sıfırdır; bu, mağaza büyüklüğü ile yıllık satışlar arasında gerçek bir doğrusal ilişki olmasaydı, bunu doğrusal regresyon kullanarak bulmanın neredeyse imkansız olacağı anlamına gelir. Dolayısıyla ortalama yıllık mağaza satışları ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı doğrusal bir ilişki vardır.

    Pirinç. 19. Genel popülasyonun eğimi ile ilgili hipotezin 0,05 anlamlılık düzeyinde ve 12 serbestlik derecesinde test edilmesi

    BaşvuruF -eğim kriterleri. Basit bir doğrusal regresyonun eğimiyle ilgili hipotezleri test etmeye alternatif bir yaklaşım, F-kriterler. Hatırlamak F-kriter, iki varyans arasındaki ilişkiyi test etmek için kullanılır (ayrıntılara bakın). Eğim hipotezini test ederken, rastgele hataların ölçüsü hata varyansıdır (hataların karelerinin toplamının serbestlik derecesi sayısına bölümü), yani F-test regresyon tarafından açıklanan varyansın oranını kullanır (yani değerler SSR bağımsız değişken sayısına bölünür k), hata varyansına ( MSE=SYX 2 ).

    A-tarikatı F-istatistik, regresyondan kaynaklanan sapmaların ortalama karesinin (MSR) hata varyansına (MSE) bölünmesine eşittir: F = MSR/ MSE, Nerede MSR=SSR / k, MSE =SSE/(N– k – 1), k regresyon modelindeki bağımsız değişkenlerin sayısıdır. Test istatistikleri F Var F- ile dağıtım k Ve N– k – 1özgürlük derecesi.

    Belirli bir önem düzeyi α için karar kuralı şu şekilde formüle edilir: F > Fsen, sıfır hipotezi reddedilir; aksi takdirde reddedilmez. Varyans analizinin özet tablosu şeklinde sunulan sonuçlar, Şekil 2'de gösterilmektedir. 20.

    Pirinç. 20. Regresyon katsayısının istatistiksel anlamlılığı hipotezini test etmek için varyans analizi tablosu

    benzer şekilde T-kriter F-kriterler kullanılırken tabloda görüntülenir Analiz paketi(seçenek Regresyon). Çalışmanın tam sonuçları Analiz paketiŞekil 2'de gösterilmiştir. 4, ilgili parça F-istatistikler - Şek. 21.

    Pirinç. 21. Başvuru sonuçları F- Excel Analiz Araç Paketi kullanılarak elde edilen kriterler

    F istatistiği 113.23 ve R-sıfıra yakın değer (hücre ÖnemF). Anlamlılık düzeyi α 0,05 ise kritik değeri belirleyin F-bir ve 12 serbestlik dereceli dağılımlar formülden elde edilebilir F Ü\u003d F.OBR (1-0.05; 1; 12) \u003d 4.7472 (Şekil 22). Çünkü F = 113,23 > F Ü= 4,7472 ve R-değer 0'a yakın< 0,05, нулевая гипотеза H 0 sapar, yani Bir mağazanın büyüklüğü, yıllık satış hacmiyle yakından ilişkilidir.

    Pirinç. 22. Genel popülasyonun eğimi hakkındaki hipotezin 0,05 anlamlılık düzeyinde, bir ve 12 serbestlik derecesiyle test edilmesi

    Eğim β 1'i içeren güven aralığı. Değişkenler arasında doğrusal bir ilişkinin varlığı hipotezini test etmek için, β 1 eğimini içeren bir güven aralığı oluşturabilir ve β 1 = 0 varsayımsal değerinin bu aralığa ait olduğundan emin olabilirsiniz. β 1 eğimini içeren güven aralığının merkezi örnek eğimdir B 1 ve sınırları miktarlardır b 1 ±t n –2 Sb 1

    Şekil 2'de gösterildiği gibi. 18, B 1 = +1,670, N = 14, Sb 1 = 0,157. T 12 \u003d ÖĞRENCİ.OBR (0,975, 12) \u003d 2,1788. Buradan, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 veya + 1,328 ≤ β 1 ≤ +2,012. Dolayısıyla, 0,95 olasılıkla popülasyonun eğimi +1,328 ila +2,012 (yani 1,328,000 ABD Doları ila 2,012,000 ABD Doları) aralığında yer almaktadır. Bu değerler sıfırdan büyük olduğundan yıllık satışlar ile mağaza alanı arasında istatistiksel olarak anlamlı doğrusal bir ilişki vardır. Güven aralığı sıfır olsaydı değişkenler arasında ilişki olmazdı. Ayrıca güven aralığı her 1000 metrekarede bir anlamına gelir. ayaklar ortalama satışlarda 1.328.000 $'dan 2.012.000 $'a artışa neden olur.

    KullanımT -korelasyon katsayısı için kriterler. korelasyon katsayısı tanıtıldı R, iki sayısal değişken arasındaki ilişkinin bir ölçüsüdür. İki değişken arasında istatistiksel olarak anlamlı bir ilişkinin olup olmadığını belirlemek için kullanılabilir. Her iki değişkenin popülasyonları arasındaki korelasyon katsayısını ρ sembolüyle gösterelim. Sıfır ve alternatif hipotezler şu şekilde formüle edilmiştir: H 0: ρ = 0 (korelasyon yok), H 1: ρ ≠ 0 (bir korelasyon var). Bir korelasyonun varlığının kontrol edilmesi:

    Nerede R = + , Eğer B 1 > 0, R = – , Eğer B 1 < 0. Тестовая статистика T Var T- ile dağıtım n - 2özgürlük derecesi.

    Ayçiçekleri mağaza zinciri sorununda r2= 0,904 ve b 1- +1.670 (bkz. Şekil 4). Çünkü b 1> 0, yıllık satışlar ile mağaza büyüklüğü arasındaki korelasyon katsayısı: R= +√0,904 = +0,951. Bu değişkenler arasında hiçbir korelasyon olmadığını belirten sıfır hipotezini aşağıdakileri kullanarak test edelim: T- İstatistik:

    α = 0,05 anlamlılık düzeyinde sıfır hipotezi reddedilmelidir çünkü T= 10,64 > 2,1788. Dolayısıyla yıllık satışlar ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı bir ilişkinin olduğu ileri sürülebilir.

    Nüfus eğimleriyle ilgili çıkarımları tartışırken, güven aralıkları ve hipotezleri test etme kriterleri birbirinin yerine kullanılabilen araçlardır. Ancak korelasyon katsayısını içeren güven aralığının hesaplanması, istatistiğin örnekleme dağılım şekli nedeniyle daha zor olmaktadır. R gerçek korelasyon katsayısına bağlıdır.

    Matematiksel beklenti tahmini ve bireysel değerlerin tahmini

    Bu bölümde beklenen tepkiyi tahmin etmeye yönelik yöntemler tartışılmaktadır. e ve bireysel değerlerin tahminleri e değişkenin verilen değerleri için X.

    Bir güven aralığının oluşturulması.Örnek 2'de (yukarıdaki bölüme bakın) En küçük kareler yöntemi) regresyon denklemi değişkenin değerini tahmin etmeyi mümkün kıldı e X. Bir perakende satış mağazası için yer seçimi probleminde, 4000 m2 alana sahip bir mağazanın yıllık ortalama satışları şu şekildedir: feet 7.644 milyon dolara eşitti.Ancak genel nüfusun matematiksel beklentisinin bu tahmini bir noktadır. Genel nüfusun matematiksel beklentisini tahmin etmek için güven aralığı kavramı önerildi. Benzer şekilde, kavramı tanıtabilirsiniz Yanıtın matematiksel beklentisi için güven aralığı bir değişkenin belirli bir değeri için X:

    Nerede , = B 0 + B 1 X ben– tahmin edilen değer değişkeni e en X = X ben, SYX ortalama kare hatasıdır, Nörneklem büyüklüğü, XBen- değişkenin verilen değeri X, µ e|X = XBen– bir değişkenin matematiksel beklentisi e en X = Х ben,SSX=

    Formül (13)'ün analizi, güven aralığının genişliğinin çeşitli faktörlere bağlı olduğunu göstermektedir. Belirli bir anlamlılık düzeyinde, ortalama kare hata kullanılarak ölçülen regresyon çizgisi etrafındaki dalgalanmaların genliğinde bir artış, aralığın genişliğinde bir artışa yol açar. Öte yandan beklendiği gibi örneklem büyüklüğündeki artışa aralığın daralması da eşlik ediyor. Ayrıca aralığın genişliği değerlere bağlı olarak değişir. XBen. Değişkenin değeri ise e miktarlar için tahmin X, ortalama değere yakın güven aralığının, ortalamadan uzak değerler için yanıtı tahmin ederken olduğundan daha dar olduğu ortaya çıkıyor.

    Diyelim ki bir mağaza için lokasyon seçerken 4000 metrekare alana sahip tüm mağazalarımızda yıllık ortalama satışlar için %95 güven aralığı oluşturmak istiyoruz. ayak:

    Dolayısıyla tüm mağazalarda ortalama yıllık satış hacmi 4.000 m2'dir. % 95 olasılıkla 6.971 ila 8.317 milyon dolar aralığında yer alıyor.

    Tahmin edilen değer için güven aralığını hesaplayın. Değişkenin belirli bir değeri için yanıtın matematiksel beklentisine ilişkin güven aralığına ek olarak X tahmin edilen değere ilişkin güven aralığının bilinmesi sıklıkla gereklidir. Böyle bir güven aralığını hesaplamak için kullanılan formül formül (13)'e çok benzese de, bu aralık parametrenin bir tahminini değil, tahmin edilen bir değeri içerir. Tahmini yanıt aralığı eX = Şi değişkenin belirli bir değeri için XBen aşağıdaki formülle belirlenir:

    Bir perakende satış mağazası için lokasyon seçerken 4000 metrekare alana sahip bir mağazanın tahmini yıllık satış hacmi için %95 güven aralığı oluşturmak istediğimizi varsayalım. ayak:

    Bu nedenle 4.000 m2'lik bir alan için öngörülen yıllık satış hacmi. ayak, %95 olasılıkla 5.433 ila 9.854 milyon dolar aralığında yer alıyor.Gördüğünüz gibi, tahmin edilen yanıt değerinin güven aralığı, matematiksel beklentinin güven aralığından çok daha geniş. Bunun nedeni, bireysel değerlerin tahmin edilmesindeki değişkenliğin, beklenen değerin tahmin edilmesinden çok daha büyük olmasıdır.

    Regresyon kullanımıyla ilgili tuzaklar ve etik sorunlar

    Regresyon analiziyle ilgili zorluklar:

    • En küçük kareler yönteminin uygulanabilirlik koşullarının göz ardı edilmesi.
    • En küçük kareler yönteminin uygulanabilirliğine ilişkin koşulların hatalı tahmini.
    • En küçük kareler yönteminin uygulanabilirlik koşullarını ihlal edecek şekilde alternatif yöntemlerin yanlış seçilmesi.
    • Çalışma konusu hakkında derinlemesine bilgi sahibi olmadan regresyon analizinin uygulanması.
    • Açıklayıcı değişkenin aralığının ötesinde regresyonun ekstrapolasyonu.
    • İstatistiksel ve nedensel ilişkiler arasındaki karışıklık.

    Elektronik tabloların yaygınlaşması ve yazılım istatistiksel hesaplamalar için regresyon analizinin kullanılmasını engelleyen hesaplama sorunlarını ortadan kaldırdı. Ancak bu durum regresyon analizinin yeterli nitelik ve bilgiye sahip olmayan kullanıcılar tarafından kullanılmaya başlanmasına neden olmuştur. Çoğunun en küçük kareler yönteminin uygulanabilirliği için koşullar hakkında hiçbir fikri yoksa ve bunların uygulanmasını nasıl kontrol edeceklerini bilmiyorlarsa, kullanıcılar alternatif yöntemlerden nasıl haberdar olacak?

    Araştırmacı, kayma, eğim ve karışık korelasyon katsayısının hesaplanması gibi sayıları öğüterek kendini kaptırmamalıdır. Daha derin bilgiye ihtiyacı var. Bunu ders kitaplarından alınan klasik bir örnekle açıklayalım. Anscombe, Şekil 2'de gösterilen dört veri setinin tamamının olduğunu gösterdi. 23 aynı regresyon parametrelerine sahiptir (Şekil 24).

    Pirinç. 23. Dört yapay veri seti

    Pirinç. 24. Dört yapay veri setinin regresyon analizi; ile yapılır Analiz paketi(Resmi büyütmek için resmin üzerine tıklayın)

    Yani regresyon analizi açısından bakıldığında tüm bu veri setleri tamamen aynıdır. Eğer analiz bu konuda bitseydi çok şey kaybederdik kullanışlı bilgi. Bu, bu veri setleri için oluşturulan dağılım grafikleri (Şekil 25) ve artık grafikler (Şekil 26) ile kanıtlanmaktadır.

    Pirinç. 25. Dört veri kümesi için dağılım grafikleri

    Saçılım grafikleri ve artık grafikleri bu verilerin birbirinden farklı olduğunu göstermektedir. Düz bir çizgi boyunca dağıtılan tek küme A kümesidir. A kümesinden hesaplanan artıkların grafiğinde herhangi bir desen yoktur. Aynı şey B, C ve D kümeleri için söylenemez. B kümesi için çizilen dağılım grafiği, belirgin bir ikinci dereceden modeli göstermektedir. Bu sonuç, parabolik bir şekle sahip olan artıkların grafiği ile doğrulanmaktadır. Dağılım grafiği ve artık grafiği, veri kümesi B'nin bir aykırı değer içerdiğini göstermektedir. Bu durumda aykırı değerin veri setinden çıkarılması ve analizin tekrarlanması gerekmektedir. Gözlemlerdeki aykırı değerleri tespit etme ve ortadan kaldırma tekniğine etki analizi denir. Aykırı değerin elenmesinden sonra modelin yeniden değerlendirilmesi sonucu tamamen farklı olabilir. Veri seti D'den çizilen bir dağılım grafiği, ampirik modelin büyük ölçüde tek bir cevaba bağımlı olduğu olağandışı bir durumu göstermektedir ( X 8 = 19, e 8 = 12,5). Bu tür regresyon modellerinin özellikle dikkatli bir şekilde hesaplanması gerekir. Dolayısıyla, dağılım ve artık grafikleri regresyon analizi için önemli bir araçtır ve onun ayrılmaz bir parçası olmalıdır. Bunlar olmadan regresyon analizi güvenilir değildir.

    Pirinç. 26. Dört veri kümesi için artık grafikleri

    Regresyon analizinde tuzaklardan nasıl kaçınılır:

    • Değişkenler arasındaki olası ilişkinin analizi X Ve e her zaman bir dağılım grafiğiyle başlayın.
    • Bir regresyon analizinin sonuçlarını yorumlamadan önce uygulanabilirliğine ilişkin koşulları kontrol edin.
    • Artıkları bağımsız değişkene göre çizin. Bu, ampirik modelin gözlem sonuçlarına nasıl karşılık geldiğini belirlemeye ve varyansın değişmezliğinin ihlalini tespit etmeye olanak sağlayacaktır.
    • hakkındaki varsayımı test etmek için normal dağılım hataları, histogramları, gövde ve yaprak grafiklerini, kutu grafiklerini ve normal dağılım grafiklerini kullanın.
    • En küçük kareler yönteminin uygulanabilirlik koşulları karşılanmıyorsa, alternatif yöntemler(örneğin ikinci dereceden veya çoklu regresyon modelleri).
    • En küçük kareler yönteminin uygulanabilirlik koşulları karşılanıyorsa, regresyon katsayılarının istatistiksel anlamlılığına ilişkin hipotezin test edilmesi ve matematiksel beklenti ile tahmin edilen yanıt değerini içeren güven aralıklarının oluşturulması gerekir.
    • Bağımlı değişkenin değerlerini bağımsız değişkenin aralığı dışında tahmin etmekten kaçının.
    • İstatistiksel bağımlılıkların her zaman nedensel olmadığını unutmayın. Değişkenler arasındaki korelasyonun, aralarında nedensel bir ilişki olduğu anlamına gelmediğini unutmayın.

    Özet. Blok diyagramda gösterildiği gibi (Şekil 27), notta basit bir doğrusal regresyon modeli, uygulanabilirliğine ilişkin koşullar ve bu koşulları test etme yolları açıklanmaktadır. Dikkate alınan T- Regresyon eğiminin istatistiksel anlamlılığını test etmek için kriter. Bağımlı değişkenin değerlerini tahmin etmek için kullandık Regresyon modeli. Yıllık satış hacminin mağaza alanına bağımlılığının incelendiği bir perakende satış noktası için yer seçimi ile ilgili bir örnek ele alınmaktadır. Elde edilen bilgiler mağaza için daha doğru bir yer seçmenize ve yıllık satışlarını tahmin etmenize olanak tanır. Aşağıdaki notlarda, çoklu regresyon modellerinin yanı sıra regresyon analizi tartışmasına da devam edilecektir.

    Pirinç. 27. Yapısal şema notlar

    Levin ve diğerleri Yöneticiler için istatistikler kitabından materyaller kullanılmıştır. - M.: Williams, 2004. - s. 792–872

    Bağımlı değişken kategorik ise lojistik regresyon uygulanmalıdır.