Excel çözüm örneğinde korelasyon regresyon analizi. Konrad Carlberg. Microsoft Excel'de Regresyon Analizi

İÇİNDE mükemmel doğrusal bir regresyon çizmenin daha da hızlı ve daha kolay bir yolu vardır (ve hatta ana doğrusal olmayan regresyon türleri için aşağıya bakın). Bu şu şekilde yapılabilir:

1) veri içeren sütunları seçin X Ve Y(bu sırada olmalılar!);

2) çağrı Grafik Sihirbazı ve bir grupta seçin Tip – noktalı ve hemen basın Hazır;

3) diyagramın seçimini kaldırmadan beliren ana menü öğesini seçin Diyagram, içinde öğeyi seçmeniz gereken Trend çizgisi ekle;

4) beliren iletişim kutusunda trend çizgisi sekme Tip seçmek Doğrusal;

5) sekmesi Seçenekler anahtarı etkinleştirilebilir Denklemi grafikte göster katsayıların (4.5) hesaplanacağı doğrusal regresyon denklemini (4.4) görmenizi sağlayacak.

6) Aynı sekmede, anahtarı etkinleştirebilirsiniz Yaklaşım güveninin (R^2) değerini diyagrama koyun. Bu değer korelasyon katsayısının (4.3) karesidir ve hesaplanan denklemin deneysel bağımlılığı ne kadar iyi tanımladığını gösterir. Eğer R 2 bire yakınsa, o zaman teorik regresyon denklemi deneysel bağımlılığı iyi tanımlar (teori deneyle uyumludur) ve eğer R 2 sıfıra yakınsa, bu denklem deneysel bağımlılığı açıklamak için uygun değildir (teori deneyle uyuşmaz).

Açıklanan eylemleri gerçekleştirmenin bir sonucu olarak, regresyon grafiğini ve denklemini içeren bir diyagram elde edeceksiniz.

§4.3. Ana doğrusal olmayan regresyon türleri

Parabolik ve polinom regresyon.

Parabolik değer bağımlılığı Y değerden X ikinci dereceden bir fonksiyonla (2. dereceden parabol) ifade edilen bağımlılık şu şekilde adlandırılır:

Bu denklem denir parabolik regresyon Y Açık X. Seçenekler A, B, İle isminde parabolik regresyon katsayıları. Parabolik regresyon katsayılarının hesaplanması her zaman külfetlidir, bu nedenle hesaplamalar için bir bilgisayar kullanılması önerilir.

Parabolik regresyonun Denklem (4.8), polinom adı verilen daha genel bir regresyonun özel bir halidir. polinom değer bağımlılığı Y değerden X polinom tarafından ifade edilen bağımlılık olarak adlandırılır N-inci sıra:

sayılar nerede bir ben (Ben=0,1,…, N) arandı polinom regresyon katsayıları.

Güç gerilemesi.

Güç değer bağımlılığı Y değerden X formun bağımlılığı olarak adlandırılır:

Bu denklem denir güç regresyon denklemi Y Açık X. Seçenekler A Ve B isminde güç regresyon katsayıları.

ln=ln A+B ln X. (4.11)

Bu denklem, düzlemde logaritmik koordinat eksenleri ln olan düz bir çizgiyi tanımlar. X ve ln. Bu nedenle, güç regresyonunun uygulanabilirliği için kriter, ampirik verilerin logaritma noktalarının ln olması gerekliliğidir. x ben ve ln Ben düz çizgiye en yakındı (4.11).

üstel regresyon.

örnek(veya üstel) miktarın bağımlılığı Y değerden X formun bağımlılığı olarak adlandırılır:

(veya ). (4.12)

Bu denklem denir üstel denklem(veya üstel) regresyon Y Açık X. Seçenekler A(veya k) Ve B isminde üstel(veya üstel) gerileme.

Güç regresyon denkleminin her iki tarafının logaritmasını alırsak, denklemi elde ederiz.

ln = X ln A+ln B(veya ln = k x+ln B). (4.13)

Bu denklem, bir ln niceliğinin logaritmasının başka bir niceliğe doğrusal bağımlılığını tanımlar. X. Bu nedenle, güç regresyonunun uygulanabilirliği için kriter, ampirik veri noktalarının aynı büyüklükte olması gerekliliğidir. x ben ve ln başka bir değerin logaritmaları Ben düz çizgiye en yakındı (4.13).

logaritmik regresyon.

Logaritmik değer bağımlılığı Y değerden X formun bağımlılığı olarak adlandırılır:

=A+B ln X. (4.14)

Bu denklem denir logaritmik regresyon Y Açık X. Seçenekler A Ve B isminde logaritmik regresyon katsayıları.

hiperbolik regresyon.

hiperbolik değer bağımlılığı Y değerden X formun bağımlılığı olarak adlandırılır:

Bu denklem denir hiperbolik regresyon denklemi Y Açık X. Seçenekler A Ve B isminde hiperbolik regresyon katsayıları ve en küçük kareler yöntemi ile belirlenir. Bu yöntemi uygulamak formüllere yol açar:

Formüllerde (4.16-4.17), toplama indeks üzerinden gerçekleştirilir Ben birden gözlem sayısına N.

maalesef mükemmel hiperbolik regresyon katsayılarını hesaplayan bir fonksiyon yoktur. Ölçülen değerlerin ters orantılılıkla ilişkili olduğunun kesin olarak bilinmediği durumlarda, hiperbolik regresyon denklemi yerine bir güç regresyon denklemi aranması önerilir, bu nedenle mükemmel bulmak için bir prosedür var. Ölçülen değerler arasında hiperbolik bir bağımlılık varsayılırsa, regresyon katsayılarının yardımcı hesaplama tabloları ve formüller (4.16-4.17) kullanılarak toplama işlemleri kullanılarak hesaplanması gerekecektir.

Regresyon ve korelasyon analizi - istatistiksel araştırma yöntemleri. Bunlar, bir parametrenin bir veya daha fazla bağımsız değişkene bağımlılığını göstermenin en yaygın yollarıdır.

Aşağıda, somut pratik örnekler kullanarak, iktisatçılar arasında çok popüler olan bu iki analizi ele alacağız. Birleştirildiğinde sonuç elde edilmesine de bir örnek vereceğiz.

Excel'de Regresyon Analizi

Bazı değerlerin (bağımsız, bağımsız) bağımlı değişken üzerindeki etkisini gösterir. Örneğin, ekonomik olarak aktif nüfus sayısının işletme sayısına, ücretlere ve diğer parametrelere nasıl bağlı olduğu. Veya: yabancı yatırımlar, enerji fiyatları vb. GSYİH seviyesini nasıl etkiler?

Analiz sonucu önceliklendirme yapmanızı sağlar. Ve ana faktörlere dayanarak, öncelikli alanların gelişimini tahmin etmek, planlamak, yönetim kararları almak.

Gerileme olur:

doğrusal (y = a + bx);
parabolik (y = a + bx + cx 2);
üstel (y = a * exp(bx));
güç (y = a*x^b);
hiperbolik (y = b/x + a);
logaritmik (y = b * 1n(x) + a);
üstel (y = a * b^x).

Excel'de bir regresyon modeli oluşturma ve sonuçları yorumlama örneğini ele alalım. Doğrusal bir regresyon türü ele alalım.

Görev. 6 işletmede aylık ortalama maaş ve işten ayrılan çalışan sayısı analiz edildi. Emekli çalışan sayısının ortalama maaşa bağımlılığının belirlenmesi gerekmektedir.

Doğrusal regresyon modeli aşağıdaki forma sahiptir:

Y \u003d 0 + a 1 x 1 + ... + a k x k.

Burada a, regresyon katsayılarıdır, x, etkileyen değişkenlerdir ve k, faktörlerin sayısıdır.

Örneğimizde Y işten ayrılanların göstergesidir. Etkileyen faktör ücretlerdir (x).

Excel, bir doğrusal regresyon modelinin parametrelerini hesaplamak için kullanılabilecek yerleşik işlevlere sahiptir. Ancak Analysis ToolPak eklentisi bunu daha hızlı yapacaktır.

Güçlü bir analitik aracı etkinleştirin:

Etkinleştirildiğinde, eklenti Veri sekmesi altında bulunacaktır.

Şimdi doğrudan regresyon analizi ile ilgileneceğiz.

Öncelikle R-kare ve katsayılarına dikkat ediyoruz.

R-kare belirleme katsayısıdır. Örneğimizde, 0,755 veya %75,5'tir. Bu, modelin hesaplanan parametrelerinin çalışılan parametreler arasındaki ilişkiyi %75,5 oranında açıkladığı anlamına gelmektedir. Belirleme katsayısı ne kadar yüksek olursa, model o kadar iyi olur. İyi - 0,8'in üzerinde. Zayıf - 0,5'ten az (böyle bir analiz pek makul kabul edilemez). Örneğimizde - "fena değil".

64.1428 katsayısı, incelenen modeldeki tüm değişkenlerin 0'a eşit olması durumunda Y'nin ne olacağını gösterir. Yani, modelde açıklanmayan diğer faktörler de analiz edilen parametrenin değerini etkiler.

-0,16285 katsayısı, X değişkeninin Y üzerindeki ağırlığını gösterir. Yani, bu modeldeki ortalama aylık maaş, -0,16285 ağırlıkla işten ayrılanların sayısını etkiler (bu, küçük bir etki derecesidir). “-” işareti olumsuz bir etkiyi gösterir: maaş ne kadar yüksekse, işten ayrılma o kadar az olur. Hangisi adil.

Excel'de korelasyon analizi

Korelasyon analizi, bir veya iki örnekteki göstergeler arasında bir ilişki olup olmadığını belirlemeye yardımcı olur. Örneğin, makinenin çalışma süresi ile onarım maliyeti arasında, ekipman fiyatı ile çalışma süresi arasında, çocukların boy ve kiloları vb.

Bir ilişki varsa, o zaman bir parametredeki artışın diğerinde bir artışa (pozitif korelasyon) veya azalmaya (negatif) yol açması. Korelasyon analizi, analistin bir göstergenin değerinin diğerinin olası değerini tahmin edip edemeyeceğini belirlemesine yardımcı olur.

Korelasyon katsayısı r ile gösterilir. +1 ile -1 arasında değişir. Farklı alanlar için korelasyonların sınıflandırılması farklı olacaktır. Katsayı değeri 0 olduğunda, örnekler arasında doğrusal bir ilişki yoktur.

Korelasyon katsayısını bulmak için Excel'i nasıl kullanacağınızı düşünün.

CORREL fonksiyonu eşleştirilmiş katsayıları bulmak için kullanılır.

Görev: Bir torna tezgahının çalışma süresi ile bakım maliyeti arasında bir ilişki olup olmadığını belirleyin.

İmleci herhangi bir hücreye getirin ve fx düğmesine basın.

"İstatistik" kategorisinde CORREL işlevini seçin.
Argüman "Dizi 1" - ilk değer aralığı - makinenin süresi: A2: A14.
Argüman "Dizi 2" - ikinci değer aralığı - onarım maliyeti: B2:B14. Tamam'ı tıklayın.

Bağlantı türünü belirlemek için, katsayının mutlak sayısına bakmanız gerekir (her faaliyet alanının kendi ölçeği vardır).

Birkaç parametrenin (2'den fazla) korelasyon analizi için "Veri Analizi" ("Analiz Paketi" eklentisi) kullanmak daha uygundur. Listede bir korelasyon seçmeniz ve bir dizi belirlemeniz gerekir. Tüm.

Ortaya çıkan katsayılar korelasyon matrisinde görüntülenecektir. Bunun gibi:

korelasyon-regresyon analizi

Pratikte bu iki teknik sıklıkla birlikte kullanılmaktadır.

Örnek:

Artık regresyon analizi verileri görülebilir.

İstatistiksel veri işleme, eklenti kullanılarak da gerçekleştirilebilir. ANALİZ PAKETİ(Şek. 62).

Önerilen öğelerden öğeyi seçin " GERİLEME” ve farenin sol tuşu ile üzerine tıklayın. Ardından, Tamam'ı tıklayın.

Şekil l'de gösterilen pencere 63.

Analiz Aracı « GERİLEME» en küçük kareler yöntemini kullanarak bir grafiği bir dizi gözleme sığdırmak için kullanılır. Regresyon, bir veya daha fazla bağımsız değişkenin değerlerinin tek bir bağımlı değişken üzerindeki etkisini analiz etmek için kullanılır. Örneğin, bir sporcunun atletik performansı yaş, boy ve kilo dahil olmak üzere çeşitli faktörlerden etkilenir. Bu üç faktörün her birinin bir sporcunun performansı üzerindeki etki derecesini hesaplamak ve daha sonra elde edilen verileri başka bir sporcunun performansını tahmin etmek için kullanmak mümkündür.

Regresyon aracı işlevi kullanır DOT.

REGRESS İletişim Kutusu

Etiketler Giriş aralığının ilk satırı veya ilk sütunu başlık içeriyorsa onay kutusunu seçin. Başlık yoksa bu onay kutusunu temizleyin. Bu durumda çıktı tablosu verileri için uygun başlıklar otomatik olarak oluşturulacaktır.

Güvenilirlik Düzeyi Çıktı toplamları tablosuna ek bir düzey eklemek için onay kutusunu seçin. Uygun alana, varsayılan %95 güven düzeyine ek olarak uygulamak istediğiniz güven düzeyini girin.

Sabit - sıfır Regresyon çizgisinin orijinden geçmesi için kutuyu işaretleyin.

Çıkış Aralığı Çıkış aralığının sol üst hücresine bir referans girin. Sonuçların çıktı tablosu için aşağıdakileri içerecek en az yedi sütun tahsis edin: varyans analizinin sonuçları, katsayılar, Y hesaplamasının standart hatası, standart sapmalar, gözlem sayısı, katsayılar için standart hatalar.

Yeni Çalışma Sayfası Çalışma kitabında yeni bir çalışma sayfası açmak ve analiz sonuçlarını A1 hücresinden başlayarak eklemek için bu kutuyu işaretleyin. Gerekirse, uygun radyo düğmesi konumunun karşısındaki alana yeni sayfa için bir ad girin.

Yeni Çalışma Kitabı Sonuçların yeni bir sayfaya ekleneceği yeni bir çalışma kitabı oluşturmak için bu kutuyu işaretleyin.

Artıklar Artıkları çıktı tablosuna dahil etmek için onay kutusunu seçin.

Standartlaştırılmış Artıklar Çıktı tablosuna standartlaştırılmış artıkları dahil etmek için onay kutusunu seçin.

Artık Grafik Her bir bağımsız değişken için artıkları çizmek için kutuyu işaretleyin.

Grafiği Sığdır Gözlenen değerlere karşı tahmin edilen değerleri çizmek için onay kutusunu seçin.

Normal Olasılık Grafiği Normal olasılığı çizmek için kutuyu işaretleyin.

İşlev DOT

Hesaplama yapmak için ortalama değeri göstermek istediğimiz hücreyi imleç ile seçin ve klavyeden = tuşuna basın. Ardından, Ad alanında istediğiniz işlevi belirtin, örneğin ORTALAMA(Şek. 22).

İşlev DOT mevcut verilere en iyi yaklaşan düz bir çizgiyi hesaplamak için en küçük kareler yöntemini kullanarak bir serinin istatistiklerini hesaplar ve ardından elde edilen düz çizgiyi açıklayan bir dizi döndürür. Ayrıca işlevi birleştirebilirsiniz DOT polinom, logaritmik, üstel ve kuvvet serileri dahil olmak üzere bilinmeyen parametrelerde (bilinmeyen parametreleri doğrusal olan) doğrusal olan diğer model türlerini hesaplamak için diğer işlevlerle birlikte. Bir dizi değer döndürüldüğünden, işlev bir dizi formülü olarak belirtilmelidir.

Düz bir çizginin denklemi:

y=m 1 x 1 +m 2 x 2 +…+b (birkaç x değeri aralığı olması durumunda),

burada bağımlı değer y bağımsız değer x'in bir fonksiyonudur, m değerleri her x bağımsız değişkenine karşılık gelen katsayılardır ve b bir sabittir. y, x ve m'nin vektör olabileceğine dikkat edin. İşlev DOT bir dizi döndürür(mn;mn-1;…;m 1 ;b). DOT ek regresyon istatistikleri de döndürebilir.

DOT(bilinen_y-değerleri; bilinen_x-değerleri; sabit; istatistikler)

Bilinen_y değerleri - y=mx+b ilişkisi için zaten bilinen y değerleri kümesi.

Bilinen_y dizisinin bir sütunu varsa, bilinen_x dizisinin her sütunu ayrı bir değişken olarak yorumlanır.

Bilinen_y dizisinin bir satırı varsa, bilinen_x dizisinin her satırı ayrı bir değişken olarak yorumlanır.

Bilinen_x değerleri - y=mx+b ilişkisi için zaten bilinen isteğe bağlı bir x değerleri kümesi.

Bilinen_x dizisi, bir veya daha fazla değişken kümesi içerebilir. Yalnızca bir değişken kullanılırsa, aynı boyuta sahip oldukları sürece diziler_bilinen_y_değerler ve bilinen_x_değerler herhangi bir şekilde olabilir. Birden fazla değişken kullanılıyorsa, bilinen_y'ler bir vektör olmalıdır (yani, bir satır yüksekliğinde veya bir sütun genişliğinde).

Dizi_bilinen_x atlanırsa, bu dizinin (1;2;3;...) dizi_bilinen_y ile aynı boyutta olduğu varsayılır.

Sabit, b sabitinin 0 olması gerekip gerekmediğini belirten bir boole değeridir.

"const" bağımsız değişkeni DOĞRU ise veya atlanmışsa, b sabiti normal olarak değerlendirilir.

"const" argümanı YANLIŞ ise, b'nin değerinin 0 olduğu varsayılır ve m'nin değerleri, y=mx ilişkisini sağlayacak şekilde seçilir.

İstatistikler, ek regresyon istatistiklerinin döndürülüp döndürülmeyeceğini gösteren bir Boolean değeridir.

İstatistikler DOĞRU ise DOT, ek regresyon istatistikleri döndürür. Dönen dizi şöyle görünecektir: (mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r2;sey:F;df:ssreg;ssresid).

İstatistik YANLIŞ ise veya atlanmışsa, DOT yalnızca m katsayılarını ve b sabitini döndürür.

Ek regresyon istatistikleri (Tablo 17)

Değer	Tanım
se1,se2,...,sen	m1,m2,...,mn katsayıları için standart hata değerleri.
seb	b sabiti için standart hata ('sabit' YANLIŞ ise seb = #YOK).
r2	Belirleme katsayısı. y'nin gerçek değerleri, düz çizgi denkleminden elde edilen değerlerle karşılaştırılır; karşılaştırma sonuçlarına göre, determinizm katsayısı hesaplanır, 0'dan 1'e normalleştirilir. 1'e eşitse, o zaman modelle tam bir korelasyon vardır, yani gerçek ve tahmin edilen değerler arasında fark yoktur y. Aksi takdirde, determinizm katsayısı 0 ise, y değerlerini tahmin etmek için regresyon denklemini kullanmanın bir anlamı yoktur. r2'nin nasıl hesaplanacağı hakkında daha fazla bilgi için, bu bölümün sonundaki "Açıklamalar" bölümüne bakın.
sey	y tahmini için standart hata.
F	F-istatistik veya F-gözlemlenen değer. F istatistiği, bağımlı ve bağımsız değişkenler arasında gözlenen bir ilişkinin rastgele olup olmadığını belirlemek için kullanılır.
df	Özgürlük derecesi. Serbestlik dereceleri, istatistiksel bir tabloda F-kritik değerleri bulmak için kullanışlıdır. Modelin güven düzeyini belirlemek için tablodaki değerleri LINEST tarafından döndürülen F istatistiği ile karşılaştırmalısınız. df'nin hesaplanması hakkında daha fazla bilgi için bu bölümün sonundaki "Açıklamalar" bölümüne bakın. Aşağıdaki Örnek 4, F ve df'nin kullanımını göstermektedir.
ssreg	Regresyon kareler toplamı.
ssresid	Artık kareler toplamı. ssreg ve ssresid'in hesaplanması hakkında daha fazla bilgi için bu bölümün sonundaki "Açıklamalar" bölümüne bakın.

Aşağıdaki şekil, ek regresyon istatistiklerinin döndürülme sırasını göstermektedir (Şekil 64).

notlar:

Herhangi bir düz çizgi, eğimi ve y ekseni ile kesişimi ile tanımlanabilir:

Eğim (m): genellikle m ile gösterilen bir doğrunun eğimini belirlemek için, doğru üzerinde (x 1 ,y 1) ve (x 2 ,y 2) iki nokta almanız gerekir; eğim (y 2 -y 1) / (x 2 -x 1)'e eşit olacaktır.

Y kesişimi (b): Bir doğrunun y kesişimi, genellikle b ile gösterilir, doğrunun y eksenini kestiği noktanın y değeridir.

Düz çizgi denklemi y=mx+b biçimindedir. m ve b'nin değerleri biliniyorsa, doğru üzerindeki herhangi bir nokta, denklemde y veya x değerleri yerine yazılarak hesaplanabilir. TREND işlevini de kullanabilirsiniz.

Yalnızca bir bağımsız değişken x varsa, aşağıdaki formülleri kullanarak doğrudan eğimi ve y-kesişimini elde edebilirsiniz:

Eğim: DİZİN(DOT(bilinen_y'ler, bilinen_x'ler), 1)

Y-kesme noktası: DİZİN(DOT(bilinen_y'ler, bilinen_x'ler), 2)

DOT işlevi tarafından hesaplanan düz çizgi kullanılarak yapılan yaklaşımın doğruluğu, veri dağılımının derecesine bağlıdır. Veriler düz bir çizgiye ne kadar yakınsa, DOT tarafından kullanılan model o kadar doğru olur. DOT işlevi, verilere en uygun olanı belirlemek için en küçük kareler yöntemini kullanır. Yalnızca bir bağımsız değişken olduğunda x, m ve b aşağıdaki formüller kullanılarak hesaplanır:

burada x ve y örnek araçlardır, örneğin x = ORTALAMA(bilinen_x'ler) ve y = ORTALAMA(bilinen_y'ler).

DOT ve LGRFPRIBL sığdırma işlevleri, verilere en iyi uyan düz veya üstel bir eğri hesaplayabilir. Ancak sorunun çözümü için iki sonuçtan hangisinin daha uygun olduğu sorusuna cevap vermiyorlar. Düz bir çizgi için TREND(bilinen_y-değerleri; bilinen_x-değerleri) işlevini veya bir üstel eğri için BÜYÜME(bilinen_y-değerleri; bilinen_x-değerleri) işlevini de hesaplayabilirsiniz. Bu işlevler, new_x_values argümanından atlanırsa, düz bir çizgiye veya eğriye göre gerçek x değerleri için hesaplanan y değerleri dizisi döndürür. Daha sonra hesaplanan değerleri gerçek değerlerle karşılaştırabilirsiniz. Görsel karşılaştırma için grafikler de oluşturabilirsiniz.

Bir regresyon analizi gerçekleştirirken Microsoft Excel, her nokta için tahmin edilen y değeri ile gerçek y değeri arasındaki farkın karesini hesaplar. Bu kare farkların toplamına artık kareler toplamı (ssresid) denir. Microsoft Excel daha sonra toplam kareler toplamını (sstotal) hesaplar. const = DOĞRU ise veya bu argüman belirtilmemişse, toplam kareler toplamı, gerçek y değerleri ile ortalama y değerlerinin kareleri alınmış farklarının toplamına eşit olacaktır. sabit = YANLIŞ ise, kareler toplamı gerçek y değerlerinin karelerinin toplamına eşit olacaktır (ortalama y'yi y bölümünden çıkarmadan). Bundan sonra karelerin regresyon toplamı şu şekilde hesaplanabilir: ssreg = sstotal - ssresid. Artık kareler toplamı ne kadar küçükse, determinizm katsayısı r2'nin değeri o kadar büyük olur; bu, regresyon analizi kullanılarak elde edilen denklemin değişkenler arasındaki ilişkileri ne kadar iyi açıkladığını gösterir. r2 katsayısı ssreg/sstotal'a eşittir.

Bazı durumlarda, bir veya daha fazla X sütunu (Y ve X değerlerinin sütunlarda olduğu varsayılarak) diğer X sütunlarında ek bir öngörü değerine sahip değildir, başka bir deyişle, bir veya daha fazla X sütununun silinmesi, Y değerlerinin ortaya çıkmasına neden olabilir. aynı hassasiyetle hesaplanır. Bu durumda, gereksiz X sütunları regresyon modelinden çıkarılacaktır. Bu fenomene "eşdoğrusallık" denir, çünkü X'in gereksiz sütunları birkaç yedeksiz sütunun toplamı olarak temsil edilebilir. DOT, eşdoğrusallığı kontrol eder ve herhangi bir gereksiz X sütunu bulursa, regresyon modelinden kaldırır. Kaldırılan X sütunlar, DOT çıktısında 0 faktörü ve se değeri 0 ile tanımlanabilir. Bir veya daha fazla sütunun fazlalık olarak kaldırılması, df'nin değerini değiştirir çünkü bu, gerçekte tahmin amaçlı kullanılan X sütun sayısına bağlıdır. Df'nin hesaplanmasıyla ilgili daha fazla ayrıntı için aşağıdaki Örnek 4'e bakın.Gereksiz sütunların kaldırılması nedeniyle df değiştiğinde, sey ve F değerleri de değişir. Doğrusallığın kullanılması genellikle önerilmez. Ancak deney konusunun ayrı bir grupta olup olmadığının göstergesi olarak bazı X sütunlarında 0 veya 1 bulunuyorsa kullanılmalıdır. const = TRUE ise veya bu bağımsız değişken belirtilmemişse DOT, kesişme noktasını simüle etmek için ek bir X sütunu ekler. Erkekler için 1, kadınlar için 0 değerlerine sahip bir sütun varsa ve kadınlar için 1 ve erkekler için 0 değerlerine sahip bir sütun varsa, son sütun kaldırılır çünkü değerleri şu adresten alınabilir: "erkek göstergesi" sütunu.

Eşdoğrusallık nedeniyle X sütunun modelden çıkarılmadığı durumlar için df'nin hesaplanması şu şekildedir: k bilinen_x sütun varsa ve const = DOĞRU veya belirtilmemişse df = n - k - 1. const = YANLIŞ ise, o zaman df = n -k. Her iki durumda da, eşdoğrusallık nedeniyle X sütunlarının kaldırılması, df'nin değerini 1 artırır.

Dizi döndüren formüller, dizi formülleri olarak girilmelidir.

Örneğin, bir bilinen_x_değerler argümanı olarak bir sabit dizisi girerken, aynı satırdaki değerleri ayırmak için noktalı virgül, satırları ayırmak için iki nokta üst üste kullanın. Ayırıcı karakterler, kontrol panelindeki "Dil ve Standartlar" penceresindeki ayarlara bağlı olarak değişebilir.

Regresyon denkleminin öngördüğü y değerlerinin, denklemi tanımlamak için kullanılan y değerleri aralığının dışında olmaları durumunda doğru olmayabileceğini unutmayın.

Fonksiyonda kullanılan ana algoritma DOT, fonksiyonların ana algoritmasından farklıdır EĞİM Ve ÇİZGİ SEGMENTİ. Algoritmalar arasındaki farklılıklar, belirsiz ve eşdoğrusal veriler için farklı sonuçlara yol açabilir. Örneğin, bilinen_y bağımsız değişkeninin veri noktaları 0 ise ve bilinen_x bağımsız değişkeninin veri noktaları 1 ise, o zaman:

İşlev DOT 0'a eşit bir değer döndürür. İşlev algoritması DOT eşdoğrusal veriler için uygun değerleri döndürmek için kullanılır, bu durumda en az bir cevap bulunabilir.

EĞİM ve KESME İŞLEVLERİ #SAYI/0! hatası verir. SLOPE ve INTERCEPT fonksiyonlarının algoritması sadece bir cevap bulmak için kullanılır ve bu durumda birkaç cevap olabilir.

Diğer regresyon türleri için istatistiklerin hesaplanmasına ek olarak, DOT, x ve y değişkenlerinin fonksiyonlarını DOT için bir dizi x ve y değişkeni olarak girerek diğer regresyon türlerinin aralıklarını hesaplamak için kullanılabilir. Örneğin, aşağıdaki formül:

DOT(y-değerleri, x-değerleri^SÜTUN($A:$C))

aşağıdaki formun bir küp yaklaşımını (3. derece polinom) hesaplamak için bir Y değerleri sütunu ve bir X değerleri sütunu ile çalışır:

y=m 1 x+m 2 x 2 +m 3 x 3 +b

Formül, diğer regresyon türlerinin hesaplamaları için değiştirilebilir, ancak bazı durumlarda çıktı değerlerinde ve diğer istatistiklerde ayarlamalar yapılması gerekir.

Önceki notlarda, yatırım fonu getirileri, Web sayfası yükleme süresi veya alkolsüz içecek tüketimi gibi tek bir sayısal değişkene odaklanılmıştır. Bu ve sonraki notlarda, bir veya daha fazla sayısal değişkenin değerlerine bağlı olarak sayısal bir değişkenin değerlerini tahmin etme yöntemlerini ele alacağız.

Materyal, bir örnekle açıklanacaktır. Bir giyim mağazasında satış hacmini tahmin etmek. Sunflowers indirimli giyim mağazaları zinciri 25 yıldır sürekli genişlemektedir. Ancak, şirketin şu anda yeni satış noktaları seçmek için sistematik bir yaklaşımı yok. Şirketin yeni bir mağaza açmayı planladığı yer, sübjektif değerlendirmelere göre belirlenir. Seçim kriterleri, uygun kiralama koşulları veya yöneticinin mağazanın ideal konumu hakkındaki fikridir. Düşünün ki Özel Projeler ve Planlama Dairesi başkanısınız. Yeni mağazalar açmak için stratejik bir plan geliştirmekle görevlendirildiniz. Bu plan, yeni açılan mağazalardaki yıllık satış tahminini içermelidir. Satış alanı satışlarının doğrudan gelirle ilgili olduğuna inanıyor ve bu gerçeği karar verme sürecinize dahil etmek istiyorsunuz. Yeni mağaza büyüklüğüne göre yıllık satışları tahmin eden istatistiksel bir modeli nasıl geliştirirsiniz?

Tipik olarak, bir değişkenin değerlerini tahmin etmek için regresyon analizi kullanılır. Amacı, bağımlı değişkenin veya yanıtın değerlerini en az bir bağımsız veya açıklayıcı değişkenin değerlerinden tahmin eden istatistiksel bir model geliştirmektir. Bu notta, bağımlı değişkenin değerlerini tahmin etmenizi sağlayan istatistiksel bir yöntem olan basit bir doğrusal regresyonu ele alacağız. Y bağımsız değişkenin değerlerine göre X. Aşağıdaki notlar, bağımsız değişkenin değerlerini tahmin etmek için tasarlanmış bir çoklu regresyon modelini açıklayacaktır. Y birkaç bağımlı değişkenin değerlerine göre ( X 1 , X 2 , …, X k).

Notu veya formatında indirin, formatta örnekler

Regresyon modeli türleri

Nerede ρ 1 otokorelasyon katsayısıdır; Eğer ρ 1 = 0 (otokorelasyon yok), D≈ 2; Eğer ρ 1 ≈ 1 (pozitif otokorelasyon), D≈ 0; Eğer ρ 1 = -1 (negatif otokorelasyon), D ≈ 4.

Uygulamada, Durbin-Watson kriterinin uygulanması, değerin karşılaştırılmasına dayanır. D kritik teorik değerlerle d L Ve d sen belirli sayıda gözlem için N, modelin bağımsız değişken sayısı k(basit doğrusal regresyon için k= 1) ve anlamlılık düzeyi α. Eğer D< d L , rastgele sapmaların bağımsızlığı hipotezi reddedilir (dolayısıyla, pozitif bir otokorelasyon vardır); Eğer D > d U, hipotez reddedilmez (yani otokorelasyon yoktur); Eğer d L< D < d U karar vermek için yeterli sebep yoktur. Hesaplanan değer D 2'yi aşıyor, o zaman d L Ve d sen karşılaştırılan katsayının kendisi değildir D ve ifade (4 – D).

Durbin-Watson istatistiklerini Excel'de hesaplamak için, Şekil 1'deki alt tabloya dönüyoruz. 14 Bakiye çekme. İfadedeki (10) pay, = TOPLAKDIFF(dizi1, dizi2) ve payda = TOPLAM(dizi) işlevi kullanılarak hesaplanır (Şekil 16).

Pirinç. 16. Durbin-Watson istatistiklerini hesaplama formülleri

bizim örneğimizde D= 0.883. Ana soru şudur: Durbin-Watson istatistiğinin hangi değeri, pozitif bir otokorelasyon olduğu sonucuna varmak için yeterince küçük kabul edilmelidir? D değerini kritik değerlerle ilişkilendirmek gerekir ( d L Ve d sen) gözlem sayısına bağlı olarak N ve anlamlılık düzeyi α (Şekil 17).

Pirinç. 17. Durbin-Watson istatistiklerinin kritik değerleri (tablo parçası)

Bu nedenle, evinize mal teslim eden bir mağazadaki satış hacmi probleminde bir bağımsız değişken vardır ( k= 1), 15 gözlem ( N= 15) ve anlamlılık seviyesi α = 0.05. Buradan, d L= 1.08 ve Dsen= 1.36. Çünkü D = 0,883 < d L= 1.08, artıklar arasında pozitif otokorelasyon vardır, en küçük kareler yöntemi uygulanamaz.

Eğim ve Korelasyon Katsayısı Hakkında Hipotezlerin Test Edilmesi

Yukarıdaki regresyon yalnızca tahmin için uygulanmıştır. Regresyon katsayılarını belirlemek ve bir değişkenin değerini tahmin etmek Y belirli bir değişken değeri için X en küçük kareler yöntemi kullanıldı. Ek olarak, tahminin standart hatasını ve karma korelasyon katsayısını da dikkate aldık. Kalıntı analizi, en küçük kareler yönteminin uygulanabilirlik koşullarının ihlal edilmediğini ve basit doğrusal regresyon modelinin yeterli olduğunu teyit ediyorsa, örneklem verilerine dayanarak, popülasyondaki değişkenler arasında doğrusal bir ilişki olduğu söylenebilir.

BaşvuruT - eğim kriterleri. Nüfus eğimi β 1'in sıfıra eşit olup olmadığı kontrol edilerek, değişkenler arasında istatistiksel olarak anlamlı bir ilişki olup olmadığı belirlenebilir. X Ve Y. Bu hipotez reddedilirse, değişkenler arasında X Ve Y doğrusal bir ilişki vardır. Boş ve alternatif hipotezler şu şekilde formüle edilmiştir: H 0: β 1 = 0 (doğrusal ilişki yok), H1: β 1 ≠ 0 (doğrusal ilişki var). bir manastır T-istatistik, numune eğimi ile varsayımsal popülasyon eğimi arasındaki farkın eğim tahmininin standart hatasına bölünmesine eşittir:

(11) T = (B 1 – β 1 ) / Şb 1

Nerede B 1 örnek verilere dayalı doğrudan regresyonun eğimi, β1 doğrudan genel popülasyonun varsayımsal eğimi, ve test istatistikleri T sahip T- ile dağıtım n - 2özgürlük derecesi.

α = 0.05'te mağaza büyüklüğü ile yıllık satışlar arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını kontrol edelim. T-kriter kullanılırken diğer parametrelerle birlikte görüntülenir Analiz paketi(seçenek gerileme). Analiz Paketinin tüm sonuçları Şekil 1'de gösterilmektedir. 4, t-istatistikleri ile ilgili bir parça - Şek. 18.

Pirinç. 18. Başvuru sonuçları T

Çünkü mağaza sayısı N= 14 (bkz. Şekil 3), kritik değer T- α = 0.05 anlamlılık seviyesindeki istatistikler aşağıdaki formülle bulunabilir: t L=STUDENT.INV(0,025;12) = -2,1788 burada 0,025 anlamlılık düzeyinin yarısıdır ve 12 = N – 2; t sen\u003d ÖĞRENCİ.TERS (0,975, 12) \u003d +2,1788.

Çünkü T-istatistik = 10.64 > t sen= 2.1788 (Şekil 19), sıfır hipotezi H 0 reddedildi. Diğer tarafta, R için değer X\u003d 10.6411, \u003d 1-STUDENT.DAĞ (D3, 12, DOĞRU) formülü ile hesaplanır, yaklaşık olarak sıfıra eşittir, bu nedenle hipotez H 0 tekrar reddedilir. Gerçek şu ki R-değer neredeyse sıfırdır, yani mağaza büyüklüğü ile yıllık satışlar arasında gerçek bir doğrusal ilişki olmasaydı, onu doğrusal regresyon kullanarak bulmak neredeyse imkansız olurdu. Bu nedenle, ortalama yıllık mağaza satışları ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı bir doğrusal ilişki vardır.

Pirinç. 19. Genel popülasyonun eğimi hakkındaki hipotezin 0,05 anlamlılık düzeyinde ve 12 serbestlik derecesinde test edilmesi

BaşvuruF - eğim kriterleri. Basit bir doğrusal regresyonun eğimi hakkındaki hipotezleri test etmek için alternatif bir yaklaşım, F-kriter. Hatırlamak F-ölçüt, iki varyans arasındaki ilişkiyi test etmek için kullanılır (ayrıntılara bakın). Eğim hipotezini test ederken, rastgele hataların ölçüsü hata varyansıdır (hataların karelerinin toplamı bölü serbestlik derecesi), bu nedenle F-test, regresyon tarafından açıklanan varyansın oranını kullanır (yani, değerler SSR bağımsız değişken sayısına bölünür k), hata varyansına ( MSE=SYX 2 ).

bir manastır F-istatistik, hata varyansına (MSE) bölünen regresyondan (MSR) kaynaklanan ortalama kare sapmalara eşittir: F = MSR/ MSE, Nerede MSR=SSR / k, MSE =SSE/(N– k – 1), k regresyon modelindeki bağımsız değişken sayısıdır. test istatistikleri F sahip F- ile dağıtım k Ve N– k – 1özgürlük derecesi.

Belirli bir önem düzeyi α için, karar kuralı şu şekilde formüle edilir: F > Ksen, sıfır hipotezi reddedilir; aksi takdirde reddedilmez. Varyans analizinin özet tablosu şeklinde sunulan sonuçlar, şekil 2'de gösterilmektedir. 20.

Pirinç. 20. Regresyon katsayısının istatistiksel anlamlılığının hipotezini test etmek için varyans analizi tablosu

benzer şekilde T-kriter F-kriter kullanırken tabloda görüntülenir Analiz paketi(seçenek gerileme). Çalışmanın tam sonuçları Analiz paketiŞek. 4, ilgili parça F-istatistikler - Şek. 21.

Pirinç. 21. Başvuru sonuçları F- Excel Analysis ToolPack kullanılarak elde edilen kriterler

F-istatistik 113.23 ve R sıfıra yakın değer (hücre önemiF). Anlamlılık düzeyi α 0,05 ise, kritik değeri belirleyin F-1 ve 12 serbestlik dereceli dağılımlar formülden elde edilebilir FU\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (Şek. 22). Çünkü F = 113,23 > FU= 4,7472 ve R-değer 0'a yakın< 0,05, нулевая гипотеза H 0 sapar, yani Bir mağazanın büyüklüğü, yıllık satış hacmi ile yakından ilişkilidir.

Pirinç. 22. Genel popülasyonun eğimi hakkındaki hipotezin 0,05 anlamlılık düzeyinde, bir ve 12 serbestlik derecesiyle test edilmesi

Eğim β 1 içeren güven aralığı. Değişkenler arasında doğrusal bir ilişkinin varlığına ilişkin hipotezi test etmek için, β 1 eğimini içeren bir güven aralığı oluşturabilir ve β 1 = 0 varsayımsal değerinin bu aralığa ait olduğundan emin olabilirsiniz. β 1 eğimini içeren güven aralığının merkezi örnek eğimdir B 1 ve sınırları miktarlardır 1 ±t n –2 Şb 1

Şek. 18, B 1 = +1,670, N = 14, Şb 1 = 0,157. T 12 \u003d ÖĞRENCİ.OBR (0.975, 12) \u003d 2.1788. Buradan, 1 ±t n –2 Şb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 veya + 1,328 ≤ β 1 ≤ +2,012. Böylece, popülasyonun 0,95 olasılıkla eğimi +1,328 ila +2,012 aralığındadır (yani, 1.328.000 ila 2.012.000 ABD Doları). Bu değerler sıfırdan büyük olduğu için yıllık satışlar ile mağaza alanı arasında istatistiksel olarak anlamlı doğrusal bir ilişki vardır. Güven aralığı sıfır içeriyorsa, değişkenler arasında herhangi bir ilişki olmayacaktır. Ek olarak, güven aralığı, her 1.000 metrekarede bir anlamına gelir. feet, ortalama satışlarda 1.328.000 $'lık artışla 2.012.000 $'a çıkıyor.

KullanımT - korelasyon katsayısı için kriterler. korelasyon katsayısı tanıtıldı R, iki sayısal değişken arasındaki ilişkinin bir ölçüsüdür. İki değişken arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını belirlemek için kullanılabilir. Her iki değişkenin popülasyonları arasındaki korelasyon katsayısını ρ sembolü ile gösterelim. Sıfır ve alternatif hipotezler aşağıdaki gibi formüle edilmiştir: H 0: ρ = 0 (korelasyon yok), H 1: ρ ≠ 0 (bir korelasyon vardır). Bir korelasyonun varlığının kontrol edilmesi:

Nerede R = + , Eğer B 1 > 0, R = – , Eğer B 1 < 0. Тестовая статистика T sahip T- ile dağıtım n - 2özgürlük derecesi.

Sunflowers mağaza zinciri probleminde r2= 0.904 ve b 1- +1.670 (bkz. Şekil 4). Çünkü b 1> 0, yıllık satışlar ile mağaza büyüklüğü arasındaki korelasyon katsayısı R= +√0,904 = +0,951. Bu değişkenler arasında hiçbir korelasyon olmadığına dair sıfır hipotezini test edelim. T- İstatistik:

α = 0.05 anlamlılık düzeyinde, sıfır hipotezi reddedilmelidir çünkü T= 10.64 > 2.1788. Dolayısıyla yıllık satışlar ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı bir ilişki olduğu söylenebilir.

Popülasyon eğimleri hakkındaki çıkarımları tartışırken, hipotezleri test etmek için güven aralıkları ve kriterler birbirinin yerine kullanılabilen araçlardır. Ancak korelasyon katsayısını içeren güven aralığının hesaplanması istatistiğin örnekleme dağılımının şekli nedeniyle daha zor olmaktadır. R gerçek korelasyon katsayısına bağlıdır.

Matematiksel beklenti tahmini ve bireysel değerlerin tahmini

Bu bölüm, beklenen yanıtı tahmin etme yöntemlerini tartışmaktadır. Y ve bireysel değerlerin tahminleri Y değişkenin verilen değerleri için X.

Bir güven aralığının oluşturulması.Örnek 2'de (yukarıdaki bölüme bakın) en küçük kareler yöntemi) regresyon denklemi, değişkenin değerini tahmin etmeyi mümkün kıldı Y X. Bir perakende satış yeri için yer seçme probleminde, 4000 metrekare alana sahip bir mağazada yıllık ortalama satış fit 7.644 milyon dolara eşitti.Ancak, genel nüfusun matematiksel beklentisinin bu tahmini bir noktadır. genel popülasyonun matematiksel beklentisini tahmin etmek için bir güven aralığı kavramı önerildi. Benzer şekilde, bir kavram tanıtılabilir Yanıtın matematiksel beklentisi için güven aralığı bir değişkenin belirli bir değeri için X:

Nerede , = B 0 + B 1 X ben– tahmin edilen değer değişkeni Y de X = X ben, S YX ortalama kare hatasıdır, Nörneklem büyüklüğüdür, XBen- değişkenin verilen değeri X, µ Y|X = XBen– bir değişkenin matematiksel beklentisi Y de X = Ben,SSX=

Formül (13)'ün analizi, güven aralığının genişliğinin birkaç faktöre bağlı olduğunu göstermektedir. Belirli bir anlamlılık düzeyinde, ortalama kare hatası kullanılarak ölçülen, regresyon çizgisi etrafındaki dalgalanmaların genliğinde bir artış, aralığın genişliğinde bir artışa yol açar. Öte yandan, beklendiği gibi, örneklem büyüklüğündeki bir artışa aralığın daralması eşlik etmektedir. Ayrıca değerlere bağlı olarak aralığın genişliği de değişmektedir. XBen. Değişkenin değeri ise Y miktarlar için tahmin X, ortalama değere yakın , güven aralığı, ortalamadan uzak değerler için yanıtı tahmin ederken olduğundan daha dar çıkıyor.

Bir mağaza için yer seçerken 4000 metrekare alana sahip tüm mağazalarda yıllık ortalama satışlar için %95 güven aralığı oluşturmak istiyoruz diyelim. ayak:

Dolayısıyla 4.000 metrekare alana sahip tüm mağazalarda yıllık ortalama satış hacmi. feet, %95 olasılıkla 6.971 ile 8.317 milyon dolar aralığında yer alıyor.

Öngörülen değer için güven aralığını hesaplayın. Değişkenin belirli bir değeri için yanıtın matematiksel beklentisi için güven aralığına ek olarak X tahmin edilen değer için güven aralığını bilmek genellikle gereklidir. Böyle bir güven aralığını hesaplamak için kullanılan formül, formül (13)'e çok benzer olsa da, bu aralık tahmin edilen bir değeri içerir ve parametrenin bir tahminini içermez. Öngörülen yanıt aralığı YX = Xi değişkenin belirli bir değeri için XBen formül ile belirlenir:

Bir perakende satış yeri için yer seçerken, 4000 metrekare alana sahip bir mağazada öngörülen yıllık satış hacmi için %95'lik bir güven aralığı oluşturmak istediğimizi varsayalım. ayak:

Bu nedenle, 4.000 metrekarelik bir alan için öngörülen yıllık satış hacmi. feet, %95 olasılıkla 5,433 ile 9,854 milyon dolar aralığında yer almaktadır.Gördüğünüz gibi, tahmin edilen yanıt değerinin güven aralığı, matematiksel beklentisinin güven aralığından çok daha geniştir. Bunun nedeni, bireysel değerleri tahmin etmedeki değişkenliğin, beklenen değeri tahmin etmekten çok daha fazla olmasıdır.

Regresyon kullanımıyla ilgili tuzaklar ve etik sorunlar

Regresyon analizi ile ilgili zorluklar:

En küçük kareler yönteminin uygulanabilirlik koşullarının göz ardı edilmesi.
En küçük kareler yönteminin uygulanabilirlik koşullarının hatalı bir tahmini.
En küçük kareler yönteminin uygulanabilirlik koşullarına aykırı olarak alternatif yöntemlerin yanlış seçimi.
Çalışma konusu hakkında derinlemesine bilgi sahibi olmadan regresyon analizinin uygulanması.
Açıklayıcı değişken aralığının ötesinde regresyonun ekstrapolasyonu.
İstatistiksel ve nedensel ilişkiler arasındaki karışıklık.

Elektronik tabloların ve istatistiksel yazılımların yaygın kullanımı, regresyon analizinin kullanılmasını engelleyen hesaplama problemlerini ortadan kaldırmıştır. Ancak bu durum regresyon analizinin yeterli nitelik ve bilgiye sahip olmayan kullanıcılar tarafından da kullanılmaya başlamasına neden olmuştur. Birçoğunun en küçük kareler yönteminin uygulanabilirlik koşulları hakkında hiçbir fikri yoksa ve uygulamalarını nasıl kontrol edeceklerini bilmiyorsa, kullanıcılar alternatif yöntemleri nasıl bilebilirler?

Araştırmacı, sayıları taşlayarak - kayma, eğim ve karışık korelasyon katsayısını hesaplayarak - kendini kaptırmamalıdır. Daha derin bilgiye ihtiyacı var. Bunu ders kitaplarından alınan klasik bir örnekle açıklayalım. Anscombe, Şekil 1'de gösterilen dört veri setinin hepsinin olduğunu gösterdi. 23 aynı regresyon parametrelerine sahiptir (Şekil 24).

Pirinç. 23. Dört yapay veri seti

Pirinç. 24. Dört yapay veri setinin regresyon analizi; ile yapılır Analiz paketi(resmi büyütmek için resmin üzerine tıklayın)

Dolayısıyla, regresyon analizi açısından tüm bu veri kümeleri tamamen aynıdır. Analiz burada biterse, pek çok faydalı bilgiyi kaybederiz. Bu, bu veri kümeleri için oluşturulan dağılım grafikleri (Şekil 25) ve artık grafikler (Şekil 26) ile kanıtlanmaktadır.

Pirinç. 25. Dört veri kümesi için dağılım grafikleri

Dağılım grafikleri ve kalıntı grafikleri, bu verilerin birbirinden farklı olduğunu göstermektedir. Düz bir çizgi boyunca dağıtılan tek küme, A kümesidir. A kümesinden hesaplanan artıkların grafiğinin bir modeli yoktur. Aynı şey B, C ve D kümeleri için söylenemez. B kümesi için çizilen dağılım grafiği, belirgin bir ikinci dereceden desen gösterir. Bu sonuç, parabolik bir şekle sahip artıkların çizimi ile doğrulanır. Dağılım grafiği ve kalıntı grafiği, veri kümesi B'nin bir aykırı değer içerdiğini gösterir. Bu durumda, aykırı değeri veri setinden çıkarmak ve analizi tekrarlamak gerekir. Gözlemlerdeki aykırı değerleri tespit etme ve ortadan kaldırma tekniğine etki analizi denir. Aykırı değer ortadan kaldırıldıktan sonra, modelin yeniden değerlendirilmesinin sonucu tamamen farklı olabilir. D veri kümesinden çizilen bir dağılım grafiği, ampirik modelin tek bir cevaba büyük ölçüde bağımlı olduğu alışılmadık bir durumu gösterir ( X 8 = 19, Y 8 = 12.5). Bu tür regresyon modellerinin özellikle dikkatli bir şekilde hesaplanması gerekir. Bu nedenle, saçılma ve kalıntı grafikleri, regresyon analizi için temel bir araçtır ve bunun ayrılmaz bir parçası olmalıdır. Onlar olmadan, regresyon analizi güvenilir değildir.

Pirinç. 26. Dört veri seti için artıkların grafikleri

Regresyon analizinde tuzaklardan nasıl kaçınılır:

Değişkenler arasındaki olası ilişkinin analizi X Ve Y her zaman bir dağılım grafiği ile başlayın.
Bir regresyon analizinin sonuçlarını yorumlamadan önce, uygulanabilirliği için koşulları kontrol edin.
Kalıntıları bağımsız değişkene karşı çizin. Bu, ampirik modelin gözlem sonuçlarına nasıl karşılık geldiğini belirlemeye ve varyansın sabitliğinin ihlalini tespit etmeye izin verecektir.
Hataların normal dağılımı varsayımını test etmek için histogramlar, gövde ve yaprak çizimleri, kutu çizimleri ve normal dağılım çizimlerini kullanın.
En küçük kareler yönteminin uygulanabilirlik koşulları sağlanmıyorsa alternatif yöntemler kullanın (örneğin, ikinci dereceden veya çoklu regresyon modelleri).
En küçük kareler yönteminin uygulanabilirlik koşulları sağlanıyorsa, regresyon katsayılarının istatistiksel anlamlılığına ilişkin hipotezin test edilmesi ve matematiksel beklenti ile tahmin edilen yanıt değerini içeren güven aralıklarının oluşturulması gerekir.
Bağımlı değişkenin değerlerini bağımsız değişkenin aralığı dışında tahmin etmekten kaçının.
İstatistiksel bağımlılıkların her zaman nedensel olmadığını unutmayın. Değişkenler arasındaki korelasyonun, aralarında nedensel bir ilişki olduğu anlamına gelmediğini unutmayın.

Özet. Blok diyagramda (Şekil 27) gösterildiği gibi, not basit bir doğrusal regresyon modelini, uygulanabilirlik koşullarını ve bu koşulları test etme yollarını açıklar. Dikkate alınan T- regresyonun eğiminin istatistiksel önemini test etme kriteri. Bağımlı değişkenin değerlerini tahmin etmek için bir regresyon modeli kullanılmıştır. Yıllık satış hacminin mağaza alanına bağımlılığının incelendiği bir perakende satış yeri için yer seçimi ile ilgili bir örnek ele alınmıştır. Elde edilen bilgiler, mağaza için daha doğru bir yer seçmenize ve yıllık satışlarını tahmin etmenize olanak tanır. Aşağıdaki notlarda, çoklu regresyon modellerinin yanı sıra regresyon analizi tartışması devam edecektir.

Pirinç. 27. Bir notun blok diyagramı

Levin ve diğerleri kitabından materyaller Yöneticiler için istatistikler kullanılır. - M.: Williams, 2004. - s. 792–872

Bağımlı değişken kategorik ise lojistik regresyon uygulanmalıdır.

İLİŞKİ-REGRESYON ANALİZİHANIM EXCEL

1. MS Excel'de bir kaynak veri dosyası oluşturun (örneğin, tablo 2)

2. Korelasyon alanının oluşturulması

Komut satırında bir korelasyon alanı oluşturmak için menüyü seçin Ekle / Diyagram. Görüntülenen iletişim kutusunda grafik türünü seçin: noktalı; görüş: dağılım grafiği, değer çiftlerini karşılaştırmanıza izin verir (Şek. 22).

Şekil 22 - Grafik türünün seçilmesi

Şekil 23 - Bir aralık ve seri seçerken pencerenin görünümü
Şekil 25 - Pencerenin görünümü, 4. adım

2. Bağlam menüsünde komutu seçin Trend çizgisi ekleyin.

3. Görünen iletişim kutusunda, Şekil 26'da gösterildiği gibi grafik tipini (bizim örneğimizde doğrusal) ve denklem parametrelerini seçin.

Tamam'a basıyoruz. Sonuç, Şekil 27'de gösterilmektedir.

Şekil 27 - Emek verimliliğinin sermaye-emek oranına bağımlılığının korelasyon alanı

Benzer şekilde, işgücü verimliliğinin ekipman kaydırma oranına bağımlılığı için bir korelasyon alanı oluşturuyoruz. (Şekil 28).

Şekil 28 - İşgücü verimliliğine bağımlılık korelasyon alanı

ekipman kaydırma faktöründen

3. Korelasyon matrisinin oluşturulması.

Menüde bir korelasyon matrisi oluşturmak için Hizmet seçmek Veri analizi.

Bir veri analiz aracı kullanma gerileme, regresyon istatistikleri, varyans analizi ve güven aralıklarının sonuçlarına ek olarak, regresyon çizgisinin artıklarını ve uydurma grafiklerini, artıkları ve normal olasılığı elde edebilirsiniz. Bunu yapmak için analiz paketine erişimi kontrol etmeniz gerekir. Ana menüden seçin Hizmet / Eklentiler. Onay kutusu Analiz paketi(Şekil 29)

Şekil 30 - İletişim kutusu Veri analizi

Tamam'ı tıklattıktan sonra, beliren iletişim kutusunda, Şekil 31'de gösterildiği gibi giriş aralığını (bizim örneğimizde A2: D26), gruplandırmayı (bizim durumumuzda sütunlara göre) ve çıkış parametrelerini belirtin.

Şekil 31 - İletişim kutusu korelasyon

Hesaplama sonucu Tablo 4'te sunulmuştur.

Tablo 4 - Korelasyon matrisi

	Sütun 1	Sütun 2	Sütun 3
Sütun 1
Sütun 2
Sütun 3

TEK DEĞİŞKENLİ REGRESYON ANALİZİ

REGRESYON ARACI KULLANIMI

Menüde emek verimliliğinin sermaye-emek oranına bağımlılığının regresyon analizini yapmak Hizmet seçmek Veri analizi ve analiz aracını belirtin gerileme(Şekil 32).

Şekil 33 - İletişim kutusu gerileme