• Regresní statistika v excelových závěrech. Základní regresní úlohy v Excelu: Příklad budování modelu

    KORELAČNÍ-REGRESNÍ ANALÝZA VSLEČNA VYNIKAT

    1. Vytvořte zdrojový datový soubor v MS Excel (například tabulka 2)

    2. Konstrukce korelačního pole

    Chcete-li vytvořit korelační pole v příkazovém řádku, vyberte nabídku Vložit / Diagram. V zobrazeném dialogovém okně vyberte typ grafu: tečkovaný; Pohled: bodový diagram, což vám umožní porovnávat dvojice hodnot (obr. 22).

    Obrázek 22 - Výběr typu grafu


    Obrázek 23 - Pohled na okno při výběru řady a série
    Obrázek 25 - Pohled na okno, krok 4

    2. V místní nabídce vyberte příkaz Přidejte trendovou linii.

    3. V zobrazeném dialogovém okně vyberte typ grafu (v našem příkladu lineární) a parametry rovnice, jak je znázorněno na obrázku 26.


    Stiskneme OK. Výsledek je znázorněn na obrázku 27.

    Obrázek 27 - Korelační pole závislosti produktivity práce na poměru kapitálu a práce

    Podobně konstruujeme korelační pole pro závislost produktivity práce na směnném poměru zařízení. (Obrázek 28).


    Obrázek 28 - Korelační pole závislosti produktivity práce

    z faktoru posunu zařízení

    3. Konstrukce korelační matice.

    Chcete-li vytvořit korelační matici v nabídce Servis Vybrat Analýza dat.

    Použití nástroje pro analýzu dat Regrese, kromě výsledků regresní statistiky, analýzy rozptylu a intervalů spolehlivosti můžete získat rezidua a prokládací grafy regresní přímky, rezidua a normální pravděpodobnost. Chcete-li to provést, musíte zkontrolovat přístup k analytickému balíčku. Z hlavní nabídky vyberte Služba / Doplňky. Zaškrtávací políčko Balíček analýzy(Obrázek 29)


    Obrázek 30 - Dialogové okno Analýza dat

    Po kliknutí na OK v zobrazeném dialogovém okně zadejte vstupní interval (v našem příkladu A2: D26), seskupení (v našem případě podle sloupců) a výstupní parametry, jak je znázorněno na obrázku 31.


    Obrázek 31 - Dialogové okno Korelace

    Výsledek výpočtu je uveden v tabulce 4.

    Tabulka 4 - Korelační matice

    Sloupec 1

    Sloupec 2

    Sloupec 3

    Sloupec 1

    Sloupec 2

    Sloupec 3

    JEDNOVARIANTNÍ REGRESNÍ ANALÝZA

    POUŽITÍ NÁSTROJE REGRESE

    V nabídce provést regresní analýzu závislosti produktivity práce na poměru kapitálu a práce Servis Vybrat Analýza dat a určit nástroj pro analýzu Regrese(Obrázek 32).


    Obrázek 33 - Dialogové okno Regrese

    Regresní analýza je jednou z nejpopulárnějších metod statistického výzkumu. Lze jím určit míru vlivu nezávislých proměnných na závisle proměnnou. Funkce Microsoft Excel má nástroje navržené k provádění tohoto typu analýzy. Pojďme se podívat, jaké to jsou a jak je používat.

    Abyste však mohli používat funkci, která vám umožňuje provádět regresní analýzu, musíte nejprve aktivovat analytický balíček. Teprve poté se na pásu karet Excelu objeví nástroje potřebné pro tento postup.


    Nyní, když přejdeme na kartu "Data", na pásu karet v panelu nástrojů "Analýza" uvidíme nové tlačítko - "Analýza dat".

    Typy regresní analýzy

    Existuje několik typů regresí:

    • parabolický;
    • Napájení;
    • logaritmický;
    • exponenciální;
    • demonstrace;
    • hyperbolický;
    • lineární regrese.

    O implementaci posledního typu regresní analýzy v Excelu si povíme podrobněji později.

    Lineární regrese v Excelu

    Níže je jako příklad uvedena tabulka, která ukazuje průměrnou denní teplotu vzduchu na ulici a počet zákazníků prodejny pro odpovídající pracovní den. Pojďme pomocí regresní analýzy zjistit, jak přesně mohou povětrnostní podmínky v podobě teploty vzduchu ovlivnit návštěvnost maloobchodní provozovny.

    Obecná rovnice lineární regrese vypadá takto: Y = a0 + a1x1 + ... + axk. V tomto vzorci Y znamená proměnnou, jejíž vliv se snažíme studovat. V našem případě se jedná o počet kupujících. Význam X jsou různé faktory, které ovlivňují proměnnou. Možnosti A jsou regresní koeficienty. To znamená, že určují význam konkrétního faktoru. Index k označuje celkový počet těchto stejných faktorů.


    Analýza výsledků analýzy

    Výsledky regresní analýzy se zobrazí ve formě tabulky na místě určeném v nastavení.

    Jedním z hlavních ukazatelů je R-čtverec. Označuje kvalitu modelu. V našem případě je tento koeficient 0,705 nebo asi 70,5 %. To je přijatelná úroveň kvality. Vztah menší než 0,5 je špatný.

    Další důležitý ukazatel se nachází v buňce na průsečíku čáry "Křižovatka Y" a sloupec "koeficienty". Zde je uvedeno, jakou hodnotu bude mít Y, a v našem případě je to počet kupujících, přičemž všechny ostatní faktory jsou rovné nule. V této tabulce je tato hodnota 58,04.

    Hodnota v průsečíku grafu "Proměnná X1" A "koeficienty" ukazuje úroveň závislosti Y na X. V našem případě se jedná o úroveň závislosti počtu zákazníků prodejny na teplotě. Koeficient 1,31 je považován za poměrně vysoký ukazatel vlivu.

    Jak vidíte, je poměrně snadné vytvořit tabulku regresní analýzy pomocí aplikace Microsoft Excel. S daty získanými na výstupu však může pracovat pouze vyškolený člověk a pochopit jejich podstatu.

    V předchozích poznámkách se pozornost často soustředila na jedinou číselnou proměnnou, jako jsou výnosy podílových fondů, doba načítání webové stránky nebo spotřeba nealkoholických nápojů. V této a následujících poznámkách zvážíme metody předpovídání hodnot číselné proměnné v závislosti na hodnotách jedné nebo více dalších číselných proměnných.

    Materiál bude ilustrován přesným příkladem. Prognóza objemu prodeje v obchodě s oblečením. Síť diskontních obchodů s oblečením Sunflowers se již 25 let neustále rozšiřuje. Společnost však v současné době nemá systematický přístup k výběru nových provozoven. Místo, kde společnost hodlá otevřít novou prodejnu, se určuje na základě subjektivních úvah. Kritériem výběru jsou výhodné podmínky pronájmu nebo představa manažera o ideálním umístění prodejny. Představte si, že jste vedoucím oddělení speciálních projektů a plánování. Dostali jste za úkol vypracovat strategický plán pro otevírání nových prodejen. Tento plán by měl obsahovat předpověď ročních tržeb v nově otevřených prodejnách. Domníváte se, že prodejní prostor přímo souvisí s příjmy a chcete tuto skutečnost zohlednit ve svém rozhodovacím procesu. Jak vytvoříte statistický model, který předpovídá roční tržby na základě velikosti nové prodejny?

    Regresní analýza se obvykle používá k predikci hodnot proměnné. Jeho cílem je vyvinout statistický model, který předpovídá hodnoty závislé proměnné nebo odpovědi z hodnot alespoň jedné nezávislé nebo vysvětlující proměnné. V této poznámce budeme zvažovat jednoduchou lineární regresi - statistickou metodu, která umožňuje předpovídat hodnoty závislé proměnné Y hodnotami nezávisle proměnné X. Následující poznámky budou popisovat vícenásobný regresní model určený k predikci hodnot nezávislé proměnné Y hodnotami několika závislých proměnných ( Xi, X2, …, Xk).

    Stáhněte si poznámku ve formátu nebo formátu, příklady ve formátu

    Typy regresních modelů

    Kde ρ 1 je autokorelační koeficient; Li ρ 1 = 0 (žádná autokorelace), D≈ 2; Li ρ 1 ≈ 1 (pozitivní autokorelace), D= 0; Li ρ 1 = -1 (negativní autokorelace), D ≈ 4.

    V praxi je použití Durbin-Watsonova kritéria založeno na srovnání hodnoty D s kritickými teoretickými hodnotami d L A d U pro daný počet pozorování n, počet nezávislých proměnných modelu k(pro jednoduchou lineární regresi k= 1) a hladina významnosti α. Li D< d L , hypotéza nezávislosti náhodných odchylek je zamítnuta (proto existuje pozitivní autokorelace); Li D > d U, hypotéza není zamítnuta (tj. neexistuje autokorelace); Li dl< D < d U není dost důvodů k rozhodnutí. Když vypočtená hodnota D překročí 2, tedy d L A d U není to samotný koeficient, který se porovnává D a výraz (4 – D).

    Pro výpočet Durbin-Watsonovy statistiky v Excelu přejdeme na spodní tabulku na Obr. 14 Výběr zůstatku. Čitatel ve výrazu (10) se vypočítá pomocí funkce = SUMMQDIFF(pole1, pole2) a jmenovatel = SUMMQ(pole) (obr. 16).

    Rýže. 16. Vzorce pro výpočet Durbin-Watsonovy statistiky

    V našem příkladu D= 0,883. Hlavní otázka zní: jakou hodnotu Durbin-Watsonovy statistiky bychom měli považovat za dostatečně malou na to, abychom dospěli k závěru, že existuje pozitivní autokorelace? Je nutné korelovat hodnotu D s kritickými hodnotami ( d L A d U) v závislosti na počtu pozorování n a hladina významnosti α (obr. 17).

    Rýže. 17. Kritické hodnoty statistiky Durbin-Watson (fragment tabulky)

    V problému objemu prodeje v obchodě dodávajícím zboží až domů tedy existuje jedna nezávislá proměnná ( k= 1), 15 pozorování ( n= 15) a hladina významnosti α = 0,05. Proto, d L= 1,08 a dU= 1,36. Protože D = 0,883 < d L= 1,08, mezi rezidui je pozitivní autokorelace, nelze použít metodu nejmenších čtverců.

    Testování hypotéz o sklonu a korelačním koeficientu

    Výše uvedená regrese byla použita pouze pro prognózování. Stanovit regresní koeficienty a predikovat hodnotu proměnné Y pro danou proměnnou hodnotu X byla použita metoda nejmenších čtverců. Kromě toho jsme vzali v úvahu směrodatnou chybu odhadu a koeficient smíšené korelace. Pokud reziduální analýza potvrdí, že podmínky použitelnosti metody nejmenších čtverců nejsou porušeny a jednoduchý lineární regresní model je na základě dat vzorku adekvátní, lze tvrdit, že mezi proměnnými v populaci existuje lineární vztah.

    aplikacet -kritéria pro sklon. Kontrolou, zda je sklon populace β 1 roven nule, lze určit, zda existuje statisticky významný vztah mezi proměnnými X A Y. Pokud je tato hypotéza zamítnuta, lze tvrdit, že mezi proměnnými X A Y existuje lineární vztah. Nulová a alternativní hypotéza jsou formulovány následovně: H 0: β 1 = 0 (žádný lineární vztah), H1: β 1 ≠ 0 (existuje lineární vztah). A-převorství t-statistika se rovná rozdílu mezi sklonem vzorku a hypotetickým sklonem populace, děleno standardní chybou odhadu sklonu:

    (11) t = (b 1 β 1 ) / Sb 1

    Kde b 1 je sklon přímé regrese na základě údajů ze vzorku, β1 je hypotetický sklon přímé obecné populace, a statistiky testů t Má to t- distribuce s n-2 stupně svobody.

    Zkontrolujme, zda existuje statisticky významný vztah mezi velikostí prodejny a ročním obratem při α = 0,05. t-kritéria se při použití zobrazí spolu s dalšími parametry Balíček analýzy(volba Regrese). Úplné výsledky analytického balíčku jsou uvedeny na Obr. 4, fragment související s t-statistikou - na obr. 18.

    Rýže. 18. Výsledky aplikace t

    Protože počet obchodů n= 14 (viz obr. 3), kritická hodnota t-statistiku na hladině významnosti α = 0,05 lze zjistit vzorcem: t L=STUDENT.INV(0,025;12) = -2,1788, kde 0,025 je polovina hladiny významnosti a 12 = n – 2; t U\u003d STUDENT.INR (0,975; 12) \u003d +2,1788.

    Protože t-statistika = 10,64 > t U= 2,1788 (obr. 19), nulová hypotéza H 0 je odmítnut. Na druhé straně, R-hodnota pro X\u003d 10,6411, vypočtená podle vzorce \u003d 1-STUDENT.DIST (D3, 12, TRUE), je přibližně rovna nule, takže hypotéza H 0 je znovu odmítnut. Skutečnost, že R-hodnota je téměř nulová, což znamená, že pokud by neexistoval skutečný lineární vztah mezi velikostí prodejny a ročními tržbami, bylo by téměř nemožné ji najít pomocí lineární regrese. Proto existuje statisticky významný lineární vztah mezi průměrným ročním prodejem prodejny a velikostí prodejny.

    Rýže. 19. Testování hypotézy o sklonu obecné populace na hladině významnosti 0,05 a 12 stupňů volnosti

    aplikaceF -kritéria pro sklon. Alternativním přístupem k testování hypotéz o sklonu jednoduché lineární regrese je použití F-kritéria. Odvolej to F-kritérium se používá k testování vztahu mezi dvěma rozptyly (viz podrobnosti). Při testování hypotézy sklonu je mírou náhodných chyb rozptyl chyb (součet čtverečních chyb dělený počtem stupňů volnosti), takže F-test používá poměr rozptylu vysvětleného regresí (tj SSR děleno počtem nezávislých proměnných k), na odchylku chyby ( MSE=SYX 2 ).

    A-převorství F-statistika se rovná středním čtvercovým odchylkám v důsledku regrese (MSR) děleným rozptylem chyby (MSE): F = MSR/ MSE, Kde MSR=SSR / k, MSE =SSE/(n– k – 1), k je počet nezávislých proměnných v regresním modelu. Testovací statistiky F Má to F- distribuce s k A n– k – 1 stupně svobody.

    Pro danou hladinu významnosti α je rozhodovací pravidlo formulováno takto: jestliže F > FU, nulová hypotéza je zamítnuta; jinak se neodmítá. Výsledky, prezentované ve formě souhrnné tabulky analýzy rozptylu, jsou uvedeny na Obr. 20.

    Rýže. 20. Tabulka analýzy rozptylu pro testování hypotézy statistické významnosti regresního koeficientu

    Podobně t-kritérium F-kritéria se při použití zobrazí v tabulce Balíček analýzy(volba Regrese). Kompletní výsledky práce Balíček analýzy znázorněno na Obr. 4, fragment související s F-statistika - na obr. 21.

    Rýže. 21. Výsledky aplikace F- Kritéria získaná pomocí Excel Analysis ToolPack

    F-statistika je 113,23 a R-hodnota blízká nule (buňka VýznamF). Je-li hladina významnosti α 0,05, určete kritickou hodnotu F-ze vzorce lze získat rozdělení s jedním a 12 stupni volnosti F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (obr. 22). Protože F = 113,23 > F U= 4,7472 a R- hodnota blízká 0< 0,05, нулевая гипотеза H 0 odchyluje, tzn. Velikost obchodu úzce souvisí s jeho ročním objemem prodeje.

    Rýže. 22. Testování hypotézy o sklonu obecné populace na hladině významnosti 0,05, s jedním a 12 stupni volnosti

    Interval spolehlivosti obsahující sklon β 1 . Chcete-li otestovat hypotézu existence lineárního vztahu mezi proměnnými, můžete sestavit interval spolehlivosti obsahující sklon β 1 a ujistit se, že hypotetická hodnota β 1 ​​= 0 patří do tohoto intervalu. Střed intervalu spolehlivosti obsahující sklon β 1 je sklon vzorku b 1 a jeho hranicemi jsou množství b 1 ±t n –2 Sb 1

    Jak je znázorněno na Obr. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975; 12) \u003d 2,1788. Proto, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 nebo + 1,328 ≤ p1 ≤ +2,012. Sklon populace tedy s pravděpodobností 0,95 leží v rozmezí od +1,328 do +2,012 (tj. od 1 328 000 USD do 2 012 000 USD). Protože tyto hodnoty jsou větší než nula, existuje statisticky významný lineární vztah mezi ročním prodejem a plochou prodejny. Pokud by interval spolehlivosti obsahoval nulu, nebyl by mezi proměnnými žádný vztah. Kromě toho interval spolehlivosti znamená, že každých 1 000 m2. stop má za následek zvýšení průměrného prodeje o 1 328 000 USD na 2 012 000 USD.

    Používánít -kritéria pro korelační koeficient. byl zaveden korelační koeficient r, což je míra vztahu mezi dvěma číselnými proměnnými. Lze jej použít ke zjištění, zda existuje statisticky významný vztah mezi dvěma proměnnými. Označme korelační koeficient mezi populacemi obou proměnných symbolem ρ. Nulová a alternativní hypotéza jsou formulovány takto: H 0: ρ = 0 (žádná korelace), H 1: ρ ≠ 0 (existuje korelace). Kontrola existence korelace:

    Kde r = + , Pokud b 1 > 0, r = – , Pokud b 1 < 0. Тестовая статистика t Má to t- distribuce s n-2 stupně svobody.

    V problému obchodního řetězce Slunečnice r2= 0,904 a b 1- +1,670 (viz obr. 4). Protože b 1> 0, korelační koeficient mezi ročním obratem a velikostí prodejny je r= +√0,904 = +0,951. Otestujme pomocí nulové hypotézy, že mezi těmito proměnnými neexistuje žádná korelace t- statistika:

    Na hladině významnosti α = 0,05 by měla být nulová hypotéza zamítnuta, protože t= 10,64 > 2,1788. Lze tedy tvrdit, že mezi ročními tržbami a velikostí prodejny existuje statisticky významný vztah.

    Při diskuzi o závěrech o populačních sklonech jsou intervaly spolehlivosti a kritéria pro testování hypotéz vzájemně zaměnitelné nástroje. Výpočet intervalu spolehlivosti obsahující korelační koeficient se však ukazuje jako obtížnější, protože forma výběrového rozdělení statistiky r závisí na skutečném korelačním koeficientu.

    Odhad matematického očekávání a predikce jednotlivých hodnot

    Tato část pojednává o metodách odhadu očekávané odezvy Y a predikce jednotlivých hodnot Y pro dané hodnoty proměnné X.

    Konstrukce intervalu spolehlivosti. V příkladu 2 (viz výše část Metoda nejmenších čtverců) regresní rovnice umožnila předpovědět hodnotu proměnné Y X. Při problému výběru místa pro maloobchodní prodejnu je průměrný roční prodej v obchodě o rozloze 4000 m2. stop se rovnal 7,644 milionům dolarů. Tento odhad matematického očekávání obecné populace je však bodem. pro odhad matematického očekávání obecné populace byl navržen koncept intervalu spolehlivosti. Podobně lze představit koncept interval spolehlivosti pro matematické očekávání odpovědi pro danou hodnotu proměnné X:

    Kde , = b 0 + b 1 X i– proměnná predikované hodnoty Y na X = X i, S YX je střední kvadratická chyba, n je velikost vzorku, Xi- daná hodnota proměnné X, µ Y|X = Xi– matematické očekávání proměnné Y na X = Х i,SSX=

    Analýza vzorce (13) ukazuje, že šířka intervalu spolehlivosti závisí na několika faktorech. Na dané hladině významnosti vede zvýšení amplitudy fluktuací kolem regresní přímky, měřené pomocí střední kvadratické chyby, ke zvětšení šířky intervalu. Na druhou stranu je podle očekávání nárůst velikosti vzorku doprovázen zúžením intervalu. Šířka intervalu se navíc mění v závislosti na hodnotách Xi. Pokud je hodnota proměnné Y předpovězené pro množství X, blízko průměrné hodnoty , interval spolehlivosti se ukazuje být užší než při předpovídání odezvy pro hodnoty daleko od průměru.

    Řekněme, že při výběru místa pro prodejnu chceme vybudovat 95% interval spolehlivosti pro průměrné roční tržby ve všech prodejnách o rozloze 4000 metrů čtverečních. chodidla:

    Proto je průměrný roční objem prodeje ve všech prodejnách o rozloze 4000 metrů čtverečních. stop, s 95% pravděpodobností leží v rozmezí od 6,971 do 8,317 milionů dolarů.

    Vypočítejte interval spolehlivosti pro předpokládanou hodnotu. Kromě intervalu spolehlivosti pro matematické očekávání odezvy pro danou hodnotu proměnné X, je často nutné znát interval spolehlivosti pro predikovanou hodnotu. Přestože vzorec pro výpočet takového intervalu spolehlivosti je velmi podobný vzorci (13), tento interval obsahuje predikovanou hodnotu a nikoli odhad parametru. Interval pro předpokládanou odpověď YX = Xi pro konkrétní hodnotu proměnné Xi se určuje podle vzorce:

    Předpokládejme, že při výběru místa pro maloobchodní prodejnu chceme vybudovat 95% interval spolehlivosti pro předpokládaný roční objem prodeje v prodejně o rozloze 4000 metrů čtverečních. chodidla:

    Proto předpokládaný roční objem prodeje na 4 000 m2. stop, s 95% pravděpodobností leží v rozmezí od 5,433 do 9,854 milionů dolarů Jak můžete vidět, interval spolehlivosti pro předpokládanou hodnotu odezvy je mnohem širší než interval spolehlivosti pro její matematické očekávání. Je to proto, že variabilita v predikci jednotlivých hodnot je mnohem větší než v odhadu očekávané hodnoty.

    Úskalí a etické problémy spojené s používáním regrese

    Potíže spojené s regresní analýzou:

    • Ignorování podmínek použitelnosti metody nejmenších čtverců.
    • Chybný odhad podmínek použitelnosti metody nejmenších čtverců.
    • Špatný výběr alternativních metod v rozporu s podmínkami použitelnosti metody nejmenších čtverců.
    • Aplikace regresní analýzy bez hlubší znalosti předmětu studia.
    • Extrapolace regrese za rozsah vysvětlující proměnné.
    • Záměna statistických a kauzálních vztahů.

    Rozšířené používání tabulek a statistického softwaru odstranilo výpočetní problémy, které bránily použití regresní analýzy. To však vedlo k tomu, že regresní analýzu začali využívat uživatelé, kteří nemají dostatečnou kvalifikaci a znalosti. Jak se uživatelé dozvědí o alternativních metodách, když řada z nich nemá vůbec ponětí o podmínkách použitelnosti metody nejmenších čtverců a neví, jak zkontrolovat jejich implementaci?

    Výzkumník by se neměl nechat unést broušením čísel – výpočtem posunu, sklonu a smíšeného korelačního koeficientu. Potřebuje hlubší znalosti. Ukažme si to na klasickém příkladu převzatém z učebnic. Anscombe ukázal, že všechny čtyři datové sady zobrazené na Obr. 23 mají stejné regresní parametry (obr. 24).

    Rýže. 23. Čtyři umělé datové soubory

    Rýže. 24. Regresní analýza čtyř umělých datových souborů; hotovo Balíček analýzy(kliknutím na obrázek se obrázek zvětší)

    Z pohledu regresní analýzy jsou tedy všechny tyto datové soubory zcela totožné. Pokud by tam analýza skončila, přišli bychom o spoustu užitečných informací. To dokazují bodové grafy (obr. 25) a reziduální grafy (obr. 26) vytvořené pro tyto soubory dat.

    Rýže. 25. Bodové grafy pro čtyři datové sady

    Bodové grafy a grafy reziduí ukazují, že tato data se od sebe liší. Jediná množina rozložená podél přímky je množina A. Graf reziduí vypočítaný ze množiny A nemá žádný vzor. Totéž nelze říci o množinách B, C a D. Bodový graf vynesený pro množinu B ukazuje výrazný kvadratický vzor. Tento závěr potvrzuje graf reziduí, který má parabolický tvar. Bodový graf a graf zbytků ukazují, že datová sada B obsahuje odlehlou hodnotu. V této situaci je nutné vyloučit ze souboru dat odlehlou hodnotu a analýzu zopakovat. Technika zjišťování a odstraňování odlehlých hodnot z pozorování se nazývá analýza vlivu. Po vyloučení odlehlé hodnoty může být výsledek přehodnocení modelu zcela odlišný. Bodový graf vynesený ze souboru dat D ilustruje neobvyklou situaci, ve které je empirický model vysoce závislý na jediné odpovědi ( X 8 = 19, Y 8 = 12,5). Takové regresní modely je třeba počítat obzvláště pečlivě. Bodové a reziduální grafy jsou tedy základním nástrojem regresní analýzy a měly by být její nedílnou součástí. Bez nich není regresní analýza důvěryhodná.

    Rýže. 26. Grafy reziduí pro čtyři soubory dat

    Jak se vyhnout nástrahám regresní analýzy:

    • Analýza možného vztahu mezi proměnnými X A Y vždy začněte bodovým grafem.
    • Před interpretací výsledků regresní analýzy zkontrolujte podmínky její použitelnosti.
    • Vyneste rezidua versus nezávislá proměnná. To umožní určit, jak empirický model odpovídá výsledkům pozorování, a odhalit porušení stálosti rozptylu.
    • K otestování předpokladu normální distribuce chyb použijte histogramy, grafy stonků a listů, krabicové grafy a grafy normálního rozdělení.
    • Pokud nejsou splněny podmínky použitelnosti metody nejmenších čtverců, použijte alternativní metody (například kvadratické nebo vícenásobné regresní modely).
    • Pokud jsou splněny podmínky použitelnosti metody nejmenších čtverců, je nutné otestovat hypotézu o statistické významnosti regresních koeficientů a sestrojit intervaly spolehlivosti obsahující matematické očekávání a predikovanou hodnotu odezvy.
    • Vyhněte se predikci hodnot závislé proměnné mimo rozsah nezávislé proměnné.
    • Mějte na paměti, že statistické závislosti nejsou vždy kauzální. Pamatujte, že korelace mezi proměnnými neznamená, že mezi nimi existuje kauzální vztah.

    Souhrn. Jak ukazuje blokové schéma (obr. 27), poznámka popisuje jednoduchý lineární regresní model, podmínky jeho použitelnosti a způsoby testování těchto podmínek. Považováno t-kritérium pro testování statistické významnosti sklonu regrese. K predikci hodnot závislé proměnné byl použit regresní model. Příklad je považován za související s výběrem místa pro maloobchod, ve kterém je studována závislost ročního objemu prodeje na ploše prodejny. Získané informace umožňují přesněji vybrat místo pro prodejnu a předvídat její roční tržby. V následujících poznámkách bude diskuse o regresní analýze pokračovat, stejně jako o vícenásobných regresních modelech.

    Rýže. 27. Blokové schéma noty

    Jsou použity materiály z knihy Levin et al Statistika pro manažery. - M.: Williams, 2004. - str. 792–872

    Pokud je závislá proměnná kategorická, měla by se použít logistická regrese.

    Regresní analýza v aplikaci Microsoft Excel je nejkomplexnějším průvodcem používání MS Excel k řešení problémů s regresní analýzou v business intelligence. Konrad Carlberg srozumitelně vysvětluje teoretickou problematiku, jejíž znalost vám pomůže vyhnout se mnoha chybám jak při vlastní regresní analýze, tak při vyhodnocování výsledků analýz prováděných jinými lidmi. Veškerý materiál, od jednoduchých korelací a t-testů až po vícenásobnou analýzu kovariance, je založen na skutečných příkladech a je doprovázen podrobným popisem příslušných postupných postupů.

    Tato kniha pojednává o výhodách a nevýhodách regresních funkcí Excelu, zkoumá důsledky použití každé z jejich možností a argumentů a vysvětluje, jak spolehlivě aplikovat regresní techniky v oblastech od lékařského výzkumu po finanční analýzu.

    Konrad Carlberg. Regresní analýza v aplikaci Microsoft Excel. - M.: Dialektika, 2017. - 400 s.

    Stáhněte si poznámku ve formátu nebo formátu, příklady ve formátu

    Kapitola 1. Odhad variability dat

    Statistici mají k dispozici mnoho ukazatelů variace (variability). Jedním z nich je součet čtverců odchylek jednotlivých hodnot od průměru. Excel k tomu používá funkci SQUADROT(). Častěji se však používá disperze. Rozptyl je průměr druhých mocnin odchylek. Rozptyl není citlivý na počet hodnot ve studovaném souboru dat (zatímco součet čtverců odchylek se zvyšuje s počtem měření).

    Excel nabízí dvě funkce, které vracejí rozptyl: VARP.D() a VARP.V():

    • Pokud hodnoty, které mají být zpracovány, tvoří soubor, použijte funkci VAR.G(). To znamená, že hodnoty obsažené v rozsahu jsou jediné hodnoty, které vás zajímají.
    • Pokud hodnoty, které mají být zpracovány, tvoří vzorek z větší populace, použijte funkci VAR.V(). Předpokládá, že existují další hodnoty, jejichž rozptyl můžete také odhadnout.

    Pokud se hodnota, jako je průměr nebo korelační koeficient, vypočítává na základě obecné populace, pak se nazývá parametr. Podobná hodnota vypočítaná na základě vzorku se nazývá statistika. Odpočítávání odchylek z průměru v této sadě dostanete součet druhých mocnin odchylek o menší částku, než kdybyste je počítali z jakékoli jiné hodnoty. Podobné tvrzení platí pro rozptyl.

    Čím větší je velikost vzorku, tím přesnější je vypočítaná hodnota statistiky. Neexistuje ale žádný vzorek menší než velikost populace, u kterého si můžete být jisti, že hodnota statistiky je stejná jako hodnota parametru.

    Řekněme, že máte sadu 100 výšek, jejichž průměr se liší od průměru populace, ať je rozdíl jakkoli malý. Když vypočítáte rozptyl pro vzorek, dostanete nějakou hodnotu, řekněme 4. Tato hodnota je menší než jakákoli jiná hodnota, kterou lze získat výpočtem odchylky každé ze 100 hodnot růstu od jakékoli hodnoty jiné než je průměr vzorku včetně skutečného průměru pro běžnou populaci. Vypočítaný rozptyl se tedy bude lišit, a to v menší míře, od rozptylu, který byste získali, kdybyste nějak znali a použili nikoli výběrový průměr, ale parametr populace.

    Střední součet čtverců stanovený pro vzorek poskytuje nižší odhad rozptylu populace. Takto vypočítaný rozptyl se nazývá přemístěno hodnocení. Ukazuje se, že k odstranění zkreslení a získání nezkresleného odhadu stačí vydělit součet čtverců odchylek nikoli n, Kde n je velikost vzorku a n-1.

    Hodnota n-1 se nazývá počet (počet) stupňů volnosti. Existují různé způsoby, jak vypočítat tuto hodnotu, i když všechny zahrnují buď odečtení určitého čísla od velikosti vzorku, nebo počítání počtu kategorií, do kterých pozorování spadají.

    Podstata rozdílu mezi funkcemi DISP.G() a DISP.V() je následující:

    • Ve funkci VARI.G() je součet čtverců dělen počtem pozorování, a proto představuje zkreslený odhad rozptylu, skutečný průměr.
    • Ve funkci VAR.B() se součet čtverců vydělí počtem pozorování mínus 1, tzn. počtem stupňů volnosti, což poskytuje přesnější, nezkreslený odhad rozptylu populace, ze které byl vzorek odebrán.

    standardní odchylka (anglicky) standardní odchylka, SD) je druhá odmocnina rozptylu:

    Kvadratizace odchylek převádí měřítko na jinou metriku, která je druhou mocninou té původní: metry – na metry čtvereční, dolary – na dolary čtvereční atd. Směrodatná odchylka je druhá odmocnina rozptylu, a tak nás vrací k původním jednotkám. Což je pohodlnější.

    Často je nutné vypočítat směrodatnou odchylku poté, co byla data podrobena nějaké manipulaci. A přestože jsou v těchto případech výsledky nepochybně směrodatné odchylky, běžně se jim říká standardní chyby. Existuje několik typů standardních chyb, včetně standardní chyby měření, standardní chyby proporce a standardní chyby průměru.

    Řekněme, že shromažďujete údaje o výšce 25 náhodně vybraných dospělých mužů v každém z 50 států. Dále vypočítáte průměrnou výšku dospělých mužů v každém státě. Výsledných 50 středních hodnot lze zase považovat za pozorování. Z toho byste mohli vypočítat jejich směrodatnou odchylku, což je standardní chyba průměru. Rýže. 1. umožňuje porovnat rozložení 1250 původních individuálních hodnot (údaje o výšce 25 mužů v každém z 50 států) s rozložením průměrných hodnot 50 států. Vzorec pro odhad směrodatné chyby průměru (tj. směrodatná odchylka průměrů, nikoli jednotlivých pozorování):

    kde je standardní chyba průměru; s je standardní odchylka původních pozorování; n je počet pozorování ve vzorku.

    Rýže. 1. Kolísání průměrných hodnot mezi jednotlivými stavy je mnohem menší než variace jednotlivých pozorování

    Ve statistice existuje konvence týkající se použití řeckých a latinských písmen k označení statistických veličin. Je obvyklé označovat parametry obecné populace řeckými písmeny a vzorové statistiky latinkou. Pokud tedy mluvíme o směrodatné odchylce populace, zapíšeme ji jako σ; pokud se uvažuje směrodatná odchylka vzorku, použijeme označení s. Co se týče symbolů pro průměry, tak ty spolu tak dobře nesouhlasí. Populační průměr se označuje řeckým písmenem μ. Nicméně, symbol X̅ se tradičně používá k reprezentaci výběrového průměru.

    z-skóre vyjadřuje pozici pozorování v rozdělení v jednotkách směrodatné odchylky. Například z = 1,5 znamená, že pozorování je 1,5 standardní odchylky od průměru směrem k vyšším hodnotám. Období z-skóre slouží k individuálním hodnocením, tzn. pro měření přiřazená jednotlivým prvkům vzorku. Pro takové statistiky (např. státní průměr) se používá termín. z-hodnota:

    kde X je střední hodnota vzorku, μ je střední hodnota obecné populace, je standardní chyba průměru souboru vzorků:

    kde σ je standardní chyba obecné populace (jednotlivá měření), n je velikost vzorku.

    Předpokládejme, že jste golfový instruktor. Dosah úderu jste mohli měřit již dlouhou dobu a víte, že má průměr 205 yardů a směrodatnou odchylku 36 yardů. Byl vám nabídnut nový hůl s tvrzením, že zvýší váš dosah o 10 yardů. Požádáte každého z dalších 81 návštěvníků klubu, aby vyzkoušeli nový klub a zaznamenali svůj rozsah. Ukázalo se, že průměrný dosah úderu s novou holí je 215 yardů. Jaká je pravděpodobnost, že rozdíl 10 yardů (215 - 205) je způsoben pouze chybou vzorku? Nebo jinak řečeno, jaká je pravděpodobnost, že při větším testu nový klub nevykáže nárůst dostřelu oproti současnému dlouhodobému průměru 205 yardů?

    Můžeme to otestovat vygenerováním z-hodnoty. Standardní chyba průměru:

    Pak z-hodnota:

    Potřebujeme najít pravděpodobnost, že výběrový průměr bude 2,5σ vzdálen od průměru populace. Pokud je pravděpodobnost malá, tak rozdíly nejsou způsobeny náhodou, ale kvalitou nového klubu. V Excelu neexistuje žádná hotová funkce pro určení pravděpodobnosti z-skóre. Můžete však použít vzorec =1-NORM.ST.DIST(hodnota z, TRUE), kde NORM.ST.DIST() vrátí oblast pod normální křivkou nalevo od hodnoty z (obrázek 2). .

    Rýže. 2. Funkce NORM.S.DIST() vrátí oblast pod křivkou nalevo od hodnoty z; Chcete-li obrázek zvětšit, klikněte na něj pravým tlačítkem a vyberte Otevřít obrázek na nové kartě

    Druhý argument funkce NORM.S.DIST() může nabývat dvou hodnot: TRUE - funkce vrací oblast pod křivkou vlevo od bodu určeného prvním argumentem; FALSE - Funkce vrací výšku křivky v bodě daném prvním argumentem.

    Nejsou-li známy průměr (μ) a směrodatná odchylka (σ) základního souboru, použije se t-hodnota (viz ). Struktury skóre z a t se liší v tom, že k nalezení hodnoty t se používá standardní odchylka s získaná z výsledků vzorku, spíše než známá hodnota parametru populace σ. Normální křivka má jediný tvar a tvar rozložení t-hodnot se liší v závislosti na počtu stupňů volnosti df (z angl. stupně svobody) vzorku, který představuje. Počet stupňů volnosti vzorku je n-1, Kde n- velikost vzorku (obr. 3).

    Rýže. 3. Tvar t-rozdělení, která vznikají, když je parametr σ neznámý, se liší od tvaru normálního rozdělení

    Excel má dvě funkce pro t-rozdělení, nazývané také Studentovo t-rozdělení: STUDENT.DIST() vrací oblast pod křivkou vlevo od dané t-hodnoty a STUDENT.DIST.RT() vpravo.

    Kapitola 2. Korelace

    Korelace je míra závislosti mezi prvky množiny uspořádaných párů. Charakterizuje se korelace Pearsonovy korelační koeficienty– r. Koeficient může nabývat hodnot v rozsahu od -1,0 do +1,0.

    Kde S x A Sy jsou standardní odchylky proměnných X A Y, Sexy- kovariance:

    V tomto vzorci se kovariance dělí standardními odchylkami proměnných X A Y, čímž se z kovariance odstraní efekty škálování související s jednotkou. Excel používá funkci CORREL(). Název této funkce neobsahuje kvalifikační prvky G a C, které se používají v názvech funkcí jako STDEV(), VARV() nebo COVARIANCE(). Přestože výběrový korelační koeficient poskytuje zkreslený odhad, důvod zkreslení je jiný než v případě rozptylu nebo směrodatné odchylky.

    V závislosti na velikosti obecného korelačního koeficientu (často označovaného řeckým písmenem ρ ), korelační koeficient r poskytuje zkreslený odhad, přičemž účinek zkreslení se zvyšuje s klesající velikostí vzorku. Přesto se nesnažíme toto zkreslení korigovat stejným způsobem, jako jsme to dělali například při výpočtu směrodatné odchylky, kdy jsme do odpovídajícího vzorce dosazovali nikoli počet pozorování, ale počet stupňů volnosti. Ve skutečnosti nemá počet pozorování použitých k výpočtu kovariance žádný vliv na velikost.

    Standardní korelační koeficient je navržen pro použití s ​​proměnnými, které spolu souvisí lineárním vztahem. Přítomnost nelinearity a/nebo chyb v datech (odlehlé hodnoty) vedou k nesprávnému výpočtu korelačního koeficientu. Pro diagnostiku problémů s daty se doporučují bodové grafy. Toto je jediný typ grafu v Excelu, který zachází s horizontální i vertikální osou jako s osou hodnot. Spojnicový graf naopak definuje jeden ze sloupců jako osu kategorií, což zkresluje obraz dat (obr. 4).

    Rýže. 4. Regresní přímky se zdají být stejné, ale porovnejte jejich rovnice mezi sebou

    Pozorování použitá k vytvoření spojnicového grafu jsou ve stejné vzdálenosti podél vodorovné osy. Popisky dělení podél této osy jsou pouze popisky, nikoli číselné hodnoty.

    Zatímco korelace často znamená, že existuje kauzální vztah, nelze ji použít jako důkaz, že tomu tak je. Statistiky se nepoužívají k prokázání, zda je teorie pravdivá nebo nepravdivá. Vyloučit konkurenční vysvětlení výsledků pozorování plánované experimenty. Statistiky se také používají ke shrnutí informací shromážděných během takových experimentů a ke kvantifikaci pravděpodobnosti, že rozhodnutí může být chybné vzhledem k důkazní základně.

    Kapitola 3 Jednoduchá regrese

    Pokud spolu dvě proměnné souvisí tak, že hodnota korelačního koeficientu je větší než řekněme 0,5, pak je možné předpovědět (s určitou přesností) neznámou hodnotu jedné proměnné ze známé hodnoty druhé. Chcete-li získat předpokládané hodnoty ceny, na základě údajů uvedených na obr. 5, můžete použít některý z několika možných způsobů, ale téměř jistě nepoužijete ten, který je znázorněn na obr. 5. Přesto byste si ji měli přečíst, protože žádný jiný způsob nemůže prokázat vztah mezi korelací a predikcí tak jasně jako tento. Na Obr. 5, v rozsahu B2:C12, je náhodný vzorek deseti domů a poskytuje údaje o ploše každého domu (ve čtverečních stopách) a jeho prodejní ceně.

    Rýže. 5. Předpovědi prodejních cen tvoří přímku

    Najděte průměry, směrodatné odchylky a korelační koeficient (rozsah A14:C18). Vypočítejte plošné z-skóre (E2:E12). Například buňka E3 obsahuje vzorec: =(B3-$B$14)/$B$15. Vypočítejte z-skóre prognózované ceny (F2:F12). Například buňka F3 obsahuje vzorec: =E3*$B$18. Převeďte z-skóre na dolarové ceny (H2:H12). V buňce HZ je vzorec: =F3*$C$15+$C$14.

    Všimněte si, že predikovaná hodnota má vždy tendenci se posouvat směrem k průměru, který je 0. Čím blíže je korelační koeficient nule, tím blíže je predikované z-skóre nule. V našem příkladu je korelační koeficient mezi plochou a prodejní cenou 0,67 a prognózní cena je 1,0*0,67, tzn. 0,67. To odpovídá překročení hodnoty nad průměrnou hodnotu rovnající se dvěma třetinám směrodatné odchylky. Pokud by byl korelační koeficient roven 0,5, pak by prognózovaná cena byla 1,0 * 0,5, tzn. 0,5. To odpovídá překročení hodnoty nad průměrnou hodnotu rovnající se pouze polovině směrodatné odchylky. Kdykoli se hodnota korelačního koeficientu liší od ideální, tzn. větší než -1,0 a menší než 1,0, odhad prediktorové proměnné by měl být blíže její střední hodnotě než odhad prediktorové (nezávislé) proměnné její vlastní. Tento jev se nazývá regrese k průměru nebo jednoduše regrese.

    V Excelu existuje několik funkcí pro určení koeficientů rovnice regresní čáry (v Excelu se nazývá trendová čára) y=kx + b. Pro určení k slouží funkci

    =SLOPE(známé_y-hodnoty; známé_x-hodnoty)

    Tady na je predikovaná proměnná a X je nezávislá proměnná. Toto pořadí proměnných musíte striktně dodržovat. Sklon regresní přímky, korelační koeficient, směrodatné odchylky proměnných a kovariance spolu úzce souvisí (obr. 6). Funkce INTERCEPT() vrací hodnotu oříznutou regresní přímkou ​​na svislé ose:

    = INTERCUT(známé_y-hodnoty; známé_x-hodnoty)

    Rýže. 6. Poměr mezi standardními odchylkami převádí kovarianci na korelační koeficient a sklon regresní přímky

    Všimněte si, že počet hodnot x a y poskytnutých funkcím SLOPE() a INTERCEPT() jako argumenty musí být stejný.

    V regresní analýze se používá další důležitý ukazatel - R 2 (R-kvadrát), neboli koeficient determinace. Určuje, jaký příspěvek k celkové variabilitě dat má vztah mezi X A na. Excel má pro něj funkci QVPIRSON(), která přebírá přesně stejné argumenty jako funkce CORREL().

    Dvě proměnné s nenulovým korelačním koeficientem mezi nimi údajně vysvětlují rozptyl nebo mají rozptyl vysvětleny. Vysvětlený rozptyl je obvykle vyjádřen v procentech. Tak R 2 = 0,81 znamená, že je vysvětleno 81 % rozptylu (rozptyl) dvou proměnných. Zbývajících 19 % je způsobeno náhodnými výkyvy.

    Excel má funkci TREND, která zjednodušuje výpočty. Funkce TREND():

    • přebírá známé hodnoty, které poskytujete X a známé hodnoty na;
    • vypočítá sklon regresní přímky a konstanty (segmentu);
    • vrací prediktivní hodnoty na určeno aplikací regresní rovnice na známé hodnoty X(obr. 7).

    Funkce TREND() je funkce pole (pokud jste se s takovými funkcemi ještě nesetkali, doporučuji).

    Rýže. 7. Použití funkce TREND() umožňuje urychlit a zjednodušit výpočty ve srovnání s použitím dvojice funkcí SLOPE() a INTERCEPT()

    Chcete-li zadat funkci TREND() jako maticový vzorec v buňkách G3:G12, vyberte rozsah G3:G12, zadejte vzorec TREND (SZ:S12;VZ:B12), stiskněte a podržte klávesy a teprve poté stiskněte klávesu . Všimněte si, že vzorec je uzavřen ve složených závorkách: ( a ). Takto vám Excel říká, že tento vzorec je vnímán jako maticový vzorec. Závorky nevkládejte sami: pokud se je pokusíte zadat sami jako součást vzorce, Excel bude váš vstup považovat za normální textový řetězec.

    Funkce TREND() má další dva argumenty: new_values_x A konst. První umožňuje sestavit předpověď pro budoucnost a druhý může přinutit regresní přímku procházet počátkem (hodnota TRUE říká Excelu, aby použil vypočítanou konstantu, hodnota FALSE - konstanta = 0). Excel umožňuje nakreslit regresní čáru do grafu tak, aby procházela počátkem. Začněte vykreslením bodového grafu a poté klikněte pravým tlačítkem na jednu ze značek datové řady. Vyberte položku v kontextové nabídce, která se otevře. Přidat trendovou linii; Vyberte možnost Lineární; v případě potřeby posuňte panel dolů a zaškrtněte políčko Postavte křižovatku; ujistěte se, že jeho přidružené textové pole je nastaveno na 0,0.

    Pokud máte tři proměnné a chcete určit korelaci mezi dvěma z nich a vyloučit vliv třetí, můžete použít částečná korelace. Předpokládejme, že vás zajímá vztah mezi procentem obyvatel města, kteří dokončili vysokou školu, a počtem knih v městských knihovnách. Nasbírali jste data pro 50 měst, ale... Problém je, že oba tyto parametry mohou záviset na pohodě obyvatel konkrétního města. Je samozřejmě velmi obtížné najít dalších 50 měst, která se vyznačují naprosto stejnou úrovní blahobytu obyvatel.

    Použitím statistických metod k odstranění vlivu blahobytu jak na podporu knihoven, tak na vysokoškolské vzdělání, byste mohli lépe kvantifikovat vztah mezi proměnnými, které vás zajímají, konkrétně počtem knih a počtem absolventů. Tato podmíněná korelace mezi dvěma proměnnými, kdy jsou hodnoty ostatních proměnných pevné, se nazývá částečná korelace. Jedním ze způsobů, jak to vypočítat, je použít rovnici:

    Kde rCB . W- korelační koeficient mezi proměnnými College (College) a Books (Books) s vyloučeným vlivem (fixní hodnotou) proměnné Wealth (Wealth); rCB- korelační koeficient mezi proměnnými College a Books; rCW- korelační koeficient mezi proměnnými College a Welfare; rb.w.- korelační koeficient mezi proměnnými Books a Welfare.

    Na druhou stranu parciální korelaci lze vypočítat na základě reziduální analýzy, tzn. rozdíly mezi předpokládanými hodnotami a jejich souvisejícími skutečnými pozorováními (obě metody jsou znázorněny na obrázku 8).

    Rýže. 8. Parciální korelace jako reziduální korelace

    Pro zjednodušení výpočtu matice korelačních koeficientů (B16: E19) použijte analytický balíček Excel (menu Data –> Analýza –> Analýza dat). Ve výchozím nastavení není tento balíček v Excelu aktivní. Chcete-li jej nainstalovat, přejděte do nabídky Soubor –> Možnosti –> doplňky. Ve spodní části okna, které se otevře Možnostivynikat najít pole Řízení, vyberte doplňkyvynikat, klikněte Jít. Zaškrtněte políčko vedle doplňku Balíček analýzy. Klikněte na A analýza dat, Vyberte možnost Korelace. Zadejte $B$2:$D$13 jako vstupní interval, zaškrtněte políčko Štítky na prvním řádku, zadejte $B$16:$E$19 jako výstupní interval.

    Další možností je definovat semiparciální korelaci. Zkoumáte například vliv výšky a věku na váhu. Máte tedy dvě predikční proměnné, výšku a věk, a jednu prediktivní proměnnou, váhu. Chcete vyloučit vliv jedné proměnné prediktoru na jinou, ale ne vliv na proměnnou prediktoru:

    kde H - výška (výška), W - hmotnost (váha), A - věk (věk); Index semi-parciálního korelačního koeficientu používá závorky k označení, která proměnná je eliminována az které proměnné. V tomto případě zápis W(H.A) označuje, že vliv proměnné Věk je odstraněn z proměnné Výška, ale nikoli z proměnné Hmotnost.

    Člověk by mohl nabýt dojmu, že diskutovaná problematika není nijak zásadní. Ostatně nejdůležitější je, jak přesně obecná regresní rovnice funguje, přičemž problém relativních příspěvků jednotlivých proměnných k celkovému vysvětlenému rozptylu se zdá být druhořadý. To však není tento případ. Jakmile začnete přemýšlet o tom, zda použít nebo nepoužít nějakou proměnnou v rovnici vícenásobné regrese, problém se stává důležitým. Může ovlivnit posouzení správnosti výběru modelu pro analýzu.

    Kapitola 4. Funkce LINREGRESE().

    Funkce LINREGRESE() vrátí 10 statistik regresní analýzy. Funkce LINREGRESE() je maticová funkce. Chcete-li jej zadat, vyberte rozsah obsahující pět řádků a dva sloupce, zadejte vzorec a stiskněte (obr. 9):

    LINEST(B2:B21;A2:A21;PRAVDA;PRAVDA)

    Rýže. 9. Funkce LINREGRESE(): a) vyberte rozsah D2:E6, b) zadejte vzorec, jak je znázorněno na řádku vzorců, c) klikněte

    Funkce LINREGRESE() vrací:

    • regresní koeficient (nebo sklon, buňka D2);
    • segment (nebo konstanta, buňka E3);
    • standardní chyby regresního koeficientu a konstant (rozsah D3:E3);
    • koeficient determinace R 2 pro regresi (buňka D4);
    • standardní chyba odhadu (buňka E4);
    • F-test pro úplnou regresi (buňka D5);
    • počet stupňů volnosti pro zbytkový součet čtverců (buňka E5);
    • regresní součet čtverců (buňka D6);
    • zbytkový součet čtverců (buňka E6).

    Podívejme se na každou z těchto statistik a jejich vzájemné působení.

    standardní chyba v našem případě je to směrodatná odchylka vypočtená pro výběrové chyby. To znamená, že jde o situaci, kdy obecná populace má jednu statistiku a vzorek jinou. Vydělením regresního koeficientu směrodatnou chybou získáte hodnotu 2,092/0,818 = 2,559. Jinými slovy, regresní koeficient 2,092 je dvě a půl standardní chyby od nuly.

    Pokud je regresní koeficient nulový, pak nejlepším odhadem predikované proměnné je její průměr. Dvě a půl standardní chyby je poměrně velké číslo a můžete bezpečně předpokládat, že regresní koeficient pro populaci má nenulovou hodnotu.

    Pravděpodobnost získání výběrového regresního koeficientu 2,092, pokud je jeho skutečná hodnota v základním souboru 0,0, můžete určit pomocí funkce

    STUDENT.DIST.PH (t-test = 2,559; počet stupňů volnosti = 18)

    Obecně platí, že počet stupňů volnosti = n - k - 1, kde n je počet pozorování a k je počet prediktorových proměnných.

    Tento vzorec vrátí hodnotu 0,00987 nebo zaokrouhlenou nahoru na 1 %. Říká nám toto: pokud je regresní koeficient pro populaci 0 %, pak pravděpodobnost získání vzorku 20 lidí, pro který je vypočtená hodnota regresního koeficientu 2,092, je skromné ​​1 %.

    F-test (buňka D5 na obrázku 9) plní stejnou funkci ve vztahu k plné regresi jako t-test ve vztahu k jednoduchému párovému regresnímu koeficientu. F-test se používá k testování, zda je koeficient determinace R 2 pro regresi skutečně dostatečně velký na to, aby odmítl hypotézu, že má v populaci hodnotu 0,0, což ukazuje na absenci rozptylu vysvětlovaného prediktorem a prediktorovou proměnnou. . Pokud existuje pouze jedna prediktorová proměnná, F-test se přesně rovná druhé mocnině t-testu.

    Dosud jsme uvažovali intervalové proměnné. Pokud máte proměnné, které mohou nabývat více hodnot, což jsou jednoduchá jména, jako je muž a žena nebo plaz, obojživelník a ryba, zastupujte je jako číselný kód. Takové proměnné se nazývají nominální.

    R2 statistiky kvantifikuje podíl vysvětleného rozptylu.

    Směrodatná chyba odhadu. Na Obr. Tabulka 4.9 ukazuje předpokládané hodnoty proměnné Hmotnost, získané na základě jejího vztahu s proměnnou Výška. Rozsah E2:E21 obsahuje hodnoty zbytků pro proměnnou Hmotnost. Přesněji řečeno, tato rezidua se nazývají chyby - proto následuje termín standardní chyba odhadu.

    Rýže. 10. R 2 i směrodatná chyba odhadu vyjadřují přesnost předpovědí získaných pomocí regrese

    Čím menší je standardní chyba odhadu, tím přesnější je regresní rovnice a tím více očekáváte, že jakákoli předpověď z rovnice bude odpovídat skutečnému pozorování. Standardní chyba odhadu poskytuje způsob, jak tato očekávání kvantifikovat. Hmotnost 95 % lidí s určitou výškou bude v rozmezí:

    (výška * 2,092 - 3,591) ± 2,092 * 21,118

    F-statistika je poměr meziskupinového rozptylu k vnitroskupinovému rozptylu. Tento název zavedl statistik George Snedecor na počest Sira, který na počátku 20. století vyvinul analýzu rozptylu (ANOVA, Analysis of Variance).

    Koeficient determinace R 2 vyjadřuje podíl celkového součtu čtverců souvisejících s regresí. Hodnota (1 - R 2) vyjadřuje podíl celkového součtu čtverců spojených s rezidui - chybami predikce. F-test lze získat pomocí funkce LINEST (buňka F5 na obr. 11), pomocí součtů čtverců (rozsah G10:J11), pomocí zlomků rozptylu (rozsah G14:J15). Vzorce lze studovat v přiloženém souboru Excel.

    Rýže. 11. Výpočet F-kritéria

    Při použití nominálních proměnných se používá dummy kódování (obr. 12). Pro kódování hodnot je vhodné použít hodnoty 0 a 1. Pravděpodobnost F se vypočítá pomocí funkce:

    F.DIST.PH(K2;I2;I3)

    Zde funkce F.DIST.RT() vrací pravděpodobnost získání F-testu následujícího po centrálním F-rozdělení (obr. 13) pro dva datové sady se stupni volnosti uvedenými v buňkách I2 a I3, jejichž hodnota je stejná jako hodnota uvedená v buňce K2.

    Rýže. 12. Regresní analýza pomocí fiktivních proměnných

    Rýže. 13. Centrální F-rozdělení pro λ = 0

    Kapitola 5 Vícenásobná regrese

    Když přejdete z jednoduché párové regrese s jednou proměnnou prediktoru k vícenásobné regresi, přidáte jednu nebo více proměnných prediktoru. Uložte hodnoty proměnných prediktoru do sousedních sloupců, jako jsou sloupce A a B pro dva prediktory nebo A, B a C pro tři prediktory. Před zadáním vzorce, který obsahuje funkci LINREGRESE() vyberte pět řádků a tolik sloupců, kolik je proměnných prediktoru, plus jeden pro konstantu. V případě regrese se dvěma prediktorovými proměnnými lze použít následující strukturu:

    LINEST(A2: A41; B2: C41;; PRAVDA)

    Podobně v případě tří proměnných:

    LINREGRESE(A2:A61;B2:D61;;PRAVDA)

    Řekněme, že chcete studovat možný vliv věku a stravy na hladiny LDL, lipoproteinů s nízkou hustotou, o kterých se předpokládá, že jsou zodpovědné za tvorbu aterosklerotických plátů, které způsobují aterotrombózu (obrázek 14).

    Rýže. 14. Vícenásobná regrese

    R2 vícenásobné regrese (zobrazené v buňce F13) je větší než R2 libovolné jednoduché regrese (E4, H4). Vícenásobná regrese využívá více proměnných prediktoru současně. V tomto případě se R2 téměř vždy zvyšuje.

    Pro jakoukoli jednoduchou lineární regresní rovnici s jednou proměnnou prediktoru bude vždy existovat dokonalá korelace mezi hodnotami prediktoru a hodnotami proměnných prediktoru, protože v takové rovnici se hodnoty prediktoru vynásobí jednou konstantou a přidá se další konstanta. ke každému produktu. Tento efekt není zachován při vícenásobné regresi.

    Zobrazení výsledků vrácených funkcí LINREGRESE() pro vícenásobnou regresi (obrázek 15). Regresní koeficienty se zobrazují jako součást výsledků vrácených funkcí LINREGRESE() v opačném pořadí proměnných(G–H–I odpovídá C–B–A).

    Rýže. 15. Koeficienty a jejich směrodatné chyby jsou na pracovním listu zobrazeny v opačném pořadí.

    Principy a postupy používané v regresní analýze s jedinou prediktorovou proměnnou lze snadno přizpůsobit tak, aby zohledňovaly více prediktorových proměnných. Ukazuje se, že velká část této adaptace závisí na eliminaci vlivu prediktorových proměnných na sebe navzájem. Ten je spojen se soukromými a polosoukromými korelacemi (obr. 16).

    Rýže. 16. Vícenásobnou regresi lze vyjádřit pomocí párové regrese reziduí (viz vzorce v souboru Excel)

    V Excelu jsou funkce, které poskytují informace o t- a F-distribucích. Funkce, jejichž názvy obsahují část DIST, například STUDENT.DIST() a F.DIST(), berou jako argument t- nebo F-test a vrací pravděpodobnost dodržení zadané hodnoty. Funkce, jejichž názvy obsahují část OBR, jako například STUDENT.INV() a F.INV(), berou jako argument hodnotu pravděpodobnosti a vrací hodnotu kritéria odpovídající zadané pravděpodobnosti.

    Protože hledáme kritické hodnoty t-rozdělení, které odřízne okraje jeho koncových oblastí, předáme 5 % jako argument jedné z funkcí STUDENT.INV(), která vrátí hodnotu odpovídající této pravděpodobnosti. (obr. 17, 18).

    Rýže. 17. Dvoustranný t-test

    Rýže. 18. Jednostranný t-test

    Zavedením rozhodovacího pravidla v případě jednostranné alfa oblasti zvýšíte statistickou sílu testu. Pokud jste si při zahájení experimentu jisti, že máte všechny důvody očekávat pozitivní (nebo negativní) regresní koeficient, měli byste provést jednostranný test. V tomto případě bude vyšší pravděpodobnost, že se rozhodnete správně a zamítnete hypotézu nulového regresního koeficientu v populaci.

    Statistici raději používají tento termín řízený test místo termínu test jednoho ocasu a termín neřízený test místo termínu dvoustranný test. Termíny směrový a nesměrový jsou vhodnější, protože zdůrazňují spíše typ hypotézy než povahu koncových bodů rozdělení.

    Přístup k hodnocení vlivu prediktorů na základě srovnání modelů. Na Obr. 19 ukazuje výsledky regresní analýzy, která testuje příspěvek proměnné Dieta k regresní rovnici.

    Rýže. 19. Porovnání dvou modelů kontrolou rozdílů v jejich výsledcích

    Výsledky LINREGRESE() (rozsah H2:K6) souvisí s tím, co nazývám úplným modelem, který regresuje proměnnou LDL na stravě, věku a HDL. V rozsahu H9:J13 jsou výpočty uvedeny bez zohlednění predikční proměnné Dieta. Říkám tomu limitovaný model. V úplném modelu je 49,2 % rozptylu v LDL závislé proměnné vysvětleno prediktorovými proměnnými. V omezeném modelu je pouze 30,8 % LDL vysvětleno věkem a HDL. Ztráta R 2 v důsledku vyloučení proměnné Dieta z modelu je 0,183. V rozsahu G15:L17 byly provedeny výpočty, které ukazují, že pouze s pravděpodobností 0,0288 je vliv proměnné Dieta náhodný. Ve zbývajících 97,1 % má dieta vliv na LDL.

    Kapitola 6. Předpoklady a upozornění týkající se regresní analýzy

    Pojem „předpoklad“ není striktně definován a způsob jeho použití naznačuje, že pokud předpoklad není splněn, jsou výsledky celé analýzy přinejmenším sporné nebo možná neplatné. Ve skutečnosti tomu tak není, i když jistě existují případy, kdy porušení předpokladu zásadně změní obraz. Hlavní předpoklady jsou: a) rezidua proměnné Y jsou normálně distribuována v libovolném bodě X podél regresní přímky; b) hodnoty Y jsou lineárně závislé na hodnotách X; c) rozptyl reziduí je přibližně stejný v každém bodě X; d) mezi zbytky není žádný vztah.

    Pokud předpoklady nehrají významnou roli, hovoří statistici o robustnosti analýzy ve vztahu k porušení předpokladu. Zejména když použijete regresi k testování rozdílů mezi průměry skupin, nezáleží na předpokladu, že hodnoty Y – a tedy i rezidua – jsou normálně rozděleny: testy jsou odolné proti porušení předpokladu normality. Je důležité analyzovat data pomocí grafů. Například součástí doplňku Analýza dat nástroj Regrese.

    Pokud data neodpovídají předpokladům lineární regrese, máte k dispozici jiné nelineární přístupy. Jednou z nich je logistická regrese (obr. 20). V blízkosti horní a dolní meze prediktorové proměnné vede lineární regrese k nerealistickým předpovědím.

    Rýže. 20. Logistická regrese

    Na Obr. Obrázek 6.8 ukazuje výsledky dvou metod analýzy dat zaměřené na zkoumání vztahu mezi ročním příjmem a pravděpodobností koupě domu. Je zřejmé, že pravděpodobnost nákupu se bude zvyšovat s rostoucím příjmem. Grafy usnadňují zjištění rozdílů mezi výsledky předpovídajícími pravděpodobnost koupě domu pomocí lineární regrese a výsledky, které byste mohli získat pomocí jiného přístupu.

    Ve statistické řeči se odmítnutí nulové hypotézy, když je ve skutečnosti pravdivá, nazývá chyba I. typu.

    V doplňku Analýza dat je nabízen praktický nástroj pro generování náhodných čísel, který umožňuje uživateli specifikovat požadovaný tvar rozdělení (například Normální, Binomický nebo Poissonův), stejně jako střední a standardní odchylku.

    Rozdíly mezi funkcemi rodiny STUDENT.DIST(). Počínaje Excelem 2010 jsou k dispozici tři různé formy funkce, které vracejí zlomek rozdělení vlevo a/nebo vpravo od dané hodnoty t-testu. Funkce STUDENT.DIST() vrátí poměr plochy pod distribuční křivkou nalevo od zadané hodnoty t-testu. Řekněme, že máte 36 pozorování, takže počet stupňů volnosti k analýze je 34 a hodnota t-testu je 1,69. V tomto případě vzorec

    STUDENT.DIST(+1,69;34;PRAVDA)

    vrátí hodnotu 0,05 nebo 5 % (obrázek 21). Třetí argument STUDENT.DIST() může být TRUE nebo FALSE. Pokud je nastaveno na hodnotu TRUE, funkce vrací kumulativní plochu pod křivkou nalevo od daného t-testu, vyjádřenou jako zlomek. Pokud je NEPRAVDA, funkce vrátí relativní výšku křivky v bodě odpovídajícím t-testu. Jiné verze funkce STUDENT.DIST() - STUDENT.DIST.PX() a STUDENT.DIST.2X() - berou jako argumenty pouze hodnotu t-testu a počet stupňů volnosti a nevyžadují třetí argument .

    Rýže. 21. Tmavší zastíněná oblast na levém konci distribuce odpovídá podílu plochy pod křivkou nalevo od velké pozitivní hodnoty t-testu.

    K určení oblasti napravo od t-testu použijte jeden ze vzorců:

    1 – STUDENT.DIST (1, 69; 34; TRUE)

    STUDENT.DIST.PH(1,69;34)

    Celková plocha pod křivkou musí být 100 %, takže odečtením zlomku plochy nalevo od hodnoty t-testu vrácené funkcí od 1 dostaneme zlomek plochy napravo od hodnoty t-testu. Možná bude výhodnější přímo získat část plochy, která vás zajímá, pomocí funkce STUDENT.DIST.RH(), kde RH znamená pravý konec rozdělení (obr. 22).

    Rýže. 22. 5% alfa plocha pro směrový test

    Použití funkcí STUDENT.DIST() nebo STUDENT.DIST.PH() znamená, že jste vybrali řízenou pracovní hypotézu. Směrová pracovní hypotéza v kombinaci s nastavením hodnoty alfa na 5 % znamená, že všech 5 % umístíte na pravý konec distribuce. Nulu hypotézu budete muset zamítnout pouze v případě, že pravděpodobnost získání hodnoty vašeho t-testu je 5 % nebo méně. Směrové hypotézy obvykle vedou k citlivějším statistickým testům (tato větší citlivost je také označována jako větší statistická síla).

    U neřízeného testu zůstává hodnota alfa na stejné úrovni 5 %, ale rozložení bude jiné. Protože musíte povolit dva výsledky, pravděpodobnost falešně pozitivního výsledku musí být rozdělena mezi dva konce rozdělení. Obecně se uznává, že tato pravděpodobnost je rozdělena rovnoměrně (obr. 23).

    Pomocí stejné získané hodnoty t-testu a stejného počtu stupňů volnosti jako v předchozím příkladu použijte vzorec

    STUDENT DIST.2X(1,69;34)

    Z žádného konkrétního důvodu vrací funkce STUDENT.DIST.2X() chybový kód #NUM!, pokud je jako první argument uvedena záporná hodnota t-testu.

    Pokud vzorky obsahují různé počty dat, použijte dvouvzorkový t-test s různými rozptyly, který je součástí balení Analýza dat.

    Kapitola 7 Použití regrese k testování rozdílů mezi průměry skupin

    Proměnné dříve označované jako prediktivní proměnné budou v této kapitole označovány jako výsledné proměnné a místo prediktorových proměnných bude použit termín faktorové proměnné.

    Nejjednodušší přístup ke kódování nominální proměnné je falešné kódování(obr. 24).

    Rýže. 24. Regresní analýza založená na fiktivním kódování

    Při použití fiktivního kódování jakéhokoli druhu je třeba dodržovat následující pravidla:

    • Počet sloupců vyhrazených pro nová data se musí rovnat počtu úrovní faktoru mínus
    • Každý vektor představuje jednu úroveň faktoru.
    • Subjekty na jedné úrovni, což je často kontrolní skupina, obdrží kód 0 na všech vektorech.

    Vzorec v buňkách F2:H6 =LINEST(A2:A22;C2:D22;;TRUE) vrátí statistiku regrese. Pro srovnání na Obr. 24 ukazuje výsledky tradiční analýzy rozptylu vrácené nástrojem Jednosměrná analýza rozptylu nástavby Analýza dat.

    Kódování efektů. V jiném typu kódování tzv kódování efektů, průměr každé skupiny se porovná s průměrem průměrů skupiny. Tento aspekt kódování efektů je způsoben použitím -1 místo 0 jako kódu pro skupinu, která přijímá stejný kód ve všech kódových vektorech (obrázek 25).

    Rýže. 25. Kódování efektů

    Při použití fiktivního kódování je hodnota konstanty vrácená funkcí LINREGRESE() průměrem skupiny přiřazených nulových kódů ve všech vektorech (obvykle kontrolní skupina). V případě kódování efektů je konstanta rovna celkovému průměru (buňka J2).

    Obecný lineární model je užitečný způsob, jak konceptualizovat hodnotové složky výsledné proměnné:

    Y ij = μ + α j + ε ij

    Použití řeckých písmen místo latinských písmen v tomto vzorci zdůrazňuje skutečnost, že se vztahuje na populaci, ze které jsou vzorky čerpány, ale může být přepsáno tak, aby označovalo, že se týká vzorků odebraných z publikované populace:

    Y ij = Y̅ + a j + e ij

    Myšlenka je taková, že každé pozorování Y ij lze považovat za součet následujících tří složek: celkový průměr, μ; efekt zpracování jaj; hodnotu e ij , která představuje odchylku jednotlivého kvantitativního ukazatele Y ij od kombinované hodnoty celkového průměru a efektu j-tého ošetření (obr. 26). Cílem regresní rovnice je minimalizovat součet čtverců reziduí.

    Rýže. 26. Pozorování rozložená na součásti obecného lineárního modelu

    Faktorová analýza. Pokud se zkoumá vztah mezi výslednou proměnnou a dvěma nebo více faktory současně, pak se v tomto případě hovoří o použití faktorové analýzy. Přidání jednoho nebo více faktorů k jednosměrné analýze rozptylu může zvýšit statistickou sílu. V jednosměrné ANOVA je variace ve výsledné proměnné, kterou nelze přisoudit faktoru, zahrnuta do zbytkového průměru čtverce. Může se však stát, že tato odchylka souvisí s jiným faktorem. Pak lze tuto odchylku odstranit ze střední kvadratické chyby, jejíž snížení vede ke zvýšení hodnot F-testu, a tím ke zvýšení statistické síly testu. nástavba Analýza dat obsahuje nástroj, který zajišťuje zpracování dvou faktorů současně (obr. 27).

    Rýže. 27. Nástroj Dvoucestná analýza rozptylu s balíčkem analýzy opakování

    Nástroj analýzy rozptylu použitý na tomto obrázku je užitečný v tom, že vrací střední hodnotu a rozptyl výsledné proměnné a také hodnotu čítače pro každou skupinu zahrnutou v návrhu. Stůl Analýza rozptylu zobrazí dva parametry, které nejsou ve výstupu jednosměrné verze nástroje ANOVA. Věnujte pozornost zdrojům variací Vzorek A sloupců v řádcích 27 a 28. Zdroj variace sloupců odkazuje na pohlaví. Zdroj variací Vzorek odkazuje na jakoukoli proměnnou, jejíž hodnoty zaujímají různé řádky. Na Obr. 27, hodnoty pro skupinu CourseLech1 jsou na řádcích 2-6, skupina CourseLech2 jsou na řádcích 7-11 a skupina CourseLech3 jsou na řádcích 12-16.

    Hlavním bodem je, že jak pohlaví (označené Sloupce v buňce E28), tak Léčba (označené Vzorek v buňce E27) jsou zahrnuty v tabulce ANOVA jako zdroje variací. Průměry pro muže se liší od průměrů pro ženy, což vytváří zdroj odchylek. Průměry pro tři ošetření se také liší – zde je další zdroj odchylek. Existuje také třetí zdroj, Interaction, který odkazuje na kombinovaný účinek proměnných Gender a Léčba.

    Kapitola 8

    Analýza kovariance neboli ANCOVA (Analýza kovariance) snižuje zkreslení a zvyšuje statistickou sílu. Dovolte mi připomenout, že jedním ze způsobů, jak posoudit spolehlivost regresní rovnice, jsou F-testy:

    F = MS regrese/MS reziduální

    kde MS (střední čtverec) je střední čtverec a indexy Regrese a Residual označují regresní a reziduální složky. MS Reziduum se vypočítá pomocí vzorce:

    MS Residual = SS Residual / df Residual

    kde SS (součet čtverců) je součet čtverců a df je počet stupňů volnosti. Když do regresní rovnice přidáte kovarianci, určitá část celkového součtu čtverců není zahrnuta v SS ResiduaI , ale v SS Regression . To vede ke snížení SS Residual l, a tudíž MS Residual. Čím menší je MS Residual, tím větší je F-test a tím je pravděpodobnější, že zamítnete nulovou hypotézu, že mezi průměry není žádný rozdíl. V důsledku toho přerozdělíte volatilitu výsledné proměnné. V ANOVA, když se nebere v úvahu kovariance, variabilita jde do chyby. Ale v ANCOVA je část variability dříve připisovaná chybě přiřazena kovariátu a stává se součástí SS regrese.

    Vezměme si příklad, kdy je stejný soubor dat analyzován nejprve pomocí ANOVA a poté pomocí ANCOVA (obrázek 28).

    Rýže. 28. Analýza ANOVA ukazuje, že výsledky získané pomocí regresní rovnice jsou nespolehlivé

    Studie porovnává relativní účinky fyzického cvičení, které rozvíjí svalovou sílu, a kognitivního cvičení (křížovky), které aktivuje mozkovou aktivitu. Subjekty byly náhodně rozděleny do dvou skupin, takže na začátku experimentu byly obě skupiny ve stejných podmínkách. Po třech měsících byly měřeny kognitivní charakteristiky subjektů. Výsledky těchto měření jsou uvedeny ve sloupci B.

    Rozsah A2:C21 obsahuje počáteční data předaná funkci LINREGRESE() k provedení analýzy pomocí kódování efektů. Výsledky funkce LINREGRESE() jsou zobrazeny v rozsahu E2:F6, kde buňka E2 zobrazuje regresní koeficient spojený s vektorem dopadu. Buňka E8 obsahuje t-test = 0,93 a buňka E9 testuje spolehlivost tohoto t-testu. Hodnota v buňce E9 udává, že pravděpodobnost, že se setkáte s rozdílem mezi průměry skupiny pozorovanými v tomto experimentu, je 36 %, pokud jsou průměry skupiny v populaci stejné. Jen málokdo považuje tento výsledek za statisticky významný.

    Na Obr. Obrázek 29 ukazuje, co se stane, když se do analýzy přidá kovariát. V tomto případě jsem do datové sady přidal věk každého subjektu. Koeficient determinace R 2 pro regresní rovnici, která používá kovariát, je 0,80 (buňka F4). Hodnota R2 v rozsahu F15:G19, ve kterém jsem reprodukoval výsledky ANOVA získané bez použití kovariátu, je pouze 0,05 (buňka F17). Proto regresní rovnice, která zahrnuje kovariát, předpovídá hodnoty proměnné Kognitivní skóre mnohem přesněji než použití samotného vektoru dopadu. U ANCOVA je pravděpodobnost náhodného získání hodnoty F-testu zobrazené v buňce F5 menší než 0,01 %.

    Rýže. 29. ANCOVA přináší úplně jiný obrázek

    Sestavení lineární regrese, odhad jejích parametrů a jejich významnosti lze mnohem rychleji provést pomocí analytického balíku Excel (Regression). Uvažujme interpretaci získaných výsledků v obecném případě ( k vysvětlující proměnné) podle příkladu 3.6.

    Stůl regresní statistiky jsou uvedeny hodnoty:

    Násobek R – koeficient vícenásobné korelace;

    R- náměstí– koeficient determinace R 2 ;

    Normalizované R - náměstí- upraveno R 2 upravený pro počet stupňů volnosti;

    standardní chyba je standardní chyba regrese S;

    Pozorování - počet pozorování n.

    Stůl Analýza rozptylu dáno:

    1. Sloupec df - počet stupňů volnosti rovný

    pro řetězec Regrese df = k;

    pro řetězec Zbytekdf = nk – 1;

    pro řetězec Celkovýdf = n– 1.

    2. Sloupec SS- součet čtverců odchylek, rovný

    pro řetězec Regrese ;

    pro řetězec Zbytek ;

    pro řetězec Celkový .

    3. Sloupec SLEČNA rozptyly určené vzorcem SLEČNA = SS/df:

    pro řetězec Regrese– rozptyl faktorů;

    pro řetězec Zbytek je zbytkový rozptyl.

    4. Sloupec F - vypočtená hodnota F-kritéria vypočtená podle vzorce

    F = SLEČNA(regrese)/ SLEČNA(zbytek).

    5. Sloupec Význam F je hodnota hladiny významnosti odpovídající vypočtené F-statistika .

    Význam F= FRIST( F- statistika, df(regrese), df(zbytek)).

    Pokud význam F < стандартного уровня значимости, то R 2 je statisticky významný.

    Koeficienty standardní chyba t-statistiky p-hodnota spodních 95 % Nejlepších 95 %
    Y 65,92 11,74 5,61 0,00080 38,16 93,68
    X 0,107 0,014 7,32 0,00016 0,0728 0,142

    Tato tabulka ukazuje:

    1. Kurzy– hodnoty koeficientů A, b.

    2. Standardní chyba jsou standardní chyby regresních koeficientů S a, Sb.



    3. t- statistika– vypočtené hodnoty t -kritéria vypočítaná podle vzorce:

    t-statistika = koeficienty / standardní chyba.

    4.R-hodnota (významnost t) je hodnota hladiny významnosti odpovídající vypočtené t- statistika.

    R-hodnota = STUDRASP(t-statistika, df(zbytek)).

    Li R-význam< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

    5. Spodních 95 % a horních 95 % jsou dolní a horní hranice 95% intervalu spolehlivosti pro koeficienty teoretické lineární regresní rovnice.

    ZBÝVAJÍCÍ ODBĚR
    Pozorování Předpokládaný r Zůstává e
    72,70 -29,70
    82,91 -20,91
    94,53 -4,53
    105,72 5,27
    117,56 12,44
    129,70 19,29
    144,22 20,77
    166,49 24,50
    268,13 -27,13

    Stůl ZBÝVAJÍCÍ ODBĚR uvedeno:

    ve sloupci Pozorování– číslo pozorování;

    ve sloupci předpověděl y jsou vypočtené hodnoty závislé proměnné;

    ve sloupci Zůstává E je rozdíl mezi pozorovanými a vypočtenými hodnotami závislé proměnné.

    Příklad 3.6. Dostupné údaje (arb. jednotky) o výdajích na potraviny y a příjem na hlavu X pro devět skupin rodin:

    X
    y

    Pomocí výsledků analytického balíčku Excel (Regrese) analyzujeme závislost nákladů na potraviny na hodnotě příjmu na hlavu.

    Výsledky regresní analýzy se obvykle zapisují takto:

    kde v závorkách jsou standardní chyby regresních koeficientů.

    Regresní koeficienty A = 65,92 a b= 0,107. Směr komunikace mezi y A X určuje znaménko regresního koeficientu b= 0,107, tzn. vztah je přímý a pozitivní. Součinitel b= 0,107 ukazuje, že při zvýšení příjmu na hlavu o 1 arb. Jednotky náklady na potraviny se zvyšují o 0,107 konv. Jednotky

    Odhadneme význam koeficientů získaného modelu. Význam koeficientů ( a, b) se kontroluje proti t- test:

    p-hodnota ( A) = 0,00080 < 0,01 < 0,05

    p-hodnota ( b) = 0,00016 < 0,01 < 0,05,

    proto ty koeficienty ( a, b) jsou významné na 1% hladině a ještě více na 5% hladině významnosti. Regresní koeficienty jsou tedy významné a model je adekvátní původním datům.

    Výsledky regresního odhadu jsou kompatibilní nejen se získanými hodnotami regresních koeficientů, ale také s některými jejich sadami (interval spolehlivosti). S pravděpodobností 95 % jsou intervaly spolehlivosti pro koeficienty (38,16 - 93,68) pro A a (0,0728 - 0,142) pro b.

    Kvalita modelu se posuzuje koeficientem determinace R 2 .

    Hodnota R 2 = 0,884 znamená, že faktor příjmu na hlavu může vysvětlit 88,4 % variace (rozptyl) ve výdajích na potraviny.

    Význam R 2 zkontroloval F- test: významnost F = 0,00016 < 0,01 < 0,05, следовательно, R 2 je významný na 1% hladině a ještě více na 5% hladině významnosti.

    V případě párové lineární regrese lze korelační koeficient definovat jako . Získaná hodnota korelačního koeficientu naznačuje, že vztah mezi výdaji na potraviny a příjmem na hlavu je velmi těsný.