• Testování jednoduchých hypotéz Pearsonovým chí-kvadrát testem v MS EXCEL. P.2. Pearsonův test dobré způsobilosti (c2) 2 testy

    oficiální rozvojová pomoc. Empirické frekvence jsou ve skutečnosti pozorované frekvence.

    OVĚŘENÍ HYPOTÉZY O ROZDĚLENÍ OBECNÉ POPULACE. PERSONOVO KRITÉRIUM

    Jak již bylo uvedeno výše, předpoklad o typu distribuce lze vyslovit na základě teoretických předpokladů. Avšak bez ohledu na to, jak dobře je zvolen zákon teoretického rozdělení, mezi empirickým a teoretickým rozdělením jsou nevyhnutelné rozpory. Přirozeně se nabízí otázka: jsou tyto rozpory způsobeny pouze náhodnými okolnostmi spojenými s omezeným počtem pozorování, nebo jsou významné a souvisí s tím, že teoretický distribuční zákon byl vybrán neúspěšně. K zodpovězení této otázky slouží kritérium shody, tzn.

    ODA. Kritérium shody se nazývá kritériem pro testování hypotézy navrhovaného zákona neznámého rozdělení.

    Pro každé kritérium, tj. odpovídající distribuci, obvykle se sestavují tabulky, podle kterých nalézají k kr (viz přílohy). Po nalezení kritického bodu se ze vzorků dat vypočítá pozorovaná hodnota kritéria NA obs. Li NA obs > k kr, pak je nulová hypotéza zamítnuta, pokud naopak, pak je přijata.

    Popišme aplikaci Pearsonova kritéria k testování hypotézy normálního rozdělení obecné populace. Pearsonovo kritérium odpovídá na otázku, zda je rozpor mezi empirickými a teoretickými četnostmi náhodný?

    Pearsonovo kritérium, stejně jako jakékoli jiné kritérium, neprokazuje platnost hypotézy, ale pouze stanoví na přijaté hladině významnosti její souhlas nebo nesouhlas s pozorovanými daty.

    Nechť tedy získáme empirické rozdělení ze vzorku velikosti n. Na hladině významnosti a je nutné otestovat nulovou hypotézu: populace je normálně rozdělena.

    Jako kritérium pro testování nulové hypotézy se bere náhodná veličina c 2 =, kde jsou empirické četnosti; - teoretické frekvence.

    Tento SW má c 2 - rozdělení s k - stupni volnosti. Počet stupňů volnosti zjistíme rovnicí k=m –r -1, m je počet dílčích intervalů vzorkování; r je počet distribučních parametrů. Pro normální rozdělení r=2 (a a s), pak k=m –3.

    Aby bylo možné otestovat nulovou hypotézu na dané hladině významnosti: populace je normálně rozdělena, je nutné:

    1. Vypočítejte výběrový průměr a výběrovou směrodatnou odchylku.

    2. Vypočítejte teoretické četnosti,

    kde n je velikost vzorku; h - krok (rozdíl mezi dvěma sousedními možnostmi); ; funkční hodnoty se podívejte do aplikace.

    3. Porovnejte empirické a teoretické četnosti pomocí Pearsonova testu. Pro tohle:



    a) najít pozorovanou hodnotu kritéria;

    b) podle tabulky kritických distribučních bodů c 2 podle dané hladiny významnosti a a počtu stupňů volnosti k najděte kritický bod .

    Li< - нет оснований отвергнуть нулевую гипотезу. Если >- Nulová hypotéza je zamítnuta.

    Komentář. Málo frekvencí (<5) следует объединить; в этом случае и соответствующие им теоретические частоты также надо сложить. Если производилось объединение частот, то при определении числа степеней свободы следует в качестве m принять число групп выборки, оставшихся после объединения частот.

    Přiřazení kritérií

    Kritérium χ 2 se používá pro dva účely;

    1) porovnat empirickou distribuci znaku s teoretický - jednotné, normální nebo jiné;

    2) pro spárování dva, tři nebo více empirických distribuce stejného prvku 12 .

    Popis kritéria

    Kritérium χ 2 odpovídá na otázku, zda se různé hodnoty rysu vyskytují se stejnou frekvencí v empirických a teoretických rozděleních nebo ve dvou či více empirických rozděleních.

    Výhodou této metody je, že umožňuje porovnávat distribuce příznaků prezentovaných v libovolném měřítku, počínaje stupnicí jmen (viz část 1.2). V nejjednodušším případě alternativního rozdělení "ano - ne", "povolil sňatek - nepovolil sňatek", "vyřešil problém - nevyřešil problém" atd. již můžeme použít kritérium χ 2 .

    Předpokládejme, že pozorovatel zaznamená počet chodců, kteří si na své cestě z bodu A do bodu B vybrali pravou nebo levou ze dvou symetrických cest (viz obrázek 4.3).

    Předpokládejme, že jako výsledek 70 pozorování se zjistí, že E\ lidé si vybrali správnou cestu a pouze 19 - levou. Pomocí kritéria χ 2 můžeme určit, zda se dané rozložení možností liší od rovnoměrného rozložení, ve kterém by byly zvoleny oba jízdní pruhy se stejnou frekvencí. Jedná se o variantu srovnání přijatého uhpyrotechnické distribuce s teoretický. Takový úkol může být například v aplikovaném psychologickém výzkumu souvisejícím s designem v architektuře, komunikačních systémech atp.

    Ale představte si, že pozorovatel řeší úplně jiný problém: je zaneprázdněn problémy bilaterální regulace. Shoda získané distribuce s jednotnou ho zajímá mnohem méně než shoda či neshoda jeho dat s daty jiných badatelů. Ví, že praváci mají tendenci kroužit proti směru hodinových ručiček, zatímco levonohí mají tendenci kroužit po směru hodinových ručiček, a že ve studii kolegů 13 byla levá noha zjištěna u 26 lidí ze 100 zkoumaných.

    Pomocí metody χ 2 může porovnat dvě empirická rozdělení: poměr 51:19 ve vlastním vzorku a poměr 74:26 ve vzorku jiných výzkumníků.

    Toto je možnost srovnání dvou empirických rozdělení podle nejjednoduššího alternativního atributu (samozřejmě nejjednoduššího z matematického hlediska a v žádném případě ne psychologického).

    Podobně můžeme porovnat rozložení voleb ze tří a více alternativ. Pokud například ve vzorku 50 lidí 30 zvolilo odpověď (a), 15 lidí - odpověď (b) a 5 lidí - odpověď (c), pak můžeme pomocí metody χ 2 zkontrolovat, zda se toto rozdělení liší od jednotného distribuce nebo z distribuce odpovědí v jiném vzorku, kde odpověď (a) zvolilo 10 osob, odpověď (b) 25 osob, odpověď (c) 15 osob.

    V případech, kdy je znak měřen kvantitativně, řekněme PROTI bodů, sekund nebo milimetrů, možná budeme muset zkombinovat všechnu hojnost hodnot funkcí do několika číslic. Pokud se například čas na vyřešení problému pohybuje od 10 do 300 sekund, můžeme zadat 10 nebo 5 číslic v závislosti na velikosti vzorku. Například to budou číslice: 0-50 sekund; 51-100 sekund; 101-150 sekund atd. Pak použijeme metodu χ 2 bude porovnávat četnosti výskytu různých číslic atributu, ale jinak se schéma zapojení nemění.

    Při porovnání empirického rozdělení s teoretickým zjišťujeme míru diskrepance mezi empirickými a teoretickými četnostmi.

    Při porovnávání dvou empirických rozdělení určíme míru diskrepance mezi empirickými četnostmi a teoretickými četnostmi, která by byla pozorována, kdyby se tato dvě empirická rozdělení shodovala. Vzorce pro výpočet teoretických četností budou speciálně uvedeny pro každou možnost srovnání.

    Čím větší je rozpor mezi dvěma srovnatelnými distribucemi, více empirický hodnota y).

    Hypotézy

    V závislosti na úkolech je možných několik hypotéz,

    kterou si klademe před sebe.

    První možnost:

    H 0: Výsledné empirické rozdělení znaku se neliší od teoretického (např. rovnoměrného) rozdělení.

    H 1: Výsledné empirické rozdělení znaku se liší od teoretického rozdělení.

    Druhá možnost:

    H 0: Empirické rozdělení 1 se neliší od empirického rozdělení 2.

    H 1: Empirické rozdělení 1 se od empirického rozdělení 2 liší.

    Třetí možnost:

    H 0: Empirická rozdělení 1, 2, 3, ... se od sebe neliší.

    H 1: Empirická rozdělení 1, 2, 3, ... se od sebe liší.

    Kritérium χ 2 umožňuje testovat všechny tři varianty hypotéz.

    Grafické znázornění kritéria

    Ukažme si příklad s volbou pravé nebo levé stopy na cestě z bodu A do bodu B. Na Obr. 4.4 je frekvence výběru levé stopy znázorněna levým sloupcem a četnost výběru pravé stopy je znázorněna pravým sloupcem histogramu 14 . Relativní selekční frekvence jsou měřeny na ose y, to znamená selekční frekvence konkrétní stopy, vztažené k celkovému počtu pozorování. Pro levou stopu je relativní frekvence, které se také říká frekvence, 19/70, tedy 0,27, a pro pravou stopu 51/70, tedy 0,73.

    Pokud by obě cesty byly stejně pravděpodobně vybrány, pak by polovina subjektů zvolila správnou cestu a polovina levou cestu. Pravděpodobnost výběru každého z pruhů by byla 0,50.

    Vidíme, že odchylky empirických četností od této hodnoty jsou poměrně značné. Možná budou rozdíly mezi empirickým a teoretickým rozdělením značné.

    Na Obr. 4.5 ve skutečnosti ukazuje dva histogramy, ale pruhy jsou seskupeny tak, že na levé straně jsou porovnány preferenční frekvence levého pruhu ve volbě našeho pozorovatele (1) a ve vzorku T.A. Dobrochotová a N.N. Bragina (2) a vpravo - preferenční frekvence pravé stopy ve dvou stejných vzorcích.

    Vidíme, že rozdíly mezi vzorky jsou velmi malé. Kritérium χ2, pravděpodobně potvrdí shodu těchto dvou distribucí.

    Omezení kritérií

    1. Velikost vzorku by měla být dostatečně velká: P30. Na P<30 критерий χ2 dává velmi přibližné hodnoty. Přesnost kritéria se zvyšuje s velkým P.

    2. Teoretická frekvence pro každou buňku tabulky by neměla být menší než 5: F> 5. To znamená, že pokud je počet číslic předem určen a nelze jej změnit, pak nemůžeme použít metodu χ2, aniž bychom nashromáždili určitý minimální počet pozorování. Chceme-li například otestovat naše předpoklady, že frekvence hovorů na telefonní službu Trust je nerovnoměrně rozložena do 7 dnů v týdnu, pak potřebujeme 5 * 7 = 35 hovorů. Pokud tedy počet číslic ( k) předem daný, jako v tomto případě, minimální počet pozorování ( n min) je určeno vzorcem: n min = k*5.

    3. Vybrané číslice by měly „vyhrabat“ celé rozdělení, to znamená pokrýt celý rozsah variability vlastností. V tomto případě musí být seskupení do číslic ve všech porovnávaných rozděleních stejné.

    4. Při porovnávání rozdělení znaků, které nabývají pouze 2 hodnot, je nutné provést "opravu spojitosti". Po provedení korekce se hodnota χ 2 sníží (viz Příklad s korekcí spojitosti).

    5. Hodnosti musí být nekřížitelné: pokud je pozorování přiřazeno k jedné hodnosti, pak již nemůže být přiřazeno k žádné jiné hodnosti.

    Součet pozorování podle číslic se musí vždy rovnat celkovému počtu pozorování.

    Legitimní otázkou je, co považovat za počet pozorování – počet voleb, reakcí, akcí nebo počet subjektů, které si vybírají, projevují reakce nebo provádějí akce. Pokud subjekt vykazuje několik reakcí a všechny jsou zaznamenány, nebude počet subjektů odpovídat počtu reakcí. Reakce každého subjektu můžeme sečíst, jak je to např. provedeno v Heckhausenově technice pro studium výkonové motivace nebo v Testu frustrační tolerance S. Rosenzweiga, a porovnat rozložení jednotlivých součtů reakcí na několika vzorcích.

    V tomto případě bude počet pozorování počet subjektů. Pokud spočítáme četnost reakcí určitého typu v celém vzorku, pak dostaneme rozložení reakcí různých typů a v tomto případě bude počet pozorování celkovým počtem registrovaných reakcí, nikoli počtem subjektů .

    Z matematického hlediska je pravidlo hodnostní nezávislosti dodržováno v obou případech: jedno pozorování náleží jedné a pouze jedné hodnosti rozdělení.

    Lze si představit i takovou variantu studia, kdy studujeme rozložení možností jednoho předmětu. V kognitivně-behaviorální terapii je například klient požádán, aby pokaždé zaznamenal přesný čas výskytu nežádoucí reakce, například záchvaty strachu, deprese, výbuchy vzteku, sebepodceňující myšlenky atd. psychoterapeut analyzuje získaná data, identifikuje hodiny, ve kterých se nežádoucí příznaky objevují častěji, a pomáhá klientovi sestavit individuální program prevence nežádoucích reakcí.

    Je možné použít kritérium χ2 dokázat, že některé hodiny jsou v tomto individuálním rozdělení častější, zatímco jiné méně? Všechna pozorování jsou závislá, protože se týkají stejného předmětu; současně jsou všechny kategorie nekřížitelné, protože stejný útok se vztahuje pouze na jednu kategorii (v tomto případě na hodinu dne). Zřejmě bude aplikace metody χ2 v tomto případě určitým zjednodušením. Záchvaty strachu, hněvu nebo deprese se mohou vyskytovat opakovaně během dne a může se stát, že řekněme brzy ráno v 6 hodin a pozdě večer ve 12 hodin se záchvaty obvykle objevují společně, ve stejný den: zároveň se 3hodinový denní záchvat objeví nejdříve den po předchozím záchvatu a ne méně než dva dny před dalším atd. Zřejmě zde můžeme hovořit o složitém matematickém modelu nebo něčem takovém , kterému nelze "algebrou uvěřit". A přesto může být pro praktické účely užitečné použít toto kritérium k identifikaci systematické nerovnoměrnosti výskytu jakýchkoli významných událostí, voleb, preferencí atd. u stejné osoby.

    Stejné pozorování by tedy mělo patřit pouze do jedné kategorie. Ale zda považovat každý subjekt nebo každou zkoumanou reakci subjektu za pozorování, je otázka, jejíž řešení závisí na cílech studie (viz např. Ganzen V.A., Balin V.D., 1991, s.10).

    Hlavní "omezení" kritéria χ 2 - že většině výzkumníků připadá děsivě složitá.

    Pokusme se překonat mýtus o nepochopitelné obtížnosti kritéria χ 2 . Pro oživení prezentace zvažte hravou literární ukázku.

    Zvažte aplikaci vSLEČNAVYNIKATPearsonův chí-kvadrát test pro testování jednoduchých hypotéz.

    Po obdržení experimentálních dat (tj. když existují nějaké vzorek) obvykle se volí distribuční zákon, který nejlépe popisuje náhodnou veličinu reprezentovanou daným vzorkování. Kontrola, jak dobře jsou experimentální data popsána zvoleným teoretickým distribučním zákonem, se provádí pomocí kritéria souhlasu. nulová hypotéza, obvykle existuje hypotéza, že rozdělení náhodné veličiny se rovná nějakému teoretickému zákonu.

    Nejprve se podíváme na aplikaci Pearsonův test dobré shody X 2 (chí-kvadrát) ve vztahu k jednoduchým hypotézám (předpokládá se, že parametry teoretického rozdělení jsou známé). Potom - , když je zadán pouze formulář rozdělení a parametry tohoto rozdělení a hodnota statistika X 2 jsou odhadnuty/vypočteny na základě téhož Vzorky.

    Poznámka: V anglicky psané literatuře postup přihlášky Pearsonův test dobré shody X 2 má jméno Chí-kvadrát test dobré kondice.

    Připomeňme si postup testování hypotéz:

    • na základě Vzorky hodnota se vypočítá statistika, což odpovídá typu testované hypotézy. Například k použití t-statistika(pokud není známo);
    • podřízený pravdě nulová hypotéza, distribuce tohoto statistika známé a lze je použít k výpočtu pravděpodobností (například pro t- statistika Tento );
    • vypočítané na základě Vzorky význam statistika porovnání s kritickou hodnotou pro danou hodnotu ();
    • nulová hypotéza zamítnuta, pokud hodnota statistika větší než kritické (nebo pokud pravděpodobnost získání této hodnoty statistika() méně úroveň významnosti, což je ekvivalentní přístup).

    Pojďme utrácet testování hypotéz pro různé distribuce.

    Diskrétní pouzdro

    Předpokládejme, že dva lidé hrají kostky. Každý hráč má svou vlastní sadu kostek. Hráči se střídají v hodu 3 kostkami najednou. Každé kolo vyhrává ten, kdo hodí více šestek najednou. Výsledky se zaznamenávají. Jeden z hráčů měl po 100 kolech podezření, že kosti jeho soupeře nejsou symetrické, protože. často vyhrává (často hází šestky). Rozhodl se analyzovat, jak pravděpodobný je takový počet soupeřových výsledků.

    Poznámka: Protože 3 kostky, pak můžete házet 0 najednou; 1; 2 nebo 3 šestky, tzn. náhodná veličina může nabývat 4 hodnot.

    Z teorie pravděpodobnosti víme, že pokud jsou kostky symetrické, pak pravděpodobnost vypadnutí šestek poslechne. Po 100 kolech lze tedy pomocí vzorce vypočítat frekvence šestek
    =BINOM.DIST(A7;3;1/6;NEPRAVDA)*100

    Vzorec předpokládá, že buňka A7 obsahuje odpovídající počet shozených šestek v jednom kole.

    Poznámka: Výpočty jsou uvedeny v příklad souboru na listu Discrete.

    Pro srovnání pozorováno(Pozorováno) a teoretické frekvence(Očekáváno) pohodlné použití.

    S výraznou odchylkou pozorovaných četností od teoretického rozdělení, nulová hypotéza o rozdělení náhodné veličiny podle teoretického zákona, je třeba odmítnout. To znamená, že pokud soupeřovy kostky nejsou symetrické, pak se budou pozorované frekvence „výrazně lišit“ od binomické rozdělení.

    V našem případě jsou na první pohled frekvence dost blízké a bez výpočtů lze jen těžko vyvodit jednoznačný závěr. Použitelný Pearsonův test dobré shody X 2, takže místo subjektivního tvrzení „výrazně odlišné“, které lze učinit na základě srovnání histogramy, použijte matematicky správné tvrzení.

    Využijme toho zákon velkých čísel pozorovaná frekvence (Observed) s rostoucí hlasitostí Vzorky n směřuje k pravděpodobnosti odpovídající teoretickému zákonu (v našem případě binomické právo). V našem případě je velikost vzorku n 100.

    Pojďme se představit test statistika, kterou označíme X 2:

    kde O l je pozorovaná četnost událostí, u kterých náhodná veličina nabyla určitých přijatelných hodnot, E l je odpovídající teoretická četnost (očekávaná). L je počet hodnot, které může náhodná proměnná nabývat (v našem případě se rovná 4).

    Jak je vidět ze vzorce, toto statistika je mírou blízkosti sledovaných frekvencí k teoretickým, tzn. lze jej použít k odhadu „vzdáleností“ mezi těmito frekvencemi. Pokud je součet těchto „vzdáleností“ „příliš velký“, pak jsou tyto frekvence „podstatně odlišné“. Je jasné, že pokud je naše krychle symetrická (tj binomické právo), pak pravděpodobnost, že součet „vzdáleností“ bude „příliš velký“, bude malá. K výpočtu této pravděpodobnosti potřebujeme znát rozdělení statistika X 2 ( statistika X 2 vypočteno na základě náhodnosti Vzorky, takže je to náhodná proměnná, a proto má svou vlastní rozdělení pravděpodobnosti).

    Z vícerozměrného analogu Moivre-Laplaceova integrální věta je známo, že pro n->∞ je naše náhodná veličina X 2 asymptoticky s L - 1 stupni volnosti.

    Pokud tedy vypočtená hodnota statistika X 2 (součet „vzdáleností“ mezi frekvencemi) bude větší než určitá mezní hodnota, pak budeme mít důvod odmítnout nulová hypotéza. Jako při kontrole parametrické hypotézy, mezní hodnota se nastavuje přes úroveň významnosti. Pokud pravděpodobnost, že statistika X 2 bude mít hodnotu menší nebo rovnou vypočítané ( p-význam) bude méně úroveň významnosti, Že nulová hypotéza lze odmítnout.

    V našem případě je statistická hodnota 22,757. Pravděpodobnost, že statistika X 2 bude mít hodnotu větší nebo rovnou 22,757, je velmi malá (0,000045) a lze ji vypočítat pomocí vzorců
    =XI2.DIST.PX(22,757;4-1) nebo
    =XI2.TEST(Pozorováno; Očekáváno)

    Poznámka: Funkce CH2.TEST() je speciálně navržena k testování vztahu mezi dvěma kategorickými proměnnými (viz ).

    Pravděpodobnost 0,000045 je výrazně menší než obvykle úroveň významnosti 0,05. Hráč má tedy všechny důvody podezírat svého protivníka z nečestnosti ( nulová hypotéza o jeho poctivosti se popírá).

    Při aplikaci Kritérium X 2 je třeba dbát na to, aby objem Vzorky n bylo dostatečně velké, jinak by aproximace rozdělení byla neplatná statistika X 2. Obvykle se má za to, že k tomu stačí, aby pozorované frekvence (Observed) byly větší než 5. Pokud tomu tak není, pak se nízké frekvence sloučí do jedné nebo se spojí s jinými frekvencemi a kombinované hodnotě se přiřadí celková pravděpodobnost a podle toho se snižuje i počet stupňů volnosti X 2 -distribuce.

    Za účelem zlepšení kvality aplikace Kritérium X 2(), je nutné zkrátit intervaly rozdělení (zvětšit L a podle toho zvýšit počet stupně svobody), tomu však brání omezení počtu pozorování, která spadají do každého intervalu (d.b.>5).

    nepřetržitý případ

    Pearsonův test dobré shody X 2 lze stejným způsobem použít v případě .

    Zvažte některé vzorkování, skládající se z 200 hodnot. Nulová hypotéza tvrdí, že vzorek vyrobeno z .

    Poznámka: Náhodné proměnné v vzorový soubor na listu Průběžně generované pomocí vzorce =NORM.ST.INV(RAND()). Proto nové hodnoty Vzorky jsou generovány při každém přepočtu listu.

    Zda je dostupný soubor dat adekvátní, lze posoudit vizuálně.

    Jak můžete vidět z diagramu, vzorové hodnoty sedí docela dobře podél přímky. Nicméně, stejně jako pro testování hypotéz použitelný Pearsonův test dobré shody X 2 .

    K tomu rozdělíme variační rozsah náhodné veličiny do intervalů s krokem 0,5. Vypočítejme pozorované a teoretické četnosti. Pozorované frekvence vypočítáme pomocí funkce FREQUENCY() a teoretické - pomocí funkce NORM.ST.DIST().

    Poznámka: Pokud jde o diskrétní případ, je nutné zajistit, aby vzorek byl poměrně velký a do intervalu spadalo více než 5 hodnot.

    Vypočítejte statistiku X 2 a porovnejte ji s kritickou hodnotou pro daný úroveň významnosti(0,05). Protože variační rozsah náhodné veličiny jsme rozdělili do 10 intervalů, počet stupňů volnosti je pak 9. Kritická hodnota se dá vypočítat podle vzorce
    \u003d XI2.INV.RH (0,05; 9) nebo
    \u003d XI2.OBR (1–0,05; 9)

    Výše uvedený graf ukazuje, že statistická hodnota je 8,19, což je výrazně vyšší hodnota kritickýnulová hypotéza není odmítnut.

    Níže je na kterém vzorek převzal nepravděpodobnou hodnotu a na základě kritéria Pearsonův souhlas X 2 nulová hypotéza byla zamítnuta (navzdory skutečnosti, že náhodné hodnoty byly generovány pomocí vzorce =NORM.ST.INV(RAND()) poskytování vzorkování z standardní normální rozdělení).

    Nulová hypotéza zamítnuto, i když vizuálně jsou data poměrně blízko přímce.

    Jako příklad si vezměme také vzorkování z U(-3; 3). V tomto případě je i z grafu zřejmé, že nulová hypotéza musí být odmítnut.

    Kritérium Pearsonův souhlas X 2 to také potvrzuje nulová hypotéza musí být odmítnut.

    Výše diskutovaná metoda funguje dobře, pokud kvalitativní rys, který nás zajímá, má dvě hodnoty (trombóza je - ne, marťanská zelená - růžová). Navíc, protože metoda je přímou analogií Studentova t-testu, počet porovnávaných vzorků by měl být také roven dvěma.

    Je jasné, že jak počet hodnot vlastností, tak počet vzorků může být větší než dva. K analýze takových případů je zapotřebí jiná metoda podobná analýze rozptylu. Vzhledově se tato metoda, kterou nyní popíšeme, velmi liší od kritéria z, ale ve skutečnosti je mezi nimi mnoho společného.

    Abychom nezacházeli pro příklad daleko, začněme problémem trombózy zkratu, který jsme právě analyzovali. Nyní nebudeme uvažovat podíl, ale počet pacientů s trombózou. Výsledky testu zaneseme do tabulky (tab. 5.1). U každé skupiny uvádíme počet pacientů s trombózou a bez ní. Máme dvě známky: lék (aspirin-placebo) a trombózu (ano-ne); tabulka ukazuje všechny jejich možné kombinace, proto se takové tabulce říká kontingenční tabulka. V tomto případě je velikost stolu 2x2.

    Podívejme se na buňky umístěné na diagonále jdoucí z levého horního do pravého dolního rohu. Čísla v nich jsou znatelně větší než čísla v ostatních buňkách tabulky. To naznačuje souvislost mezi užíváním aspirinu a rizikem trombózy.

    Nyní se podívejme na tabulku. 5.2. Toto je tabulka očekávaných čísel, která bychom dostali, kdyby aspirin neovlivňoval riziko trombózy. Jak vypočítat očekávaná čísla, budeme analyzovat o něco níže, ale nyní budeme věnovat pozornost vnějším rysům tabulky. Kromě lehce děsivých zlomkových čísel v buňkách si lze všimnout ještě jednoho rozdílu oproti tabulce. 5.1 jsou souhrnné údaje pro skupiny v pravém sloupci a pro trombózu ve spodním řádku. V pravém dolním rohu - celkový počet pacientů ve studii. O-



    Všimněte si, že ačkoli čísla v rámečcích na Obr. 5.1 a 5.2 jsou různé, součty v řádcích a sloupcích jsou stejné.

    Jak vypočítat očekávaná čísla? Placebo dostalo 25 lidí, aspirin - 19. Trombóza zkratu se vyskytla u 24 ze 44 vyšetřených, tedy v 54,55 % se nevyskytla - u 20 ze 44, tedy ve 45,45 % případů. Přijímáme nulovou hypotézu, že aspirin neovlivňuje riziko trombózy. Poté by měla být trombóza pozorována se stejnou frekvencí 54,55 % ve skupinách s placebem a aspirinem. Po výpočtu, kolik je 54,55 % z 25 a 19, dostaneme 13,64 a 10,36. To je očekávaný počet pacientů s trombózou ve skupinách s placebem a aspirinem. Stejně tak můžete získat očekávaný počet pacientů bez trombózy ve skupině s placebem - 45,45 % z 25, tj. 11,36 ve skupině s aspirinem - 45,45 % z 19, tj. 8,64. Vezměte prosím na vědomí, že očekávaná čísla se počítají s přesností na dvě desetinná místa - taková přesnost bude potřeba při dalších výpočtech.

    Porovnat tabulku. 5.1 a 5.2. Čísla v buňkách se značně liší. Skutečný obraz se proto liší od toho, který by byl pozorován, kdyby aspirin neměl žádný vliv na riziko trombózy. Nyní zbývá sestavit kritérium, které by tyto rozdíly charakterizovalo jedním číslem, a následně najít jeho kritickou hodnotu – tedy jednat jako v případě kritérií F, t nebo z.

    Nejprve si však připomeňme ještě jednu známou vlastnost.




    měřítkem je Conahanova práce srovnávající halothan a morfin, konkrétně část, kde byla srovnávána operační mortalita. Odpovídající údaje jsou uvedeny v tabulce. 5.3. Tvar tabulky je stejný jako u tabulky. 5.1. Na druhé straně Table 5.4 jako tabulka. 5.2 obsahuje očekávaná čísla, tj. čísla vypočítaná za předpokladu, že letalita je nezávislá na anestetiku. Ze všech 128 operovaných jich přežilo 110, tedy 85,94 %. Pokud by volba anestezie neovlivnila mortalitu, pak by v obou skupinách byl podíl přeživších stejný a počet přeživších by byl ve skupině halotanu - 85,94 % z 61, tedy 52,42 ve skupině s morfinem - 85,94 % z 67, tedy 57,58. Stejným způsobem můžete získat očekávaný počet úmrtí. Porovnejme tabulky 5.3 a 5.4. Na rozdíl od předchozího příkladu jsou rozdíly mezi očekávanými a pozorovanými hodnotami velmi malé. Jak jsme zjistili dříve, neexistují žádné rozdíly v úmrtnosti. Vypadá to, že jsme na správné cestě.

    Kritéria x2 pro stůl 2x2

    Test x2 (čti „chí-kvadrát“) nevyžaduje žádné předpoklady o parametrech populace, ze které jsou vzorky odebírány – jde o první z neparametrických testů, se kterými se seznamujeme. Pojďme to postavit. Za prvé, jako vždy, kritérium musí obsahovat jediné číslo,


    která by sloužila jako měřítko rozdílu mezi pozorovanými daty a očekávanými, tedy v tomto případě rozdílu mezi tabulkou pozorovaných a očekávaných čísel. Za druhé, kritérium musí vzít v úvahu, že rozdíl, řekněme, u jednoho pacienta je důležitější pro malý očekávaný počet než pro velký.

    Kritérium x2 definujeme takto:

    kde O je pozorované číslo v buňce kontingenční tabulky, E je očekávané číslo ve stejné buňce. Sčítání se provádí přes všechny buňky tabulky. Jak je ze vzorce vidět, čím větší je rozdíl mezi pozorovanými a očekávanými čísly, tím větší je příspěvek buňky k hodnotě %2. Přitom buňky s malým očekávaným počtem přispívají více. Kritérium tedy splňuje oba požadavky – za prvé měří rozdíly a za druhé zohledňuje jejich velikost vzhledem k očekávaným číslům.

    Aplikujme kritéria x2 na data trombózy zkratu. V tabulce. 5.1 ukazuje pozorovaná čísla a v tabulce. 5.2 - očekáváno.


    lo a hodnota z získaná ze stejných dat. Lze ukázat, že pro křížové tabulky velikosti 2x2 platí rovnost X2 = z2.

    Kritická hodnota %2 může být nalezena známým způsobem. Na Obr. 5.7 ukazuje rozložení možných hodnot X2 pro kontingenční tabulky 2x2 pro případ, kdy mezi studovanými prvky neexistuje žádný vztah. Hodnota X2 přesahuje 3,84 pouze v 5 % případů. 3,84 je tedy kritická hodnota pro 5% hladinu významnosti. V příkladu trombózy zkratu jsme dostali hodnotu 7,10, takže hypotézu, že neexistuje žádná souvislost mezi příjmem aspirinu a krevními sraženinami, odmítáme. Naopak údaje z tabulky. 5.3 jsou v dobré shodě s hypotézou stejného účinku halotanu a morfinu na pooperační mortalitu.

    Samozřejmě, jako všechna kritéria významnosti, x2 poskytuje pravděpodobnostní hodnocení pravdivosti konkrétní hypotézy. Ve skutečnosti aspirin nemusí ovlivnit riziko trombózy. Ve skutečnosti mohou mít halotan a morfin různé účinky na operační mortalitu. Jak ale ukázalo kritérium, obojí je nepravděpodobné.

    Použití kritéria x2 je platné, pokud je očekávaný počet v kterékoli z buněk větší nebo roven 5. Tato podmínka je podobná podmínce pro použitelnost z kritéria.

    Kritická hodnota %2 závisí na velikosti kontingenční tabulky, tedy na počtu porovnávaných ošetření (řádky tabulky) a počtu možných výsledků (sloupce tabulky). Velikost tabulky je vyjádřena počtem stupňů volnosti v:

    V \u003d (r - 1) (s - 1),

    kde r je počet řádků a c je počet sloupců. Pro tabulky 2x2 máme v = (2 - l) (2 - l) = l. Kritické hodnoty %2 pro různé v jsou uvedeny v tabulce. 5.7.

    Dříve uvedený vzorec pro x2 v případě tabulky 2x2 (tedy s 1 stupněm volnosti) dává poněkud nadhodnocené hodnoty (podobná situace byla s kritériem z). Je to proto, že teoretické rozdělení x2 je spojité, zatímco sada vypočtených hodnot x2 je diskrétní. V praxi to povede k příliš častému zamítání nulové hypotézy. Pro kompenzaci tohoto efektu je do vzorce zavedena Yeatsova korekce: (1 O - E - -

    Všimněte si, že Yeatsova korekce platí pouze tehdy, když v = 1, tedy pro tabulky 2x2.

    Aplikujme Yeatsovu korekci na studium souvislosti mezi příjmem aspirinu a shuntovou trombózou (tabulky 5.1 a 5.2):


    Jak si pamatujete, bez Yatesovy korekce byla hodnota %2 7,10. Korigovaná hodnota %2 byla nižší než 6,635, kritická hodnota pro 1% hladinu významnosti, ale stále překračovala 5,024, kritická hodnota pro 2,5% hladinu významnosti.

    Kritérium x2 pro libovolnou kontingenční tabulku

    Nyní zvažte případ, kdy má kontingenční tabulka více než dva řádky nebo sloupce. Všimněte si, že kritérium z nelze v takových případech použít.

    V kap. 3 jsme ukázali, že běh snižuje počet period*. Vyzývají vás tyto změny k návštěvě lékaře? V tabulce. 5.5 ukazuje výsledky průzkumu mezi účastníky studie. Podporují tyto údaje hypotézu, že běh neovlivňuje pravděpodobnost návštěvy lékaře na nepravidelnou menstruaci?

    Ze 165 vyšetřených žen se k lékaři dostavilo 69 (tj. 42 %), zbylých 96 (tj. 58 %) k lékaři nechodilo. Li

    * Zároveň se pro jednoduchost výpočtů předpokládalo, že velikosti všech tří skupin – kontrolní, atletky a atletky – jsou stejné. Nyní použijeme reálná data.


    běhání neovlivňuje pravděpodobnost návštěvy lékaře, pak v každé ze skupin mělo lékaře konzultovat 42 % žen. V tabulce. 5.6 ukazuje odpovídající očekávané hodnoty. Liší se od nich skutečná data hodně?

    Abychom na tuto otázku odpověděli, vypočítáme %2:

    (14 - 22,58)2 (40 - 31,42)2 (9 - 9,62)2

    22,58 31,42 9,62

    (14 - 13,38)2 (46 - 36,80)2 (42 - 51,20)2

    13,38 36,80 51,20

    Počet řádků v kontingenční tabulce jsou tři, sloupce jsou dva, takže počet stupňů volnosti v = (3 - 1)(2 - 1) = 2. Pokud je hypotéza o absenci meziskupinových rozdílů správná, je třeba počítat s tím, že počet stupňů volnosti v kontingenční tabulce je 30 stupňů. pak, jak je vidět z tabulky. 5,7, %2 překročí 9,21 ne více než 1 % času. Výsledná hodnota je větší. Na hladině významnosti 0,01 tedy můžeme zamítnout hypotézu, že mezi běháním a návštěvami lékaře ohledně menstruace není žádný vztah. Když jsme však zjistili, že toto spojení existuje, nebudeme schopni určit, které (které) skupiny se liší od ostatních.

    Takže jsme se seznámili s kritériem %2. Zde je pořadí jeho aplikace.

    Sestavte kontingenční tabulku na základě dostupných dat.

    Spočítejte počet objektů v každém řádku a v každém sloupci a zjistěte, jaký podíl z celkového počtu objektů tyto hodnoty tvoří.

    Když znáte tyto zlomky, vypočítejte očekávaná čísla s přesností na dvě desetinná místa - počet objektů, které
    by zasáhla každou buňku v tabulce, pokud by mezi řádky a sloupci neexistoval žádný vztah

    Najděte hodnotu, která charakterizuje rozdíly mezi pozorovanými a očekávanými hodnotami. Pokud je kontingenční tabulka 2x2, použijte korekci Yeats

    Vypočítejte počet stupňů volnosti, vyberte hladinu významnosti a podle tabulky. 5.7, určete kritickou hodnotu %2. Porovnejte ho s tím, který jste dostali ke svému stolu.

    Pamatujte, že pro křížové tabulky 2x2 platí kritérium x2 pouze v případě, že všechna očekávaná čísla jsou větší než 5. A co větší tabulky? V tomto případě platí kritérium %2, pokud jsou všechna očekávaná čísla alespoň 1 a podíl buněk s očekávanými čísly menšími než 5 nepřesahuje 20 %. Pokud tyto podmínky nejsou splněny, kritéria x2 mohou poskytnout falešné výsledky. V tomto případě lze shromáždit další údaje, ale to není vždy možné. Existuje jednodušší způsob - spojit více řádků nebo sloupců. Níže si ukážeme, jak na to.

    Konverze křížových tabulek

    V předchozí části jsme stanovili existenci spojení mezi běháním a návštěvami lékaře kvůli menstruaci, nebo ekvivalentně existenci rozdílů mezi skupinami ve frekvenci návštěv lékaře. Nepodařilo se nám však určit, které skupiny se od sebe liší a které ne. S podobnou situací jsme se setkali při analýze rozptylu. Při porovnávání několika skupin vám analýza rozptylu umožňuje odhalit samotnou skutečnost existence rozdílů, ale neuvádí skupiny, které vyčnívají. To druhé lze provést postupy vícenásobného porovnávání, o kterých jsme hovořili v kap. 4. Něco podobného lze udělat s kontingenčními tabulkami.

    Při pohledu na stůl. 5,5 lze předpokládat, že sportovkyně a sportovkyně chodily k lékaři častěji než ženy z kontrolní skupiny. Rozdíl mezi atletkami a atletkami se zdá být nepatrný.

    Pojďme otestovat hypotézu, že atletky a atletky

    PROTI 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001
    41 40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745
    42 41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084
    43 42,335 48,840 55,230 59,304 62,990 67,459 70,616 77,419
    44 43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750
    45 44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077
    46 45,335 52,056 58,641 62,830 66,617 71,201 74,437 81,400
    47 46,335 53,127 59,774 64,001 67,821 72,443 75,704 82,720
    48 47,335 54,196 60,907 65,171 69,023 73,683 76,969 84,037
    49 48,335 55,265 62,038 66,339 70,222 74,919 78,231 85,351
    50 49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661
    Úroveň významnosti

    J. H. Zar, Biostatistical Analysis, 2. vydání, Prentice-Hall, Englewood Cliffs, N.J., 1984.

    ki chodím k lékaři stejně často. Chcete-li to provést, vyberte podtabulku z původní tabulky obsahující data pro tyto dvě skupiny. V tabulce. 5.8 ukazuje pozorovaná a očekávaná čísla; jsou docela blízko.

    Přednáška 6 Analýza dvou vzorků

    6.1 Parametrická kritéria. 1

    6.1.2 Studentský test ( t-test) 2

    6.1.3 F je Fisherův test. 6

    6.2 Neparametrické testy. 7

    6.2.1 Kritérium znaménka ( G-kritérium) 7

    Dalším úkolem statistické analýzy, který se řeší po stanovení hlavních (vzorkových) charakteristik a analýze jednoho vzorku, je společná analýza více vzorků. Nejdůležitější otázkou, která vyvstává při analýze dvou vzorků, je otázka, zda mezi vzorky existují rozdíly. Obvykle se to provádí testováním statistických hypotéz o příslušnosti obou vzorků ke stejné obecné populaci nebo o rovnosti průměrů.

    Pokud je nám dán typ distribuce nebo distribuční funkce vzorku, pak v tomto případě lze problém odhadu rozdílů mezi dvěma skupinami nezávislých pozorování vyřešit pomocí parametrické kritéria statistika: buď Studentův t-test ( t ), pokud je srovnání vzorků založeno na průměrných hodnotách ( X a Y), nebo pomocí Fisherova kritéria ( F ), pokud jsou vzorky porovnány podle jejich rozptylů.

    Použití kritérií parametrické statistiky bez předchozí kontroly typu rozdělení může vést k určitým chybám.při testování pracovní hypotézy.

    K překonání těchto obtíží v praxi pedagogického výzkumu je třeba použít neparametrické kritéria statistika , jako je znaménkový test, dvouvýběrový Wilcoxonův test, Van der Waerdenův test, Spearmanův test, jehož volba, i když nevyžaduje velký počet členů vzorku a znalost typu distribuce, stále závisí za řady podmínek.

    Neparametrické statistické testy - jsou oproštěny od předpokladu o zákonu rozdělení vzorků a jsou založeny na předpokladu nezávislosti pozorování.

    6.1 Parametrická kritéria

    Do skupiny parametrická kritéria metody matematické statistiky zahrnuje metody pro výpočet popisné statistiky, konstrukci grafů pro normalitu rozdělení, testování hypotéz o příslušnosti dvou vzorků ke stejné populaci. Tyto metody jsou založeny na předpokladu, že rozdělení vzorků se řídí normálním (Gaussovým) zákonem rozdělení. Mezi parametrická kritéria statistiky budeme uvažovat kritérium Student a Fisher.

    6.1.1 Metody testování normality vzorku

    Abychom zjistili, zda máme co do činění s normálním rozdělením, můžeme použít následující metody:

    1) v rámci os můžete nakreslit mnohoúhelník frekvence (funkce empirického rozdělení) a normální distribuční křivka na základě výzkumných dat. Zkoumáním tvarů křivky normálního rozdělení a grafu empirické distribuční funkce lze zjistit ty parametry, ve kterých se poslední křivka liší od první;

    2) vypočítané střední, střední a mod a na základě toho se určí odchylka od normálního rozdělení. Pokud se modus, medián a aritmetický průměr od sebe výrazně neliší, jedná se o normální rozdělení. Pokud se medián výrazně liší od průměru, pak máme co do činění s asymetrickým vzorkem.

    3) špičatost distribuční křivky musí být rovna 0. Křivky s kladnou špičatostí jsou mnohem svislejší než normální distribuční křivka. Křivky s negativní špičatostí jsou ve srovnání s normální distribuční křivkou skloněnější;

    4) po určení průměrné hodnoty rozdělení četností a směrodatné odchylky najděte následující čtyři intervaly rozdělení a porovnejte je se skutečnými údaji řady:

    a) - asi 25 % frekvence populace by mělo patřit do intervalu,

    b) - asi 50 % frekvence populace by mělo patřit do intervalu,

    c) - asi 75 % frekvence populace by mělo patřit do intervalu,

    d) - do intervalu by mělo patřit asi 100 % frekvence populace.

    6.1.2 Studentský test ( t-test)

    Kritérium umožňuje zjistit pravděpodobnost, že oba průměry ve vzorku patří do stejné populace. Toto kritérium se nejčastěji používá k testování hypotézy: "Průměry dvou vzorků patří do stejné populace."

    Při použití kritéria lze rozlišit dva případy. V prvním případě se používá k testování hypotézy o rovnosti obecných průměrů dvou nezávislý, nesouvisející vzorky (tzv dvouvzorkový t-test). V tomto případě existuje kontrolní skupina a experimentální (experimentální) skupina, počet subjektů ve skupinách může být různý.

    V druhém případě, kdy stejná skupina objektů generuje číselný materiál pro testování hypotéz o prostředcích, tzv. párový t-test. Vzorky se nazývají závislý, příbuzný.

    a) v případě nezávislých vzorků

    Testovací statistika pro případ nesouvisejících nezávislých vzorků je:

    kde , jsou aritmetický průměr v experimentální a kontrolní skupině,

    Směrodatná chyba rozdílu mezi aritmetickými průměry. Zjistí se ze vzorce:

    ,(2)

    kde n 1 a n 2 hodnoty prvního a druhého vzorku.

    Pokud n 1 \u003d n 2, pak se standardní chyba rozdílu mezi aritmetickými průměry vypočítá podle vzorce:

    (3)

    kde n je velikost vzorku.

    Počet počet stupňů volnosti se provádí podle vzorce:

    k \u003d n 1 + n 2 - 2. (4)

    Při číselné rovnosti vzorků k = 2 n - 2.

    Dále je potřeba porovnat získanou hodnotu t emp s teoretickou hodnotou Studentova t-rozdělení (viz příloha učebnic statistiky). Pokud t emp

    Zvažte příklad použití t -Studentský test na odpojené a nestejné vzorky.

    Příklad 1. Ve dvou skupinách studentů - experimentální a kontrolní - byly v předmětu získány následující výsledky (skóre testů; viz tabulka 1).

    Tabulka 1. Výsledky experimentu

    První skupina (experimentální) N 1 =11 osob

    Druhá skupina (kontrola)

    N 2 \u003d 9 lidí

    121413161191315151814

    Celkový počet členů vzorku: n 1 =11, n 2 =9.

    Výpočet aritmetických průměrů: X cf =13,636; Y cf = 9,444

    Směrodatná odchylka: s x = 2,460; sy = 2,186

    Pomocí vzorce (2) vypočítáme směrodatnou chybu rozdílu mezi aritmetickými průměry:

    Vypočítáme statistiku kritéria:

    Hodnotu t získanou v experimentu porovnáme s tabulkovou hodnotou, při zohlednění stupňů volnosti, rovnou podle vzorce (4) počtu subjektů mínus dva (18).

    Tabulková hodnota t crit je 2,1 za předpokladu rizika chybného úsudku v pěti případech ze sta (úroveň významnosti = 5 % nebo 0,05).

    Pokud empirická hodnota t získaná v experimentu převyšuje tabulkovou hodnotu, pak je důvod přijmout alternativní hypotézu (H 1), že studenti experimentální skupiny vykazují průměrně vyšší úroveň znalostí. V experimentu t=3,981, tabulkové t=2,10, 3,981>2,10, z čehož vyplývá závěr o výhodnosti experimentálního učení.

    Tady může být otázky :

    1. Co když se hodnota t získaná v experimentu ukáže být menší než tabulková? Pak musí být přijata nulová hypotéza.

    2. Byla prokázána výhodnost experimentální metody? Ne tolik prokázáno, jak je ukázáno, protože od samého začátku je povoleno riziko, že se spletete v pěti případech ze sta (p = 0,05). Náš experiment by mohl být jedním z těchto pěti případů. Ale 95 % možných případů hovoří ve prospěch alternativní hypotézy, a to je ve statistických důkazech poměrně přesvědčivý argument.

    3. Co když kontrolní skupina dosáhne lepších výsledků než skupina experimentální? Proměňme například aritmetický průměr experimentální skupiny a - kontrola:

    Z toho vyplývá závěr, že nová metoda se dosud neukázala jako dobrá, a to z různých, možná, důvodů. Protože absolutní hodnota je 3,9811>2,1, je přijata druhá alternativní hypotéza (H 2) o výhodnosti tradiční metody.

    b) případ spojených (párových) vzorků

    V případě spojených vzorků se stejným počtem měření v každém lze použít jednodušší vzorec Studentova t-testu.

    Výpočet hodnoty t se provádí podle vzorce:

    kde jsou rozdíly mezi odpovídajícími hodnotami proměnné X a proměnné Y a d je průměr těchto rozdílů;

    Sd se vypočítá pomocí následujícího vzorce:

    (6)

    Počet stupňů volnosti k je určena vzorcem k=n -1. Vezměme si příklad použití Studentova t-testu pro souvislé a, samozřejmě, stejně početné vzorky.

    Pokud t emp

    Příklad 2. Byla studována míra orientace studentů na umělecké a estetické hodnoty. Aby se utváření této orientace v experimentální skupině aktivizovalo, byly pořádány rozhovory, byly pořádány výstavy dětských kreseb, organizovány návštěvy muzeí a galerií, setkání s hudebníky, umělci atd. Přirozeně se nabízí otázka: jaké je efektivita odvedené práce? Aby se ověřila účinnost této práce, byl proveden test před a po experimentu. Z metodických důvodů jsou v tabulce 2 uvedeny výsledky malého počtu subjektů.

    Tabulka 2. Výsledky experimentu

    Studenti

    (n=10)

    Body

    Pomocné výpočty

    před začátkem experimentu (X)

    na konci

    experiment (U)

    d

    d2

    Ivanov

    Novikov

    Sidorov

    Pirogov

    Agapov

    Suvorov

    Ryžikov

    Serov

    Sekery

    Bystrov

    Průměrný

    14,8

    21,1

    Nejprve provedeme výpočet podle vzorce:

    Pak použijeme vzorec (6), dostaneme:

    Nakonec je třeba použít vzorec (5). Dostaneme:

    Počet stupňů volnosti: k \u003d 10-1 \u003d 9 a podle tabulky v příloze 1 najdeme t crit \u003d 2,262, experimentální t \u003d 6,678, což znamená možnost přijetí alternativní hypotézy (H 1 ) o významných rozdílech v aritmetických průměrech, tj. je učiněn závěr o účinnosti experimentálního dopadu.

    Z hlediska statistických hypotéz bude výsledek znít takto: na úrovni 5 % je hypotéza H 0 zamítnuta a hypotéza H 1 přijata.

    6.1.3 F - Fisherův test

    Fisherovo kritérium umožňuje porovnat hodnoty výběrových rozptylů dvou nezávislých vzorků. Chcete-li vypočítat F emp, musíte najít poměr rozptylů dvou vzorků, a to tak, aby větší rozptyl byl v čitateli a menší ve jmenovateli. Vzorec pro výpočet Fisherova kritéria je následující:

    kde jsou rozptyly prvního a druhého vzorku.

    Protože podle podmínky kritéria musí být hodnota čitatele větší nebo rovna hodnotě jmenovatele, bude hodnota Femp vždy větší nebo rovna jedné.

    Počet stupňů volnosti je také jednoduše definován:

    k 1 \u003d n l - 1 pro první vzorek (tj. pro vzorek, jehož rozptyl je větší) a k 2 \u003d n 2 - 1 pro druhý vzorek.

    V příloze 1 jsou kritické hodnoty Fisherova kritéria zjištěny hodnotami k 1 (horní řádek tabulky) a k 2 (levý sloupec tabulky).

    Pokud t emp >t krit, pak je přijata nulová hypotéza, jinak je přijata alternativa.

    Příklad 3 Ve dvou třetích třídách bylo testováno deset žáků z duševního rozvoje podle testu TURMS. Získané průměrné hodnoty se významně nelišily, nicméně psychologa zajímá otázka - existují rozdíly ve stupni homogenity ukazatelů duševního rozvoje mezi třídami.

    Řešení. Pro Fisherovo kritérium je nutné porovnat rozptyly výsledků testů v obou třídách. Výsledky testu jsou uvedeny v tabulce:

    Tabulka 3

    Počet studentů

    První stupeň

    Druhá třída

    Součty

    Průměrný

    60,6

    63,6

    Po výpočtu rozptylů pro proměnné X a Y dostaneme:

    s x 2 = 572,83; sy2=174,04

    Pak podle vzorce (8) pro výpočet podle F Fisherova kritéria zjistíme:

    Podle tabulky z Přílohy 1 pro kritérium F se stupni volnosti v obou případech rovnými k = 10 - 1 = 9 zjistíme F crit = 3,18 (<3.29), следовательно, в терминах статистических гипотез можно утвер­ждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иc следователь может утверждать, что по степени однородности такого показа­теля, как умственное развитие, имеется различие между выбор­ками из двух классов.

    6.2 Neparametrické testy

    Porovnáním okem (procentuálně) výsledků před a po jakékoli expozici dospívá výzkumník k závěru, že pokud jsou pozorovány rozdíly, pak existuje rozdíl ve srovnávaných vzorcích. Takový přístup je kategoricky nepřijatelný, protože není možné určit míru spolehlivosti rozdílů v procentech. Procenta sama o sobě neumožňují vyvodit statisticky spolehlivé závěry. K prokázání účinnosti jakéhokoli dopadu je nutné identifikovat statisticky významný trend v posunu (posunu) ukazatelů. K řešení takových problémů může výzkumník použít řadu rozdílných kritérií, dále budou uvažována neparametrická kritéria: znaménkový test a chí-kvadrát test.

    6.2.1 Kritérium znaménka ( G-kritérium)

    Kritérium je určeno k porovnání stavu některého majetku členů dvou závislý Vzorky na základě měření provedených na stupnici, která není nižší než hodnost.

    Existují dvě série pozorování náhodných proměnných X a Y získané uvažováním dvou závislé vzorky. Na jejich základě N párů tvaru (x i , y i ), kde X i, y i - výsledky dvojího měření stejné vlastnosti téhož předmětu.

    V pedagogickém výzkumu mohou studenti, učitelé a vedení škol sloužit jako předměty studia. Zároveň x i, y i mohou být např. bodové známky udělené učitelem za dvojí provedení stejné nebo odlišné práce stejnou skupinou žáků před a po použití určitého pedagogického prostředku.

    Prvky každé dvojice x i, y i jsou vzájemně porovnány ve velikosti a páru je přiřazeno znaménko «+» pokud x i< у i , podepsat «-» pokud x i > y i A «0» pokud x i = y i.

    Nulová hypotéza jsou formulovány následovně: ve stavu studovaného majetku nejsou významné rozdíly v primárním a sekundárním měření. Alternativní hypotéza: zákony rozdělení veličin X a Y jsou různé, tj. stavy studované vlastnosti se významně liší ve stejném souboru v primárním a sekundárním měření této vlastnosti.

    Statistika kritérií (T) je definován takto:

    předpokládejme, že z N párů (x, y,) existuje několik dvojic, ve kterých jsou hodnoty x i a y i jsou rovny. Takové páry jsou označeny znaménkem "0" a nejsou brány v úvahu při výpočtu hodnoty T. Předpokládejme, že po odečtení od čísla N počtu párů označených znaménkem "0" existuje pouze n parní. Mezi zbývající n párů, počítáme počet párů označených znaménkem „-“, tedy párů, ve kterých x i< y i . Hodnota T a je rovna počtu dvojic se znaménkem mínus.

    Nulová hypotéza je přijata dnehladina významnosti 0,05, pokud je pozorovaná hodnota T< n - t a , где значение n - t a určeno ze statistických tabulek pro znaménkové kritérium přílohy 2.

    Příklad 4Studenti si vyzkoušeli, jak rozumějí určitému pojmu. Patnácti studentům byl poté nabídnut e-learningový nástroj určený k rozvoji tohoto konceptu u studentů s poruchami učení. Po prostudování příručky prováděli studenti opět stejnou kontrolní práci, která byla hodnocena pětibodovým systémem.

    Výsledky dvojího provedení práce představují měření na stupnici pořadí (pětibodová škála). Za těchto podmínek je možné pomocí znakového kritéria identifikovat trend změny stavu znalostí studentů po prostudování manuálu, neboť jsou splněny všechny předpoklady tohoto kritéria.

    Výsledky dvojnásobného provedení práce (v bodech) u 15 studentů budou zaznamenány ve formě tabulky (viz tabulka 1).

    Tabulka 4

    Studenti (č.)

    První běh

    Druhé provedení

    Výškový rozdíl znamení

    Testuje se hypotéza H0 : stav znalostí studentů se po prostudování příručky nezvýšil. Alternativní hypotéza: stav znalostí studentů se po prostudování příručky zvýšil.

    Vypočítejme hodnotu statistiky kritéria T rovnající se počtu kladných rozdílů ve známkách obdržených studenty. Podle údajů v tabulce. 4 T = 10, n = 12.

    K určení kritických hodnot statistiky kritéria n-ta používáme tabulku. Aplikace 2. Pro hladinu významnosti a = 0,05 at n =12 hodnota n-ta=9. Proto je splněna nerovnost T> n-ta (10>9). Proto je v souladu s rozhodovacím pravidlem zamítnuta nulová hypotéza na hladině významnosti 0,05 a je přijata hypotéza alternativní, která umožňuje dospět k závěru, že se znalosti studentů po samostudiu příručky zlepšily.

    Příklad 5Předpokládá se, že studium matematického kurzu přispívá u studentů k formování jedné z metod logického myšlení (například metody zobecňování), i když její utváření není prováděno cílevědomě. Pro ověření tohoto předpokladu byl proveden následující experiment.

    Studenti VII Třídě bylo nabídnuto 5 úloh, jejichž řešení je založeno na využití této metody myšlení. Věřilo se, že žák tuto techniku ​​vlastní, pokud dá správnou odpověď na 3 a více úloh.

    Byla vyvinuta následující stupnice měření: 1 nebo 2 úlohy byly správně vyřešeny - skóre "0"; správně vyřešené 3 úkoly - skóre "1"; správně vyřešené 4 úkoly - skóre "2"; 5 úloh bylo správně vyřešeno - skóre "3".

    Práce byly provedeny dvakrát: koncem září a koncem května následujícího roku. Napsalo ji 35 stejných studentů, náhodně vybraných ze 7 různých škol. Výsledky dvojitého provedení práce budou zapsány ve formě tabulky (viz tabulka 5).

    V souladu s cíli experimentu formulujeme nulovou hypotézu takto: H 0 - studium matematiky nepřispívá k utváření studovaného způsobu myšlení. Pak bude alternativní hypotéza vypadat takto: H 1 - studium matematiky přispívá ke zvládnutí tohoto způsobu myšlení.

    Tabulka 5

    Podle údajů v tabulce. 5, hodnota statistiky T=15 - počet rozdílů se znaménkem "+". Z 35 párů má 12 znak "0"; Prostředek, n=35-12=23.

    Podle tabulky v příloze 2 pro n =23 a hladině významnosti 0,025, najdeme kritickou hodnotu testové statistiky rovnou 16. Proto nerovnost Т

    Proto v souladu s rozhodovacím pravidlem musíme dospět k závěru, že získané výsledky nedávají dostatečné důvody pro zamítnutí nulové hypotézy, tj. nemáme dostatečné důvody pro zamítnutí tvrzení, že studium matematiky samo o sobě nepřispívá. ke zvládnutí zvoleného způsobu myšlení.

    6.2.2 χ2 test (chí-kvadrát)

    Kritérium χ 2 (chí-kvadrát) se používá k porovnání rozložení objektů dvou populací na základě měření na stupnici jmen ve dvou nezávislý Vzorky.

    Předpokládejme, že stav studované vlastnosti (například splnění určitého úkolu) se měří u každého objektu na škále názvů, která má pouze dvě vzájemně se vylučující kategorie (například: provedeno správně - provedeno nesprávně). Podle výsledků měření stavu zkoumané nemovitosti v objektech dvou vzorků je sestavena čtyřčlánková tabulka 2X2. (viz tabulka 6).

    Tabulka 6

    V této tabulce O ij- počet objektů vi-tý vzorek, do kterého spadlj-tá kategorie podle stavu studovaného majetku;i = 1,2je počet vzorků;j=1,2– počet kategorií; N- celkový počet pozorování, rovný O 11 + O 12 + O 21 + O 22 nebo n1 + n2.

    Poté lze na základě dat tabulky 2X2 (viz tabulka 6) testovat nulovou hypotézu o rovnosti pravděpodobností objektů první a druhé množiny spadajících do první (druhé) kategorie škály pro měření. kontrolovaná vlastnost, např. hypotéza o rovnosti pravděpodobností správného splnění určitého úkolu žáky v kontrolní a experimentální třídě.

    Při testování nulových hypotéz není nutné, aby pravděpodobnosti p 1 A p 2 byly známy, protože hypotézy mezi nimi pouze zakládají určité vztahy (rovnost, více či méně).

    Pro testování výše diskutovaných nulových hypotéz se podle údajů z tabulky 2X2 (viz Tabulka 6) vypočítá hodnota statistiky kritéria. T podle následujícího obecného vzorce:

    (9)

    kde n 1, n 2 - velikosti vzorků,N=n1 + n2- celkový počet pozorování.

    Hypotéza se testuje H0: p 1 £ p 2- s alternativou H1: p1 > p2. Nechat A - přijatá hladina významnosti. Pak hodnota statistiky T, získaná na základě experimentálních dat je porovnána s kritickou hodnotou statistiky x 1-2 a ,která je určena tabulkou c 2 c jeden stupeň volnosti (viz Příloha 2) s přihlédnutím ke zvolené hodnotě A . Pokud je nerovnost pravdivá T< x 1-2 a , pak je na úrovni přijata nulová hypotéza A .Pokud tato nerovnost není splněna, pak nemáme dostatečné důvody k zamítnutí nulové hypotézy.

    Vzhledem k tomu, že nahrazení přesného rozdělení statistik T rozdělení c 2 c jeden stupeň volnosti poskytuje poměrně dobrou aproximaci pouze pro velké vzorky, použití kritéria je omezeno určitými podmínkami.

    1) součet objemů dvou vzorků je menší než 20;

    2)alespoň jedna z absolutních četností v tabulce 2X2 sestavené z experimentálních dat je menší než 5.

    Příklad 6Byl proveden experiment zaměřený na identifikaci nejlepších učebnic napsaných dvěma týmy autorů v souladu s cíli výuky geometrie a obsahem programu. IX třída. Pro experiment byly náhodným výběrem vybrány dva okresy, přičemž většina škol se nacházela ve venkovských oblastech. Žáci prvního obvodu (20 ročníků) se učili podle učebnice č. 1, žáci druhého obvodu (15 ročníků) se učili podle učebnice č. 2.

    Zamysleme se nad metodou srovnání odpovědí učitelů z experimentálních škol ve dvou okresech na jednu z otázek dotazníku: „Je učebnice obecně dostupná pro samostatnou četbu a pomáhá osvojit si látku, kterou učitel nevysvětlil v třída (odpověď: ano - ne.)

    Postoj učitelů ke studované vlastnosti učebnic se měří na škále názvů, která má dvě kategorie: ano, ne. Oba vzorky učitelů jsou náhodné a nezávislé.

    Odpovědi 20 učitelů prvního obvodu a 15 učitelů druhého obvodu rozdělíme do dvou kategorií a zapíšeme je do tabulky 2X2 (tabulka 5).

    Tabulka 7

    Všechny hodnoty v tabulce. 7 není menší než 5, tedy v souladu s podmínkami pro použití kritéria c 2 výpočet statistiky kritéria se provádí podle vzorce (9).

    Podle tabulky z Přílohy 2 pro jeden stupeň volnosti ( v=l ) a úroveň významnosti A = 0,05 nález x 1- a a=T kritické = 3,84. Pozorování nerovnosti T je tedy pravdivé<Т критич (1,86<3,84). Согласно правилу принятия ре­шений для критерия c 2 , získaný výsledek neposkytuje dostatečné důvody pro zamítnutí nulové hypotézy, tj. výsledky šetření učitelů ve dvou experimentálních obvodech neposkytují dostatečné důvody pro zamítnutí předpokladu rovné dostupnosti učebnic. 1 a 2 pro samostatné čtení studenty.

    Použití chí-kvadrát testu je možné i v případě, kdy jsou objekty dvou vzorků ze dvou populací rozděleny do více než dvou kategorií podle stavu studované vlastnosti. Studenti experimentální a kontrolní třídy jsou například rozděleni do čtyř kategorií podle známek (v bodech: 2, 3, 4, 5), které studenti obdrží za splnění některých kontrolních prací.

    Výsledky měření stavu studované vlastnosti v objektech každého vzorku jsou rozděleny do S Kategorie. Na základě těchto údajů je sestavena tabulka 2XC, ve které jsou dva řádky (podle počtu uvažovaných populací) resp. S sloupců (podle počtu různých kategorií stavu studovaného majetku, převzatých ve studii).

    Tabulka 8

    Na základě údajů v tabulce 8 je možné testovat nulovou hypotézu o rovnosti pravděpodobností zasažení objektů první a druhé množiny v každé zjá (i = l,2, ..., C) kategorií, tj. zkontrolovat splnění všech následujících rovností: p 11 \u003d p 21, p 12 \u003d p 22, ..., p 1 c \u003d p 2 c. Je možné např. testovat hypotézu o rovnosti pravděpodobností získání známek „5“, „4“, „3“ a „2“ za splnění určitého úkolu žáky v kontrolní a experimentální třídě. .

    Testovat nulovou hypotézu pomocí testu c 2 na základě dat tabulky 2XC je vypočtena hodnota statistiky kritéria T podle následujícího vzorce:

    (10)

    Kde p 1 A p 2- velikosti vzorků.

    Význam T, získaný na základě experimentálních dat je porovnán s kritickou hodnotou x 1- a ,která je určena tabulkou c 2 c k =С-1 stupně volnosti s přihlédnutím ke zvolené hladině významnosti A . Když ta nerovnost T> x 1- a anulová hypotéza je na úrovni zamítnuta A a alternativní hypotéza je přijata. To znamená, že rozložení objektů na S kategorie podle stavu studovaného majetku je v obou uvažovaných souborech rozdílná.

    Příklad 7. Podívejme se na metodiku srovnání výsledků písemné práce, která testovala asimilaci jedné z částí kurzu studenty v prvním a druhém okrese.

    Náhodným výběrem byl sestaven vzorek 50 lidí ze studentů prvního okresu, kteří práci napsali, a vzorek 50 lidí ze studentů druhého kraje. V souladu se speciálně vyvinutými kritérii hodnocení výkonu mohl každý student spadat do jedné ze čtyř kategorií: špatný, průměrný, dobrý, výborný. Výsledky práce provedené dvěma vzorky studentů využíváme k ověření hypotézy, že učebnice č. 1 přispívá k lepší asimilaci testované části kurzu, tj. studenti v první experimentální oblasti dostanou v průměru vyšší známky než studenti ve druhém kraji.

    Výsledky práce studentů obou vzorků zapíšeme do tabulky 2X4 (tab. 9 ).

    Tabulka 9

    V souladu s podmínkami použití kritéria c 2 statistika kritérií se vypočítá podle opraveného vzorce (10).

    V souladu s podmínkami pro aplikaci dvoustranného chí-kvadrát testu dle tabulky z Přílohy 2 pro jeden stupeň volnosti ( k Grabar M.I., Krasnyanskaya K.A. Aplikace matematické statistiky v pedagogickém výzkumu. Neparametrické metody. M., Pedagogika, 1977, s. 54

    Grabar M.I., Krasnyanskaya K.A. Aplikace matematické statistiky v pedagogickém výzkumu. Neparametrické metody. M., "Pedagogika", 1977, s. 57