Kendallův korelační koeficient v excelu. Kendallův koeficient pořadové korelace. Co je třeba vzít v úvahu při stanovení tématu, objektu, předmětu, cíle, cílů a hypotézy studia

Pořadový korelační koeficient charakterizuje obecnou povahu nelineární závislosti: zvýšení nebo snížení výsledného znaménka se zvýšením faktoriálu. To je indikátor těsnosti monotónního nelineárního vztahu.

Přidělení služby. Tato online kalkulačka počítá Kendalův koeficient pořadové korelace pro všechny základní vzorce a také posouzení jeho významu.

Návod. Zadejte množství dat (počet řádků). Výsledné řešení se uloží do souboru aplikace Word.

Koeficient navržený Kendallem je postaven na základě vztahů typu „více-méně“, jejichž platnost byla stanovena při konstrukci škál.
Vyberme si pár objektů a porovnejme jejich pořadí podle jednoho atributu a podle druhého. Pokud pořadí tvoří přímé pořadí podle tohoto znaku (tj. pořadí přirozené řady), pak je dvojici přiřazeno +1, pokud je opačné, pak -1. Pro vybraný pár se vynásobí odpovídající jednotky plus-minus (podle prvku X a podle prvku Y). Výsledek je zjevně +1; pokud jsou pořadí dvojice obou prvků ve stejném pořadí, a -1, pokud jsou v opačném pořadí.
Pokud jsou pořadí obou prvků stejné pro všechny páry, pak je součet jednotek přiřazených všem párům objektů maximální a roven počtu párů. Pokud jsou pořadí všech párů obrácená, pak –C 2 N . V obecném případě C 2 N = P + Q, kde P je počet kladných a Q záporných jednotek přiřazených párům při porovnání jejich pořadí pro oba znaky.
Hodnota se nazývá Kendallův koeficient.
Ze vzorce je vidět, že koeficient τ je rozdíl mezi podílem dvojic objektů, které mají v obou znacích stejné pořadí (ve vztahu k počtu všech dvojic), a podílem dvojic objektů, které nemají stejné pořadí.
Například hodnota koeficientu 0,60 znamená, že 80 % párů má stejné pořadí objektů a 20 % nikoli (80 % + 20 % = 100 %; 0,80 - 0,20 = 0,60). Tito. τ lze interpretovat jako rozdíl mezi pravděpodobnostmi koincidence a nekoincidence řádů v obou rysech pro náhodně vybranou dvojici objektů.
V obecném případě se výpočet τ (přesněji P nebo Q), a to i pro N v řádu 10, ukazuje jako těžkopádný.
Pojďme si ukázat, jak zjednodušit výpočty.

Příklad. Vztah mezi objemem průmyslové výroby a investicemi do fixního kapitálu v 10 regionech jednoho z federálních okresů Ruské federace v roce 2003 charakterizují následující údaje:

Vypočítejte koeficienty korelace pořadí podle Spearmana a Kendalla. Zkontrolujte jejich významnost při α=0,05. Formulujte závěr o vztahu mezi objemem průmyslové výroby a investicemi do stálých aktiv v uvažovaných regionech Ruské federace.

Řešení. Přiřaďte hodnocení prvku Y a faktoru X.

Seřaďme data podle X.
V řadě Y, napravo od 3, je 7 řádků větších než 3, proto 3 povede ke vzniku termínu 7 v P.
Napravo od 1 je 8 řad větších než 1 (to jsou 2, 4, 6, 9, 5, 10, 7, 8), tzn. P bude zahrnovat 8 a tak dále. V důsledku toho P = 37 a pomocí vzorců, které máme:

X	Y	pořadí X, dx	hodnost Y, d y	P	Q
18.4	5.57	1	3	7	2
20.6	2.88	2	1	8	0
21.5	4.12	3	2	7	0
35.7	7.24	4	4	6	0
37.1	9.67	5	6	4	1
39.8	10.48	6	9	1	3
51.1	8.58	7	5	3	0
54.4	14.79	8	10	0	2
64.6	10.22	9	7	1	0
90.6	10.45	10	8	0	0
				37	8

Zjednodušené vzorce:

kde n je velikost vzorku; z kp je kritický bod oboustranné kritické oblasti, který se zjistí z tabulky Laplaceovy funkce pomocí rovnosti Ф(z kp)=(1-α)/2.
Pokud |τ|< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - nulová hypotéza je zamítnuta. Mezi kvalitativními znaky existuje významná korelace pořadí.
Najdeme kritický bod z kp
Ф(z kp) = (1-α)/2 = (1 - 0,05)/2 = 0,475

Pojďme najít kritický bod:

Protože τ > T kp - zamítáme nulovou hypotézu; korelace pořadí mezi skóre ve dvou testech je významná.

Příklad. Podle údajů o objemu stavebních a montážních prací provedených svépomocí a počtu zaměstnanců v 10 stavebních firmách v jednom z měst Ruské federace určete vztah mezi těmito vlastnostmi pomocí Kendelova koeficientu.

Řešení najít pomocí kalkulačky.
Přiřaďte hodnocení prvku Y a faktoru X.
Uspořádejme objekty tak, aby jejich pořadí v X představovalo přirozená čísla. Protože hodnocení přiřazená každému páru této série jsou kladná, hodnoty „+1“ zahrnuté v P budou generovány pouze těmi páry, jejichž pořadí v Y tvoří přímé pořadí.
Lze je snadno vypočítat postupným porovnáváním pořadí každého objektu v řadě Y s ocelovými.
Kendallův koeficient.

V obecném případě se výpočet τ (přesněji P nebo Q), a to i pro N v řádu 10, ukazuje jako těžkopádný. Pojďme si ukázat, jak zjednodušit výpočty.

nebo

Řešení.
Seřaďme data podle X.
V řadě Y je napravo od 2 8 řádků větších než 2, takže z 2 vznikne výraz 8 v P.
Napravo od 4 je 6 řad větších než 4 (jedná se o 7, 5, 6, 8, 9, 10), tzn. P bude zahrnovat 6 a tak dále. Výsledkem je, že P = 29 a pomocí vzorců máme:

X	Y	pořadí X, dx	hodnost Y, d y	P	Q
38	292	1	2	8	1
50	302	2	4	6	2
52	366	3	7	3	4
54	312	4	5	4	2
59	359	5	6	3	2
61	398	6	8	2	2
66	401	7	9	1	2
70	298	8	3	1	1
71	283	9	1	1	0
73	413	10	10	0	0
				29	16

Zjednodušené vzorce:

Abychom mohli otestovat nulovou hypotézu na hladině významnosti α, že Kendallův obecný korelační koeficient pořadí je roven nule pod konkurenční hypotézou Н 1: τ ≠ 0, je nutné vypočítat kritický bod:

kde n je velikost vzorku; z kp je kritický bod oboustranné kritické oblasti, který se zjistí z tabulky Laplaceovy funkce pomocí rovnosti Ф(z kp)=(1 - α)/2.
Pokud |τ| T kp - nulová hypotéza je zamítnuta. Mezi kvalitativními znaky existuje významná korelace pořadí.
Najdeme kritický bod z kp
Ф(z kp) = (1 - α)/2 = (1 - 0,05)/2 = 0,475
Podle Laplaceovy tabulky zjistíme z kp = 1,96
Pojďme najít kritický bod:

Od t

Kendallův korelační koeficient se používá, když jsou proměnné reprezentovány dvěma ordinálními stupnicemi, za předpokladu, že neexistují žádné asociované úrovně. Výpočet Kendallova koeficientu je spojen s počítáním počtu shod a inverzí. Uvažujme tento postup na příkladu předchozího problému.

Algoritmus pro řešení problému je následující:

Přeformátujeme data tabulky. 8.5 tak, aby jeden z řádků (v tomto případě řádek X i) byl zařazen. Jinými slovy, vyměňujeme páry X A y ve správném pořadí a zadáváme údaje do sloupců 1 a 2 tabulky. 8.6.

Tabulka 8.6

X i	y i

2. Určete „stupeň hodnocení“ 2. řádku ( y i). Tento postup se provádí v následujícím pořadí:

a) vzít první hodnotu nezařazené řady „3“. Počítání počtu hodností níže dané číslo, které více porovnávaná hodnota. Existuje 9 takových hodnot (čísla 6, 7, 4, 9, 5, 11, 8, 12 a 10). Do kolonky "náhoda" zapíšeme číslo 9. Poté spočítáme počet hodnot, které méně tři. Existují 2 takové hodnoty (řady 1 a 2); zadejte číslo 2 do sloupce "inverze".

b) zahoďte číslo 3 (už jsme s ním pracovali) a opakujte postup pro další hodnotu „6“: počet shod je 6 (řady 7, 9, 11, 8, 12 a 10), počet shod. inverze je 4 (řady 1, 2, 4 a 5). Do sloupce „náhoda“ zadáme číslo 6 a do sloupce „inverze“ číslo 4.

c) obdobným způsobem se postup opakuje až do konce řady; je třeba mít na paměti, že každá „vypracovaná“ hodnota je vyloučena z dalšího posuzování (počítá se pouze pořadí, které leží pod tímto číslem).

Poznámka

Aby nedošlo k chybám ve výpočtech, je třeba mít na paměti, že s každým „krokem“ se součet náhod a inverzí o jednu snižuje; to je pochopitelné vzhledem k tomu, že pokaždé je jedna hodnota vyloučena z úvahy.

3. Vypočítá se součet zápasů (R) a součet inverzí (Q); data se zadávají do jednoho a tří zaměnitelných vzorců Kendallova koeficientu (8.10). Provedou se odpovídající výpočty.

t (8.10)

V našem případě:

V tabulce. XIV Aplikace jsou kritické hodnoty koeficientu pro daný vzorek: τ cr. = 0,45; 0,59. Empiricky získaná hodnota je porovnána s tabulkovou hodnotou.

Závěr

τ = 0,55 > τ kr. = 0,45. Pro úroveň 1 je korelace statisticky významná.

Poznámka:

V případě potřeby (například při absenci tabulky kritických hodnot) statistická významnost t Kendall lze definovat vzorcem, jako je tento:

(8.11)

Kde S* = P - Q+ 1 pokud P< Q , A S* = P - Q - 1 pokud P > Q.

Hodnoty z pro odpovídající hladinu významnosti odpovídají Pearsonově míře a jsou zjištěny podle odpovídajících tabulek (nejsou součástí přílohy. Pro standardní hladiny významnosti z cr = 1,96 (pro p1 = 0,95) a 2,58 (pro p2 = 0,99). Kendallův korelační koeficient je statisticky významný, jestliže z > z kr

V našem případě S* = P - Q– 1 = 35 a z= 2,40, tj. potvrzuje se výchozí závěr: korelace mezi znaky je statisticky významná pro 1. hladinu významnosti.

Při řazení musí expert seřadit hodnocené prvky ve vzestupném (sestupném) pořadí podle jejich preference a každému z nich přiřadit pořadí ve formě přirozených čísel. V přímém hodnocení má nejpreferovanější prvek hodnost 1 (někdy 0) a nejméně preferovaný prvek má hodnost m.

Pokud odborník nemůže provést přísné hodnocení z důvodu, že podle jeho názoru jsou některé prvky přednostně stejné, je povoleno těmto prvkům přiřadit stejné pořadí. Aby byl součet hodností roven součtu míst hodnocených prvků, používají se tzv. standardizované hodnosti. Standardizovaná hodnost je aritmetický průměr počtu prvků v řazené řadě, které jsou přednostně stejné.

Příklad 2.6. Expert seřadil šest položek podle preferencí takto:

Pak budou standardizované řady těchto prvků

Součet úrovní přiřazených prvkům se tedy bude rovnat součtu přirozených čísel.

Přesnost vyjádření preference klasifikačními prvky významně závisí na mohutnosti souboru prezentací. Postup hodnocení dává nejspolehlivější výsledky (podle míry blízkosti odhalené preference a „pravda“), kdy počet hodnocených prvků není větší než 10. Limitující síla prezentační sady by neměla překročit 20.

Zpracování a analýza žebříčků se provádí za účelem vytvoření skupinového preferenčního vztahu na základě individuálních preferencí. V tomto případě lze stanovit následující úkoly: a) stanovení těsnosti spojení mezi hodnocením dvou expertů na prvky souboru prezentací; b) určení vztahu mezi dvěma prvky podle individuálních názorů členů skupiny na různé charakteristiky těchto prvků; c) posouzení shody názorů odborníků ve skupině složené z více než dvou odborníků.

V prvních dvou případech se jako míra těsnosti spoje používá koeficient pořadové korelace. V závislosti na tom, zda je povoleno pouze přísné nebo nepřísné hodnocení, se použije buď Kendallův nebo Spearmanův koeficient pořadové korelace.

Kendallův koeficient pořadové korelace pro problém (a)

Kde m− počet prvků; r 1 i – hodnost přidělená prvním expertem i-tý prvek; r 2 i – tentýž, druhý odborník.

Pro úlohu (b) mají složky (2.5) následující význam: m je počet charakteristik dvou hodnocených prvků; r 1 i(r 2 i) - pořadí i-té charakteristiky v pořadí prvního (druhého) prvku, stanovené skupinou odborníků.

Přísné hodnocení používá koeficient korelace pořadí R Spearman:

jehož složky mají stejný význam jako v (2.5).

Korelační koeficienty (2,5), (2,6) se pohybují od -1 do +1. Pokud je korelační koeficient +1, znamená to, že pořadí je stejné; pokud se rovná -1, pak − jsou opačné (hodnocení jsou vzájemně inverzní). Rovnost korelačního koeficientu na nulu znamená, že hodnocení jsou lineárně nezávislá (nekorelovaná).

Protože u tohoto přístupu (expert je „měřicí nástroj“ s náhodnou chybou) jsou jednotlivá pořadí považována za náhodná, vyvstává problém statistického testování hypotézy o významnosti získaného korelačního koeficientu. V tomto případě se používá Neyman-Pearsonův test: jsou stanoveny hladinou významnosti kritéria α a se znalostí distribučních zákonů korelačního koeficientu určují prahovou hodnotu. ca, se kterou se porovnává získaná hodnota korelačního koeficientu. Kritická oblast je pravotočivá (v praxi se obvykle nejprve vypočítá hodnota kritéria a z ní se určí hladina významnosti, která se porovná s prahovou hladinou α ).

Koeficient pořadové korelace τ Kendall má pro m > 10 rozdělení blízké normálu s následujícími parametry:

kde M [τ] je matematické očekávání; D [τ] je disperze.

V tomto případě se používají tabulky funkce standardního normálního rozdělení:

a hranice τ α kritické oblasti je definována jako kořen rovnice

Pokud je vypočtená hodnota koeficientu τ ≥ τ α , pak se má za to, že pořadí jsou ve skutečně dobré shodě. Typicky se hodnota a volí v rozmezí 0,01-0,05. Pro m ≤ 10 je rozdělení m uvedeno v tabulce. 2.1.

Kontrola významnosti konzistence dvou hodnocení pomocí Spearmanova koeficientu ρ se provádí ve stejném pořadí pomocí Studentových distribučních tabulek pro m > 10.

V tomto případě hodnota

má distribuci dobře přibližnou distribuci studenta s m– 2 stupně volnosti. Na m> 30, rozdělení ρ je v dobré shodě s normálním, které má M [ρ] = 0 a D [ρ] = .

Pro m ≤ 10 je významnost ρ ověřena pomocí tabulky. 2.2.

Pokud není žebříček přísný, tak Spearmanův koeficient

kde ρ se vypočítá podle (2.6);

kde k 1, k 2 je počet různých skupin nepřísných pozic v prvním a druhém pořadí; l i je počet stejných řad v i-tá skupina. Při praktickém použití Spearmanových koeficientů hodnostní korelace ρ a Kendallova τ je třeba mít na paměti, že koeficient ρ poskytuje přesnější výsledek z hlediska minima rozptylu.

Tabulka 2.1.Rozdělení Kendallova koeficientu pořadové korelace

Stručná teorie

Tento koeficient se mění v rámci a vypočítává se podle vzorce:

Pro výpočet jsou všechny jednotky seřazeny podle atributu; pro řadu dalších znaků se pro každou hodnost počítá počet následných hodností přesahujících danou (označujeme je ) a počet následujících hodností pod danou (označujeme je ).

Dá se to ukázat

a Kendallův korelační koeficient pořadí lze zapsat jako

Abychom mohli otestovat nulovou hypotézu o rovnosti Kendallova obecného korelačního koeficientu pořadí na nule pod konkurenční hypotézou na hladině významnosti , je nutné vypočítat kritický bod:

kde je velikost vzorku; - kritický bod oboustranné kritické oblasti, který se zjistí z tabulky Laplaceovy funkce podle rovnosti

Pokud není důvod zamítnout nulovou hypotézu. Pořadová korelace mezi znaky je nevýznamná.

Pokud je nulová hypotéza zamítnuta. Mezi znaky existuje významná korelace pořadí.

Příklad řešení problému

Úkol

Při přijímání sedmi uchazečů na volná místa byly nabídnuty dva testy. Výsledky testu (v bodech) jsou uvedeny v tabulce:

Test

Kandidát

Vypočítejte Kendallův koeficient pořadové korelace mezi výsledky testů pro dva testy a zhodnoťte jeho významnost na úrovni.

Řešení problému

Vypočítejte Kendallův koeficient

Pořadí atributu faktoru jsou uspořádány striktně ve vzestupném pořadí a odpovídající úrovně efektivního atributu jsou zapsány paralelně. U každé hodnosti se z počtu hodností, které za ní následují, počítá počet hodností větších než je ona (zahrnuto ve sloupci ) a počet hodností, které mají menší hodnotu (zahrnuto ve sloupci ).

Součet

Prezentace a předzpracování znaleckých posudků

V praxi se používá několik typů hodnocení:

- kvalita (často-zřídka, horší-lepší, ano-ne),

- skóre stupnice (rozsahy hodnot 50-75, 76-90, 91-120 atd.),

Skóre z daného intervalu (od 2 do 5, 1 -10), vzájemně nezávislé,

Hodnoceno (objekty jsou řazeny odborníkem v určitém pořadí a každému je přiděleno pořadové číslo - hodnost),

Srovnávací získaný jednou ze srovnávacích metod

metoda postupného srovnávání

metoda párového porovnávání faktorů.

V dalším kroku zpracování znaleckých posudků je nutné vyhodnotit míra shody mezi těmito názory.

Odhady získané od expertů lze považovat za náhodnou veličinu, jejíž rozložení odráží názory expertů na pravděpodobnost konkrétní volby události (faktoru). Proto se k analýze rozptylu a konzistence odborných odhadů používají zobecněné statistické charakteristiky - průměry a rozptylové míry:

střední kvadratická chyba,

Rozsah variace min - max,

- variační koeficient V \u003d rms. devi. / aritm. průměr. (vhodné pro jakýkoli typ hodnocení)

V i = σ i / x i srov

Pro sazbu míry podobnosti ale názory každá dvojice odborníků Lze použít různé metody:

asociační koeficienty, které zohledňují počet shodných a neshodných odpovědí,

koeficienty nekonzistence znalecké posudky,

Všechna tato měřítka lze použít buď k porovnání názorů dvou expertů, nebo k analýze vztahu mezi řadou odhadů podle dvou kritérií.

Spearmanův párový korelační koeficient:

kde n je počet odborníků,

c k je rozdíl mezi odhady i-tého a j-tého experta pro všechny T faktory

Kendallův koeficient pořadové korelace (koeficient shody) dává celkové hodnocení konzistence názorů všech expertů na všechny faktory, ale pouze pro případy, kdy byly použity odhady pořadí.

Je prokázáno, že hodnota S, když všichni experti posuzují všechny faktory stejně, má maximální hodnotu rovnou

kde n je počet faktorů,

m je počet odborníků.

Koeficient shody se rovná poměru

navíc, pokud se W blíží 1, pak všichni experti poskytli poměrně konzistentní odhady, jinak jsou jejich názory nekonzistentní.

Vzorec pro výpočet S je uveden níže:

kde r ij - hodnocení odhadů i-tého faktoru j-tým expertem,

r cf - průměrné pořadí v celé matici odhadů a je rovno

A proto vzorec pro výpočet S může mít tvar:

Pokud jsou jednotlivá skóre jednoho experta stejná a během zpracování byla standardizována, pak se pro výpočet koeficientu shody použije jiný vzorec:

kde Tj se vypočítá pro každého odborníka (v případě, že jeho posouzení byla opakována pro různé objekty), s přihlédnutím k opakování podle následujících pravidel:

kde t j je počet skupin stejné úrovně pro j-tého odborníka a

h k - počet stejných řad v k-té skupině příbuzných řad j-tého odborníka.

PŘÍKLAD. Nechte 5 odborníků na šest faktorů reagovat při hodnocení podle tabulky 3:

Tabulka 3 - Odpovědi odborníků

Experti	O1	O2	O3	O4	O5	O6	Součet hodnocení podle experta
E1
E2
E3
E4
E5

Vzhledem k tomu, že bylo získáno nepřísné pořadí (odhady expertů se opakují a součty pořadí nejsou stejné), provedeme transformaci odhadů a získáme související pořadí (tabulka 4):

Tabulka 4 - Související pořadí expertních hodnocení

Experti	O1	O2	O3	O4	O5	O6	Součet hodnocení podle experta
E1		2,5	2,5
E2
E3	1,5	1,5		4,5	4,5
E4		2,5	2,5	4,5	4,5
E5					5,5	5,5
Součet pořadí podle objektu	7,5	9,5			23,5	29,5

Nyní určíme míru shody mezi posudky znalců pomocí koeficientu shody. Vzhledem k tomu, že pořadí spolu souvisí, vypočítáme W pomocí vzorce (**).

Potom r cf \u003d 7 * 5 / 2 \u003d 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Přejděme k výpočtu W. K tomu vypočítáme samostatně hodnoty T j . V příkladu jsou známky speciálně vybrány tak, aby každý znalec měl opakované známky: 1. má dvě, druhý má tři, třetí má dvě skupiny po dvou známkách, čtvrtý a pátý mají dvě stejné známky. Odtud:

T 1 \u003d 2 3 – 2 \u003d 6 T 5 \u003d 6

T 2 \u003d 3 3 - 3 \u003d 24

T 3 \u003d 2 3 -2+ 2 3 -2 \u003d 12 T 4 \u003d 12

Vidíme, že shoda v názorech odborníků je poměrně vysoká a je možné přistoupit k další fázi studie - zdůvodnění a přijetí alternativního řešení doporučeného odborníky.

V opačném případě se musíte vrátit ke krokům 4-8.