Ranková korelace a Kendallův hodnostní korelační koeficient. Kendallův a Spearmanův koeficient pořadové korelace Vzorec Kendallova korelačního koeficientu

KENDALLA KORELAČNÍ KORELAČNÍ KOEFICIENT

Jedno z výběrových měření závislosti dvou náhodných veličin (znaků) X a Y, na základě pořadí položek vzorku (X 1, Y x), .. ., (X n, Y n). K. až R. k. odkazuje tedy k hodnost statistiků a je určen vzorcem

kde r i- U patřící k tomuto páru ( X, Y), pro roj Xravenů i, S = 2N- (n-1) / 2, N je počet prvků vzorku, pro které je současně j> i a r j> r i... Je vždy Jako selektivní měřítko závislosti To. To. R. to. hojně používal M. Kendall (M. Kendall, viz).

K. až R. K. slouží k testování hypotézy nezávislosti náhodných veličin. Pokud je hypotéza nezávislosti pravdivá, pak Et = 0 a Dt = 2 (2n + 5) / 9n (n-1). Při malé velikosti vzorku je kontrola statistická. hypotéza nezávislosti se provádí pomocí speciálních tabulek (viz). Pro n> 10 se pro rozdělení m použije normální aproximace: if

pak je hypotéza nezávislosti zamítnuta, jinak je přijata. Zde a . - hladina významnosti, u a / 2 je procentní bod normálního rozdělení. K. až R. Protože jako každý jiný jej lze použít k detekci závislosti dvou kvalitativních znaků, pokud lze s ohledem na tyto znaky řadit pouze prvky vzorku. Li X, Y mají společnou normálu s korelačním koeficientem p, pak vztah mezi K. k. p. to. a má tvar:

viz také Spearmanova hodnostní korelace, hodnostní test.

Lit.: Kendal M., Rank correlations, přel. z angličtiny, M., 1975; Van der Waerden B.L., Matematický, přel. z it., M., 1960; Bol'shev L.N., Smirnov N.V., Tabulky matematické statistiky, Moskva, 1965.

A. V. Prochorov.


Encyklopedie matematiky. - M .: Sovětská encyklopedie... I. M. Vinogradov. 1977-1985.

Podívejte se, co je "KENDALLA RANK CORRELATION COEFFICIENT" v jiných slovnících:

    Angličtina. с efektivní, hodnostní korelace Kendall; Němec Kendalls Rangkorrelationskoeffizient. Korelační koeficient, který určuje míru korespondence řazení všech dvojic objektů ve dvou proměnných. antinacistické. Encyklopedie sociologie, 2009 ... Encyklopedie sociologie

    KENDALLŮV KORELAČNÍ KOEFICIENT POŘADÍ- Angličtina. efektivní, hodnostní korelace Kendall; Němec Kendalls Rangkorrelationskoeffizient. Korelační koeficient, který určuje míru shody řazení všech dvojic objektů ve dvou proměnných ... Výkladový slovník sociologie

    Míra závislosti dvou náhodných proměnných (znaků) X a Y na základě pořadí nezávislých výsledků pozorování (X1, Y1). ... (Xn, Yn). Pokud jsou řady hodnot X umístěny v přirozeném pořadí i = 1,. ... ., n a Ri hodnost Y odpovídající ... ... Encyklopedie matematiky

    Korelační koeficient- (Korelační koeficient) Korelační koeficient je statistický ukazatel závislosti dvou náhodných veličin Stanovení korelačního koeficientu, typy korelačních koeficientů, vlastnosti korelačního koeficientu, výpočet a aplikace ... ... Investorská encyklopedie

    Vztah mezi náhodnými proměnnými, který, obecně řečeno, není striktně funkční. Na rozdíl od funkční závislosti se K. zpravidla uvažuje, když jedna z veličin závisí nejen na této druhé, ale také ... ... Encyklopedie matematiky

    Korelace (korelační závislost) je statistický vztah dvou nebo více náhodných veličin (nebo veličin, které lze za takové považovat s určitou přijatelnou mírou přesnosti). V tomto případě změny hodnot jednoho nebo ... ... Wikipedie

    Korelace- (Korelace) Korelace je statistický vztah dvou nebo více náhodných proměnných Pojem korelace, typy korelace, korelační koeficient, korelační analýza, cenová korelace, korelace měnových párů na Forexu Obsah ... ... Investorská encyklopedie

    Všeobecně se uznává, že počátek S. z m. Století. nebo, jak se často říká, statistika „malého n“, byla položena v první dekádě XX století vydáním práce W. Gosseta, do které umístil distribuci t, postulovanou těmi, kteří obdrželi svět o něco později ... ... Psychologická encyklopedie

    Maurice Kendall Sir Maurice George Kendall Datum narození: 6. září 1907 (1907 09 06) Místo narození: Kettering, Spojené království Datum úmrtí ... Wikipedia

    Předpověď- (Forecast) Definice prognózy, úkoly a principy prognózování Definice prognózy, úkoly a principy prognózování, metody prognóz Obsah Obsah Definice Základní pojmy prognózování Úkoly a principy prognózování ... ... Investorská encyklopedie

Předkládání a předzpracování znaleckých posudků

V praxi se používá několik typů hodnocení:

- vysoce kvalitní (často-zřídka, horší-lepší, ano-ne),

- odhady měřítka (rozsahy hodnot 50-75, 76-90, 91-120 atd.),

Skóre z daného intervalu (od 2 do 5, 1 -10), vzájemně nezávislé,

Hodnoceno (objekty jsou seřazeny odborníkem v určitém pořadí a každému je přiděleno pořadové číslo - hodnost),

Srovnávací, získaný jednou ze srovnávacích metod

sekvenční srovnávací metoda

metoda párového porovnávání faktorů.

V dalším kroku zpracování znaleckých posudků je nutné vyhodnotit míru konzistentnosti těchto názorů.

Odhady získané od expertů lze považovat za náhodnou veličinu, jejíž rozložení odráží názory expertů na pravděpodobnost konkrétní volby události (faktoru). Proto se pro analýzu rozptylu a konzistence odborných odhadů používají zobecněné statistické charakteristiky - průměry a rozptylové míry:

střední kvadratická chyba,

Variační rozsah min - max,

- variační koeficient V = střední kvadratická odchylka / střední aritmus. (vhodné pro jakýkoli typ hodnocení)

V i = σ i / x i prům

Pro sazbu míry podobnosti ale názory každá dvojice odborníků lze použít různé metody:

asociační koeficienty, pomocí kterého se zohledňuje počet shodných a neshodných odpovědí,

koeficienty nekonzistence znalecké posudky,

Všechna tato opatření lze použít buď k porovnání názorů dvou expertů, nebo k analýze vztahu mezi sérií hodnocení ze dvou důvodů.

Korelační koeficient pořadí Spearmanových párů:

kde n je počet odborníků,

c k - rozdíl mezi odhady i-tého a j-tého experta pro všechny T faktory

Kendallův koeficient pořadové korelace (koeficient shody) poskytuje celkové hodnocení konzistence názorů všech odborníků na všechny faktory, ale pouze pro případy, kdy byly použity odhady pořadí.

Je prokázáno, že hodnota S, když všichni experti dávají stejné odhady všech faktorů, má maximální hodnotu rovnou

kde n je počet faktorů,

m je počet odborníků.

Koeficient shody se rovná poměru

navíc, pokud se W blíží 1, pak všichni experti poskytli dostatečně konzistentní odhady, jinak se jejich názory neshodují.

Vzorec pro výpočet S je uveden níže:

kde r ij jsou odhady pořadí i-tého faktoru j-tým expertem,

r cf je průměrné pořadí v celé matici odhadů a rovná se

A proto vzorec pro výpočet S může mít tvar:

Pokud se jednotlivá hodnocení jednoho odborníka shodují a při zpracování byla standardizována, použije se pro výpočet koeficientu shody jiný vzorec:



kde Tj se vypočítá pro každého odborníka (v případě, že jeho posouzení byla opakována pro různé objekty), s přihlédnutím k opakování podle následujících pravidel:

kde t j je počet skupin stejné úrovně pro j-tého odborníka a

h k - počet stejných řad v k-té skupině příbuzných řad j-tého odborníka.

PŘÍKLAD. Nechte 5 odborníků na šest faktorů odpovědět v pořadí, jak je uvedeno v tabulce 3:

Tabulka 3 - Odpovědi odborníků

Experti О1 О2 O3 О4 O5 O6 Součet hodnocení podle experta
E1
E2
E3
E4
E5

Vzhledem k tomu, že nebylo získáno přesné pořadí (hodnocení od odborníků se opakují a součty pořadí nejsou stejné), provedeme transformaci odhadů a získáme související pořadí (tabulka 4):

Tabulka 4 - Související pořadí znaleckých posudků

Experti О1 О2 O3 О4 O5 O6 Součet hodnocení podle experta
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Součet úrovní objektu 7,5 9,5 23,5 29,5

Nyní určíme míru shody znaleckých posudků pomocí koeficientu shody. Protože hodnosti spolu souvisí, vypočítáme W podle vzorce (**).

Pak r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Pokračujme k výpočtům W. K tomu vypočítáme samostatně hodnoty T j. V příkladu jsou posudky speciálně vybrány tak, že každý expert má opakované posudky: první má dva, druhý tři, třetí má dvě skupiny po dvou hodnoceních a čtvrtý má dvě stejná hodnocení. Proto:

Ti = 2 3 - 2 = 6 T5 = 6

T2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Vidíme, že shoda názorů odborníků je poměrně vysoká a můžeme přistoupit k další fázi studie - zdůvodnění a přijetí alternativy rozhodnutí doporučené odborníky.

V opačném případě se musíte vrátit ke krokům 4-8.

Pořadový korelační koeficient charakterizuje obecnou povahu nelineární závislosti: zvýšení nebo snížení efektivního znaku se zvýšením faktoru jedna. To je indikátor těsnosti monotónního nelineárního vztahu.

Účel služby... Tato online kalkulačka počítá Kendallův koeficient pořadové korelace podle všech základních vzorců, jakož i posouzení jeho významu.

Návod. Uveďte množství dat (počet řádků). Výsledné řešení se uloží do souboru aplikace Word.

Koeficient navržený Kendallem je postaven na základě vztahů typu „více-méně“, jejichž platnost byla stanovena při konstrukci škál.
Vyberme několik objektů a porovnejme jejich pořadí v jednom atributu a v jiném. Pokud podle tohoto kritéria tvoří pořadí přímé pořadí (tj. pořadí přirozené řady), pak je páru přiřazeno +1, pokud je to naopak, pak –1. Pro vybraný pár se vynásobí odpovídající jednotky plus - mínus (atributem X a atributem Y). Výsledek je zjevně +1; pokud jsou řádky dvojice obou prvků umístěny ve stejném pořadí, a –1, pokud jsou obrácené.
Pokud jsou pořadí hodností pro všechny dvojice podle obou kritérií stejné, pak součet jednotek přiřazených všem dvojicím objektů je maximální a rovná se počtu dvojic. Pokud jsou pořadí všech párů obrácená, pak –C 2 N. V obecném případě C 2 N = P + Q, kde P je počet kladných a Q je počet záporných přiřazených párům při porovnání jejich pořadí pro obě kritéria.
Veličina se nazývá Kendallův koeficient.
Ze vzorce je vidět, že koeficient τ je rozdíl mezi podílem dvojic objektů, ve kterých je pořadí v obou kritériích stejné (ve vztahu k počtu všech dvojic), a podílem dvojic objektů, ve kterých pořadí není stejné.
Například hodnota koeficientu 0,60 znamená, že 80 % párů má stejné pořadí objektů, zatímco 20 % nikoli (80 % + 20 % = 100 %; 0,80 - 0,20 = 0,60). Tito. τ lze interpretovat jako rozdíl mezi pravděpodobnostmi koincidence a nekoincidence řádů v obou znacích pro náhodně vybranou dvojici objektů.
V obecném případě se výpočet τ (přesněji P nebo Q) i pro N v řádu 10 ukazuje jako těžkopádný.
Pojďme si ukázat, jak si výpočty zjednodušit.


Příklad. Vztah mezi objemem průmyslové výroby a investicemi do dlouhodobého majetku v 10 regionech jednoho z federálních okresů Ruské federace v roce 2003 charakterizují následující údaje:


Vypočítejte Spearmanovy a Kendalovy hodnostní korelační koeficienty. Zkontrolujte jejich významnost při α = 0,05. Formulujte závěr o vztahu mezi objemem průmyslové výroby a investicemi do stálých aktiv v uvažovaných regionech Ruské federace.

Řešení... Přiřaďme hodnosti atributu Y a faktoru X.


Seřaďme data podle X.
V řádku Y napravo od 3 je 7 řádků přesahujících 3, proto 3 vygeneruje výraz 7 v P.
Napravo od 1 je 8 řad přesahujících 1 (jedná se o 2, 4, 6, 9, 5, 10, 7, 8), tzn. 8 zadá P a tak dále. Výsledkem je, že Р = 37 a pomocí vzorců, které máme:

XYpořadí X, d xhodnost Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Podle zjednodušených vzorců:




kde n je velikost vzorku; z kp je kritický bod bilaterální kritické oblasti, který se zjistí z tabulky Laplaceovy funkce pomocí rovnosti Ф (z kp) = (1-α) / 2.
Pokud | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - nulová hypotéza je zamítnuta. Mezi kvalitativními znaky existuje významná korelace pořadí.
Najděte kritický bod z kp
Ф (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Pojďme najít kritický bod:

Protože τ> T kp - zamítáme nulovou hypotézu; korelace pořadí mezi skóre ve dvou testech je významná.

Příklad. Na základě údajů o objemu stavebních a montážních prací provedených vlastními silami a počtu zaměstnanců v 10 stavebních firmách v jednom z měst Ruské federace určete vztah mezi těmito znaky pomocí Kendalova koeficientu.

Řešení najít pomocí kalkulačky.
Přiřaďme hodnosti atributu Y a faktoru X.
Uspořádejme objekty tak, aby jejich X řady představovaly přirozenou řadu. Protože odhady přiřazené každému páru této série jsou kladné, hodnoty „+1“ zahrnuté v P budou generovány pouze těmi páry, jejichž pořadí v Y tvoří přímé pořadí.
Lze je snadno vypočítat postupným porovnáváním pořadí každého objektu v řadě Y s ocelovými.
Kendallův koeficient.

V obecném případě se výpočet τ (přesněji P nebo Q) i pro N v řádu 10 ukazuje jako těžkopádný. Pojďme si ukázat, jak si výpočty zjednodušit.

nebo

Řešení.
Seřaďme data podle X.
V řádku Y napravo od 2 je 8 řádků přesahujících 2, proto 2 vygeneruje výraz 8 v P.
Napravo od 4 je 6 řad přesahujících 4 (jedná se o 7, 5, 6, 8, 9, 10), tzn. 6 zadá P a tak dále. Výsledkem je, že P = 29 a pomocí vzorců máme:

XYpořadí X, d xhodnost Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Podle zjednodušených vzorců:


Abychom mohli otestovat nulovou hypotézu o rovnosti Kendallova obecného koeficientu pořadové korelace k nule na hladině významnosti α s konkurenční hypotézou H 1: τ ≠ 0, je nutné vypočítat kritický bod:

kde n je velikost vzorku; z kp je kritický bod oboustranné kritické oblasti, který se zjistí z tabulky Laplaceovy funkce pomocí rovnosti Ф (z kp) = (1 - α) / 2.
Pokud | τ | T kp - nulová hypotéza je zamítnuta. Mezi kvalitativními znaky existuje významná korelace pořadí.
Najděte kritický bod z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
Pomocí Laplaceovy tabulky zjistíme z kp = 1,96
Pojďme najít kritický bod:

Protože τ

Kendallův korelační koeficient se používá, když jsou proměnné reprezentovány dvěma ordinálními stupnicemi, za předpokladu, že neexistují žádné asociované úrovně. Výpočet Kendallova koeficientu zahrnuje počítání počtu shod a inverzí. Zvažme tento postup na příkladu předchozí úlohy.

Algoritmus pro řešení problému je následující:

    Přeevidujeme údaje do tabulky. 8.5 tak, aby jeden z řádků (v tomto případě řádek X i) se ukázalo být hodnoceno. Jinými slovy, přeskupíme dvojice X a y ve správném pořadí a údaje zapíšeme do sloupců 1 a 2 tabulky. 8.6.

Tabulka 8.6

X i

y i

2. Určete „stupeň hodnocení“ 2. řádku ( y i). Tento postup se provádí v následujícím pořadí:

a) vezmeme první hodnotu nezařazeného řádku "3". Výpočet počtu hodností níže dané číslo, které více hodnotu, která se má porovnávat. Existuje 9 takových hodnot (čísla 6, 7, 4, 9, 5, 11, 8, 12 a 10). Do kolonky "shody" zadáme číslo 9. Poté spočítáme počet hodnot, které menší tři. Existují 2 takové hodnoty (řady 1 a 2); přidejte číslo 2 do sloupce "inverze".

b) zahoďte číslo 3 (už jsme s ním pracovali) a opakujte postup pro další hodnotu „6“: počet shod je 6 (řady 7, 9, 11, 8, 12 a 10), počet shod. inverze je 4 (řady 1, 2, 4 a 5). Do sloupce „náhody“ zadáme číslo 6 a do sloupce „inverze“ číslo 4.

c) stejným způsobem se postup opakuje až do konce řady; je třeba mít na paměti, že každá „vypracovaná“ hodnota je vyloučena z dalšího posuzování (počítají se pouze pořadí, které leží pod tímto číslem).

Poznámka

Aby nedošlo k chybám ve výpočtech, je třeba mít na paměti, že s každým „krokem“ se součet náhod a inverzí o jednu snižuje; je to pochopitelné, vezmeme-li v úvahu, že pokaždé je jedna hodnota vyloučena z uvažování.

3. Vypočítá se součet zápasů (R) a součet inverzí (Q); údaje se zadávají do jednoho a tří zaměnitelných vzorců pro Kendallův koeficient (8.10). Provedou se odpovídající výpočty.

t (8.10)

V našem případě:

Stůl XIV Přílohy jsou kritické hodnoty koeficientu pro daný vzorek: τ cr. = 0,45; 0,59. Empiricky získaná hodnota je porovnána s tabulkovou hodnotou.

Výstup

τ = 0,55> τ kr. = 0,45. Korelace je statisticky významná pro úroveň 1.

Poznámka:

V případě potřeby (například při absenci tabulky kritických hodnot) statistická významnost t Kendall lze určit podle následujícího vzorce:

(8.11)

kde S* = P - Q+ 1 pokud P< Q , a S * = P - Q - 1 pokud P> Q.

Hodnoty z pro odpovídající hladinu významnosti odpovídají Pearsonově míře a jsou zjištěny podle odpovídajících tabulek (nejsou součástí přílohy. Pro standardní hladiny významnosti z cr = 1,96 (pro p1 = 0,95) a 2,58 (pro p2 = 0,99). Kendallův korelační koeficient je statisticky významný, pokud z > z kr

V našem případě S* = P - Q- 1 = 35 a z= 2,40, tedy potvrzuje se výchozí závěr: korelace mezi znaky je statisticky významná pro 1. hladinu významnosti.

Jedním z faktorů omezujících použití kritérií založených na předpokladu normality je velikost vzorku. Pokud je vzorek dostatečně velký (například 100 nebo více pozorování), můžete předpokládat, že rozložení vzorku je normální, i když si nejste jisti, že rozložení proměnné v populaci je normální. Pokud je však vzorek malý, měla by se tato kritéria použít pouze v případě, že existuje jistota, že proměnná je skutečně normálně rozdělena. Neexistuje však způsob, jak tento předpoklad otestovat na malém vzorku.

Použití kritérií založených na předpokladu normality je rovněž omezeno na škálu měření (viz kapitola Základní pojmy analýzy dat). Statistické metody jako t-test, regrese atd. předpokládají, že původní data jsou spojitá. Existují však situace, kdy jsou data jednoduše řazena (měřena na ordinální stupnici), spíše než přesně měřena.

Typickým příkladem je hodnocení stránek na internetu: na prvním místě se umístil web s maximálním počtem návštěvníků, na druhém místě se umístil web s maximálním počtem návštěvníků mezi zbývajícími weby (mezi weby ze kterého byla odstraněna první stránka) atd. Při znalosti hodnocení můžeme říci, že počet návštěvníků jednoho webu je větší než počet návštěvníků druhého, ale o kolik více, nelze říci. Představte si, že máte 5 webů: A, B, C, D, E, které jsou na prvních 5 místech. Předpokládejme, že v aktuálním měsíci jsme měli toto uspořádání: A, B, C, D, E a v předchozím měsíci: D, E, A, B, C. Otázkou je, zda došlo k významným změnám v hodnocení stránek nebo ne? V této situaci samozřejmě nemůžeme použít t-test k porovnání těchto dvou skupin dat a přejít do oblasti specifických pravděpodobnostních výpočtů (a každé statistické kritérium obsahuje pravděpodobnostní výpočet!). Uvažujeme takto: jak pravděpodobné je, že rozdíl v rozložení dvou stránek je způsoben čistě náhodnými důvody nebo že rozdíl je příliš velký a nelze jej vysvětlit čirou náhodou. V této úvaze používáme pouze hodnocení nebo permutace stránek a v žádném případě nepoužíváme konkrétní formu rozdělení počtu návštěvníků na ně.

Pro analýzu malých vzorků a pro data naměřená na špatném měřítku se používají neparametrické metody.

Rychlá prohlídka neparametrických postupů

V podstatě pro každé parametrické kritérium existuje alespoň jedna neparametrická alternativa.

Obecně tyto postupy spadají do jedné z následujících kategorií:

  • rozlišovací kritéria pro nezávislé vzorky;
  • rozlišovací kritéria pro závislé vzorky;
  • posouzení míry závislosti mezi proměnnými.

Obecně by měl být přístup ke statistickým kritériím při analýze dat pragmatický a nezatížený zbytečným teoretickým uvažováním. S počítačem STATISTICA, který máte k dispozici, můžete na svá data snadno aplikovat několik kritérií. S vědomím některých úskalí metod si vyberete správné řešení pomocí experimentování. Vývoj grafu je zcela přirozený: pokud potřebujete porovnat hodnoty dvou proměnných, použijte t-test. Je však třeba připomenout, že je založen na předpokladu normality a rovnosti rozptylů v každé skupině. Oprostit se od těchto předpokladů vede k neparametrickým testům, které jsou zvláště užitečné pro malé vzorky.

Vývoj t-testu vede k analýze rozptylu, která se používá při počtu porovnávaných skupin větších než dvě. Odpovídající rozvoj neparametrických postupů vede k neparametrické analýze rozptylu, i když je výrazně horší než klasická analýza rozptylu.

Pro posouzení závislosti, nebo poněkud pompézně řečeno míry těsnosti spoje, se vypočítá Pearsonův korelační koeficient. Přísně vzato má její aplikace omezení spojená například s typem škály, ve které jsou data měřena, a nelinearitou závislosti, proto se alternativně používají i neparametrické, tzv. rank, korelační koeficienty, které jsou používá se například pro hodnocená data. Pokud jsou data měřena v nominálním měřítku, pak je přirozené je prezentovat v kontingenčních tabulkách, které využívají Pearsonův chí-kvadrát test s různými variacemi a korekcemi přesnosti.

V podstatě tedy existuje jen několik typů kritérií a postupů, které musíte znát a umět je používat, v závislosti na specifikách dat. Musíte určit, jaké kritérium by se mělo v konkrétní situaci použít.

Neparametrické metody jsou nejvhodnější, pokud je velikost vzorku malá. Pokud je dat hodně (například n> 100), často nemá smysl používat neparametrické statistiky.

Pokud je velikost vzorku velmi malá (například n = 10 nebo méně), lze hladiny významnosti pro ty neparametrické testy, které používají normální aproximaci, považovat pouze za hrubé odhady.

Rozdíly mezi nezávislými skupinami... Pokud existují dva vzorky (například muži a ženy), které je třeba porovnat s ohledem na nějakou průměrnou hodnotu, například střední tlak nebo počet leukocytů v krvi, pak lze t-test použít pro nezávislé Vzorky.

Neparametrické alternativy k tomuto testu jsou kritériem řady Val'd-Wolfowitz, Mann-Whitney) / n, kde x i je i-tá hodnota, n je počet pozorování. Pokud proměnná obsahuje záporné hodnoty nebo nulu (0), geometrický průměr nelze vypočítat.

Harmonický průměr

Harmonický průměr se někdy používá k průměrování frekvencí. Harmonický průměr se vypočítá podle vzorce: ГС = n / S (1 / x i) kde ГС je harmonický průměr, n je počet pozorování, х i je hodnota pozorování s číslem i. Pokud proměnná obsahuje nulu (0), nelze harmonický průměr vypočítat.

Rozptyl a směrodatná odchylka

Výběrový rozptyl a směrodatná odchylka jsou nejčastěji používanými měřítky variability (variací) v datech. Rozptyl se vypočítá jako součet druhých mocnin odchylek hodnot proměnné od výběrového průměru dělený n-1 (ale ne n). Směrodatná odchylka se vypočítá jako druhá odmocnina odhadu rozptylu.

Houpačka

Rozpětí proměnné je indikátorem volatility, počítá se jako maximum mínus minimum.

Kvartilový rozsah

Čtvrtletní rozmezí podle definice je: horní kvartil mínus dolní kvartil (75% percentil mínus 25% percentil). Vzhledem k tomu, že 75% percentil (horní kvartil) je hodnota nalevo, od které se nachází 75 % případů, a 25% percentil (dolní kvartil) je hodnota nalevo od níž se nachází 25 % případů, kvartil rozsah je interval kolem mediánu, který obsahuje 50 % případů (proměnné hodnoty).

Asymetrie

Asymetrie je charakteristická pro tvar distribuce. Pokud je hodnota šikmosti záporná, je rozdělení zkoseno doleva. Pokud je asymetrie kladná, je rozdělení zkoseno doprava. Šikmost standardního normálního rozdělení je 0. Šikmost je spojena s třetím momentem a je definována jako: šikmost = n × M 3 / [(n-1) × (n-2) × s 3], kde M 3 je: (xi -x průměr x) 3, s 3 je standardní odchylka zvýšená na třetí mocninu, n je počet pozorování.

Přebytek

Kurtóza je charakteristika tvaru rozdělení, konkrétně míra závažnosti jeho vrcholu (ve vztahu k normálnímu rozdělení, jehož špičatost je rovna 0). Distribuce s ostřejším vrcholem než normální mají zpravidla kladnou špičatost; distribuce, jejichž vrchol je méně ostrý než vrchol normálního rozdělení, mají negativní špičatost. Přebytek je spojen se čtvrtým momentem a je určen vzorcem:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], kde M j je: (xx průměr x, s 4 je standardní odchylka od čtvrté mocniny, n je počet pozorování...