Poradová korelácia a Kendallov koeficient poradovej korelácie. Kendallov a Spearmanov koeficient poradovej korelácie Vzorec Kendallovho korelačného koeficientu

KENDALLA KORELAČNÝ KORELAČNÝ KOEFICIENT

Jedna z výberových mier závislosti dvoch náhodných premenných (znakov) X a Y, na základe poradia položiek vzorky (X 1, Y x), .. ., (X n, Y n). K. až R. odkazuje teda na hodnosť štatistikov a je určený vzorcom

kde RI- U patríte k tomuto páru ( X, Y), pre roj Xravenov i, S = 2N- (n-1) / 2, N je počet prvkov vzorky, pre ktoré súčasne j> i a r j> r i... Je vždy Ako selektívne meradlo závislosti To. To. R. to. široko používal M. Kendall (M. Kendall, pozri).

K. až R. K. sa používa na testovanie hypotézy nezávislosti náhodných premenných. Ak je hypotéza nezávislosti pravdivá, potom Et = 0 a Dt = 2 (2n + 5) / 9n (n-1). Pri malej veľkosti vzorky je kontrola štatistická. hypotéza nezávislosti sa robí pomocou špeciálnych tabuliek (pozri). Pre n> 10 sa na rozdelenie m použije normálna aproximácia: ak

potom je hypotéza nezávislosti zamietnutá, inak je prijatá. Tu a . - hladina významnosti, u a / 2 je percentuálny bod normálneho rozdelenia. K. až R. Pretože, ako každý iný, môže byť použitý na zistenie závislosti dvoch kvalitatívnych znakov, ak sa dajú zoradiť iba prvky vzorky vzhľadom na tieto znaky. Ak X, Y majú spoločnú normálu s korelačným koeficientom p, potom vzťah medzi K. a p. do. a má tvar:

pozri tiež Spearmanova poradová korelácia, poradový test.

Lit.: Kendal M., Rank correlations, trans. z angličtiny, M., 1975; Van der Waerden B.L., Matematický, prekl. z toho, M., 1960; Bol'shev L.N., Smirnov N.V., Tabuľky matematickej štatistiky, Moskva, 1965.

A. V. Prochorov.


Encyklopédia matematiky. - M .: Sovietska encyklopédia... I. M. Vinogradov. 1977-1985.

Zistite, čo je „KENDALLA RANK CORRELATION COEFFICIENT“ v iných slovníkoch:

    Angličtina. с efektívny, korelácia hodnosti Kendall; nemecký Kendalls Rangkorrelationskoeffizient. Korelačný koeficient, ktorý určuje mieru zhody zoradenia všetkých dvojíc objektov v dvoch premenných. antinacistický. Encyklopédia sociológie, 2009 ... Encyklopédia sociológie

    KENDALLOV KORELAČNÝ KORELAČNÝ KOEFICIENT- Angličtina. efektívny, rank korelácia Kendall; nemecký Kendalls Rangkorrelationskoeffizient. Korelačný koeficient, ktorý určuje mieru zhody usporiadania všetkých párov objektov v dvoch premenných ... Výkladový slovník sociológie

    Miera závislosti dvoch náhodných premenných (znakov) X a Y na základe poradia výsledkov nezávislých pozorovaní (X1, Y1). ... (Xn, Yn). Ak sú rady hodnôt X umiestnené v prirodzenom poradí i = 1,. ... ., n a Ri poradie Y zodpovedajúce ... ... Encyklopédia matematiky

    Korelačný koeficient- (Korelačný koeficient) Korelačný koeficient je štatistický ukazovateľ závislosti dvoch náhodných veličín Stanovenie korelačného koeficientu, typy korelačných koeficientov, vlastnosti korelačného koeficientu, výpočet a aplikácia ... ... Encyklopédia investorov

    Vzťah medzi náhodnými premennými, ktorý vo všeobecnosti nie je striktne funkčný. Na rozdiel od funkčnej závislosti sa K. spravidla zvažuje, keď jedna z veličín závisí nielen od tejto druhej, ale aj ... ... Encyklopédia matematiky

    Korelácia (korelačná závislosť) je štatistický vzťah dvoch alebo viacerých náhodných premenných (alebo veličín, ktoré za také možno považovať s určitou prijateľnou mierou presnosti). V tomto prípade zmeny hodnôt jedného alebo ... ... Wikipedia

    Korelácia- (Korelácia) Korelácia je štatistický vzťah dvoch alebo viacerých náhodných premenných Koncept korelácie, typy korelácií, korelačný koeficient, korelačná analýza, cenová korelácia, korelácia menových párov na Forexe Obsah ... ... Encyklopédia investorov

    Všeobecne sa uznáva, že začiatkom S. z m. Storočia. alebo, ako sa to často nazýva, štatistika „malého n“, bola vložená do prvej dekády XX storočia publikovaním práce W. Gosseta, v ktorej umiestnil distribúciu t, ktorú predpokladali tí, ktorí dostali svet o niečo neskôr...... Psychologická encyklopédia

    Maurice Kendall Sir Maurice George Kendall Dátum narodenia: 6. september 1907 (1907 09 06) Miesto narodenia: Kettering, Spojené kráľovstvo Dátum úmrtia ... Wikipedia

    Predpoveď- (Forecast) Definícia prognózy, úlohy a princípy prognózovania Definícia prognózy, úlohy a princípy prognózovania, metódy prognózovania Obsah Obsah Definícia Základné pojmy prognózovania Úlohy a princípy prognózovania ... ... Encyklopédia investorov

Predkladanie a predspracovanie znaleckých posudkov

V praxi sa používa niekoľko typov hodnotenia:

- vysoká kvalita (často-zriedkavo, horšie-lepšie, áno-nie),

- odhady mierky (rozsahy hodnôt 50-75, 76-90, 91-120 atď.),

Skóre z daného intervalu (od 2 do 5, 1 -10), vzájomne nezávislé,

Zoradené (objekty sú usporiadané odborníkom v určitom poradí a každému je pridelené poradové číslo - hodnosť),

Porovnávací, získaný jednou z porovnávacích metód

metóda sekvenčného porovnávania

metóda párového porovnávania faktorov.

V ďalšom kroku spracovania znaleckých posudkov je potrebné vyhodnotiť mieru konzistentnosti týchto názorov.

Odhady získané od expertov možno považovať za náhodnú premennú, ktorej rozdelenie odráža názory expertov na pravdepodobnosť konkrétneho výberu udalosti (faktora). Preto sa na analýzu rozptylu a konzistentnosti odborných odhadov používajú zovšeobecnené štatistické charakteristiky - priemery a miery rozptylu:

Stredná štvorcová chyba,

Variačný rozsah min - max,

- variačný koeficient V = stredná kvadratická odchýlka / priemerný aritmus. (vhodné pre akýkoľvek typ hodnotenia)

V i = σ i / x i priem

Pre sadzbu miery podobnosti ale názory každý pár odborníkov možno použiť rôzne metódy:

asociačné koeficienty, pomocou ktorého sa zohľadňuje počet zhodných a nezhodujúcich sa odpovedí,

koeficienty nekonzistencie znalecké posudky,

Všetky tieto opatrenia možno použiť buď na porovnanie názorov dvoch expertov, alebo na analýzu vzťahu medzi sériou hodnotení z dvoch dôvodov.

Koeficient poradovej korelácie Spearmanovho páru:

kde n je počet odborníkov,

c k - rozdiel medzi odhadmi i-tého a j-tého experta pre všetky T faktory

Kendallov koeficient poradovej korelácie (koeficient zhody) poskytuje celkové hodnotenie konzistentnosti názorov všetkých expertov na všetky faktory, ale len pre prípady, keď sa použili odhady poradia.

Je dokázané, že hodnota S, keď všetci experti uvádzajú rovnaké odhady všetkých faktorov, má maximálnu hodnotu rovnú

kde n je počet faktorov,

m je počet odborníkov.

Koeficient zhody sa rovná pomeru

navyše, ak sa W blíži k 1, potom všetci experti poskytli dostatočne konzistentné odhady, inak sa ich názory nezhodujú.

Vzorec na výpočet S je uvedený nižšie:

kde r ij sú odhady poradia i-tého faktora j-tým odborníkom,

r cf je priemerné poradie v rámci celej matice odhadov a rovná sa

A preto vzorec na výpočet S môže mať tvar:

Ak sa jednotlivé hodnotenia jedného odborníka zhodujú a pri spracovaní boli štandardizované, potom sa na výpočet koeficientu zhody použije iný vzorec:



kde Tj sa vypočíta pre každého odborníka (v prípade, že sa jeho hodnotenia opakovali pre rôzne objekty), pričom sa zohľadňujú opakovania podľa nasledujúcich pravidiel:

kde t j je počet skupín rovnakého postavenia pre j-tého odborníka a

h k - počet rovnakých radov v k-tej skupine príbuzných radov j-tého odborníka.

PRÍKLAD. Nechajte 5 odborníkov na šesť faktorov odpovedať v poradí, ako je uvedené v tabuľke 3:

Tabuľka 3 - Odpovede odborníkov

Odborníci О1 О2 O3 О4 O5 O6 Súčet hodnotení podľa experta
E1
E2
E3
E4
E5

Vzhľadom na to, že nebolo dosiahnuté presné poradie (hodnotenia od expertov sa opakujú a súčty poradí nie sú rovnaké), pretransformujeme odhady a získame súvisiace poradie (tabuľka 4):

Tabuľka 4 - Súvisiace poradia odborných posudkov

Odborníci О1 О2 O3 О4 O5 O6 Súčet hodnotení podľa experta
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Súčet radov objektu 7,5 9,5 23,5 29,5

Teraz určme mieru súladu znaleckých posudkov pomocou koeficientu zhody. Keďže poradia spolu súvisia, vypočítame W podľa vzorca (**).

Potom r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Poďme k výpočtom W. Na tento účel počítame oddelene hodnoty T j. V príklade sú hodnotenia špeciálne vybrané tak, že každý expert má opakované hodnotenia: prvý má dva, druhý tri, tretí má dve skupiny po dvoch hodnoteniach a štvrtý má dve rovnaké hodnotenia. teda:

Ti = 2 3 - 2 = 6 T5 = 6

T2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Vidíme, že zhoda názorov odborníkov je pomerne vysoká a môžeme pristúpiť k ďalšej fáze štúdie - zdôvodnenie a prijatie alternatívy rozhodnutia odporúčanej odborníkmi.

V opačnom prípade sa musíte vrátiť ku krokom 4-8.

Koeficient poradovej korelácie charakterizuje všeobecnú povahu nelineárnej závislosti: zvýšenie alebo zníženie efektívnej vlastnosti so zvýšením faktora jedna. Toto je indikátor tesnosti monotónneho nelineárneho vzťahu.

Účel služby... Táto online kalkulačka počíta Kendallov koeficient poradovej korelácie podľa všetkých základných vzorcov, ako aj posúdenie jeho významu.

Poučenie. Uveďte množstvo údajov (počet riadkov). Výsledné riešenie sa uloží do súboru programu Word.

Koeficient navrhovaný Kendallom je vybudovaný na základe vzťahov typu „viac-menej“, ktorých platnosť bola stanovená pri konštrukcii škál.
Vyberme si pár objektov a porovnajme ich poradie v jednom a druhom atribúte. Ak podľa tohto kritéria tvoria poradia priame poradie (t. j. poradie prirodzeného radu), potom sa páru pridelí +1, ak je to naopak, potom -1. Pre vybraný pár sa vynásobia zodpovedajúce jednotky plus - mínus (podľa atribútu X a atribútu Y). Výsledok je zjavne +1; ak sú rady dvojice oboch prvkov umiestnené v rovnakom poradí, a –1, ak sú opačné.
Ak sú poradia hodností pre všetky dvojice podľa oboch kritérií rovnaké, potom súčet jednotiek priradených všetkým dvojiciam objektov je maximálny a rovná sa počtu dvojíc. Ak sú poradia všetkých párov obrátené, potom –C 2 N. Vo všeobecnom prípade C2N = P + Q, kde P je počet kladných a Q je počet záporných priradených párom pri porovnaní ich hodnotení pre obe kritériá.
Množstvo sa nazýva Kendallov koeficient.
Zo vzorca je zrejmé, že koeficient τ je rozdiel medzi podielom dvojíc predmetov, v ktorých je poradie rovnaké v oboch kritériách (vo vzťahu k počtu všetkých dvojíc), a podielom dvojíc predmetov, v ktorých poradie nie je rovnaké.
Napríklad hodnota koeficientu 0,60 znamená, že 80 % párov má rovnaké poradie objektov, zatiaľ čo 20 % nie (80 % + 20 % = 100 %; 0,80 – 0,20 = 0,60). Tie. τ možno interpretovať ako rozdiel medzi pravdepodobnosťami zhody a nezhody rádov v oboch znamienkach pre náhodne vybranú dvojicu objektov.
Vo všeobecnom prípade sa výpočet τ (presnejšie P alebo Q) aj pre N rádovo 10 ukazuje ako ťažkopádny.
Ukážme si, ako zjednodušiť výpočty.


Príklad. Vzťah medzi objemom priemyselnej výroby a investíciami do fixných aktív v 10 regiónoch jedného z federálnych okresov Ruskej federácie v roku 2003 charakterizujú tieto údaje:


Vypočítajte korelačné koeficienty hodnotenia Spearmana a Kendala. Skontrolujte ich význam pri α = 0,05. Formulujte záver o vzťahu medzi objemom priemyselnej výroby a investíciami do fixných aktív v uvažovaných regiónoch Ruskej federácie.

Riešenie... Priraďme hodnosti atribútu Y a faktoru X.


Zoraďme údaje podľa X.
V riadku Y napravo od 3 je 7 radov presahujúcich 3, preto 3 vygeneruje výraz 7 v P.
Napravo od 1 je 8 radov presahujúcich 1 (sú to 2, 4, 6, 9, 5, 10, 7, 8), t.j. 8 zadá P a tak ďalej. Výsledkom je, že Р = 37 a pomocou vzorcov, ktoré máme:

XYporadie X, d xporadie Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Podľa zjednodušených vzorcov:




kde n je veľkosť vzorky; z kp je kritický bod bilaterálnej kritickej oblasti, ktorý sa zistí z tabuľky Laplaceovej funkcie pomocou rovnosti Ф (z kp) = (1-α) / 2.
Ak | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - nulová hypotéza sa zamieta. Medzi kvalitatívnymi znakmi existuje významná korelácia poradia.
Nájdite kritický bod z kp
Ф (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Poďme nájsť kritický bod:

Keďže τ> T kp - zamietame nulovú hypotézu; poradová korelácia medzi skóre v dvoch testoch je významná.

Príklad. Na základe údajov o objeme vlastných stavebných a montážnych prác a počte zamestnancov v 10 stavebných firmách v jednom z miest Ruskej federácie určte vzťah medzi týmito znakmi pomocou Kendalovho koeficientu.

Riešenie nájsť pomocou kalkulačky.
Priraďme hodnosti atribútu Y a faktoru X.
Usporiadajme objekty tak, aby ich X rad predstavoval prirodzenú sériu. Keďže odhady priradené ku každému páru tejto série sú kladné, hodnoty „+1“ zahrnuté v P vygenerujú iba tie páry, ktorých poradie v Y tvorí priame poradie.
Je ľahké ich vypočítať postupným porovnávaním radov každého objektu v rade Y s oceľovými.
Kendallov koeficient.

Vo všeobecnom prípade sa výpočet τ (presnejšie P alebo Q) aj pre N rádovo 10 ukazuje ako ťažkopádny. Ukážme si, ako zjednodušiť výpočty.

alebo

Riešenie.
Zoraďme údaje podľa X.
V riadku Y napravo od 2 je 8 radov presahujúcich 2, preto 2 vygeneruje člen 8 v P.
Napravo od 4 je 6 radov presahujúcich 4 (ide o 7, 5, 6, 8, 9, 10), t.j. 6 zadá P a tak ďalej. Výsledkom je, že P = 29 a pomocou vzorcov máme:

XYporadie X, d xporadie Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Podľa zjednodušených vzorcov:


Aby sme mohli otestovať nulovú hypotézu o rovnosti Kendallovho všeobecného koeficientu poradovej korelácie na nulu na hladine významnosti α s konkurenčnou hypotézou H 1: τ ≠ 0, je potrebné vypočítať kritický bod:

kde n je veľkosť vzorky; z kp je kritický bod obojstrannej kritickej oblasti, ktorý sa zistí z tabuľky Laplaceovej funkcie pomocou rovnosti Ф (z kp) = (1 - α) / 2.
Ak | τ | T kp - nulová hypotéza sa zamieta. Medzi kvalitatívnymi znakmi existuje významná korelácia poradia.
Nájdite kritický bod z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
Pomocou Laplaceovej tabuľky zistíme z kp = 1,96
Poďme nájsť kritický bod:

Keďže τ

Kendallov korelačný koeficient sa používa, keď sú premenné reprezentované dvoma ordinálnymi škálami, za predpokladu, že neexistujú žiadne asociované poradia. Výpočet Kendallovho koeficientu zahŕňa počítanie počtu zhôd a inverzií. Zoberme si tento postup pomocou príkladu predchádzajúcej úlohy.

Algoritmus na vyriešenie problému je nasledujúci:

    Preevidujeme údaje do tabuľky. 8.5 tak, že jeden z riadkov (v tomto prípade riadok X i) sa ukázalo byť v poradí. Inými slovami, preusporiadame páry X a r v správnom poradí a údaje zapíšeme do stĺpcov 1 a 2 tabuľky. 8.6.

Tabuľka 8.6

X i

r i

2. Určite „stupeň hodnotenia“ 2. riadku ( r i). Tento postup sa vykonáva v nasledujúcom poradí:

a) vezmeme prvú hodnotu nezaradeného riadku "3". Výpočet počtu hodností nižšie dané číslo, ktoré viac hodnotu, ktorá sa má porovnávať. Existuje 9 takýchto hodnôt (čísla 6, 7, 4, 9, 5, 11, 8, 12 a 10). Do stĺpca „zápasy“ zadáme číslo 9. Potom spočítame počet hodnôt, ktoré menšie tri. Existujú 2 takéto hodnoty (poradie 1 a 2); pridajte číslo 2 do stĺpca "inverzia".

b) zahoďte číslo 3 (už sme s ním pracovali) a postup zopakujte pre ďalšiu hodnotu „6“: počet zápasov je 6 (poradie 7, 9, 11, 8, 12 a 10), počet inverzie je 4 (poradie 1, 2, 4 a 5). Do stĺpca „náhody“ zadáme číslo 6 a do stĺpca „inverzie“ číslo 4.

c) rovnakým spôsobom sa postup opakuje až do konca radu; treba mať na pamäti, že každá „vypracovaná“ hodnota je vylúčená z ďalšieho posudzovania (počítajú sa iba poradia, ktoré ležia pod týmto číslom).

Poznámka

Aby nedošlo k chybám vo výpočtoch, treba mať na pamäti, že s každým „krokom“ sa súčet náhod a inverzií znižuje o jednu; je to pochopiteľné, ak vezmeme do úvahy, že zakaždým je jedna hodnota vylúčená z úvahy.

3. Vypočíta sa súčet zápasov (R) a súčet inverzií (Q); údaje sa zadávajú do jedného a troch zameniteľných vzorcov pre Kendallov koeficient (8,10). Vykonajú sa príslušné výpočty.

t (8.10)

V našom prípade:

Tabuľka XIV Prílohy sú kritické hodnoty koeficientu pre danú vzorku: τ cr. = 0,45; 0,59. Empiricky získaná hodnota sa porovnáva s tabuľkovou hodnotou.

Výkon

τ = 0,55> τ kr. = 0,45. Korelácia je štatisticky významná pre úroveň 1.

Poznámka:

V prípade potreby (napríklad pri absencii tabuľky kritických hodnôt) štatistická významnosť t Kendall možno určiť podľa nasledujúceho vzorca:

(8.11)

kde S* = P - Q+ 1 ak P< Q a S * = P - Q - 1 ak P> Q.

Hodnoty z pre zodpovedajúcu hladinu významnosti zodpovedajú Pearsonovmu meraniu a nachádzajú sa podľa príslušných tabuliek (nie sú zahrnuté v prílohe. Pre štandardné hladiny významnosti z cr = 1,96 (pre β1 = 0,95) a 2,58 (pre β2 = 0,99). Kendallov korelačný koeficient je štatisticky významný, ak z > z cr

V našom prípade S* = P - Q- 1 = 35 a z= 2,40, to znamená, že sa potvrdzuje prvotný záver: korelácia medzi znakmi je štatisticky významná pre 1. hladinu významnosti.

Jedným z faktorov obmedzujúcich uplatňovanie kritérií založených na predpoklade normality je veľkosť vzorky. Pokiaľ je vzorka dostatočne veľká (napríklad 100 alebo viac pozorovaní), môžete predpokladať, že rozdelenie vzorky je normálne, aj keď si nie ste istí, že rozdelenie premennej v populácii je normálne. Ak je však vzorka malá, tieto kritériá by sa mali použiť len vtedy, ak existuje istota, že premenná je skutočne normálne rozložená. Neexistuje však spôsob, ako otestovať tento predpoklad na malej vzorke.

Použitie kritérií založených na predpoklade normality je tiež obmedzené na meraciu škálu (pozri kapitolu Základné pojmy analýzy údajov). Štatistické metódy ako t-test, regresia atď. predpokladajú, že pôvodné dáta sú spojité. Existujú však situácie, keď sú údaje jednoducho zoradené (merané na ordinálnej stupnici), a nie presne merané.

Typickým príkladom sú hodnotenia stránok na internete: prvé miesto obsadila stránka s maximálnym počtom návštevníkov, druhé miesto obsadila stránka s maximálnym počtom návštevníkov spomedzi ostatných stránok (medzi stránkami z ktorých bola odstránená prvá stránka) atď. Keď poznáme hodnotenia, môžeme povedať, že počet návštevníkov jednej stránky je väčší ako počet návštevníkov inej stránky, ale o koľko viac, sa nedá povedať. Predstavte si, že máte 5 stránok: A, B, C, D, E, ktoré sú na prvých 5 miestach. Predpokladajme, že v aktuálnom mesiaci sme mali nasledovné usporiadanie: A, B, C, D, E a v predchádzajúcom mesiaci: D, E, A, B, C. Otázkou je, či došlo k výrazným zmenám v hodnotení stránok alebo nie? V tejto situácii samozrejme nemôžeme použiť t-test na porovnanie týchto dvoch skupín údajov a prejsť do oblasti špecifických pravdepodobnostných výpočtov (a každé štatistické kritérium obsahuje pravdepodobnostný výpočet!). Uvažujeme takto: aká je pravdepodobnosť, že rozdiel v rozložení dvoch stránok je spôsobený čisto náhodnými dôvodmi alebo že rozdiel je príliš veľký a nedá sa vysvetliť čistou náhodou. V tejto úvahe používame iba poradie alebo permutácie stránok a v žiadnom prípade nepoužívame špecifickú formu rozdelenia počtu návštevníkov na nich.

Na analýzu malých vzoriek a na údaje namerané na slabých mierkach sa používajú neparametrické metódy.

Rýchla prehliadka neparametrických postupov

V podstate pre každé parametrické kritérium existuje aspoň jedna neparametrická alternatíva.

Vo všeobecnosti tieto postupy patria do jednej z nasledujúcich kategórií:

  • rozlišovacie kritériá pre nezávislé vzorky;
  • rozlišovacie kritériá pre závislé vzorky;
  • posúdenie miery závislosti medzi premennými.

Vo všeobecnosti by mal byť prístup k štatistickým kritériám pri analýze údajov pragmatický a nemal by byť zaťažený zbytočnými teoretickými úvahami. S počítačom STATISTICA, ktorý máte k dispozícii, môžete na svoje údaje jednoducho aplikovať niekoľko kritérií. Keď viete o niektorých úskaliach metód, pomocou experimentovania si vyberiete správne riešenie. Vývoj grafu je celkom prirodzený: ak potrebujete porovnať hodnoty dvoch premenných, potom použite t-test. Treba však pripomenúť, že vychádza z predpokladu normality a rovnosti rozptylov v každej skupine. Oslobodenie sa od týchto predpokladov vedie k neparametrickým testom, ktoré sú obzvlášť užitočné pre malé vzorky.

Vývoj t-testu vedie k analýze rozptylu, ktorá sa používa pri počte porovnávaných skupín viac ako dve. Zodpovedajúci vývoj neparametrických postupov vedie k neparametrickej analýze rozptylu, hoci je výrazne horšia ako klasická analýza rozptylu.

Na posúdenie závislosti alebo, trochu pompézne povedané, stupňa tesnosti spojenia sa vypočíta Pearsonov korelačný koeficient. Presnejšie povedané, jeho aplikácia má obmedzenia spojené napríklad s typom škály, v ktorej sa údaje merajú, a nelinearitou závislosti, preto sa alternatívne používajú aj neparametrické, alebo takzvané poradové, korelačné koeficienty, ktoré sú používa sa napríklad pre hodnotené údaje. Ak sú údaje merané v nominálnej mierke, potom je prirodzené prezentovať ich v kontingenčných tabuľkách, ktoré využívajú Pearsonov chí-kvadrát test s rôznymi variáciami a korekciami pre presnosť.

V podstate teda existuje len niekoľko typov kritérií a postupov, ktoré musíte poznať a vedieť ich používať v závislosti od špecifík údajov. Musíte určiť, ktoré kritérium by sa malo použiť v konkrétnej situácii.

Neparametrické metódy sú najvhodnejšie, keď sú vzorky malé. Ak existuje veľa údajov (napríklad n> 100), často nemá zmysel používať neparametrické štatistiky.

Ak je veľkosť vzorky veľmi malá (napríklad n = 10 alebo menej), potom hladiny významnosti pre tie neparametrické testy, ktoré používajú normálnu aproximáciu, možno považovať len za hrubé odhady.

Rozdiely medzi nezávislými skupinami... Ak existujú dve vzorky (napríklad muži a ženy), ktoré je potrebné porovnať s ohľadom na nejakú priemernú hodnotu, napríklad priemerný tlak alebo počet leukocytov v krvi, potom je možné použiť t-test pre nezávislé vzorky.

Neparametrické alternatívy k tomuto testu sú kritériom série Val'd-Wolfowitz, Mann-Whitney) / n, kde x i je i-tá hodnota, n je počet pozorovaní. Ak premenná obsahuje záporné hodnoty alebo nulu (0), geometrický priemer nemožno vypočítať.

Harmonický priemer

Harmonický priemer sa niekedy používa na spriemerovanie frekvencií. Harmonický priemer sa vypočíta podľa vzorca: ГС = n / S (1 / x i) kde ГС je harmonický priemer, n je počet pozorovaní, х i je hodnota pozorovania s číslom i. Ak premenná obsahuje nulu (0), harmonický priemer sa nedá vypočítať.

Rozptyl a štandardná odchýlka

Vzorový rozptyl a štandardná odchýlka sú najčastejšie používané miery variability (variácie) v údajoch. Rozptyl sa vypočíta ako súčet druhých mocnín odchýlok hodnôt premennej od priemeru vzorky vydelený n-1 (ale nie n). Smerodajná odchýlka sa vypočíta ako druhá odmocnina odhadu rozptylu.

Hojdačka

Rozsah premennej je indikátorom volatility, vypočítaný ako maximum mínus minimum.

Kvartilový rozsah

Štvrťročný rozsah podľa definície je: horný kvartil mínus dolný kvartil (75 % percentil mínus 25 % percentil). Keďže percentil 75 % (horný kvartil) je hodnota, od ktorej sa nachádza 75 % prípadov vľavo, a percentil 25 % (dolný kvartil) je hodnota, od ktorej sa nachádza vľavo 25 % prípadov, kvartil rozsah je interval okolo mediánu, ktorý obsahuje 50 % prípadov (premenné hodnoty).

Asymetria

Asymetria je charakteristická pre tvar distribúcie. Ak je hodnota šikmosti záporná, distribúcia je skosená doľava. Distribúcia je skosená doprava, ak je asymetria pozitívna. Šikmosť štandardného normálneho rozdelenia je 0. Šikmosť je spojená s tretím momentom a je definovaná ako: šikmosť = n × M 3 / [(n-1) × (n-2) × s 3], kde M 3 je: (xi -x priemer x) 3, s 3 je štandardná odchýlka zvýšená na tretiu mocninu, n je počet pozorovaní.

Prebytok

Kurtóza je charakteristika tvaru rozdelenia, konkrétne miera závažnosti jeho vrcholu (vo vzťahu k normálnemu rozdeleniu, ktorého špičatosť sa rovná 0). Distribúcie s ostrejším vrcholom ako normálne majú spravidla kladnú špičatosť; distribúcie, ktorých vrchol je menej ostrý ako vrchol normálneho rozdelenia, majú negatívnu špičatosť. Prebytok je spojený so štvrtým momentom a je určený vzorcom:

špičatosť = / [(n-1) × (n-2) × (n-3) × s 4], kde M j je: (xx priemer x, s 4 je štandardná odchýlka k štvrtej mocnine, n je počet pozorovaní...