Corelația de rang și coeficientul de corelație de rang al lui Kendall. Coeficienții de corelare a rangului lui Kendall și Spearman Formula coeficientului de corelație a lui Kendall

KENDALLA COEFICIENT DE CORELARE RANG

Una dintre eșantionul măsoară dependența a două variabile aleatoare (trăsături) X și Y, pe baza ierarhizării elementelor eșantionului (X 1, Y x), .. ., (X n, Y n). K. către R. la.se referă, prin urmare, la rang statisticieni si este determinata de formula

Unde r i- Tu aparținând acelei perechi ( X Y), pentru un roi de Xraven i, S = 2N- (n-1) / 2, N este numărul de elemente eșantion, pentru care simultan j> i și r j> r i... Este mereu Ca măsură selectivă a dependenței de To. To. R. to. a fost folosit pe scară largă de către M. Kendall (M. Kendall, vezi).

K. către R. K. este folosit pentru a testa ipoteza independenţei variabilelor aleatoare. Dacă ipoteza independenței este adevărată, atunci E t = 0 și D t = 2 (2n + 5) / 9n (n-1). Cu o dimensiune mică a eșantionului, verificarea este statistică. ipoteza independenţei se face folosind tabele speciale (vezi). Pentru n> 10, se folosește aproximarea normală pentru distribuția lui m: dacă

atunci se respinge ipoteza independenței, în caz contrar se acceptă. Aici a . - nivelul de semnificație, u a / 2 este punctul procentual al distribuției normale. K. către R. Pentru că, ca oricare altul, poate fi folosit pentru a detecta dependența a două caracteristici calitative, dacă doar elementele eșantionului pot fi ordonate în raport cu aceste caracteristici. Dacă X Y au o normală comună cu coeficientul de corelație p, apoi relația dintre K. la p. to. și are forma:

Vezi si Corelația rangului lui Spearman, testul de rang.

Lit.: Kendal M., Rank corelations, trad. din engleză., M., 1975; Van der Waerden B.L., Matematică, trad. din ea., M., 1960; Bol'shev L.N., Smirnov N.V., Tabele de statistică matematică, Moscova, 1965.

A. V. Prohorov.


Enciclopedia de matematică. - M .: Enciclopedia sovietică... I. M. Vinogradov. 1977-1985.

Vedeți ce este „COEFICIENTUL DE CORELARE A RANGULUI KENDALLA” în alte dicționare:

    Engleză. с eficient, corelație de rang Kendall; limba germana Kendalls Rangkorrelationskoeffizient. Coeficientul de corelație, care determină gradul de corespondență al ordonării tuturor perechilor de obiecte în două variabile. antinazi. Enciclopedia de Sociologie, 2009... Enciclopedia Sociologiei

    COEFICIENTUL DE CORELARE A RANGULUI KENDALL- Engleză. eficient, corelație de rang Kendall; limba germana Kendalls Rangkorrelationskoeffizient. Coeficientul de corelație, care determină gradul de corespondență al ordonării tuturor perechilor de obiecte în două variabile ... Dicţionar explicativ de sociologie

    O măsură a dependenței a două variabile aleatoare (trăsături) X și Y, bazată pe clasarea rezultatelor observației independente (X1, Y1),. ... ., (Xn, Yn). Dacă rangurile valorilor lui X sunt situate în ordinea naturală i = 1,. ... ., n și Ri rangul Y corespunzător lui ... ... Enciclopedia de matematică

    Coeficient de corelație- (Coeficientul de corelație) Coeficientul de corelație este un indicator statistic al dependenței a două variabile aleatoare.Determinarea coeficientului de corelație, tipuri de coeficienți de corelație, proprietăți ale coeficientului de corelație, calcul și aplicare... ... Enciclopedia investitorilor

    Relația dintre variabile aleatoare, care, în general, nu este strict funcțională. Spre deosebire de dependența funcțională, K., de regulă, este considerată atunci când una dintre cantități depinde nu numai de aceasta, ci și ... ... Enciclopedia de matematică

    Corelația (dependența de corelație) este o relație statistică a două sau mai multe variabile aleatoare (sau cantități care pot fi considerate ca atare cu un grad acceptabil de acuratețe). În acest caz, modificări ale valorilor unuia sau ...... Wikipedia

    Corelație- (Corelația) Corelația este o relație statistică a două sau mai multe variabile aleatoare.Conceptul de corelație, tipuri de corelație, coeficient de corelație, analiză de corelație, corelație de preț, corelarea perechilor valutare pe Conținutul Forex... ... Enciclopedia investitorilor

    Se admite în general că începutul S. al m. Secolului. sau, așa cum este adesea numită, statistica „n mic”, a fost pusă în primul deceniu al secolului XX prin publicarea lucrării lui W. Gosset, în care a plasat distribuția t, postulată de cei care au primit lumea putin mai tarziu...... Enciclopedie psihologică

    Maurice Kendall Sir Maurice George Kendall Data nașterii: 6 septembrie 1907 (1907 09 06) Locul nașterii: Kettering, Marea Britanie Data morții... Wikipedia

    Prognoza- (Prognoza) Definirea prognozei, sarcinile și principiile previziunii Definirea prognozei, sarcinile și principiile prognozei, metodele de prognoză Conținutul Conținutului Definiția Concepte de bază ale prognozei Sarcini și principii ale prognozei ... ... Enciclopedia investitorilor

Depunerea și preprocesarea evaluărilor experților

În practică, sunt utilizate mai multe tipuri de evaluări:

- de înaltă calitate (deseori-rar, mai rău-mai bine, da-nu),

- estimări de scară (interval de valori 50-75, 76-90, 91-120 etc.),

Scor dintr-un interval dat (de la 2 la 5, 1 -10), independent reciproc,

Clasat (obiectele sunt aranjate de un expert într-o anumită ordine și fiecăruia i se atribuie un număr de serie - rang),

Comparativ, obținut prin una dintre metodele de comparație

metoda de comparare secventiala

metoda de comparare perechi a factorilor.

La următorul pas de procesare a opiniilor experților, este necesar să se evalueze gradul de consecvență al acestor opinii.

Estimările obținute de la experți pot fi considerate ca o variabilă aleatoare, a cărei distribuție reflectă opiniile experților cu privire la probabilitatea unei anumite alegeri a unui eveniment (factor). Prin urmare, pentru a analiza dispersarea și consistența estimărilor experților, sunt utilizate caracteristici statistice generalizate - medii și măsuri de dispersie:

Eroare pătratică medie,

Interval variațional min - max,

- coeficientul de variație V = abaterea pătratică medie / aritmul mediu. (potrivit pentru orice tip de evaluare)

V i = σ i / x i avg

Pentru rata măsuri de similaritate ci pareri fiecare pereche de experți pot fi folosite o varietate de metode:

coeficienții de asociere, cu ajutorul căruia se ia în considerare numărul de răspunsuri potrivite și nepotrivite,

coeficienți de inconsecvență opiniile experților,

Toate aceste măsuri pot fi folosite fie pentru a compara opiniile a doi experți, fie pentru a analiza relația dintre seria de evaluări pe două temeiuri.

Coeficientul de corelare a rangului perechii lui Spearman:

unde n este numărul de experți,

c k - diferența dintre estimările experților i-lea și j-lea pentru toți factorii T

Coeficientul de corelare a rangului al lui Kendall (coeficientul de concordanță) oferă o evaluare generală a coerenței opiniilor tuturor experților cu privire la toți factorii, dar numai pentru cazurile în care au fost utilizate estimări de rang.

Se dovedește că valoarea lui S, atunci când toți experții dau aceleași estimări ale tuturor factorilor, are o valoare maximă egală cu

unde n este numărul de factori,

m este numărul de experți.

Coeficientul de concordanță este egal cu raportul

în plus, dacă W este aproape de 1, atunci toți experții au dat estimări suficient de consistente, altfel opiniile lor nu sunt de acord.

Formula de calcul a lui S este prezentată mai jos:

unde r ij sunt estimările de rang ale factorului i de către expertul j-lea,

r cf este rangul mediu pe întreaga matrice de estimări și este egal cu

Și, prin urmare, formula pentru calcularea lui S poate lua forma:

Dacă evaluările individuale ale unui expert coincid și au fost standardizate în timpul procesării, atunci se utilizează o formulă diferită pentru a calcula coeficientul de concordanță:



unde T j se calculează pentru fiecare expert (în cazul în care aprecierile sale au fost repetate pentru diferite obiecte), luând în considerare repetările conform următoarelor reguli:

unde t j este numărul de grupuri de ranguri egale pentru al-lea expert și

h k - numărul de ranguri egale din grupa k de ranguri înrudite ale expertului j.

EXEMPLU. Lăsați 5 experți în șase factori să răspundă în clasament, așa cum se arată în tabelul 3:

Tabelul 3 - Răspunsurile experților

Experți О1 О2 O3 О4 O5 O6 Suma rangurilor de către expert
E1
E2
E3
E4
E5

Datorită faptului că nu a fost obținută o clasare strictă (evaluările de la experți se repetă, iar sumele rangurilor nu sunt egale), vom transforma estimările și vom obține rangurile aferente (Tabelul 4):

Tabelul 4 - Rangurile aferente evaluărilor experților

Experți О1 О2 O3 О4 O5 O6 Suma rangurilor de către expert
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Suma rangurilor obiectului 7,5 9,5 23,5 29,5

Acum să determinăm gradul de consistență al opiniilor experților folosind coeficientul de concordanță. Deoarece rangurile sunt legate, vom calcula W prin formula (**).

Atunci r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Să trecem la calculele lui W. Pentru aceasta, calculăm separat valorile lui T j. În exemplu, evaluările sunt special selectate, astfel încât fiecare expert să aibă evaluări repetate: primul are două, al doilea are trei, al treilea are două grupuri de două evaluări, iar al patrulea are două evaluări identice. Prin urmare:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Observăm că acordul opiniilor experților este destul de mare și putem trece la următoarea etapă a studiului - fundamentarea și adoptarea alternativei deciziei recomandate de experți.

În caz contrar, trebuie să reveniți la pașii 4-8.

Coeficientul de corelare a rangului caracterizează natura generală a dependenței neliniare: o creștere sau scădere a trăsăturii efective cu o creștere a factorului. Acesta este un indicator al strângerii unei relații monotone neliniare.

Scopul serviciului... Acest calculator online calculează Coeficientul de corelare a rangului lui Kendall conform tuturor formulelor de bază, precum și o evaluare a semnificației sale.

Instruire. Indicați cantitatea de date (numărul de linii). Soluția rezultată este salvată într-un fișier Word.

Coeficientul propus de Kendall este construit pe baza unor relații de tip „mai-mai puțin”, a căror validitate a fost stabilită la construirea scalelor.
Să selectăm câteva obiecte și să le comparăm rangurile într-un atribut și în altul. Dacă, după acest criteriu, rândurile formează o ordine directă (adică ordinea seriei naturale), atunci perechii i se atribuie +1, dacă este invers, atunci –1. Pentru perechea selectată, unitățile corespunzătoare plus - minus (după atributul X și prin atributul Y) sunt înmulțite. Rezultatul este evident +1; dacă rândurile unei perechi de ambele caracteristici sunt situate în aceeași secvență și –1 dacă este invers.
Dacă ordinele rangurilor sunt aceleași pentru toate perechile după ambele criterii, atunci suma unităților alocate tuturor perechilor de obiecte este maximă și este egală cu numărul de perechi. Dacă ordinele de rang ale tuturor perechilor sunt inversate, atunci –C 2 N. În cazul general, C 2 N = P + Q, unde P este numărul de pozitive și Q este numărul de negative atribuite perechilor atunci când se compară rangurile acestora pentru ambele criterii.
Mărimea se numește coeficientul lui Kendall.
Din formula se poate observa că coeficientul τ este diferența dintre proporția perechilor de obiecte în care ordinea este aceeași în ambele criterii (în raport cu numărul tuturor perechilor) și proporția perechilor de obiecte în care ordinea nu este aceeași.
De exemplu, o valoare a coeficientului de 0,60 înseamnă că 80% dintre perechi au aceeași ordine a obiectelor, în timp ce 20% nu o au (80% + 20% = 100%; 0,80 - 0,20 = 0,60). Acestea. τ poate fi interpretat ca diferența dintre probabilitățile de coincidență și non-coincidență a ordinelor din ambele semne pentru o pereche de obiecte selectată aleatoriu.
În cazul general, calculul lui τ (mai precis, P sau Q) chiar și pentru N de ordinul a 10 se dovedește a fi greoi.
Să arătăm cum să simplificăm calculele.


Un exemplu. Relația dintre volumul producției industriale și investițiile în active fixe în 10 regiuni ale unuia dintre districtele federale ale Federației Ruse în 2003 este caracterizată de următoarele date:


Calculați coeficienții de corelare a rangului Spearman și Kendal. Verificați semnificația lor la α = 0,05. Formulați o concluzie despre relația dintre volumul producției industriale și investițiile în active fixe în regiunile Federației Ruse luate în considerare.

Soluţie... Să atribuim ranguri atributului Y și factorului X.


Să sortăm datele după X.
În rândul Y din dreapta lui 3 există 7 ranguri care depășesc 3, prin urmare, 3 va genera un termen 7 în P.
În dreapta lui 1 sunt 8 ranguri care depășesc 1 (acestea sunt 2, 4, 6, 9, 5, 10, 7, 8), adică. 8 va introduce P și așa mai departe. Ca rezultat, Р = 37 și folosind formulele avem:

XYrangul X, d xrangul Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Prin formule simplificate:




unde n este dimensiunea eșantionului; z kp este punctul critic al regiunii critice bilaterale, care se găsește din tabelul funcției Laplace prin egalitatea Ф (z kp) = (1-α) / 2.
Dacă | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - ipoteza nulă este respinsă. Există o corelație semnificativă de rang între caracteristicile calitative.
Aflați punctul critic z kp
Ф (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Să găsim punctul critic:

Deoarece τ> T kp - respingem ipoteza nulă; corelația de rang între scorurile la cele două teste este semnificativă.

Un exemplu. Pe baza datelor privind volumul lucrărilor de construcție și instalare efectuate pe cont propriu și numărul de angajați din 10 companii de construcții dintr-unul dintre orașele Federației Ruse, determinați relația dintre aceste semne folosind coeficientul Kendal.

Soluţie găsiți cu un calculator.
Să atribuim ranguri atributului Y și factorului X.
Să aranjam obiectele astfel încât rangurile lor X să reprezinte o serie naturală. Deoarece estimările atribuite fiecărei perechi din această serie sunt pozitive, valorile „+1” incluse în P vor fi generate numai de acele perechi ale căror ranguri în Y formează o ordine directă.
Ele sunt ușor de calculat comparând secvențial rangurile fiecărui obiect din rândul Y cu cele din oțel.
coeficientul Kendall.

În cazul general, calculul lui τ (mai precis, P sau Q) chiar și pentru N de ordinul a 10 se dovedește a fi greoi. Să arătăm cum să simplificăm calculele.

sau

Soluţie.
Să sortăm datele după X.
În rândul Y din dreapta lui 2 există 8 ranguri care depășesc 2, prin urmare, 2 va genera un termen 8 în P.
În dreapta lui 4 sunt 6 ranguri care depășesc 4 (acestea sunt 7, 5, 6, 8, 9, 10), adică. 6 va introduce P și așa mai departe. Ca rezultat, P = 29 și folosind formulele avem:

XYrangul X, d xrangul Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Prin formule simplificate:


Pentru a testa ipoteza nulă despre egalitatea coeficientului de corelație a rangului general al lui Kendall la zero la un nivel de semnificație α cu o ipoteză concurentă H 1: τ ≠ 0, este necesar să se calculeze punctul critic:

unde n este dimensiunea eșantionului; z kp este punctul critic al regiunii critice cu două fețe, care se găsește din tabelul funcției Laplace prin egalitatea Ф (z kp) = (1 - α) / 2.
Dacă | τ | T kp - ipoteza nulă este respinsă. Există o corelație semnificativă de rang între caracteristicile calitative.
Aflați punctul critic z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
Folosind tabelul Laplace, găsim z kp = 1,96
Să găsim punctul critic:

Din moment ce τ

Coeficientul de corelație al lui Kendall este utilizat atunci când variabilele sunt reprezentate de două scale ordinale, cu condiția să nu existe ranguri asociate. Calculul coeficientului lui Kendall presupune numărarea numărului de potriviri și inversări. Să luăm în considerare această procedură folosind exemplul sarcinii anterioare.

Algoritmul de rezolvare a problemei este următorul:

    Reînregistrăm datele în tabel. 8.5 astfel încât unul dintre rânduri (în acest caz, rândul X i) s-a dovedit a fi clasat. Cu alte cuvinte, rearanjam perechile Xși y în ordinea corectă și introducem datele în coloanele 1 și 2 din tabel. 8.6.

Tabelul 8.6

X i

y i

2. Determinați „gradul de clasare” al celui de-al doilea rând ( y i). Această procedură se efectuează în următoarea secvență:

a) luăm prima valoare a rândului neclasat „3”. Calcularea numărului de ranguri de mai jos număr dat, care Mai mult valoarea de comparat. Există 9 astfel de valori (numerele 6, 7, 4, 9, 5, 11, 8, 12 și 10). Introducem numărul 9 în coloana „potriviri”. Apoi numărăm numărul de valori care Mai puțin Trei. Există 2 astfel de valori (locul 1 și 2); adăugați numărul 2 la coloana „inversie”.

b) aruncați numărul 3 (am lucrat deja cu el) și repetați procedura pentru următoarea valoare „6”: numărul de potriviri este 6 (locurile 7, 9, 11, 8, 12 și 10), numărul de inversiuni este 4 (rangurile 1, 2, 4 și 5). Introducem numărul 6 în coloana „coincidențe”, iar numărul 4 - în coloana „inversări”.

c) la fel se repetă procedura până la sfârșitul rândului; trebuie amintit că fiecare valoare „elaborată” este exclusă de la o analiză ulterioară (se iau în considerare doar rangurile care se află sub acest număr).

Notă

Pentru a nu greși în calcule, trebuie avut în vedere că la fiecare „pas” suma coincidențelor și inversiilor scade cu una; acest lucru este de înțeles dacă luăm în considerare faptul că de fiecare dată o valoare este exclusă din considerare.

3. Se calculează suma potrivirilor (R)și suma inversiilor (Q); datele sunt introduse în una și trei formule interschimbabile pentru coeficientul Kendall (8.10). Se efectuează calculele corespunzătoare.

t (8.10)

În cazul nostru:

Masa XIV Anexele sunt valorile critice ale coeficientului pentru un eșantion dat: τ cr. = 0,45; 0,59. Se compară valoarea obținută empiric cu valoarea tabelară.

Concluzie

τ = 0,55> τ cr. = 0,45. Corelația este semnificativă statistic pentru nivelul 1.

Notă:

Dacă este necesar (de exemplu, în absența unui tabel cu valori critice) semnificație statistică t Kendall poate fi determinat prin următoarea formulă:

(8.11)

Unde S * = P - Q+ 1 dacă P< Q , și S * = P - Q - 1 dacă P> Q.

Valorile z pentru nivelul de semnificație corespunzător corespund măsurii Pearson și se regăsesc conform tabelelor corespunzătoare (nu sunt incluse în anexă. Pentru nivelurile de semnificație standard z cr = 1,96 (pentru β 1 = 0,95) și 2,58 (pentru β 2 = 0,99). Coeficientul de corelație al lui Kendall este semnificativ statistic dacă z > z cr

În cazul nostru S * = P - Q- 1 = 35 și z= 2,40, adică se confirmă concluzia inițială: corelația dintre semne este semnificativă statistic pentru nivelul I de semnificație.

Unul dintre factorii care limitează aplicarea criteriilor bazate pe ipoteza normalității este dimensiunea eșantionului. Atâta timp cât eșantionul este suficient de mare (de exemplu, 100 sau mai multe observații), puteți presupune că distribuția eșantionului este normală, chiar dacă nu sunteți sigur că distribuția variabilei în populație este normală. Cu toate acestea, dacă eșantionul este mic, aceste criterii ar trebui utilizate numai dacă există încredere că variabila este într-adevăr distribuită normal. Cu toate acestea, nu există nicio modalitate de a testa această ipoteză într-un eșantion mic.

Utilizarea criteriilor bazate pe ipoteza normalității se limitează și la o scară de măsurători (vezi capitolul Concepte de bază ale analizei datelor). Metodele statistice precum testul t, regresia etc. presupun că datele originale sunt continue. Cu toate acestea, există situații în care datele sunt pur și simplu clasate (măsurate pe o scară ordinală) mai degrabă decât măsurate cu acuratețe.

Un exemplu tipic este dat de evaluările site-urilor de pe Internet: prima poziție este ocupată de site-ul cu numărul maxim de vizitatori, a doua poziție este ocupată de site-ul cu numărul maxim de vizitatori dintre site-urile rămase (dintre site-uri din care a fost eliminat primul site), etc. Cunoscând ratingurile, putem spune că numărul de vizitatori pe un site este mai mare decât numărul de vizitatori pe altul, dar cât mai mult este imposibil de spus. Imaginați-vă că aveți 5 site-uri: A, B, C, D, E, care sunt în primele 5 locuri. Să presupunem că în luna curentă am avut următorul aranjament: A, B, C, D, E, iar în luna anterioară: D, E, A, B, C. Întrebarea este că au existat modificări semnificative în evaluările site-ului sau nu? În această situație, evident, nu putem folosi testul t pentru a compara aceste două grupuri de date și trece la zona calculelor probabilistice specifice (și orice criteriu statistic conține un calcul probabilistic!). Raționăm astfel: cât de probabil este ca diferența dintre cele două aspecte ale site-ului să se datoreze unor motive pur aleatorii sau că diferența este prea mare și nu poate fi explicată prin pură întâmplare. În acest raționament, folosim doar rangurile sau permutările site-urilor și nu folosim în niciun fel o formă specifică de distribuție a numărului de vizitatori ai acestora.

Pentru analiza eșantioanelor mici și pentru datele măsurate pe scale slabe se folosesc metode neparametrice.

Un tur rapid al procedurilor neparametrice

În esență, pentru fiecare criteriu parametric, există cel puțin o alternativă neparametrică.

În general, aceste proceduri se încadrează în una dintre următoarele categorii:

  • criterii de distincție pentru mostre independente;
  • criterii de distincție pentru eșantioanele dependente;
  • evaluarea gradului de dependenţă dintre variabile.

În general, abordarea criteriilor statistice în analiza datelor ar trebui să fie pragmatică și să nu fie împovărată cu raționamente teoretice inutile. Cu un computer STATISTICA la dispoziția dumneavoastră, puteți aplica cu ușurință mai multe criterii datelor dumneavoastră. Cunoscând unele dintre capcanele metodelor, veți alege soluția potrivită prin experimentare. Dezvoltarea complotului este destul de naturală: dacă trebuie să comparați valorile a două variabile, atunci utilizați testul t. Cu toate acestea, trebuie amintit că se bazează pe ipoteza normalității și egalității varianțelor în fiecare grup. Eliberarea de aceste ipoteze are ca rezultat teste neparametrice care sunt utile în special pentru eșantioanele mici.

Dezvoltarea testului t conduce la analiza varianței, care este utilizată atunci când numărul de grupuri comparate este mai mare de două. Dezvoltarea corespunzătoare a procedurilor neparametrice conduce la o analiză neparametrică a varianței, deși este semnificativ mai slabă decât analiza clasică a varianței.

Pentru a aprecia dependența, sau, ca să spunem oarecum pompos, gradul de etanșeitate al conexiunii, se calculează coeficientul de corelație Pearson. Strict vorbind, aplicarea sa are limitări asociate, de exemplu, cu tipul de scară în care sunt măsurate datele și cu neliniaritatea dependenței; de aceea, alternativ, se folosesc și coeficienți de corelație neparametrici, sau așa-numitul rang, care sunt folosit, de exemplu, pentru date clasificate. Dacă datele sunt măsurate la o scară nominală, atunci este firesc să le prezentăm în tabele de contingență care utilizează testul chi-pătrat al lui Pearson cu diferite variații și corecții pentru acuratețe.

Deci, în esență, există doar câteva tipuri de criterii și proceduri pe care trebuie să le cunoașteți și să le puteți utiliza, în funcție de specificul datelor. Trebuie să determinați ce criteriu ar trebui aplicat într-o anumită situație.

Metodele neparametrice sunt cele mai potrivite atunci când dimensiunile eșantionului sunt mici. Dacă există o mulțime de date (de exemplu, n> 100), adesea nu are sens să folosiți statistici neparametrice.

Dacă dimensiunea eșantionului este foarte mică (de exemplu, n = 10 sau mai puțin), atunci nivelurile de semnificație pentru acele teste neparametrice care utilizează aproximarea normală pot fi considerate doar estimări brute.

Diferențele între grupuri independente... Dacă există două probe (de exemplu, bărbați și femei) care trebuie comparate cu o valoare medie, de exemplu, presiunea medie sau numărul de leucocite din sânge, atunci testul t poate fi utilizat pentru independent mostre.

Alternativele neparametrice la acest test sunt criteriul seriei Val'd-Wolfowitz, Mann-Whitney) / n, unde x i este valoarea i-a, n este numărul de observații. Dacă variabila conține valori negative sau zero (0), media geometrică nu poate fi calculată.

Mijloc armonic

Media armonică este uneori folosită pentru a media frecvențele. Media armonică se calculează prin formula: ГС = n / S (1 / x i) unde ГС este media armonică, n este numărul de observații, х i este valoarea observației cu numărul i. Dacă variabila conține zero (0), media armonică nu poate fi calculată.

Dispersia și deviația standard

Varianța eșantionului și abaterea standard sunt cele mai utilizate măsuri de variabilitate (variație) în date. Varianța se calculează ca suma pătratelor abaterilor valorilor variabilei de la media eșantionului, împărțită la n-1 (dar nu la n). Abaterea standard este calculată ca rădăcină pătrată a estimării varianței.

Leagăn

Intervalul unei variabile este un indicator al volatilității, calculat ca maxim minus minim.

Domeniul de aplicare a quartilei

Intervalul trimestrial, prin definiție, este: quartila superioară minus quartila inferioară (75% percentila minus 25% percentila). Deoarece percentila de 75% (cuartila superioară) este valoarea din stânga căreia se află 75% din cazuri, iar percentila de 25% (quartilă inferioară) este valoarea din stânga căreia se află 25% din cazuri, quartila intervalul este intervalul din jurul mediei.care conține 50% din cazuri (valori variabile).

Asimetrie

Asimetria este o caracteristică a formei distribuției. Distribuția este oblică spre stânga dacă valoarea asimetriei este negativă. Distribuția este înclinată spre dreapta dacă asimetria este pozitivă. Asimetria distribuției normale standard este 0. Asimetria este asociată cu al treilea moment și este definită ca: asimetrie = n × M 3 / [(n-1) × (n-2) × s 3], unde M 3 este: (xi -x medie x) 3, s 3 este abaterea standard ridicată la a treia putere, n este numărul de observații.

Exces

Kurtoza este o caracteristică a formei unei distribuții, și anume, o măsură a severității vârfului său (față de o distribuție normală, a cărei curtoză este egală cu 0). De regulă, distribuțiile cu un vârf mai ascuțit decât în ​​mod normal au o curtoză pozitivă; distribuțiile al căror vârf este mai puțin acut decât vârful distribuției normale au curtoză negativă. Excesul este asociat cu al patrulea moment și este determinat de formula:

curtoză = / [(n-1) × (n-2) × (n-3) × s 4], unde M j este: (xx medie x, s 4 este abaterea standard la a patra putere, n este numarul de observatii...