Korelacija ranga i Kendallov koeficijent korelacije ranga. Kendallov i Spearmanov koeficijenti korelacije ranga Kendallov koeficijent korelacije

KENDALLA KOEFICIJENT KORELACIJE RANGA

Jedna od mjera uzorka ovisnosti dvije slučajne varijable (obilježja) X i Y, na osnovu rangiranja uzoraka stavki (X 1, Y x), .. ., (X n, Y n). K. do R. odnosi se, dakle, na rang statističara a određuje se formulom

gdje r i- Vi pripadate tom paru ( X, Y), za roj Xravena i, S = 2N- (n-1) / 2, N je broj elemenata uzorka, za koje je istovremeno j> i i r j> r i... Uvijek je Kao selektivna mjera zavisnosti od To. To. R. do. je naširoko koristio M. Kendall (M. Kendall, vidi).

K. do R. K. se koristi za testiranje hipoteze o nezavisnosti slučajnih varijabli. Ako je hipoteza nezavisnosti tačna, onda je E t = 0 i D t = 2 (2n + 5) / 9n (n-1). Uz malu veličinu uzorka, provjera je statistička. hipoteza nezavisnosti je napravljena pomoću posebnih tabela (vidi). Za n> 10, normalna aproksimacija se koristi za distribuciju m: if

tada se hipoteza nezavisnosti odbacuje, inače se prihvata. Evo a . - nivo značajnosti, u a / 2 je procentualni poen normalne distribucije. K. do R. Jer, kao i svaki drugi, može se koristiti za otkrivanje zavisnosti dvaju kvalitativnih karakteristika, ako se samo elementi uzorka mogu poredati u odnosu na ove karakteristike. Ako X, Y imaju zajedničku normalu sa koeficijentom korelacije p, zatim odnos između K. do. p. do. i ima oblik:

vidi takođe Spearmanova korelacija ranga, rang test.

Lit.: Kendal M., Korelacije ranga, trans. s engleskog, M., 1975; Van der Waerden B.L., Matematika, trans. iz nje, M., 1960; Bol'shev L.N., Smirnov N.V., Tabele matematičke statistike, Moskva, 1965.

A. V. Prokhorov.


Enciklopedija matematike. - M .: Sovjetska enciklopedija... I. M. Vinogradov. 1977-1985.

Pogledajte šta je "KOEFICIJENT KENDALLA RANK KORELACIJE" u drugim rječnicima:

    engleski. s efikasna, rang korelacija Kendall; njemački Kendalls Rangkorrelationskoeffizient. Koeficijent korelacije, koji određuje stepen korespondencije uređenja svih parova objekata u dve varijable. Antinazi. Enciklopedija sociologije, 2009 ... Enciklopedija sociologije

    KENDALLOV KOEFICIJENT KORELACIJE RANGA- Engleski. efikasna, rang korelacija Kendall; njemački Kendalls Rangkorrelationskoeffizient. Koeficijent korelacije, koji određuje stepen korespondencije uređenja svih parova objekata u dve varijable... Eksplanatorni rečnik sociologije

    Mjera zavisnosti dvije slučajne varijable (obilježja) X i Y, zasnovana na rangiranju rezultata nezavisnih posmatranja (X1, Y1). ... ., (Xn, Yn). Ako se rangovi vrijednosti X nalaze u prirodnom redu i = 1,. ... ., n, i Ri rang Y koji odgovara ... ... Enciklopedija matematike

    Koeficijent korelacije- (Koeficijent korelacije) Koeficijent korelacije je statistički pokazatelj zavisnosti dve slučajne varijable.Određivanje koeficijenta korelacije, vrste koeficijenata korelacije, svojstva koeficijenta korelacije, proračun i primena ... ... Enciklopedija investitora

    Odnos između slučajnih varijabli, koji, općenito govoreći, nije striktno funkcionalan. Za razliku od funkcionalne zavisnosti, K. se po pravilu smatra kada jedna od veličina zavisi ne samo od ove druge, već i ... ... Enciklopedija matematike

    Korelacija (korelaciona zavisnost) je statistički odnos dve ili više slučajnih varijabli (ili veličina koje se kao takve mogu smatrati sa nekim prihvatljivim stepenom tačnosti). U ovom slučaju, promjene vrijednosti jedne ili ... ... Wikipedije

    Korelacija- (Korelacija) Korelacija je statistički odnos dve ili više slučajnih varijabli.Koncept korelacije, vrste korelacije, koeficijent korelacije, analiza korelacije, korelacija cena, korelacija valutnih parova na Forex sadržaju ... ... Enciklopedija investitora

    Općenito je prihvaćeno da je početak S. m. stoljeća. ili, kako se to često naziva, statistika "malog n", postavljena je u prvoj deceniji XX veka objavljivanjem dela W. Gosseta, u koje je postavio t raspodelu, postuliranu od strane onih koji su primili svet malo kasnije..... Psihološka enciklopedija

    Maurice Kendall Sir Maurice George Kendall Datum rođenja: 6. septembar 1907 (1907 09 06) Mjesto rođenja: Kettering, UK Datum smrti ... Wikipedia

    Prognoza- (Prognoza) Definicija prognoze, zadaci i principi prognoziranja Definicija prognoze, zadaci i principi prognoziranja, metode predviđanja Sadržaj Sadržaj Definicija Osnovni pojmovi prognoze Zadaci i principi prognoziranja ... ... Enciklopedija investitora

Dostavljanje i prethodna obrada stručnih ocjena

U praksi se koristi nekoliko vrsta procjena:

- visok kvalitet (često-rijetko, lošiji-bolji, da-ne),

- procjene skale (rasponi vrijednosti 50-75, 76-90, 91-120, itd.),

Bod iz datog intervala (od 2 do 5, 1 -10), međusobno nezavisni,

Rangiranje (objekte sređuje stručnjak po određenom redoslijedu, a svakom se dodjeljuje serijski broj - čin),

Komparativ, dobijen jednom od metoda poređenja

metod sekvencijalnog poređenja

metoda parnog poređenja faktora.

U narednom koraku obrade stručnih mišljenja potrebno je izvršiti evaluaciju stepen konzistentnosti ovih mišljenja.

Procjene dobijene od stručnjaka mogu se smatrati slučajnom varijablom, čija distribucija odražava mišljenja stručnjaka o vjerovatnoći određenog izbora događaja (faktora). Stoga se za analizu raspršenosti i konzistentnosti stručnih procjena koriste generalizovane statističke karakteristike - prosjeci i mjere raspršivanja:

Srednja kvadratna greška,

Varijabilni raspon min - max,

- koeficijent varijacije V = srednja kvadratna devijacija / srednja aritma. (pogodno za bilo koju vrstu ocjenjivanja)

V i = σ i / x i avg

Za stopu mjere sličnosti ali mišljenja svaki par stručnjaka mogu se koristiti razne metode:

koeficijenti asocijacije, uz pomoć kojih se uzima u obzir broj podudarnih i nepodudarnih odgovora,

koeficijenti nedosljednosti stručna mišljenja,

Sve ove mjere mogu se koristiti ili za poređenje mišljenja dvaju stručnjaka, ili za analizu odnosa između niza ocjena po dva osnova.

Spearmanov par rang koeficijent korelacije:

gdje je n broj stručnjaka,

c k - razlika između procjena i-tog i j-tog stručnjaka za sve T faktore

Kendallov koeficijent rang korelacije (koeficijent konkordancije) daje ukupnu ocjenu konzistentnosti mišljenja svih stručnjaka o svim faktorima, ali samo za slučajeve u kojima su korištene procjene ranga.

Dokazano je da vrijednost S, kada svi stručnjaci daju iste procjene svih faktora, ima maksimalnu vrijednost jednaku

gdje je n broj faktora,

m je broj stručnjaka.

Koeficijent podudarnosti je jednak omjeru

štaviše, ako je W blizu 1, onda su svi stručnjaci dali dovoljno konzistentne procjene, inače se njihova mišljenja ne slažu.

Formula za izračunavanje S prikazana je u nastavku:

gdje su r ij procjene ranga i-tog faktora od strane j-tog stručnjaka,

r cf je prosječan rang u cijeloj matrici procjena i jednak je

I stoga formula za izračunavanje S može imati oblik:

Ako se pojedinačne procjene jednog stručnjaka poklapaju, a standardizovane su tokom obrade, onda se za izračunavanje koeficijenta podudarnosti koristi drugačija formula:



gdje se T j izračunava za svakog stručnjaka (u slučaju da su njegove procjene ponovljene za različite objekte), uzimajući u obzir ponavljanja prema sljedećim pravilima:

gdje je t j broj grupa jednakih rangova za j-tog stručnjaka, i

h k - broj jednakih činova u k-toj grupi srodnih činova j-tog stručnjaka.

PRIMJER. Neka 5 stručnjaka za šest faktora odgovori u rangiranju kao što je prikazano u tabeli 3:

Tabela 3 – Odgovori stručnjaka

Eksperti O1 O2 O3 O4 O5 O6 Zbir rangova stručnjaka
E1
E2
E3
E4
E5

Zbog činjenice da nije dobijen strogi rang (procjene stručnjaka se ponavljaju, a zbroji rangova nisu jednaki), transformiraćemo procjene i dobiti odgovarajuće rangove (tabela 4):

Tabela 4 - Povezani rangovi stručnih ocjena

Eksperti O1 O2 O3 O4 O5 O6 Zbir rangova stručnjaka
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Zbir rangova objekta 7,5 9,5 23,5 29,5

Odredimo sada stepen konzistentnosti mišljenja stručnjaka koristeći koeficijent podudarnosti. Pošto su rangovi povezani, izračunaćemo W po formuli (**).

Tada je r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Pređimo na proračune W. Za to posebno izračunavamo vrijednosti T j. U primjeru, ocjene su posebno odabrane tako da svaki stručnjak ima ponovljene ocjene: prvi ima dvije, drugi tri, treći dvije grupe po dvije ocjene, a četvrti ima dvije identične ocjene. dakle:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

T 3 = 2 3 –2+ 2 3 –2 = 12 T 4 = 12

Vidimo da je slaganje mišljenja eksperata prilično veliko i možemo preći na sljedeću fazu studije – obrazloženje i usvajanje alternative odluke koju su preporučili stručnjaci.

U suprotnom, morate se vratiti na korake 4-8.

Koeficijent korelacije ranga karakteriše opštu prirodu nelinearne zavisnosti: povećanje ili smanjenje efektivne osobine sa povećanjem faktora jedan. Ovo je pokazatelj čvrstoće monotone nelinearne veze.

Svrha usluge... Ovaj online kalkulator izračunava Kendallov koeficijent korelacije ranga prema svim osnovnim formulama, kao i ocjenu njegovog značaja.

Uputstvo. Navedite količinu podataka (broj redova). Rezultirajuće rješenje se pohranjuje u Word datoteku.

Koeficijent koji je predložio Kendall izgrađen je na osnovu relacija tipa "više-manje", čija je valjanost utvrđena pri konstruisanju skala.
Odaberimo nekoliko objekata i uporedimo njihove rangove u jednom i drugom atributu. Ako, prema ovom kriteriju, rangovi formiraju direktan red (odnosno red prirodnog niza), tada se paru dodjeljuje +1, ako je suprotno, onda –1. Za odabrani par, odgovarajuće plus - minus jedinice (po atributu X i po atributu Y) se množe. Rezultat je očigledno +1; ako se rangovi para oba svojstva nalaze u istom nizu, a –1 ako su obrnuti.
Ako su redosljedi rangova isti za sve parove po oba kriterija, tada je zbir jedinica dodijeljenih svim parovima objekata maksimalan i jednak je broju parova. Ako je redoslijed ranga svih parova obrnut, onda –C 2 N. U opštem slučaju, C 2 N = P + Q, gde je P broj pozitivnih, a Q broj negativnih koji se dodeljuju parovima kada se porede njihov rang za oba kriterijuma.
Količina se naziva Kendallov koeficijent.
Iz formule se vidi da je koeficijent τ razlika između udjela parova objekata u kojima je redoslijed isti u oba kriterija (u odnosu na broj svih parova) i udjela parova objekata u kojima je poredak nije isti.
Na primjer, vrijednost koeficijenta 0,60 znači da 80% parova ima isti redoslijed objekata, dok 20% nema (80% + 20% = 100%; 0,80 - 0,20 = 0,60). One. τ se može tumačiti kao razlika između vjerovatnoća slučajnosti i nepodudarnosti redosljeda u oba znaka za slučajno odabrani par objekata.
U opštem slučaju, izračunavanje τ (tačnije, P ili Q) čak i za N reda veličine 10 pokazuje se glomaznim.
Hajde da pokažemo kako pojednostaviti proračune.


Primjer. Odnos između obima industrijske proizvodnje i ulaganja u osnovna sredstva u 10 regiona jednog od federalnih okruga Ruske Federacije u 2003. godini karakterišu sledeći podaci:


Izračunajte koeficijente korelacije ranga Spearman i Kendal. Provjerite njihovu značajnost na α = 0,05. Formulirajte zaključak o odnosu između obima industrijske proizvodnje i ulaganja u osnovna sredstva u razmatranim regijama Ruske Federacije.

Rješenje... Dodijelimo rangove atributu Y i faktoru X.


Hajde da sortiramo podatke po X.
U redu Y desno od 3 nalazi se 7 rangova koji prelaze 3, stoga će 3 generirati termin 7 u P.
Desno od 1 nalazi se 8 rangova koji prelaze 1 (ovo su 2, 4, 6, 9, 5, 10, 7, 8), tj. 8 će unijeti P, i tako dalje. Kao rezultat, R = 37 i koristeći formule imamo:

XYrang X, d xrang Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Po pojednostavljenim formulama:




gdje je n veličina uzorka; z kp je kritična tačka bilateralne kritične oblasti, koja se nalazi iz tabele Laplaceove funkcije jednakošću F (z kp) = (1-α) / 2.
Ako |τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - nulta hipoteza se odbacuje. Postoji značajna rang korelacija između kvalitativnih karakteristika.
Naći kritičnu tačku z kp
F (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Hajde da pronađemo kritičnu tačku:

Pošto je τ> T kp - odbacujemo nultu hipotezu; rang korelacija između rezultata na dva testa je značajna.

Primjer. Na osnovu podataka o obimu samostalno izvedenih građevinskih i instalaterskih radova i broju zaposlenih u 10 građevinskih kompanija u jednom od gradova Ruske Federacije, utvrditi odnos između ovih znakova koristeći Kendal koeficijent.

Rješenje pronađite pomoću kalkulatora.
Dodijelimo rangove atributu Y i faktoru X.
Složimo objekte tako da njihovi X rangovi predstavljaju prirodni niz. Budući da su procjene dodijeljene svakom paru ove serije pozitivne, vrijednosti "+1" uključene u P će biti generisane samo od onih parova čiji rangovi u Y formiraju direktan poredak.
Lako ih je izračunati uzastopnim poređenjem rangova svakog objekta u Y redu sa čeličnim.
Kendall koeficijent.

U opštem slučaju, izračunavanje τ (tačnije, P ili Q) čak i za N reda veličine 10 pokazuje se glomaznim. Hajde da pokažemo kako pojednostaviti proračune.

ili

Rješenje.
Hajde da sortiramo podatke po X.
U redu Y desno od 2 nalazi se 8 rangova koji prelaze 2, stoga će 2 generirati termin 8 u P.
Desno od 4 nalazi se 6 rangova koji prelaze 4 (ovo su 7, 5, 6, 8, 9, 10), tj. 6 će unijeti P, i tako dalje. Kao rezultat, P = 29 i koristeći formule imamo:

XYrang X, d xrang Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Po pojednostavljenim formulama:


Da bi se testirala nulta hipoteza o jednakosti Kendalovog generalnog koeficijenta korelacije ranga nuli na nivou značajnosti α sa konkurentskom hipotezom H 1: τ ≠ 0, potrebno je izračunati kritičnu tačku:

gdje je n veličina uzorka; z kp je kritična tačka dvostranog kritičnog područja, koja se nalazi iz tabele Laplaceove funkcije jednakošću F (z kp) = (1 - α) / 2.
Ako |τ | T kp - nulta hipoteza se odbacuje. Postoji značajna rang korelacija između kvalitativnih karakteristika.
Naći kritičnu tačku z kp
F (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
Koristeći Laplaceovu tablicu, nalazimo z kp = 1,96
Hajde da pronađemo kritičnu tačku:

Pošto je τ

Kendallov koeficijent korelacije se koristi kada su varijable predstavljene sa dvije ordinalne skale, pod uslovom da nema pridruženih rangova. Izračunavanje Kendalovog koeficijenta uključuje prebrojavanje broja poklapanja i inverzija. Razmotrimo ovu proceduru koristeći primjer prethodnog zadatka.

Algoritam za rješavanje problema je sljedeći:

    Ponovno registrujemo podatke u tabeli. 8.5 tako da jedan od redova (u ovom slučaju, red x i) ispostavilo se da je rangiran. Drugim riječima, preuređujemo parove x i y pravim redosledom i podatke unosimo u kolone 1 i 2 tabele. 8.6.

Tabela 8.6

x i

y i

2. Odrediti "stepen rangiranja" 2. reda ( y i). Ovaj postupak se izvodi u sljedećem redoslijedu:

a) uzimamo prvu vrijednost nerangiranog reda "3". Izračunavanje broja činova ispod dati broj, koji više vrijednost koju treba uporediti. Postoji 9 takvih vrijednosti (brojevi 6, 7, 4, 9, 5, 11, 8, 12 i 10). U kolonu "sklapanja" unosimo broj 9. Zatim brojimo broj vrijednosti koje manji tri. Postoje 2 takve vrijednosti (rangovi 1 i 2); dodajte broj 2 u kolonu "inverzija".

b) odbacite broj 3 (već smo radili s njim) i ponovite postupak za sljedeću vrijednost "6": broj utakmica je 6 (rangovi 7, 9, 11, 8, 12 i 10), broj inverzije su 4 (rangovi 1, 2, 4 i 5). U kolonu "koincidencije" unosimo broj 6, a u kolonu "inverzije" broj 4.

c) na isti način se postupak ponavlja do kraja reda; treba imati na umu da je svaka "razrađena" vrijednost isključena iz daljeg razmatranja (računaju se samo rangovi koji leže ispod ovog broja).

Bilješka

Kako ne bi pogriješili u proračunima, treba imati na umu da se svakim "korak" zbir slučajnosti i inverzija smanjuje za jedan; ovo je razumljivo ako uzmemo u obzir da je svaki put jedna vrijednost isključena iz razmatranja.

3. Izračunava se zbroj utakmica (R) i zbir inverzija (Q); podaci se unose u jednu i tri zamjenjive formule za Kendall koeficijent (8.10). Izvode se odgovarajući proračuni.

t (8.10)

u našem slučaju:

Table XIV Prilozi su kritične vrijednosti koeficijenta za dati uzorak: τ cr. = 0,45; 0,59. Empirijski dobijena vrijednost se upoređuje sa tabelarnom vrijednošću.

Izlaz

τ = 0,55> τ cr. = 0,45. Korelacija je statistički značajna za nivo 1.

Bilješka:

Ako je potrebno (na primjer, u nedostatku tabele kritičnih vrijednosti) statistička značajnost t Kendall se može odrediti sljedećom formulom:

(8.11)

gdje S * = P - Q+ 1 ako P< Q , i S * = P - Q - 1 ako P> P.

Vrijednosti z za odgovarajući nivo značajnosti odgovaraju Pearsonovoj meri i nalaze se prema odgovarajućim tabelama (nisu uključene u dodatak. Za standardne nivoe značajnosti z cr = 1,96 (za β 1 ​​= 0,95) i 2,58 (za β 2 = 0,99). Kendallov koeficijent korelacije je statistički značajan ako z > z cr

U našem slučaju S * = P - Q- 1 = 35 i z= 2,40, odnosno potvrđen je početni zaključak: korelacija između znakova je statistički značajna za 1. nivo značajnosti.

Jedan od faktora koji ograničavaju primjenu kriterija zasnovanih na pretpostavci normalnosti je veličina uzorka. Sve dok je uzorak dovoljno velik (na primjer, 100 ili više opservacija), možete pretpostaviti da je distribucija uzorka normalna, čak i ako niste sigurni da je distribucija varijable u populaciji normalna. Međutim, ako je uzorak mali, ove kriterije treba koristiti samo ako postoji povjerenje da je varijabla zaista normalno distribuirana. Međutim, ne postoji način da se testira ova pretpostavka na malom uzorku.

Upotreba kriterija zasnovanih na pretpostavci normalnosti također je ograničena na skalu mjerenja (vidi poglavlje Osnovni koncepti analize podataka). Statističke metode kao što su t-test, regresija, itd. pretpostavljaju da su originalni podaci kontinuirani. Međutim, postoje situacije u kojima se podaci jednostavno rangiraju (mjere se na ordinalnoj skali) umjesto da se precizno mjere.

Tipičan primjer daju ocjene stranica na Internetu: prvo mjesto zauzima stranica s maksimalnim brojem posjetitelja, drugu poziciju zauzima stranica s maksimalnim brojem posjetitelja među preostalim stranicama (među stranicama sa kojeg je prvi sajt uklonjen) itd. Poznavajući ocene, možemo reći da je broj posetilaca jednog sajta veći od broja posetilaca drugog, ali koliko više, nemoguće je reći. Zamislite da imate 5 lokacija: A, B, C, D, E, koje su na prvih 5 mjesta. Pretpostavimo da smo u tekućem mjesecu imali sljedeći aranžman: A, B, C, D, E, au prethodnom mjesecu: D, E, A, B, C. Pitanje je da je došlo do značajnih promjena u ocjenama sajtova ili ne? U ovoj situaciji, očito, ne možemo koristiti t-test da uporedimo ove dvije grupe podataka, i prijeđemo na područje specifičnih vjerojatnosnih proračuna (a svaki statistički kriterij sadrži vjerojatnostnu kalkulaciju!). Razmišljamo ovako: koliko je vjerovatno da je razlika u izgledu dva sajta nastala zbog čisto slučajnih razloga, ili da je razlika prevelika i da se ne može objasniti čistom slučajnošću. U ovom obrazloženju koristimo samo rangove ili permutacije stranica i ni na koji način ne koristimo specifičan oblik distribucije broja posjetitelja na njima.

Za analizu malih uzoraka i za podatke mjerene na lošim skalama koriste se neparametarske metode.

Kratki obilazak neparametarskih procedura

U suštini, za svaki parametarski kriterijum postoji barem jedna neparametarska alternativa.

Općenito, ovi postupci spadaju u jednu od sljedećih kategorija:

  • kriterijumi razlikovanja nezavisnih uzoraka;
  • kriteriji razlikovanja zavisnih uzoraka;
  • procjena stepena zavisnosti između varijabli.

Općenito, pristup statističkim kriterijumima u analizi podataka treba da bude pragmatičan i ne opterećen nepotrebnim teorijskim obrazloženjem. Sa STATISTICA računarom koji vam je na raspolaganju, možete lako primijeniti nekoliko kriterija na svoje podatke. Znajući za neke od zamki metoda, eksperimentiranjem ćete odabrati pravo rješenje. Razvoj dijagrama je sasvim prirodan: ako trebate uporediti vrijednosti dvije varijable, onda koristite t-test. Međutim, treba imati na umu da se zasniva na pretpostavci normalnosti i jednakosti varijansi u svakoj grupi. Oslobađanje od ovih pretpostavki rezultira neparametarskim testovima koji su posebno korisni za male uzorke.

Razvoj t-testa dovodi do analize varijanse, koja se koristi kada je broj upoređenih grupa veći od dvije. Odgovarajući razvoj neparametarskih procedura dovodi do neparametarske analize varijanse, iako je znatno lošija od klasične analize varijanse.

Da bi se procijenila zavisnost, ili, donekle pompezno rečeno, stepen čvrstoće veze, izračunava se Pearsonov koeficijent korelacije. Strogo govoreći, njegova primjena ima ograničenja povezana, na primjer, sa vrstom skale na kojoj se podaci mjere i nelinearnošću zavisnosti, pa se, alternativno, koriste i neparametrijski, ili tzv. rang koeficijenti korelacije, koji su koristi se, na primjer, za rangirane podatke. Ako se podaci mjere na nominalnoj skali, onda je prirodno predstaviti ih u kontingentnim tabelama koje koriste Pearsonov hi-kvadrat test sa različitim varijacijama i korekcijama za tačnost.

Dakle, u suštini postoji samo nekoliko tipova kriterijuma i procedura koje morate znati i umeti da koristite, u zavisnosti od specifičnosti podataka. Morate odrediti koji kriterij treba primijeniti u određenoj situaciji.

Neparametarske metode su najprikladnije kada su uzorci male. Ako postoji mnogo podataka (na primjer, n> 100), često nema smisla koristiti neparametarsku statistiku.

Ako je veličina uzorka vrlo mala (na primjer, n = 10 ili manje), tada se nivoi značajnosti za one neparametarske testove koji koriste normalnu aproksimaciju mogu smatrati samo grubim procjenama.

Razlike između nezavisnih grupa... Ako postoje dva uzorka (na primjer, muškarci i žene) koje je potrebno uporediti s obzirom na neku prosječnu vrijednost, na primjer, srednji tlak ili broj leukocita u krvi, tada se t-test može koristiti za neovisnu uzorci.

Neparametarske alternative ovom testu su kriterijum Val'd-Wolfowitz, Mann-Whitney serije)/n, gdje je x i i-ta vrijednost, n je broj opservacija. Ako varijabla sadrži negativne vrijednosti ili nulu (0), geometrijska sredina se ne može izračunati.

Harmonična sredina

Harmonski prosjek se ponekad koristi za prosječenje frekvencija. Harmonička sredina se izračunava po formuli: GS = n / S (1 / x i) gdje je GS harmonijska sredina, n je broj opažanja, h i je vrijednost zapažanja sa brojem i. Ako varijabla sadrži nulu (0), harmonijska sredina se ne može izračunati.

Disperzija i standardna devijacija

Varijanca uzorka i standardna devijacija su najčešće korištene mjere varijabilnosti (varijacije) podataka. Varijanca se izračunava kao zbir kvadrata odstupanja vrijednosti varijable od srednje vrijednosti uzorka, podijeljenih sa n-1 (ali ne sa n). Standardna devijacija se izračunava kao kvadratni korijen procjene varijanse.

Swing

Raspon varijable je indikator volatilnosti, izračunat kao maksimum minus minimum.

Kvartilni opseg

Kvartalni raspon, po definiciji, je: gornji kvartil minus donji kvartil (75% percentil minus 25% percentil). Budući da je 75% percentil (gornji kvartil) vrijednost lijevo od koje se nalazi 75% slučajeva, a 25% percentil (donji kvartil) je vrijednost lijevo od koje se nalazi 25% slučajeva, kvartil raspon je interval oko medijane koji sadrži 50% slučajeva (vrijednosti varijabli).

Asimetrija

Asimetrija je karakteristika oblika distribucije. Distribucija je nagnuta ulijevo ako je vrijednost iskrivljenosti negativna. Raspodjela je nagnuta udesno ako je asimetrija pozitivna. Kosina standardne normalne distribucije je 0. Kosa je povezana s trećim momentom i definirana je kao: kosina = n × M 3 / [(n-1) × (n-2) × s 3], gdje je M 3 je: (xi -x srednja vrijednost x) 3, s 3 je standardna devijacija podignuta na treći stepen, n je broj opservacija.

Višak

Kurtoza je karakteristika oblika distribucije, naime, mjera ozbiljnosti njenog vrha (u odnosu na normalnu distribuciju, čija je ekscesnost jednaka 0). Po pravilu, distribucije sa oštrijim vrhom od normalnog imaju pozitivan eksces; distribucije čiji je vrh manje akutan od vrha normalne distribucije imaju negativan eksces. Višak je povezan s četvrtim momentom i određen je formulom:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], gdje je M j: (xx srednja vrijednost x, s 4 je standardna devijacija na četvrtu potenciju, n je broj zapažanja...