Ranga korelācija un Kendala ranga korelācijas koeficients. Kendala un Spīrmena rangu korelācijas koeficienti Kendala korelācijas koeficienta formula

KENDALLAS RANGA KORELĀCIJAS KOEFICIENTS

Viens no divu gadījuma lielumu (iezīmju) atkarības izlases mēriem X un Y, pamatojoties uz izlases vienumu ranžēšanu (X 1, Y x), .. ., (X n, Y n). K. līdz R. tātad attiecas uz ranga statistiķi un to nosaka pēc formulas

kur r i- Jūs piederat šim pārim ( X, Y), par Xraven baru i, S = 2N- (n-1) / 2, N ir to izlases elementu skaits, kuriem vienlaikus j> i un r j> r i... Ir vienmēr Kā selektīvs atkarības mērs No. To. R. to plaši izmantoja M. Kendals (M. Kendall, sk.).

K. līdz R. K. izmanto, lai pārbaudītu gadījuma lielumu neatkarības hipotēzi. Ja neatkarības hipotēze ir patiesa, tad E t = 0 un D t = 2 (2n + 5) / 9n (n-1). Ar nelielu izlases lielumu pārbaude ir statistiska. neatkarības hipotēze tiek izvirzīta, izmantojot īpašas tabulas (sk.). Ja n> 10, m sadalījumam izmanto normālu tuvinājumu: ja

tad neatkarības hipotēze tiek noraidīta, pretējā gadījumā tā tiek pieņemta. Šeit a . - nozīmīguma līmenis, u a / 2 ir normālā sadalījuma procentpunkts. K. līdz R. Jo, tāpat kā jebkuru citu, ar to var noteikt divu kvalitatīvu pazīmju atkarību, ja tikai parauga elementus var sakārtot attiecībā uz šīm pazīmēm. Ja X, Y ir kopīgs normāls ar korelācijas koeficientu p, tad attiecības starp K. līdz p. un ir šāda forma:

Skatīt arī Spīrmena ranga korelācija, ranga tests.

Lit.: Kendal M., Ranga korelācijas, trans. no angļu val., M., 1975; Van der Vērdens B.L., Matemātika, tulk. no tā., M., 1960; Bol'shev L.N., Smirnov N.V., Matemātiskās statistikas tabulas, Maskava, 1965.

A. V. Prohorovs.


Matemātikas enciklopēdija. - M .: Padomju enciklopēdija... I. M. Vinogradovs. 1977-1985.

Skatiet, kas ir "KENDALLAS RANKA KORRELĀCIJAS KOEFICIENTS" citās vārdnīcās:

    Angļu. с efektīva, rangu korelācija Kendall; vāciski Kendalls Rangkorrelationskoeffizient. Korelācijas koeficients, kas nosaka visu objektu pāru sakārtotības atbilstības pakāpi divos mainīgajos. Antinazi. Socioloģijas enciklopēdija, 2009... Socioloģijas enciklopēdija

    KENDALLA RANGA KORELĀCIJAS KOEFICIENTS- Angļu. efektīva, rangu korelācija Kendall; vāciski Kendalls Rangkorrelationskoeffizient. Korelācijas koeficients, kas nosaka visu objektu pāru secības atbilstības pakāpi divos mainīgajos... Socioloģijas skaidrojošā vārdnīca

    Divu gadījuma lielumu (iezīmju) X un Y atkarības mērs, pamatojoties uz neatkarīgu novērojumu rezultātu sakārtošanu (X1, Y1). ... ., (Xn, Yn). Ja X vērtību rindas atrodas dabiskā secībā i = 1,. ... ., n un Ri rangs Y, kas atbilst ... ... Matemātikas enciklopēdija

    Korelācijas koeficients- (Korelācijas koeficients) Korelācijas koeficients ir divu nejaušu lielumu atkarības statistiskais rādītājs Korelācijas koeficienta noteikšana, korelācijas koeficientu veidi, korelācijas koeficienta īpašības, aprēķins un pielietojums ... ... Investoru enciklopēdija

    Attiecības starp nejaušajiem mainīgajiem, kas, vispārīgi runājot, nav stingri funkcionālas. Atšķirībā no funkcionālās atkarības, K., kā likums, tiek uzskatīts, ja viens no daudzumiem ir atkarīgs ne tikai no šī otra, bet arī ... ... Matemātikas enciklopēdija

    Korelācija (korelācijas atkarība) ir divu vai vairāku gadījuma lielumu (vai lielumu, kurus var uzskatīt par tādiem ar zināmu pieņemamu precizitātes pakāpi) statistiska sakarība. Šajā gadījumā vienas vai ... ... Wikipedia vērtību izmaiņas

    Korelācija- (Korelācija) Korelācija ir divu vai vairāku nejaušu mainīgo statistiskā sakarība. Korelācijas jēdziens, korelācijas veidi, korelācijas koeficients, korelācijas analīze, cenu korelācija, valūtu pāru korelācija Forex saturā ... ... Investoru enciklopēdija

    Ir vispāratzīts, ka sākumā S. gadsimtā. jeb, kā mēdz saukt, "mazā n" statistika tika ievietota XX gadsimta pirmajā desmitgadē, publicējot V. Goseta darbu, kurā viņš ievietoja t sadalījumu, ko postulēja tie, kuri saņēma pasaule nedaudz vēlāk...... Psiholoģiskā enciklopēdija

    Moriss Kendals Sers Moriss Džordžs Kendels Dzimšanas datums: 1907. gada 6. septembris (1907 09 06) Dzimšanas vieta: Keteringa, Apvienotā Karaliste Miršanas datums ... Wikipedia

    Prognoze- (Prognoze) Prognozes definīcija, uzdevumi un prognozēšanas principi Prognozes definīcija, prognozēšanas uzdevumi un principi, prognozēšanas metodes Saturs Saturs Definīcija Prognozēšanas pamatjēdzieni Prognozēšanas uzdevumi un principi ... ... Investoru enciklopēdija

Ekspertu vērtējumu iesniegšana un pirmapstrāde

Praksē tiek izmantoti vairāki novērtējuma veidi:

- augstas kvalitātes (bieži-reti, sliktāk-labāk, jā-nē),

- mēroga aprēķini (vērtību diapazoni 50-75, 76-90, 91-120 utt.),

Rezultāts no noteiktā intervāla (no 2 līdz 5, 1 -10), savstarpēji neatkarīgi,

Sarindots (objektus eksperts sakārto noteiktā secībā, un katram tiek piešķirts sērijas numurs - rangs),

Salīdzinošs, iegūts ar kādu no salīdzināšanas metodēm

secīgās salīdzināšanas metode

faktoru pāru salīdzināšanas metode.

Nākamajā ekspertu atzinumu apstrādes posmā ir nepieciešams izvērtēt šo viedokļu konsekvences pakāpi.

No ekspertiem iegūtās aplēses var uzskatīt par nejaušu lielumu, kura sadalījums atspoguļo ekspertu viedokļus par konkrēta notikuma (faktora) izvēles iespējamību. Tāpēc, lai analizētu ekspertu aplēšu izkliedi un konsekvenci, tiek izmantoti vispārināti statistiskie raksturlielumi - vidējie un izkliedes mērījumi:

Vidējā kvadrāta kļūda,

Izmaiņu diapazons no min līdz max,

- variācijas koeficients V = vidējā kvadrātiskā novirze / vidējais aritms. (piemērots jebkura veida novērtējumam)

V i = σ i / x i vid

Par likmi līdzības pasākumi bet viedokļi katrs ekspertu pāris var izmantot dažādas metodes:

asociācijas koeficienti, ar kuras palīdzību tiek ņemts vērā atbilstošo un neatbilstošo atbilžu skaits,

nekonsekvences koeficienti ekspertu atzinumi,

Visus šos pasākumus var izmantot, lai salīdzinātu divu ekspertu viedokļus vai analizētu attiecības starp vērtējumu sērijām, pamatojoties uz diviem pamatiem.

Spīrmena pāra ranga korelācijas koeficients:

kur n ir ekspertu skaits,

c k - starpība starp i-tā un j-tā eksperta aplēsēm visiem T faktoriem

Kendala rangu korelācijas koeficients (saskaņas koeficients) sniedz vispārēju novērtējumu visu ekspertu viedokļu konsekvencei par visiem faktoriem, bet tikai gadījumos, kad tika izmantotas rangu aplēses.

Ir pierādīts, ka S vērtībai, kad visi eksperti sniedz vienādus visu faktoru aprēķinus, ir maksimālā vērtība, kas vienāda ar

kur n ir faktoru skaits,

m ir ekspertu skaits.

Atbilstības koeficients ir vienāds ar attiecību

turklāt, ja W ir tuvu 1, tad visi eksperti ir devuši pietiekami konsekventus aprēķinus, pretējā gadījumā viņu viedokļi nesakrīt.

Formula S aprēķināšanai ir parādīta zemāk:

kur r ij ir j-tā eksperta i-tā faktora ranga aplēses,

r cf ir vidējais rangs visā aplēšu matricā un ir vienāds ar

Tāpēc S aprēķināšanas formula var būt šāda:

Ja viena eksperta individuālie vērtējumi sakrīt un apstrādes laikā tie tika standartizēti, tad atbilstības koeficienta aprēķināšanai tiek izmantota cita formula:



kur T j aprēķina katram ekspertam (gadījumā, ja viņa vērtējumi tika atkārtoti dažādiem objektiem), ņemot vērā atkārtojumus saskaņā ar šādiem noteikumiem:

kur t j ir vienādas pakāpes grupu skaits j-tajam ekspertam, un

h k - vienādu pakāpju skaits j-tā eksperta radniecīgo kārtu k-tajā grupā.

PIEMĒRS. Ļaujiet 5 ekspertiem par sešiem faktoriem atbildēt reitingā, kā parādīts 3. tabulā:

3. tabula. Ekspertu atbildes

Eksperti О1 О2 O3 О4 O5 O6 Pakāpju summa pēc eksperta
E1
E2
E3
E4
E5

Sakarā ar to, ka netika iegūts stingrs rangs (ekspertu vērtējumi tiek atkārtoti, un kārtu summas nav vienādas), mēs pārveidosim aplēses un iegūsim saistītās pakāpes (4. tabula):

4. tabula. Ekspertu vērtējumu saistītās rindas

Eksperti О1 О2 O3 О4 O5 O6 Pakāpju summa pēc eksperta
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Objekta rindu summa 7,5 9,5 23,5 29,5

Tagad noteiksim ekspertu atzinumu konsekvences pakāpi, izmantojot atbilstības koeficientu. Tā kā rangi ir saistīti, mēs aprēķināsim W pēc formulas (**).

Tad r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Turpināsim ar W aprēķiniem. Šim nolūkam mēs atsevišķi aprēķinām T j vērtības. Piemērā vērtējumi ir īpaši atlasīti tā, lai katram ekspertam būtu atkārtoti vērtējumi: pirmajam ir divi, otrajam trīs, trešajā – divas divu reitingu grupas, bet ceturtajam – divi identiski vērtējumi. Tātad:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Redzam, ka ekspertu viedokļu saskaņa ir diezgan liela un varam pāriet uz nākamo pētījuma posmu - ekspertu ieteiktā lēmuma alternatīvas pamatojumu un pieņemšanu.

Pretējā gadījumā jums ir jāatgriežas pie 4.–8. darbības.

Ranga korelācijas koeficients raksturo nelineārās atkarības vispārējo raksturu: efektīvās pazīmes palielināšanās vai samazināšanās, palielinoties faktoram viens. Tas ir monotonu nelineāru attiecību stingrības rādītājs.

Pakalpojuma mērķis... Šis tiešsaistes kalkulators aprēķina Kendala ranga korelācijas koeficients pēc visām pamatformulām, kā arī tās nozīmīguma novērtējums.

Instrukcija. Norādiet datu apjomu (rindu skaitu). Iegūtais risinājums tiek saglabāts Word failā.

Kendala piedāvātais koeficients ir veidots, pamatojoties uz "vairāk-mazāk" tipa attiecībām, kuru derīgums tika noteikts, veidojot skalas.
Atlasīsim pāris objektus un salīdzināsim to rindas vienā un citā atribūtā. Ja pēc šī kritērija pakāpes veido tiešu secību (tas ir, naturālās rindas secību), tad pārim tiek piešķirts +1, ja pretēji, tad –1. Atlasītajam pārim tiek reizinātas atbilstošās plus-mīnus vienības (pēc atribūta X un pēc atribūta Y). Rezultāts acīmredzami +1; ja abu pazīmju pāra rangi atrodas vienā secībā, un –1, ja apgriezti.
Ja rangu kārtas visiem pāriem pēc abiem kritērijiem ir vienādas, tad visiem objektu pāriem piešķirto vienību summa ir maksimālā un ir vienāda ar pāru skaitu. Ja visu pāru rangu kārtas ir apgrieztas, tad –C 2 N. Vispārīgā gadījumā C 2 N = P + Q, kur P ir pozitīvo skaits un Q ir negatīvo skaits, kas piešķirts pāriem, salīdzinot to rangus pēc abiem kritērijiem.
Daudzumu sauc par Kendala koeficientu.
No formulas var redzēt, ka koeficients τ ir starpība starp objektu pāru proporciju, kurā secība ir vienāda abos kritērijos (attiecībā pret visu pāru skaitu), un to objektu pāru īpatsvaru, kuros kārtība nav vienāda.
Piemēram, koeficienta vērtība 0,60 nozīmē, ka 80% pāru objektu secība ir vienāda, bet 20% nav (80% + 20% = 100%; 0,80 - 0,20 = 0,60). Tie. τ var interpretēt kā atšķirību starp secību sakritības un nesakritības varbūtībām abās zīmēs nejauši izvēlētam objektu pārim.
Vispārīgā gadījumā τ (precīzāk, P vai Q) aprēķins pat N, kas ir 10, izrādās apgrūtinošs.
Parādīsim, kā vienkāršot aprēķinus.


Piemērs. Sakarību starp rūpnieciskās ražošanas apjomu un ieguldījumiem pamatlīdzekļos 10 reģionos vienā no Krievijas Federācijas federālajiem apgabaliem 2003. gadā raksturo šādi dati:


Aprēķiniet Spīrmena un Kendala ranga korelācijas koeficientus. Pārbaudiet to nozīmi pie α = 0,05. Noformulēt secinājumu par sakarību starp rūpnieciskās ražošanas apjomu un ieguldījumiem pamatlīdzekļos apskatāmajos Krievijas Federācijas reģionos.

Risinājums... Piešķirsim pakāpes atribūtam Y un faktoram X.


Sakārtosim datus pēc X.
Rindā Y pa labi no 3 ir 7 rindas, kas pārsniedz 3, tāpēc 3 ģenerēs vienumu 7 P.
Pa labi no 1 ir 8 pakāpes, kas pārsniedz 1 (tās ir 2, 4, 6, 9, 5, 10, 7, 8), t.i. 8 ievadīs P un tā tālāk. Rezultātā Р = 37 un, izmantojot formulas, mēs iegūstam:

XYrangs X, d xrangs Y, d yPJ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Pēc vienkāršotām formulām:




kur n ir izlases lielums; z kp ir divpusējā kritiskā apgabala kritiskais punkts, kas no Laplasa funkcijas tabulas atrodams ar vienādību Ф (z kp) = (1-α) / 2.
Ja | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - nulles hipotēze tiek noraidīta. Starp kvalitatīvajām pazīmēm pastāv būtiska rangu korelācija.
Atrast kritisko punktu z kp
Ф (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Atradīsim kritisko punktu:

Tā kā τ> T kp - mēs noraidām nulles hipotēzi; rangu korelācija starp abu testu rezultātiem ir nozīmīga.

Piemērs. Pamatojoties uz datiem par pašu veikto būvniecības un uzstādīšanas darbu apjomu un darbinieku skaitu 10 būvniecības uzņēmumos vienā no Krievijas Federācijas pilsētām, nosakiet saistību starp šīm zīmēm, izmantojot Kendal koeficientu.

Risinājums atrodi ar kalkulatoru.
Piešķirsim pakāpes atribūtam Y un faktoram X.
Sakārtosim objektus tā, lai to X rindas attēlotu dabisku sēriju. Tā kā katram šīs sērijas pārim piešķirtās aplēses ir pozitīvas, P ietvertās vērtības "+1" ģenerēs tikai tie pāri, kuru rindas Y veido tiešu secību.
Tos ir viegli aprēķināt, secīgi salīdzinot katra Y rindā esošā objekta rangus ar tērauda objektiem.
Kendala koeficients.

Vispārīgā gadījumā τ (precīzāk, P vai Q) aprēķins pat N, kas ir 10, izrādās apgrūtinošs. Parādīsim, kā vienkāršot aprēķinus.

vai

Risinājums.
Sakārtosim datus pēc X.
Rindā Y pa labi no 2 ir 8 rindas, kas pārsniedz 2, tāpēc 2 ģenerēs vienumu 8 P.
Pa labi no 4 ir 6 pakāpes, kas pārsniedz 4 (tās ir 7, 5, 6, 8, 9, 10), t.i. 6 ievadīs P un tā tālāk. Rezultātā P = 29 un, izmantojot formulas, mēs iegūstam:

XYrangs X, d xrangs Y, d yPJ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Pēc vienkāršotām formulām:


Lai pārbaudītu nulles hipotēzi par Kendala vispārējā ranga korelācijas koeficienta vienādību ar nulli pie nozīmīguma līmeņa α ar konkurējošu hipotēzi H 1: τ ≠ 0, ir jāaprēķina kritiskais punkts:

kur n ir izlases lielums; z kp ir divpusējā kritiskā apgabala kritiskais punkts, kas no Laplasa funkcijas tabulas atrodams ar vienādību Ф (z kp) = (1 - α) / 2.
Ja | τ | T kp - nulles hipotēze tiek noraidīta. Starp kvalitatīvajām pazīmēm pastāv būtiska rangu korelācija.
Atrast kritisko punktu z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
Izmantojot Laplasa tabulu, mēs atrodam z kp = 1,96
Atradīsim kritisko punktu:

Kopš τ

Kendala korelācijas koeficientu izmanto, ja mainīgie tiek attēloti ar divām kārtas skalām, ar nosacījumu, ka nav saistītu rangu. Kendala koeficienta aprēķināšana ietver sakritību un inversiju skaita skaitīšanu. Apskatīsim šo procedūru, izmantojot iepriekšējā uzdevuma piemēru.

Problēmas risināšanas algoritms ir šāds:

    Mēs pārreģistrējam datus tabulā. 8.5, lai viena no rindām (šajā gadījumā rinda x i) izrādījās ranžēts. Citiem vārdiem sakot, mēs pārkārtojam pārus x un y pareizā secībā un ievadām datus tabulas 1. un 2. ailē. 8.6.

8.6. tabula

x i

y i

2. Nosakiet 2. rindas "ranžēšanas pakāpi" ( y i). Šī procedūra tiek veikta šādā secībā:

a) ņemam nerindotās rindas pirmo vērtību "3". Pakāpju skaita aprēķināšana zemāk dots numurs, kurš vairāk salīdzināmā vērtība. Ir 9 šādas vērtības (skaitļi 6, 7, 4, 9, 5, 11, 8, 12 un 10). Kolonnā "sērkociņi" ievadām ciparu 9. Tad mēs saskaitām vērtību skaitu mazāk trīs. Ir 2 šādas vērtības (1. un 2. rangs); pievienojiet skaitli 2 kolonnai "inversija".

b) izmetiet skaitli 3 (mēs jau esam ar to strādājuši) un atkārtojiet procedūru nākamajai vērtībai "6": sakritību skaits ir 6 (7., 9., 11., 8., 12. un 10. rangs), inversijas ir 4 (1., 2., 4. un 5. rangs). Ciparu 6 ievadām kolonnā "sakritības", bet skaitli 4 - kolonnā "inversijas".

c) tādā pašā veidā procedūru atkārto līdz rindas beigām; jāatceras, ka katra "izstrādātā" vērtība tiek izslēgta no turpmākās izskatīšanas (tiek skaitītas tikai tās pakāpes, kas atrodas zem šī skaitļa).

Piezīme

Lai aprēķinos nepieļautu kļūdas, jāņem vērā, ka ar katru "soli" sakritību un inversiju summa samazinās par vienu; tas ir saprotams, ja ņemam vērā, ka katru reizi viena vērtība tiek izslēgta no izskatīšanas.

3. Tiek aprēķināta spēļu summa (R) un inversiju summa (Q); datus ievada vienā un trīs aizstājamās Kendala koeficienta formulās (8.10.). Tiek veikti attiecīgie aprēķini.

t (8.10)

Mūsu gadījumā:

Tabula XIV pielikumi ir koeficienta kritiskās vērtības konkrētam paraugam: τ kr. = 0,45; 0,59. Empīriski iegūto vērtību salīdzina ar tabulas vērtību.

Secinājums

τ = 0,55> τ kr. = 0,45. Korelācija ir statistiski nozīmīga 1. līmenim.

Piezīme:

Ja nepieciešams (piemēram, ja nav kritisko vērtību tabulas) statistiskā nozīmība t Kendalu var noteikt pēc šādas formulas:

(8.11)

kur S * = P - Q+ 1 ja P< Q , un S * = P - Q - 1 ja P> Q.

Vērtības z atbilstošajam nozīmīguma līmenim atbilst Pīrsona mēram un atrodami pēc atbilstošajām tabulām (nav iekļautas pielikumā. Standarta nozīmīguma līmeņiem z cr = 1,96 (ja β 1 ​​= 0,95) un 2,58 (ja β 2 = 0,99). Kendala korelācijas koeficients ir statistiski nozīmīgs, ja z > z kr

Mūsu gadījumā S * = P - Q- 1 = 35 un z= 2,40, tas ir, apstiprinās sākotnējais secinājums: korelācija starp pazīmēm ir statistiski nozīmīga 1. nozīmīguma līmenim.

Viens no faktoriem, kas ierobežo kritēriju piemērošanu, pamatojoties uz pieņēmumu par normālu, ir izlases lielums. Kamēr izlase ir pietiekami liela (piemēram, 100 vai vairāk novērojumu), var pieņemt, ka izlases sadalījums ir normāls, pat ja neesat pārliecināts, ka mainīgā lieluma sadalījums populācijā ir normāls. Tomēr, ja izlase ir maza, šie kritēriji jāizmanto tikai tad, ja ir pārliecība, ka mainīgais patiešām ir normāli sadalīts. Tomēr nav iespējams pārbaudīt šo pieņēmumu nelielā izlasē.

Kritēriju izmantošana, pamatojoties uz pieņēmumu par normālu, arī aprobežojas ar mērījumu skalu (sk. nodaļu Datu analīzes pamatjēdzieni). Tādas statistikas metodes kā t-tests, regresija utt. pieņem, ka sākotnējie dati ir nepārtraukti. Tomēr ir situācijas, kad datus vienkārši sarindo (mēra pēc kārtas), nevis mēra precīzi.

Tipisks piemērs ir vietņu reitingi internetā: pirmo vietu ieņem vietne ar maksimālo apmeklētāju skaitu, otro vietu ieņem vietne ar maksimālo apmeklētāju skaitu starp atlikušajām vietnēm (starp vietnēm no kuras ir noņemta pirmā vietne) u.c. Zinot vērtējumus, varam teikt, ka vienas vietnes apmeklētāju skaits ir lielāks par citas vietnes apmeklētāju skaitu, bet cik vēl nav iespējams pateikt. Iedomājieties, ka jums ir 5 vietnes: A, B, C, D, E, kas ir 5 vietās. Pieņemsim, ka pašreizējā mēnesī mums bija šāda kārtība: A, B, C, D, E un iepriekšējā mēnesī: D, E, A, B, C. Jautājums ir par to, ka vietņu vērtējumos ir notikušas būtiskas izmaiņas. vai nē? Šajā situācijā, protams, mēs nevaram izmantot t-testu, lai salīdzinātu šīs divas datu grupas un pārietu uz konkrētu varbūtības aprēķinu apgabalu (un jebkurš statistikas kritērijs satur varbūtības aprēķinu!). Mēs domājam šādi: cik liela ir iespējamība, ka atšķirības abos vietņu izkārtojumos ir radušās nejaušu iemeslu dēļ vai ka atšķirība ir pārāk liela un to nevar izskaidrot ar nejaušību. Šajā argumentācijā mēs izmantojam tikai vietņu rindas vai permutācijas un nekādā veidā neizmantojam īpašu to apmeklētāju skaita sadalījuma veidu.

Nelielu paraugu analīzei un datiem, kas mērīti vājās skalās, tiek izmantotas neparametriskas metodes.

Ātra neparametrisko procedūru apskate

Būtībā katram parametriskajam kritērijam ir vismaz viena neparametriska alternatīva.

Kopumā šīs procedūras ietilpst vienā no šīm kategorijām:

  • neatkarīgu paraugu atšķiršanas kritēriji;
  • atkarīgo paraugu atšķiršanas kritēriji;
  • mainīgo lielumu atkarības pakāpes novērtējums.

Kopumā pieejai statistikas kritērijiem datu analīzē jābūt pragmatiskai, un tai nevajadzētu būt apgrūtinātai ar nevajadzīgu teorētisku argumentāciju. Izmantojot STATISTICA datoru, kas ir jūsu rīcībā, jūs varat viegli piemērot vairākus kritērijus saviem datiem. Zinot par dažām metožu nepilnībām, jūs eksperimentējot izvēlēsities pareizo risinājumu. Diagrammas attīstība ir diezgan dabiska: ja jums ir jāsalīdzina divu mainīgo vērtības, tad izmantojiet t-testu. Tomēr jāatceras, ka tas ir balstīts uz pieņēmumu par normālu un dispersiju vienādību katrā grupā. Atbrīvojoties no šiem pieņēmumiem, tiek veikti neparametriski testi, kas ir īpaši noderīgi maziem paraugiem.

T-testa izstrāde noved pie dispersijas analīzes, ko izmanto, ja salīdzināmo grupu skaits ir lielāks par divām. Atbilstoša neparametrisko procedūru attīstība noved pie neparametriskas dispersijas analīzes, lai gan tā ir ievērojami sliktāka nekā klasiskā dispersijas analīze.

Lai novērtētu atkarību jeb, nedaudz pompozi sakot, savienojuma blīvuma pakāpi, tiek aprēķināts Pīrsona korelācijas koeficients. Stingri sakot, tā pielietojumam ir ierobežojumi, kas saistīti, piemēram, ar datu mērīšanas skalas veidu un atkarības nelinearitāti, tāpēc alternatīvi tiek izmantoti arī neparametriskie jeb tā sauktie ranga korelācijas koeficienti, kas ir izmanto, piemēram, ranžētiem datiem. Ja dati tiek mērīti pēc nominālās skalas, tad dabiski tos uzrādīt nejaušības tabulās, kurās tiek izmantots Pīrsona hī kvadrāta tests ar dažādām variācijām un precizitātes korekcijām.

Tātad būtībā ir tikai daži kritēriju un procedūru veidi, kas jāzina un jāprot izmantot atkarībā no datu specifikas. Jums ir jānosaka, kurš kritērijs ir jāpiemēro konkrētā situācijā.

Neparametriskās metodes ir vispiemērotākās, ja izlases lielums ir mazs. Ja datu ir daudz (piemēram, n> 100), bieži vien nav jēgas izmantot neparametrisko statistiku.

Ja izlases lielums ir ļoti mazs (piemēram, n = 10 vai mazāks), tad nozīmīguma līmeņus tiem neparametriskiem testiem, kuros izmanto parasto tuvinājumu, var uzskatīt tikai par aptuveniem aprēķiniem.

Atšķirības starp neatkarīgām grupām... Ja ir divi paraugi (piemēram, vīrieši un sievietes), kas jāsalīdzina ar kādu vidējo vērtību, piemēram, vidējo spiedienu vai leikocītu skaitu asinīs, tad t-testu var izmantot neatkarīgiem. paraugi.

Šī testa neparametriskās alternatīvas ir Vald-Wolfowitz, Mann-Whitney sērijas kritērijs) / n, kur x i ir i-tā vērtība, n ir novērojumu skaits. Ja mainīgais satur negatīvas vērtības vai nulle (0), ģeometrisko vidējo nevar aprēķināt.

Harmoniskais vidējais

Harmonisko vidējo dažreiz izmanto vidējo frekvenču noteikšanai. Vidējo harmonisko vērtību aprēķina pēc formulas: ГС = n / S (1 / x i) kur ГС ir vidējais harmoniskais, n ir novērojumu skaits, х i ir novērojuma vērtība ar skaitli i. Ja mainīgais satur nulli (0), harmonisko vidējo nevar aprēķināt.

Dispersija un standartnovirze

Izlases dispersija un standarta novirze ir visbiežāk izmantotie datu mainīguma (variācijas) rādītāji. Dispersija tiek aprēķināta kā mainīgā lieluma noviržu kvadrātu summa no parauga vidējās vērtības, dalīta ar n-1 (bet ne ar n). Standartnovirzi aprēķina kā dispersijas aplēses kvadrātsakni.

Šūpoles

Mainīgā lieluma diapazons ir svārstīguma rādītājs, kas aprēķināts kā maksimums mīnus minimums.

Kvartiļu tvērums

Ceturkšņa diapazons pēc definīcijas ir: augšējā kvartile mīnus apakšējā kvartile (75% procentile mīnus 25% procentile). Tā kā 75% procentile (augšējā kvartile) ir vērtība, no kuras pa kreisi atrodas 75% gadījumu, un 25% procentile (apakšējā kvartile) ir vērtība, no kuras pa kreisi atrodas 25% gadījumu, kvartile diapazons ir intervāls ap mediānu.kas satur 50% gadījumu (mainīgās vērtības).

Asimetrija

Asimetrija ir sadalījuma formas īpašība. Ja šķībuma vērtība ir negatīva, sadalījums ir šķībs pa kreisi. Ja asimetrija ir pozitīva, sadalījums ir šķībs pa labi. Standarta normālā sadalījuma šķībums ir 0. Šķibums ir saistīts ar trešo momentu un tiek definēts šādi: šķībums = n × M 3 / [(n-1) × (n-2) × s 3], kur M 3 ir: (xi -x vidējais x) 3, s 3 ir standartnovirze, kas palielināta līdz trešajai pakāpei, n ir novērojumu skaits.

Pārmērīgs

Kurtoze ir sadalījuma formas pazīme, proti, tā maksimuma smaguma mērs (attiecībā pret normālo sadalījumu, kura kurtoze ir vienāda ar 0). Parasti sadalījumiem ar asāku maksimumu nekā parasti ir pozitīva kurtoze; sadalījumiem, kuru maksimums ir mazāk akūts nekā normālā sadalījuma maksimums, ir negatīva kurtoze. Pārsniegums ir saistīts ar ceturto brīdi un tiek noteikts pēc formulas:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], kur M j ir: (xx vidējais x, s 4 ir standartnovirze līdz ceturtajai pakāpei, n ir novērojumu skaits...