Rangkorreláció és Kendall rangkorrelációs együtthatója. Kendall és Spearman rangkorrelációs együtthatói Kendall korrelációs együttható képlete

KENDALLAI RANK KORRELÁCIÓS EGYÜTTHEZ

Két valószínűségi változó (jellemző) függésének egyik mintamérője X ill Y, a mintaelemek rangsorolása alapján (X 1, Y x), .. ., (X n, Y n). K-től R-ig utal tehát arra rangú statisztikusokés a képlet határozza meg

ahol r i- Te ehhez a párhoz tartozol ( X, Y), egy Xraven-rajhoz i, S = 2N- (n-1) / 2, N azon mintaelemek száma, amelyekre egyidejűleg j> i ill. r j> r i... Mindig A To. To. R. függőség szelektív mértékeként. M. Kendall széles körben használta (M. Kendall, lásd).

K-től R-ig A K. a valószínűségi változók függetlenségének hipotézisének tesztelésére szolgál. Ha a függetlenségi hipotézis igaz, akkor E t = 0 és D t = 2 (2n + 5) / 9n (n-1). Kis mintaméret esetén az ellenőrzés statisztikai jellegű. a függetlenség hipotézise speciális táblázatok segítségével készül (lásd). n> 10 esetén a normál közelítést használjuk az m eloszlására: ha

akkor a függetlenség hipotézisét elvetik, ellenkező esetben elfogadják. Itt egy . - a szignifikancia szintje, u a / 2 a normál eloszlás százalékpontja. K-től R-ig Ugyanis, mint minden más, ezzel is kimutatható két minőségi jellemző függősége, ha csak a minta elemei ezekre a jellemzőkre tekintettel rendezhetők. Ha X, Y van egy közös normális a p korrelációs együtthatóval, akkor a kapcsolat K. és p. között. és a következő formában van:

Lásd még Spearman-féle rangkorreláció, Rank teszt.

Megvilágított.: Kendal M., Rangkorrelációk, ford. angolból, M., 1975; Van der Waerden B.L., Matematikai, ford. belőle., M., 1960; Bol'shev L.N., Smirnov N.V., Matematikai statisztikák táblázatai, Moszkva, 1965.

A. V. Prohorov.


Matematikai enciklopédia. - M .: Szovjet enciklopédia... I. M. Vinogradov. 1977-1985.

Nézze meg, mi az a "KENDALLA RANK KORRELÁCIÓS KONFERENCIA" más szótárakban:

    Angol. с hatékony, rangkorreláció Kendall; német Kendalls Rangkorrelationskoeffizient. Korrelációs együttható, amely meghatározza az összes objektumpár rendezettségének megfelelőségi fokát két változóban. Antinazi. Szociológiai Enciklopédia, 2009... Szociológiai Enciklopédia

    KENDALL RANKKORRELÁCIÓS EGYHATÓJA- Angol. hatékony, rangkorreláció Kendall; német Kendalls Rangkorrelationskoeffizient. Korrelációs együttható, amely meghatározza az összes objektumpár rendezésének megfelelőségi fokát két változóban ... Szociológiai Magyarázó Szótár

    Két valószínűségi változó (jellemzők) X és Y függésének mérőszáma a független megfigyelési eredmények (X1, Y1) rangsora alapján. ... ., (Xn, Yn). Ha X értékeinek sorai természetes sorrendben i = 1,. ... ., n és Ri a ... ... Matematika enciklopédiája

    Korrelációs együttható- (Korrelációs együttható) A korrelációs együttható két valószínűségi változó függésének statisztikai mutatója A korrelációs együttható meghatározása, a korrelációs együtthatók fajtái, a korrelációs együttható tulajdonságai, számítása és alkalmazása ... ... Befektetői enciklopédia

    A valószínűségi változók közötti kapcsolat, amely általában véve nem szigorúan funkcionális. A funkcionális függőségtől eltérően a K.-t általában akkor veszik figyelembe, ha az egyik mennyiség nemcsak ettől a másiktól függ, hanem ... ... Matematika enciklopédiája

    A korreláció (korrelációs függőség) két vagy több valószínűségi változó (vagy bizonyos elfogadható pontossággal annak tekinthető mennyiség) statisztikai kapcsolata. Ebben az esetben egy vagy ... ... Wikipédia értékeinek változásai

    Korreláció- (Korreláció) A korreláció két vagy több valószínűségi változó statisztikai kapcsolata. A korreláció fogalma, a korreláció típusai, korrelációs együttható, korrelációelemzés, árkorreláció, devizapárok korrelációja a Forex-en Tartalom ... ... Befektetői enciklopédia

    Általánosan elfogadott, hogy a S. eleje a m. Században. vagy ahogy szokták nevezni, a "kis n" statisztikáját a XX. század első évtizedébe tette W. Gosset munkája, amelyben a t-eloszlást helyezte el, a kapottak által feltételezve. a világ egy kicsit később...... Pszichológiai enciklopédia

    Maurice Kendall Sir Maurice George Kendall Születési idő: 1907. szeptember 6. (1907 09 06) Születési hely: Kettering, Egyesült Királyság Halálozás ideje ... Wikipédia

    Előrejelzés- (Előrejelzés) Az előrejelzés meghatározása, az előrejelzés feladatai és elvei Az előrejelzés meghatározása, az előrejelzés feladatai és elvei, az előrejelzés módszerei Tartalom Tartalom Meghatározás Az előrejelzés alapfogalmai Az előrejelzés feladatai és elvei ... ... Befektetői enciklopédia

Szakértői értékelések benyújtása, előfeldolgozása

A gyakorlatban többféle értékelést alkalmaznak:

- jó minőségű (gyakran-ritkán, rosszabb-jobb, igen-nem),

- skálabecslések (50-75, 76-90, 91-120 stb. értéktartományok),

Pontszám adott intervallumból (2-től 5-ig, 1-10), egymástól független,

Rangsorolva (az objektumokat egy szakértő bizonyos sorrendbe rendezi, és mindegyikhez sorszámot rendel - rang),

Összehasonlító, az összehasonlítási módszerek egyikével kapott

szekvenciális összehasonlítási módszer

faktorok páronkénti összehasonlításának módszere.

A szakértői vélemények feldolgozásának következő lépésében értékelésre van szükség e vélemények következetességének mértéke.

A szakértőktől kapott becslések egy valószínűségi változónak tekinthetők, amelynek eloszlása ​​tükrözi a szakértők véleményét egy adott esemény (tényező) egy adott megválasztásának valószínűségéről. Ezért a szakértői becslések szórásának és konzisztenciájának elemzéséhez általánosított statisztikai jellemzőket használnak - átlagokat és szóródási mértékeket:

átlagos négyzetes hiba,

Változási tartomány min - max,

- variációs együttható V = átlagos négyzet eltérés / átlag aritmus. (bármilyen típusú értékelésre alkalmas)

V i = σ i / x i átl

Az árfolyamért hasonlósági intézkedések hanem vélemények minden pár szakértő többféle módszer használható:

asszociációs együtthatók, melynek segítségével figyelembe veszik az egyező és nem egyező válaszok számát,

következetlenségi együtthatók szakértői vélemények,

Mindezek a mérőszámok felhasználhatók két szakértő véleményének összehasonlítására, vagy az értékeléssorozatok kapcsolatának két alapon történő elemzésére.

Spearman pár rang korrelációs együtthatója:

ahol n a szakértők száma,

c k - az i-edik és a j-edik szakértő becslései közötti különbség az összes T tényezőre

A Kendall-féle rangkorrelációs együttható (konkordancia-együttható) átfogó értékelést ad az összes szakértő véleményének konzisztenciájáról az összes tényezőről, de csak azokban az esetekben, amikor rangbecslést használtak.

Bebizonyosodott, hogy az S értéke, amikor minden szakértő azonos becslést ad az összes tényezőre, maximális értéke egyenlő

ahol n a tényezők száma,

m a szakértők száma.

A konkordancia együtthatója egyenlő az aránnyal

sőt, ha W közel van 1-hez, akkor minden szakértő kellően konzisztens becsléseket adott, különben véleményük nem egyezik.

Az S kiszámításának képlete az alábbiakban látható:

ahol r ij az i-edik tényező j-edik szakértő általi rangbecslései,

r cf a teljes becslési mátrix átlagos rangja, és egyenlő

Ezért az S kiszámításának képlete a következő lehet:

Ha egy szakértő egyéni értékelései egybeesnek, és a feldolgozás során szabványosították, akkor egy másik képletet használnak a konkordancia együttható kiszámításához:



ahol a T j-t minden szakértőre számítják (abban az esetben, ha értékelését különböző objektumokra ismételték meg), figyelembe véve az ismétléseket a következő szabályok szerint:

ahol t j a j-edik szakértő egyenlő rangú csoportjainak száma, és

h k - a j-edik szakértő rokon rangjainak k-edik csoportjában egyenlő rangok száma.

PÉLDA. Hat tényező 5 szakértője válaszoljon a rangsorban a 3. táblázat szerint:

3. táblázat – Szakértők válaszai

Szakértők О1 О2 O3 О4 O5 O6 Szakértői rangok összege
E1
E2
E3
E4
E5

Tekintettel arra, hogy nem kaptunk szigorú rangsort (a szakértői értékelések megismétlődnek, és a rangsorok összege nem egyenlő), a becsléseket átalakítjuk, és megkapjuk a kapcsolódó rangsorokat (4. táblázat):

4. táblázat – A szakértői értékelések kapcsolódó rangsorai

Szakértők О1 О2 O3 О4 O5 O6 Szakértői rangok összege
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Az objektum rangsorainak összege 7,5 9,5 23,5 29,5

Most határozzuk meg a szakértői vélemények konzisztenciájának fokát a konkordancia együtthatójával. Mivel a rangok összefüggenek, a W-t a (**) képlet alapján számítjuk ki.

Ekkor r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Folytassuk a W számításával. Ehhez külön számítjuk ki T j értékeit. A példában az értékelések speciálisan úgy vannak kiválasztva, hogy minden szakértő ismételt értékelést végezzen: az elsőnek kettő, a másodiknak három, a harmadiknak két csoportja két, a negyediknek pedig két azonos értékelése van. Ennélfogva:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Úgy látjuk, hogy a szakértői vélemények egyetértése meglehetősen nagy, és továbbléphetünk a tanulmány következő szakaszába - a szakértők által javasolt döntési alternatíva alátámasztására és elfogadására.

Ellenkező esetben vissza kell térnie a 4-8. lépéshez.

Rangkorrelációs együttható jellemzi a nemlineáris függőség általános természetét: az effektív tulajdonság növekedése vagy csökkenése az egyes faktor növekedésével. Ez a monoton nemlineáris kapcsolat szorosságának mutatója.

A szolgáltatás célja... Ez az online számológép kiszámítja Kendall rangkorrelációs együtthatója minden alapképlet szerint, valamint jelentőségének értékelése.

Utasítás. Adja meg az adatok mennyiségét (sorok számát). Az eredményül kapott megoldás egy Word fájlba kerül mentésre.

A Kendall által javasolt együttható a „több-kevesebb” típusú relációk alapján épül fel, amelyek érvényességét a skálák felépítése során állapították meg.
Válasszunk ki néhány objektumot, és hasonlítsuk össze rangjukat az egyik attribútumban és a másikban. Ha e kritérium szerint a rangok közvetlen sorrendet alkotnak (vagyis a természetes sorozat sorrendjét), akkor a párhoz +1, ha az ellenkezője, akkor –1. A kiválasztott párhoz a megfelelő plusz-mínusz egységek (X attribútum és Y attribútum alapján) megszorozódnak. Az eredmény nyilvánvalóan +1; ha mindkét jellemző párjának rangsorai ugyanabban a sorrendben helyezkednek el, és –1, ha fordítva.
Ha a rangsorok mindkét feltétel alapján azonosak minden párnál, akkor az összes objektumpárhoz rendelt egységek összege maximális, és megegyezik a párok számával. Ha az összes pár rangsorrendje megfordul, akkor –C 2 N. Általános esetben C 2 N = P + Q, ahol P a pozitívak száma, Q pedig a negatívok száma, amelyek a párokhoz vannak rendelve, ha összehasonlítjuk a rangsorukat mindkét kritériumra.
A mennyiséget Kendall-együtthatónak nevezzük.
A képletből látható, hogy a τ együttható azon objektumpárok arányának különbsége, amelyekben a sorrend mindkét kritériumban azonos (az összes pár számához viszonyítva), valamint azon objektumpárok aránya között, amelyekben a sorrend nem ugyanaz.
Például a 0,60-as együttható érték azt jelenti, hogy a párok 80%-ának azonos sorrendje van az objektumoknak, míg 20%-ának nem (80% + 20% = 100%; 0,80 - 0,20 = 0,60). Azok. A τ úgy értelmezhető, mint a véletlenszerűen kiválasztott objektumpár mindkét előjelében lévő sorrendek egybeesésének és nem egybeesésének valószínűsége közötti különbség.
Általános esetben a τ (pontosabban P vagy Q) kiszámítása még 10-es nagyságrendű N-re is körülményesnek bizonyul.
Mutatjuk, hogyan lehet egyszerűsíteni a számításokat.


Egy példa. Az Orosz Föderáció egyik szövetségi körzetének 10 régiójában 2003-ban az ipari termelés volumene és az állóeszköz-befektetések közötti kapcsolatot a következő adatok jellemzik:


Számítsa ki a Spearman és Kendal rangkorrelációs együtthatókat! Ellenőrizze szignifikanciájukat α = 0,05-nél. Fogalmazzon meg következtetést az ipari termelés volumene és az állóeszközökbe történő beruházás közötti összefüggésről az Orosz Föderáció vizsgált régióiban.

Megoldás... Rendeljünk rangokat az Y attribútumhoz és az X faktorhoz.


Az adatokat X szerint rendezzük.
A 3-tól jobbra lévő Y sorban 7 rang van, amely meghaladja a 3-at, ezért a 3 7-es tagot generál P-ben.
1-től jobbra 8 1-et meghaladó rang van (ezek 2, 4, 6, 9, 5, 10, 7, 8), i.e. 8 P-t ír be, és így tovább. Ennek eredményeként Р = 37, és a képleteket használva megkapjuk:

xYrang X, d xY, d yPK
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Egyszerűsített képletekkel:




ahol n a minta mérete; z kp a kétoldali kritikus tartomány kritikus pontja, amelyet a Laplace-függvény táblázatából az Ф (z kp) = (1-α) / 2 egyenlőséggel találunk meg.
Ha | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - a nullhipotézist elvetik. A minőségi jellemzők között jelentős rangkorreláció van.
Keresse meg a z kp kritikus pontot
Ф (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Keressük meg a kritikus pontot:

Mivel τ> T kp - elvetjük a nullhipotézist; a két teszt pontszámai közötti rangkorreláció szignifikáns.

Egy példa. Az önállóan végzett építési és szerelési munkák mennyiségére és az Orosz Föderáció egyik városában lévő 10 építőipari cég alkalmazottainak száma alapján határozza meg a Kendal-együttható segítségével e jelek közötti kapcsolatot.

Megoldás számológéppel keresse meg.
Rendeljünk rangokat az Y attribútumhoz és az X faktorhoz.
Rendezzük el az objektumokat úgy, hogy X rangjuk természetes sorozatot képviseljen. Mivel ennek a sorozatnak az egyes párjaihoz rendelt becslések pozitívak, a P-ben szereplő "+1" értékeket csak azok a párok generálják, amelyek Y-beli sorai közvetlen sorrendet alkotnak.
Könnyű kiszámítani, ha az Y sorban lévő objektumok rangsorát egymás után összehasonlítjuk az acél objektumokkal.
Kendall-együttható.

Általános esetben a τ (pontosabban P vagy Q) kiszámítása még 10-es nagyságrendű N-re is körülményesnek bizonyul. Mutatjuk, hogyan lehet egyszerűsíteni a számításokat.

vagy

Megoldás.
Az adatokat X szerint rendezzük.
A 2-től jobbra lévő Y sorban 8 rang van, amely meghaladja a 2-t, ezért a 2 8-as tagot generál P-ben.
A 4-től jobbra van 6 4-et meghaladó rang (ezek 7, 5, 6, 8, 9, 10), i.e. A 6 P-t ír be, és így tovább. Ennek eredményeként P = 29, és a képletekkel a következőt kapjuk:

xYrang X, d xY, d yPK
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Egyszerűsített képletekkel:


A Kendall-féle általános rangkorrelációs együttható nullával való egyenlőségére vonatkozó nullhipotézis teszteléséhez α szignifikanciaszinten egy versengő H 1: τ ≠ 0 hipotézissel, ki kell számítani a kritikus pontot:

ahol n a minta mérete; z kp a kétoldali kritikus tartomány kritikus pontja, amelyet a Laplace-függvény táblázatából az Ф (z kp) = (1 - α) / 2 egyenlőséggel találunk meg.
Ha | τ | T kp - a nullhipotézist elvetik. A minőségi jellemzők között jelentős rangkorreláció van.
Keresse meg a z kp kritikus pontot
Ф (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
A Laplace-táblázat segítségével z kp = 1,96-ot kapunk
Keressük meg a kritikus pontot:

Mivel τ

A Kendall-féle korrelációs együtthatót akkor használjuk, ha a változókat két ordinális skála képviseli, feltéve, hogy nincsenek társított rangok. A Kendall-együttható kiszámítása magában foglalja az egyezések és az inverziók számát. Tekintsük ezt az eljárást az előző feladat példáján keresztül.

A probléma megoldásának algoritmusa a következő:

    Az adatokat újra regisztráljuk a táblázatban. 8.5 úgy, hogy az egyik sor (ebben az esetben a sor x i) rangsoroltnak bizonyult. Vagyis átrendezzük a párokat xés y megfelelő sorrendben és táblázat 1. és 2. oszlopába írjuk be az adatokat. 8.6.

8.6. táblázat

x én

y én

2. Határozza meg a 2. sor "rangsorolási fokát" ( yén). Ezt az eljárást a következő sorrendben hajtják végre:

a) vesszük a "3" nem rangsorolt ​​sor első értékét. A rangok számának kiszámítása lent adott szám, mely több az összehasonlítandó érték. 9 ilyen érték létezik (6, 7, 4, 9, 5, 11, 8, 12 és 10). Beírjuk a 9-es számot a "gyufa" oszlopba. Ezután megszámoljuk az értékek számát kisebb három. 2 ilyen érték létezik (1. és 2. rang); adja hozzá a 2-es számot az "inverzió" oszlophoz.

b) dobja el a 3-as számot (már dolgoztunk vele), és ismételje meg az eljárást a következő "6" értéknél: a találatok száma 6 (7, 9, 11, 8, 12 és 10), a az inverzió 4 (1., 2., 4. és 5. rang). A 6-os számot az „egybeesések” oszlopba írjuk be, a 4-es számot pedig az „inverziók” oszlopba.

c) ugyanígy megismételjük az eljárást a sor végéig; emlékezni kell arra, hogy minden "kidolgozott" érték ki van zárva a további vizsgálatból (csak az e szám alatti rangokat számítjuk).

jegyzet

Annak érdekében, hogy ne kövessünk el hibákat a számításokban, szem előtt kell tartani, hogy minden "lépéssel" az egybeesések és az inverziók összege eggyel csökken; ez érthető, ha figyelembe vesszük, hogy minden alkalommal egy érték kikerül a figyelembevételből.

3. A mérkőzések összege kiszámításra kerül (R)és az inverziók összege (K); az adatokat egy és három felcserélhető képletbe kell beírni a Kendall-együtthatóhoz (8.10). A megfelelő számításokat elvégezzük.

t (8.10)

A mi esetünkben:

asztal XIV Függelékek az együttható kritikus értékei adott mintára: τ cr. = 0,45; 0,59. Az empirikusan kapott értéket összehasonlítjuk a táblázatos értékkel.

Kimenet

τ = 0,55> τ kr. = 0,45. A korreláció statisztikailag szignifikáns az 1. szinten.

jegyzet:

Szükség esetén (például kritikus értékek táblázatának hiányában) statisztikai szignifikancia t Kendall a következő képlettel határozható meg:

(8.11)

ahol S * = P - Q+ 1 ha P< Q , és S * = P - Q - 1 ha P> Q.

Az értékek z a megfelelő szignifikanciaszinthez a Pearson-mértéknek felelnek meg, és a megfelelő táblázatok szerint találhatók (nem szerepel a függelékben. A standard szignifikanciaszintekhez z cr = 1,96 (β 1 = 0,95 esetén) és 2,58 (β 2 = 0,99 esetén). A Kendall-féle korrelációs együttható statisztikailag szignifikáns, ha z > z cr

A mi esetünkben S * = P - Q- 1 = 35 és z= 2,40, vagyis beigazolódik a kezdeti következtetés: a jelek közötti korreláció statisztikailag szignifikáns az 1. szignifikanciaszintre.

A normalitás feltételezésén alapuló kritériumok alkalmazását korlátozó tényezők egyike a mintanagyság. Amíg a minta elég nagy (például 100 vagy több megfigyelés), akkor feltételezheti, hogy a minta eloszlása ​​normális, még akkor is, ha nem biztos abban, hogy a változó eloszlása ​​a sokaságban normális. Ha azonban a minta kicsi, akkor ezeket a kritériumokat csak akkor szabad használni, ha biztosak vagyunk abban, hogy a változó valóban normális eloszlású. Ennek a feltételezésnek a tesztelésére azonban nincs mód kis mintán.

A normalitás feltételezésen alapuló kritériumok alkalmazása is egy mérési skálára korlátozódik (lásd az Adatelemzés alapfogalmai fejezetet). Az olyan statisztikai módszerek, mint a t-próba, regresszió stb., feltételezik, hogy az eredeti adatok folytonosak. Vannak azonban olyan helyzetek, amikor az adatokat egyszerűen rangsorolják (sorrendi skálán mérik), nem pedig pontosan mérik.

Tipikus példát adnak az internetes oldalak értékelései: az első helyet a maximális látogatottságú oldal, a másodikat a maximális látogatottságú oldal foglalja el a fennmaradó oldalak között (az oldalak között ahonnan az első oldalt eltávolították), stb. Az értékelések ismeretében elmondhatjuk, hogy az egyik oldal látogatottsága nagyobb, mint egy másik oldal látogatottsága, de mennyivel többet, azt lehetetlen megmondani. Képzeld el, hogy 5 webhelyed van: A, B, C, D, E, amelyek az első 5 helyen vannak. Tegyük fel, hogy az aktuális hónapban a következő elrendezést alkalmaztuk: A, B, C, D, E, az előző hónapban pedig: D, E, A, B, C. A kérdés az, hogy jelentős változások történtek a webhelyek értékelésében vagy nem? Ebben a helyzetben nyilvánvalóan nem használhatjuk a t-próbát e két adatcsoport összehasonlítására, és továbbléphetünk a specifikus valószínűségi számítások területére (és minden statisztikai kritérium tartalmaz valószínűségi számítást!). Így okoskodunk: mennyire valószínű, hogy a két oldal elrendezése közötti eltérés pusztán véletlenszerű okokra vezethető vissza, vagy hogy a különbség túl nagy, és nem magyarázható a véletlennel. Ebben az érvelésben csak az oldalak rangjait vagy permutációit használjuk, és semmilyen módon nem használjuk a látogatók számának meghatározott elosztási formáját.

A kis minták elemzéséhez és a rossz skálán mért adatokhoz nem paraméteres módszereket alkalmaznak.

A nemparaméteres eljárások gyors bemutatása

Lényegében minden parametrikus feltételhez van legalább egy nem paraméteres alternatíva.

Általában ezek az eljárások a következő kategóriák egyikébe sorolhatók:

  • a független minták megkülönböztetési kritériumai;
  • a függő minták megkülönböztetési kritériumai;
  • a változók közötti függőség mértékének értékelése.

Általánosságban elmondható, hogy az adatelemzésben a statisztikai kritériumok megközelítésének pragmatikusnak kell lennie, és nem szabad felesleges elméleti érveléssel terhelni. A rendelkezésére álló STATISTICA számítógéppel könnyedén alkalmazhat több kritériumot adataira. A módszerek néhány buktatójának ismeretében kísérletezéssel választja ki a megfelelő megoldást. A diagram fejlődése teljesen természetes: ha két változó értékét kell összehasonlítani, akkor használja a t-próbát. Nem szabad azonban elfelejteni, hogy ez a normalitás és a szórások egyenlőségének feltételezésén alapul az egyes csoportokban. Az ezektől a feltételezésektől való megszabadulás nem-paraméteres teszteket eredményez, amelyek különösen kis minták esetén hasznosak.

A t-próba kidolgozása varianciaanalízishez vezet, amelyet akkor használunk, ha az összehasonlított csoportok száma kettőnél több. A nem-paraméteres eljárások megfelelő fejlesztése nem-parametrikus varianciaanalízishez vezet, bár ez lényegesen gyengébb, mint a klasszikus varianciaanalízis.

A kapcsolat függésének, vagy kissé pompásan fogalmazva a szorosság mértékének felmérésére a Pearson-korrelációs együtthatót számítjuk ki. Szigorúan véve alkalmazásának vannak korlátai, amelyek például az adatok mérésének skála típusával és a függőség nemlinearitásával járnak, ezért alternatívaként nemparametrikus, vagy úgynevezett rangkorrelációs együtthatókat is alkalmaznak, amelyek használják például rangsorolt ​​adatokhoz. Ha az adatokat névleges skálán mérjük, akkor természetes, hogy azokat kontingenciatáblázatokban mutatjuk be, amelyek a Pearson-féle khi-négyzet próbát alkalmazzák különféle variációkkal és pontossági korrekciókkal.

Tehát lényegében az adatok sajátosságaitól függően csak néhány fajta kritérium és eljárás létezik, amelyeket ismerni és használni kell. Meg kell határoznia, hogy egy adott helyzetben melyik kritériumot kell alkalmazni.

A nem paraméteres módszerek a legmegfelelőbbek, ha a minta mérete kicsi. Ha sok adat van (például n> 100), gyakran nincs értelme a nem paraméteres statisztikák használatának.

Ha a minta mérete nagyon kicsi (például n = 10 vagy kisebb), akkor a normál közelítést használó nemparaméteres tesztek szignifikanciaszintjei csak durva becslésnek tekinthetők.

Különbségek a független csoportok között... Ha van két minta (például férfiak és nők), amelyeket össze kell hasonlítani valamilyen átlagos értékkel, például az átlagnyomással vagy a vér leukociták számával, akkor a t-próba használható független vizsgálatra. minták.

A teszt nem paraméteres alternatívái a Val'd-Wolfowitz, Mann-Whitney sorozat) / n kritériuma, ahol x i az i-edik érték, n a megfigyelések száma. Ha a változó negatív értékeket vagy nullát (0) tartalmaz, a geometriai átlag nem számítható ki.

Harmonikus átlag

A harmonikus átlagot néha a frekvenciák átlagolására használják. A harmonikus átlag kiszámítása a következő képlettel történik: ГС = n / S (1 / x i) ahol ГС a harmonikus átlag, n a megfigyelések száma, х i az i számmal végzett megfigyelés értéke. Ha a változó nullát (0) tartalmaz, a harmonikus átlag nem számítható ki.

Diszperzió és szórás

A minta szórása és szórása az adatok variabilitásának (variációjának) leggyakrabban használt mérőszámai. A variancia kiszámítása a változó értékeinek mintaátlagtól való eltéréseinek négyzeteinek összege, osztva n-1-gyel (de nem n-nel). A szórást a varianciabecslés négyzetgyökeként számítjuk ki.

Hinta

Egy változó tartománya a volatilitás mutatója, amelyet a maximum mínusz minimumként számítanak ki.

Kvartilis hatókör

A negyedéves tartomány értelemszerűen a következő: felső kvartilis mínusz alsó kvartilis (75% percentilis mínusz 25% percentilis). Mivel a 75%-os percentilis (felső kvartilis) az az érték, amelytől balra az esetek 75%-a, a 25%-os percentilis (alsó kvartilis) pedig az az érték, amelytől balra az esetek 25%-a található, a kvartilis tartomány a medián körüli intervallum.amely az esetek 50%-át tartalmazza (változó értékek).

Aszimmetria

Az aszimmetria az eloszlás alakjának jellemzője. Az eloszlás balra ferde, ha a ferdeségi érték negatív. Az eloszlás jobbra ferde, ha az aszimmetria pozitív. A standard normális eloszlás ferdesége 0. A ferdeség a harmadik momentumhoz kapcsolódik, és a következőképpen definiálható: ferdeség = n × M 3 / [(n-1) × (n-2) × s 3], ahol M 3 a következő: (xi -x átlag x) 3, s 3 a harmadik hatványra emelt szórás, n a megfigyelések száma.

Felesleg

A kurtózis egy eloszlás alakjának jellemzője, nevezetesen a csúcsa súlyosságának mértéke (egy normális eloszláshoz viszonyítva, amelynek a gördülése 0). Általános szabály, hogy a normálnál élesebb csúcsú eloszlások pozitív kurtózissal rendelkeznek; Azok az eloszlások, amelyek csúcsa kevésbé akut, mint a normál eloszlás csúcsa, negatív kurtózissal rendelkeznek. A többlet a negyedik pillanathoz kapcsolódik, és a képlet határozza meg:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], ahol M j: (xx átlag x, s 4 a szórás a negyedik hatványig, n a megfigyelések száma...