Kendall rangkorrelációs együtthatója. Rangkorreláció és Kendall rangkorrelációs együtthatója Kendall rangkorrelációs együtthatója Excelben

Rövid elmélet

A Kendall-féle korrelációs együtthatót akkor használjuk, ha a változókat két ordinális skála képviseli, feltéve, hogy nincsenek társított rangok. A Kendall-együttható kiszámítása magában foglalja az egyezések és az inverziók számát.

Ez az együttható belül változik, és a következő képlettel számítják ki:

A számításhoz minden egység attribútum szerint van rangsorolva; számos egyéb szempont szerint minden ranghoz kiszámoljuk az adott feletti (jelezzük őket) és az adott alatti (jellel jelöljük) következő rangok számát.

Meg lehet mutatni, hogy

és Kendall rangkorrelációs együtthatója úgy írható fel

A nullhipotézis azon szignifikanciaszintű teszteléséhez, hogy az általános Kendall-féle rangkorrelációs együttható nullával egyenlő egy versengő hipotézis mellett, ki kell számítani a kritikus pontot:

hol van a minta mérete; Vajon a kétoldali kritikus tartomány kritikus pontja, amelyet a Laplace-függvény táblázatából az egyenlőséggel találunk?

Ha - nincs ok a nullhipotézis elutasítására. A tulajdonságok közötti rangkorreláció jelentéktelen.

Ha - a nullhipotézist elutasítják. A jellemzők között jelentős rangkorreláció van.

Példa a probléma megoldására

A feladat

Hét jelölt megüresedett állásokra történő toborzásakor két tesztet ajánlottak fel. A vizsgálati eredményeket (pontokban) a táblázat tartalmazza:

Teszt Jelölt 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Számítsa ki a Kendall-féle rangkorrelációs együtthatót két teszt teszteredményei között, és értékelje a szignifikanciáját a szinten.

A probléma megoldása

Számítsd ki a Kendall-együtthatót!

A faktorattribútum rangsorai szigorúan növekvő sorrendben vannak elrendezve, és ezzel párhuzamosan rögzítésre kerülnek az effektív attribútum megfelelő rangjai. Az azt követő rangok közül minden egyes rangra kiszámolja a magasabb (az oszlopba beírt) és az alacsonyabb rangok számát (az oszlopba beírva).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Összeg 16 5

A normalitás feltételezésén alapuló kritériumok alkalmazását korlátozó tényezők egyike a mintanagyság. Amíg a minta elég nagy (például 100 vagy több megfigyelés), feltételezhető, hogy a minta eloszlása ​​normális, még akkor is, ha nem biztos abban, hogy a változó eloszlása ​​a sokaságban normális. Ha azonban a minta kicsi, akkor ezeket a kritériumokat csak akkor szabad használni, ha biztosak vagyunk abban, hogy a változó valóban normális eloszlású. Ezt a feltevést azonban nem lehet kis mintán tesztelni.

A normalitás feltevésen alapuló ismérvek alkalmazása is egy mérési skálára korlátozódik (lásd Adatelemzési alapfogalmak fejezet). Az olyan statisztikai módszerek, mint a t-próba, regresszió stb., feltételezik, hogy az eredeti adatok folytonosak. Vannak azonban olyan helyzetek, amikor az adatokat egyszerűen rangsorolják (sorrendi skálán mérik), nem pedig pontosan mérik.

Tipikus példát adnak az internetes oldalak értékelései: az első helyet az a webhely foglalja el, ahol a legtöbb látogató, a második helyet a maximális látogatottságú oldal foglalja el a fennmaradó oldalak között (az oldalak között ahonnan az első oldalt eltávolították), stb. Az értékelések ismeretében elmondhatjuk, hogy az egyik oldal látogatottsága nagyobb, mint egy másik oldal látogatottsága, de mennyivel többet, azt lehetetlen megmondani. Képzeld el, hogy 5 webhelyed van: A, B, C, D, E, amelyek az első 5 helyen vannak. Tegyük fel, hogy az aktuális hónapban a következő elrendezést alkalmaztuk: A, B, C, D, E, az előző hónapban pedig: D, E, A, B, C. A kérdés az, hogy jelentős változások történtek a webhelyek értékelésében vagy nem? Ebben a helyzetben nyilvánvalóan nem használhatjuk a t-próbát e két adatcsoport összehasonlítására, és továbbléphetünk a specifikus valószínűségi számítások területére (és minden statisztikai kritérium tartalmaz valószínűségi számítást!). Így okoskodunk: mennyire valószínű, hogy a két oldal elrendezése közötti eltérés pusztán véletlenszerű okokra vezethető vissza, vagy hogy a különbség túl nagy és nem magyarázható puszta véletlenekkel. Ebben az érvelésben csak az oldalak rangjait vagy permutációit használjuk, és semmilyen módon nem alkalmazzuk a látogatók számának meghatározott elosztási formáját.

A kis minták elemzéséhez és a rossz skálán mért adatokhoz nem paraméteres módszereket alkalmaznak.

A nemparaméteres eljárások gyors bemutatása

Lényegében minden parametrikus feltételhez van legalább egy nem paraméteres alternatíva.

Általában ezek az eljárások a következő kategóriák egyikébe sorolhatók:

  • a független minták megkülönböztetési kritériumai;
  • a függő minták megkülönböztetési kritériumai;
  • a változók közötti függőség mértékének értékelése.

Általánosságban elmondható, hogy az adatelemzésben a statisztikai kritériumok megközelítésének pragmatikusnak kell lennie, és nem szabad felesleges elméleti érveléssel terhelni. A rendelkezésére álló STATISTICA számítógéppel könnyedén alkalmazhat több kritériumot adataira. A módszerek néhány buktatójának ismeretében kísérletezéssel választja ki a megfelelő megoldást. A diagram fejlődése teljesen természetes: ha két változó értékét kell összehasonlítani, akkor használja a t-próbát. Nem szabad azonban elfelejteni, hogy ez a normalitás és a szórások egyenlőségének feltételezésén alapul az egyes csoportokban. Az ezektől a feltételezésektől való megszabadulás nem-paraméteres teszteket eredményez, amelyek különösen kis minták esetén hasznosak.

A t-próba kidolgozása varianciaanalízishez vezet, amelyet akkor használunk, ha az összehasonlított csoportok száma kettőnél több. A nemparaméteres eljárások ennek megfelelő fejlődése nemparametrikus varianciaanalízishez vezet, bár ez lényegesen gyengébb, mint a klasszikus varianciaanalízis.

A kapcsolat függőségének, vagy kissé pompozánsan fogalmazva a szorosság mértékének felmérésére a Pearson-korrelációs együtthatót számítjuk ki. Szigorúan véve alkalmazásának vannak korlátai, amelyek például az adatok mérésének skála típusával és a függőség nemlinearitásával járnak, ezért alternatívaként nemparametrikus, vagy úgynevezett rangkorrelációs együtthatókat is alkalmaznak, amelyek használják például rangsorolt ​​adatokhoz. Ha az adatokat névleges skálán mérjük, akkor természetes, hogy azokat kontingenciatáblázatokban mutatjuk be, amelyek a Pearson-féle khi-négyzet próbát alkalmazzák különféle variációkkal és pontossági korrekciókkal.

Tehát lényegében az adatok sajátosságaitól függően csak néhány fajta kritérium és eljárás létezik, amelyeket ismerni és használni kell. Meg kell határoznia, hogy egy adott helyzetben melyik kritériumot kell alkalmazni.

A nem paraméteres módszerek a legmegfelelőbbek, ha a minta mérete kicsi. Ha sok adat van (például n> 100), gyakran nincs értelme a nem paraméteres statisztikák használatának.

Ha a minta mérete nagyon kicsi (például n = 10 vagy kevesebb), akkor a normál közelítést használó nemparaméteres tesztek szignifikanciaszintjei csak durva becslésnek tekinthetők.

Különbségek a független csoportok között... Ha van két minta (például férfiak és nők), amelyeket össze kell hasonlítani valamilyen átlagértékkel, például az átlagos nyomással vagy a vér leukociták számával, akkor a t-próba használható független vizsgálatra. minták.

A teszt nem paraméteres alternatívái a Val'd-Wolfowitz, Mann-Whitney sorozat) / n kritériuma, ahol x i az i-edik érték, n a megfigyelések száma. Ha a változó negatív értékeket vagy nullát (0) tartalmaz, a geometriai átlag nem számítható ki.

Harmonikus átlag

A harmonikus átlagot néha a frekvenciák átlagolására használják. A harmonikus átlag kiszámítása a következő képlettel történik: ГС = n / S (1 / x i) ahol ГС a harmonikus átlag, n a megfigyelések száma, х i az i számmal végzett megfigyelés értéke. Ha a változó nullát (0) tartalmaz, a harmonikus átlag nem számítható ki.

Diszperzió és szórás

A minta szórása és szórása az adatok variabilitásának (variációjának) leggyakrabban használt mérőszámai. A variancia kiszámítása a változó értékeinek mintaátlagtól való eltéréseinek négyzeteinek összege, osztva n-1-gyel (de nem n-nel). A szórást a varianciabecslés négyzetgyökeként számítjuk ki.

Hinta

Egy változó tartománya a volatilitás mutatója, amelyet a maximum mínusz minimumként számítanak ki.

Kvartilis hatókör

A negyedéves tartomány értelemszerűen a következő: felső kvartilis mínusz alsó kvartilis (75% percentilis mínusz 25% percentilis). Mivel a 75%-os percentilis (felső kvartilis) az az érték, amelytől balra az esetek 75%-a, a 25%-os percentilis (alsó kvartilis) pedig az az érték, amelytől balra az esetek 25%-a található, a kvartilis tartomány a medián körüli intervallum.amely az esetek 50%-át tartalmazza (változó értékek).

Aszimmetria

Az aszimmetria az eloszlás alakjának jellemzője. Az eloszlás balra ferde, ha a ferdeségi érték negatív. Az eloszlás jobbra ferde, ha az aszimmetria pozitív. A standard normális eloszlás ferdesége 0. A ferdeség a harmadik momentumhoz kapcsolódik, és a következőképpen definiálható: ferdeség = n × M 3 / [(n-1) × (n-2) × s 3], ahol M 3 ez: (xi -x átlag x) 3, s 3 a harmadik hatványra emelt szórás, n a megfigyelések száma.

Felesleg

A kurtózis egy eloszlás alakjának jellemzője, nevezetesen a csúcsa súlyosságának mértéke (egy normális eloszláshoz viszonyítva, amelynek a gördülése 0). Általános szabály, hogy a normálnál élesebb csúcsú eloszlások pozitív kurtózissal rendelkeznek; Azok az eloszlások, amelyek csúcsa kevésbé akut, mint a normál eloszlás csúcsa, negatív kurtózissal rendelkeznek. A többlet a negyedik pillanathoz kapcsolódik, és a képlet határozza meg:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], ahol M j: (xx átlag x, s 4 a szórás a negyedik hatványig, n a megfigyelések száma...

A mennyiségi vagy minőségi mutatók közötti kapcsolat azonosítására szolgál, amennyiben rangsorolhatók. Az X mutató értékei növekvő sorrendben vannak beállítva, és rangokhoz vannak rendelve. Az Y mutató értékeit rangsoroljuk, és kiszámítjuk a Kendall-korrelációs együtthatót:

ahol S = PK.

P nagy a rangérték Y.

K- az aktuális megfigyeléseket követő megfigyelések teljes száma kisebb a rangérték Y. (az egyenlő fokozatok nem számítanak!)

Ha a vizsgált adatok ismétlődnek (azonos rangúak), akkor Kendall korrigált korrelációs együtthatóját használjuk a számításokhoz:

t- a kapcsolódó rangok száma az X, illetve Y sorban.

19. Mi legyen a kiindulópont a kutatás témájának, tárgyának, tárgyának, céljának, célkitűzéseinek és hipotézisének meghatározásakor?

A kutatási program általában két részből áll: módszertani és eljárási. Az első része a téma relevanciájának alátámasztása, a probléma megfogalmazása, a kutatás tárgyának és alanyának, a kutatás céljainak és célkitűzéseinek meghatározása, az alapfogalmak (kategorikus apparátus) megfogalmazása, a kutatási tárgy előzetes szisztematikus elemzése és munkahipotézis felállítása. A második rész a stratégiai kutatási tervet, valamint a primer adatok gyűjtésének és elemzésének tervét és alapvető eljárásait mutatja be.

A kutatási téma kiválasztásánál mindenekelőtt a relevanciából kell kiindulni. A relevancia indoklása tartalmazza a probléma tanulmányozásának és megoldásának szükségességét és időszerűségét a tanítás és nevelés elméletének és gyakorlatának továbbfejlesztése érdekében. Az aktuális kutatás választ ad az ekkoriban legégetőbb kérdésekre, tükrözi a társadalom társadalmi berendezkedését a pedagógiatudományig, és feltárja a gyakorlatban fellépő legfontosabb ellentmondásokat. A relevancia kritériuma dinamikus, mobil, időfüggő, sajátos és konkrét körülményeket figyelembe véve. A relevancia legáltalánosabb formájában azt a mértéket jellemzi, hogy milyen eltérés van a tudományos ötletek és gyakorlati ajánlások iránti igény (egy adott igény kielégítésére) és azon javaslatok között, amelyeket a tudomány és a gyakorlat jelenleg nyújtani tud.

A kutatási témát meghatározó legmeggyőzőbb alap a társadalmi rend, amely a legégetőbb, társadalmilag legjelentősebb, sürgős megoldást igénylő problémákat tükrözi. A társadalmi rend egy konkrét téma alátámasztását igényli. Általában ez egy tudományos kérdés kidolgozottsági fokának elemzése.

Ha a pedagógiai gyakorlat elemzéséből a társadalmi rend következik, akkor önmagát tudományos probléma más síkban van. Kifejezi azt a fő ellentmondást, amelyet a tudomány eszközeivel fel kell oldani. A probléma megoldása általában az a tanulmány célja. A cél egy újrafogalmazott probléma.

A probléma megfogalmazása magában foglalja objektum kiválasztása kutatás. Ez lehet egy pedagógiai folyamat, a pedagógiai valóság egy területe, vagy valamiféle pedagógiai attitűd, amely ellentmondást tartalmaz. Más szóval, tárgy lehet bármi, ami kifejezetten vagy implicit ellentmondást tartalmaz, és problémahelyzetet generál. A tárgy az, amire a megismerési folyamat irányul. Tanulmányi tárgy - a tárgy része, oldala. Ezek gyakorlati vagy elméleti szempontból a legjelentősebbek, egy tárgy tulajdonságai, szempontjai, jellemzői, amelyek közvetlen vizsgálat tárgyát képezik.

A kutatás, kutatás céljának, tárgyának és tárgyának megfelelően feladatok, amelyek főszabály szerint az ellenőrzést célozzák hipotéziseket. Ez utóbbi elméleti alapokon nyugvó feltevések halmaza, amelyek igazságtartalma ellenőrzés alatt áll.

Kritérium tudományos újdonság felhasználható az elvégzett tanulmányok minőségének felmérésére. Olyan új elméleti és gyakorlati következtetéseket, az oktatás mintáit, szerkezetét és mechanizmusait, tartalmát, elveit és technológiáit jellemzi, amelyek ekkor még nem ismertek és nem kerültek rögzítésre a pedagógiai szakirodalomban. A kutatás újszerűsége elméleti és gyakorlati jelentőséggel is bírhat. A kutatás elméleti értéke a koncepció megalkotásában, a hipotézis megszerzésében, a szabályszerűség, a probléma azonosításának módszere, modellje, tendenciája, iránya. A kutatás gyakorlati jelentősége a javaslatok, ajánlások stb. elkészítésében rejlik. Az újdonság, az elméleti és gyakorlati jelentőség kritériumai a kutatás típusától függően változnak, függenek az új ismeretek megszerzésének időpontjától is.

KENDALLAI RANK KORRELÁCIÓS EGYÜTTHEZ

Két valószínűségi változó (jellemző) függésének egyik mintamérője X ill Y, a mintaelemek rangsorolása alapján (X 1, Y x), .. ., (X n, Y n). K-től R-ig utal tehát arra rangú statisztikusokés a képlet határozza meg

ahol r i- Te ehhez a párhoz tartozol ( X, Y), egy Xraven-rajhoz i, S = 2N- (n-1) / 2, N azon mintaelemek száma, amelyekre egyidejűleg j> i ill. r j> r i... Mindig A To. To. R. függőség szelektív mértékeként. M. Kendall széles körben használta (M. Kendall, lásd).

K-től R-ig A K. a valószínűségi változók függetlenségének hipotézisének tesztelésére szolgál. Ha a függetlenségi hipotézis igaz, akkor E t = 0 és D t = 2 (2n + 5) / 9n (n-1). Kis mintaméret esetén az ellenőrzés statisztikai jellegű. a függetlenség hipotézise speciális táblázatok segítségével készül (lásd). n> 10 esetén m eloszlásának normál közelítését használjuk: ha

akkor a függetlenség hipotézisét elvetik, ellenkező esetben elfogadják. Itt egy . - a szignifikancia szintje, u a / 2 a normál eloszlás százalékpontja. K-től R-ig Ugyanis, mint bármely más, ezzel is kimutatható két minőségi jellemző függősége, ha csak a minta elemei ezekre a jellemzőkre tekintettel rendezhetők. Ha X, Y van egy közös normális a p korrelációs együtthatóval, akkor a kapcsolat K. és p. között. és a következő formában van:

Lásd még Spearman-féle rangkorreláció, Rank teszt.

Megvilágított.: Kendal M., Rangkorrelációk, ford. angolból, M., 1975; Van der Waerden B.L., Matematikai, ford. belőle., M., 1960; Bol'shev L.N., Smirnov N.V., Matematikai statisztikák táblázatai, Moszkva, 1965.

A. V. Prohorov.


Matematikai enciklopédia. - M .: Szovjet enciklopédia... I. M. Vinogradov. 1977-1985.

Nézze meg, mi az a "KENDALLA RANK KORRELÁCIÓS KONFERENCIA" más szótárakban:

    Angol. с hatékony, rangkorreláció Kendall; német Kendalls Rangkorrelationskoeffizient. Korrelációs együttható, amely meghatározza az összes objektumpár rendezettségének megfelelőségi fokát két változóban. Antinazi. Szociológiai Enciklopédia, 2009... Szociológiai Enciklopédia

    KENDALL RANKKORRELÁCIÓS EGYHATÓJA- Angol. hatékony, rangkorreláció Kendall; német Kendalls Rangkorrelationskoeffizient. Korrelációs együttható, amely meghatározza az összes objektumpár rendezésének megfelelőségi fokát két változóban ... Szociológiai Magyarázó Szótár

    Két valószínűségi változó (jellemzők) X és Y függésének mérőszáma a független megfigyelési eredmények (X1, Y1) rangsora alapján. ... ., (Xn, Yn). Ha X értékeinek sorai természetes sorrendben i = 1,. ... ., n és Ri a ... ... Matematika enciklopédiája

    Korrelációs együttható- (Korrelációs együttható) A korrelációs együttható két valószínűségi változó függésének statisztikai mutatója A korrelációs együttható meghatározása, a korrelációs együtthatók fajtái, a korrelációs együttható tulajdonságai, számítása és alkalmazása ... ... Befektetői enciklopédia

    A valószínűségi változók közötti kapcsolat, amely általában véve nem szigorúan funkcionális. A funkcionális függőségtől eltérően a K.-t általában akkor tekintjük, ha az egyik mennyiség nem csak ettől a másiktól függ, hanem ... ... Matematika enciklopédiája

    A korreláció (korrelációs függőség) két vagy több valószínűségi változó (vagy bizonyos elfogadható pontossággal annak tekinthető mennyiség) statisztikai kapcsolata. Ebben az esetben egy vagy ... ... Wikipédia értékeinek változásai

    Korreláció- (Korreláció) A korreláció két vagy több valószínűségi változó statisztikai kapcsolata. A korreláció fogalma, a korreláció típusai, korrelációs együttható, korrelációelemzés, árkorreláció, devizapárok korrelációja a Forex-en Tartalom ... ... Befektetői enciklopédia

    Általánosan elfogadott, hogy a S. eleje a m. Században. vagy ahogy szokták nevezni, a "kis n" statisztikáját a XX. század első évtizedébe tette W. Gosset munkája, amelyben a t-eloszlást helyezte el, a kapottak által feltételezve. a világ egy kicsit később...... Pszichológiai enciklopédia

    Maurice Kendall Sir Maurice George Kendall Születési idő: 1907. szeptember 6. (1907 09 06) Születési hely: Kettering, Egyesült Királyság Halálozás ideje ... Wikipédia

    Előrejelzés- (Előrejelzés) Az előrejelzés meghatározása, az előrejelzés feladatai és elvei Az előrejelzés meghatározása, az előrejelzés feladatai és elvei, az előrejelzés módszerei Tartalom Tartalom Meghatározás Előrejelzési alapfogalmak Az előrejelzés feladatai és elvei ... ... Befektetői enciklopédia

A Kendall-féle rangkorrelációs együttható kiszámítása r k az egyik attribútum adatait növekvő sorrendben kell rangsorolni, és a második attribútumhoz meg kell határozni a megfelelő rangokat. Ezután a második jellemző minden rangjához meghatározzuk a következő, a felvett rangnál nagyobb rangok számát, és megtaláljuk ezeknek a számoknak az összegét.

A Kendall-féle rangkorrelációs együtthatót a képlet határozza meg


ahol R i- a második változó rangsorainak száma, től kezdve én+1, amelynek nagysága nagyobb, mint a magnitúdó én ennek a változónak a rangja.

Vannak táblázatok az együttható eloszlásának százalékpontjairól r k, lehetővé téve a korrelációs együttható szignifikanciájára vonatkozó hipotézis tesztelését.

Nagy mintaméreteknél kritikus értékek r k nincsenek táblázatba foglalva, és közelítő képletekkel kell kiszámítani, amelyek azon alapulnak, hogy a H 0 nullhipotézis esetén: r k= 0 és nagy n véletlenszerű érték

megközelítőleg a szokásos normál törvény szerint oszlik el.

40. A nominális vagy ordinális skálán mért tulajdonságok közötti kapcsolat

Gyakran felmerül a probléma két jellemző függetlenségének ellenőrzése nominális vagy ordinális skálán.

Egyes objektumok két jellemzőt mérjenek xés Y a szintek számával rés s illetőleg. Az ilyen megfigyelések eredményeit kényelmesen táblázat formájában, úgynevezett kontingenciatáblázatban mutatjuk be.

Az asztalban u i(én = 1, ..., r) és v j (j= 1, ..., s) - a jellemzők által felvett értékek, az érték n ij- az objektumok száma azon objektumok teljes számából, amelyekre az attribútum vonatkozik x felvette a jelentését u i, és a jel Y- jelentése v j

A következő valószínűségi változókat vezetjük be:

u i


- az értékkel rendelkező objektumok száma v j


Ezen túlmenően nyilvánvaló egyenlőségek vannak



Diszkrét valószínűségi változók xés Y független akkor és csak akkor

minden pár számára én, j

Ezért a diszkrét valószínűségi változók függetlenségére vonatkozó sejtés xés Yígy írható:

Alternatív megoldásként általában a hipotézist használják

A H 0 hipotézis érvényességét a mintavételi gyakoriságok alapján kell megítélni n ij készenléti táblázatok. A nagy számok törvényének megfelelően at n→ ∞, a relatív gyakoriságok közel vannak a megfelelő valószínűségekhez:



A H 0 hipotézis tesztelésére statisztikákat használnak

amelynek, ha a hipotézis igaz, megvan az eloszlása χ 2 mp rs − (r + s- 1) szabadsági fokok.

Függetlenségi kritérium χ 2 elveti a H 0 hipotézist α szignifikanciaszinttel, ha:


41. Regresszió analízis. A regresszióanalízis alapfogalmai

A vizsgált változók közötti statisztikai összefüggések matematikai leírásához a következő problémákat kell megoldani:

ü válasszon függvényosztályt, amelyben célszerű az érdeklődési függőség legjobb (bizonyos értelemben) közelítését keresni;

ü találja meg a szükséges függőség egyenleteiben szereplő paraméterek ismeretlen értékeinek becslését;

ü a szükséges függőség kapott egyenletének megfelelőségének megállapítása;

ü a leginkább informatív bemeneti változók azonosítása.

A felsorolt ​​feladatok összessége a regresszióanalízis kutatásának tárgya.

A regressziós függvény (vagy regresszió) az egyik valószínűségi változó matematikai elvárásának függősége egy másik valószínűségi változó által felvett értéktől, amely az elsővel egy valószínűségi változók kétdimenziós rendszerét alkotja.

Legyen egy valószínűségi változók rendszere ( x,Y), majd a regressziós függvényt Y a x

És a regressziós függvény x a Y

Regressziós függvények f(x) és φ (y) nem reverzibilisek kölcsönösen, ha csak a közötti kapcsolat xés Y nem működőképes.

Mikor n-dimenziós vektor koordinátákkal x 1 , x 2 ,…, X n figyelembe veheti a feltételes matematikai elvárást bármely komponensre. Például azért x 1


regressziónak nevezzük x 1 on x 2 ,…, X n.

A regressziós függvény teljes meghatározásához ismerni kell a kimeneti változó feltételes eloszlását a bemeneti változó fix értékeihez.

Mivel a valós helyzetben ilyen információ nem áll rendelkezésre, ezek általában a megfelelő közelítő függvény keresésére korlátozódnak f a(x) számára f(x forma statisztikai adatai alapján ( x i, y i), én = 1,…, n... Ez az adat az eredmény n független megfigyelések y 1 ,…, y n valószínűségi változó Y a bemeneti változó értékeire x 1 ,…, x n, míg a regressziós elemzés azt feltételezi, hogy a bemeneti változó értékei pontosan vannak megadva.

A legjobb közelítő függvény kiválasztásának problémája f a(x), amely a fő a regressziós elemzésben, és nem rendelkezik formalizált eljárásokkal a megoldására. A választást esetenként kísérleti adatok elemzése, gyakrabban elméleti megfontolások alapján határozzák meg.

Ha feltételezzük, hogy a regressziós függvény kellően sima, akkor a közelítő függvény f a(x) lineárisan független bázisfüggvények halmazának lineáris kombinációjaként ábrázolható ψ k(x), k = 0, 1,…, m−1, azaz formában


ahol m- az ismeretlen paraméterek száma θ k(általános esetben az érték ismeretlen, a modell felépítése során finomodik).

Egy ilyen függvény paramétereiben lineáris, ezért a vizsgált esetben olyan regressziós függvénymodellről beszélünk, amely paramétereiben lineáris.

Ezután a regressziós egyenes legjobb közelítésének problémája f(x) olyan paraméterértékek megtalálására redukálódik, amelyekhez f a(xθ) a legmegfelelőbb a rendelkezésre álló adatokhoz. A probléma megoldásának egyik módja a legkisebb négyzetek módszere.

42. Legkisebb négyzet alakú módszer

Legyen a ponthalmaz ( x i, y i), én= 1,…, n valamilyen egyenes mentén síkon helyezkedik el

Aztán függvényként f a(x) közelítve a regressziós függvényt f(x) = M [Y|x] természetes, hogy az argumentum lineáris függvényét vesszük x:


Vagyis az alapfüggvények itt vannak kiválasztva ψ 0 (x) ≡1 és ψ 1 (x)≡x... Ezt a regressziót egyszerű lineáris regressziónak nevezzük.

Ha a ponthalmaz ( x i, y i), én= 1,…, n valamilyen görbe mentén helyezkedik el, majd as f a(x) természetes, hogy megpróbáljuk a parabolák családját választani

Ez a függvény paraméterei nem lineárisak θ 0 és θ 1, azonban funkcionális transzformációval (jelen esetben a logaritmust figyelembe véve) egy új függvényre redukálható f’a(x), lineáris paraméterekben:


43. Egyszerű lineáris regresszió

A legegyszerűbb regressziós modell egy egyszerű (egydimenziós, egytényezős, páros) lineáris modell, amelynek a következő formája van:


ahol ε i- egymással nem korrelált valószínűségi változók (hibák), nulla matematikai elvárással és azonos szórással σ 2 , aés b- állandó együtthatók (paraméterek), amelyeket a mért válaszértékekből meg kell becsülni y i.

A paraméterbecslések megtalálása aés b lineáris regresszió, a kísérleti adatoknak leginkább megfelelő egyenes meghatározása:


a legkisebb négyzetek módszerét alkalmazzuk.

Alapján legkisebb négyzetek paraméterbecslések aés b az értékek eltéréseinek négyzetösszegének minimalizálása feltételéből találhatók y i függőlegesen az „igazi” regressziós egyenestől:

Legyen tíz megfigyelése egy valószínűségi változónak Y a változó fix értékeivel x

Minimalizálásra D tekintetében nullával egyenlővé tesszük a parciális deriváltokat aés b:



Ennek eredményeként a következő egyenletrendszert kapjuk a becslések megtalálásához aés b:


A két egyenlet megoldása a következőt kapja:



Paraméterbecslések kifejezései aés b a következőképpen is ábrázolható:

Ezután a regressziós egyenes empirikus egyenlete Y a xígy írható:


Elfogulatlan varianciabecslés σ 2 értékek eltérése y i az illesztett regressziós egyenesből a kifejezés adja meg

Számítsuk ki a regressziós egyenlet paramétereit!


Így a regressziós egyenes így néz ki:


És az értékek eltéréseinek szórásának becslése y i az illesztett regressziós egyenesből


44. A regressziós egyenes jelentőségének ellenőrzése

Talált becslés b≠ 0 lehet egy valószínűségi változó realizációja, amelynek matematikai elvárása nulla, vagyis kiderülhet, hogy valójában nincs regressziófüggés.

Ennek a helyzetnek a megoldásához tesztelni kell a H 0 hipotézist: b= 0 versengő H 1 hipotézissel: b ≠ 0.

A regressziós egyenes szignifikancia vizsgálata varianciaanalízissel is elvégezhető.

Vegye figyelembe a következő azonosságot:

Nagysága y iŷ i = ε i maradéknak nevezzük, és ez a különbség két mennyiség között:

ü a megfigyelt érték (válasz) eltérése a teljes átlagos választól;

ü az előrejelzett válaszérték eltérése ŷ i ugyanabból az átlagból

Az írott identitás felírható így


Mindkét részét négyzetre emelve és összegezve én, kapunk:


Ahol a mennyiségek meg vannak nevezve:

az SC n teljes (teljes) négyzetösszege, amely egyenlő a megfigyelések átlagértékéhez viszonyított eltérések négyzetösszegével

az SK p regressziója miatti négyzetösszeg, amely egyenlő a regressziós egyenesek eltéréseinek négyzetösszegével a megfigyelések átlagához viszonyítva.

maradék négyzetösszeg SK 0. amely egyenlő a megfigyelések regressziós egyenes értékeihez viszonyított eltéréseinek négyzeteinek összegével

Tehát a terjedés Y-kov az átlagukhoz képest bizonyos mértékig annak tudható be, hogy nem minden megfigyelés esik a regressziós egyenesen. Ha ez a helyzet, akkor a regresszióhoz viszonyított négyzetösszeg nulla lenne. Ebből következik, hogy a regresszió akkor lesz szignifikáns, ha az SC p négyzetösszege nagyobb, mint az SC 0 négyzeteinek összege.

A regressziós szignifikancia teszt számításait az alábbi ANOVA táblázatban végezzük.

Ha hibák ε i normáltörvény szerint elosztva, akkor ha a H 0 hipotézis érvényes: b= 0 statisztika:


a Fisher-törvény szerint elosztva a szabadságfokok számával 1 és n−2.

A nullhipotézist α szignifikancia szinten el kell vetni, ha a számított statisztikai érték F nagyobb lesz, mint az α százalékpont f 1;n−2; α a Fisher-eloszlásból.

45. A regressziós modell megfelelőségének ellenőrzése. Maradék módszer

A megszerkesztett regressziós modell megfelelősége alatt azt értjük, hogy egyetlen más modell sem ad szignifikáns javulást a válasz előrejelzésében.

Ha a válaszok összes értékét különböző értékeken kapjuk x, azaz nincs több válaszérték, amelyet ugyanazzal kapunk x i, akkor a lineáris modell megfelelőségének csak korlátozott tesztje végezhető el. Az ilyen ellenőrzés alapja a maradék:

Eltérés a megállapított mintától:

Amennyiben x- egydimenziós változó, pontok ( x i, d i) síkon ábrázolható az úgynevezett maradék diagram formájában. Egy ilyen ábrázolás néha lehetővé teszi, hogy a maradékok viselkedésében valamilyen szabályszerűséget találjunk. Ezenkívül a maradékok elemzése lehetővé teszi a hibaeloszlásra vonatkozó feltételezések elemzését.

Abban az esetben, ha a hibák a normál törvény szerint oszlanak el, és van egy a priori becslés a szóródásukra σ 2 (korábban elvégzett mérések alapján kapott becslés), akkor lehetséges a modell megfelelőségének pontosabb megítélése.

Keresztül F-A Fisher-kritérium segítségével ellenőrizhető, hogy a reziduális variancia szignifikáns-e s 0 2 eltér az a priori becsléstől. Ha lényegesen nagyobb, akkor elégtelenségről van szó, és a modellt felül kell vizsgálni.

Ha az előzetes becslés σ 2 nem, de válaszmérések Y kétszer vagy többször megismételve ugyanazokkal az értékekkel x, akkor ezek az ismételt megfigyelések felhasználhatók újabb becslések készítésére σ 2 (az első a reziduális variancia). Egy ilyen becslés „tiszta” hibát jelent, hiszen ha x két vagy több megfigyelésnél azonosak, akkor csak véletlenszerű változtatások befolyásolhatják az eredményeket és szóródhatnak közöttük.

Az így kapott becslés a variancia megbízhatóbb becslése, mint a más módszerekkel kapott becslés. Emiatt a kísérletek tervezésénél célszerű az ismétlésekkel végzett kísérleteket felállítani.

Tegyük fel, hogy van m különböző jelentések x : x 1 , x 2 , ..., x m... Legyen ezen értékek mindegyikére x i van n i válaszmegfigyelések Y... Összes megfigyelést kapunk:

Ekkor az egyszerű lineáris regressziós modell a következőképpen írható fel:


Határozzuk meg a „tiszta” hibák szórását. Ez a szórás az eltérés együttes becslése σ 2, ha a válaszok értékeit ábrázoljuk y ij nál nél x = x i minta térfogataként n i... Ennek eredményeként a „tiszta” hibák szórása a következő:

Ez az eltérés becslésként szolgál σ 2, függetlenül attól, hogy a felszerelt modell megfelelő-e.

Mutassuk meg, hogy a „tiszta hibák” négyzetösszege a maradék négyzetösszeg (a reziduális variancia kifejezésében szereplő négyzetösszeg) része. Maradva j th megfigyelés at x iígy írható:

Ha ennek az egyenlőségnek mindkét oldalát négyzetre veted, majd összeadod őket jés által én, kapunk:

Az egyenlőség bal oldalán a maradék négyzetösszeg látható. A jobb oldali első tag a „tiszta” hibák négyzetösszege, a második tag az elégtelenség négyzeteinek összege. Az utolsó összeg megvan m−2 szabadsági fok, tehát az elégtelenség szórása

A H 0 hipotézis tesztelésének kritériumának statisztikája: az egyszerű lineáris modell megfelelő, a H 1 hipotézissel szemben: az egyszerű lineáris modell nem megfelelő, a valószínűségi változó

Ha a nullhipotézis igaz, az érték F szabadságfokokkal rendelkező Fisher-eloszlása ​​van m−2 és nm... A regressziós egyenes linearitási hipotézisét α szignifikanciaszinttel el kell vetni, ha a kapott statisztika értéke nagyobb, mint a szabadságfokszámú Fisher-eloszlás α-százalékpontja. m−2 és nm.

46. A regressziós modell megfelelőségének ellenőrzése (lásd 45). ANOVA

47. A regressziós modell megfelelőségének ellenőrzése (lásd 45). Meghatározási együttható

Néha a regressziós egyenes minőségének jellemzésére minta determinációs együtthatót használnak R A 2. ábra azt mutatja, hogy a regresszió következtében a négyzetösszegnek mekkora része (törtrésze) van SK p az SK n négyzetösszegben:

Minél közelebb R 2-1, minél jobban közelíti a regresszió a kísérleti adatokat, annál közelebb vannak a megfigyelések a regressziós egyeneshez. Ha R 2 = 0, akkor a válasz változásai teljes mértékben nem figyelembe vett tényezők hatására következnek be, és a regressziós egyenes párhuzamos a tengellyel x-ov. Egyszerű lineáris regresszió esetén a determinációs együttható R 2 egyenlő a korrelációs együttható négyzetével r 2 .

A maximális R 2 = 1 érték csak abban az esetben érhető el, ha a megfigyeléseket különböző x-ov értékekkel végeztük. Ha ismétlődő kísérletek vannak az adatokban, akkor az R 2 értéke nem érheti el az egységet, bármilyen jó is a modell.

48. Konfidenciaintervallumok egyszerű lineáris regressziós paraméterekhez

Ahogy a minta átlaga a valódi átlag becslése (a sokaság átlaga), úgy a regressziós egyenlet mintaparaméterei is. aés b- nem más, mint a valódi regressziós együtthatók becslése. Különböző minták eltérő becsléseket adnak az átlagról – ahogy a különböző minták különböző becsléseket adnak a regressziós együtthatókról.

Feltéve, hogy a hibaeloszlási törvény ε i a normál törvény, a paraméterbecslés írja le b normál eloszlású lesz a következő paraméterekkel:


Mivel a paraméterbecslés a független normális eloszlású mennyiségek lineáris kombinációja, normális eloszlása ​​is lesz átlaggal és szórással:


Ebben az esetben az (1 - α) konfidencia intervallum a variancia becsléséhez σ 2 figyelembe véve, hogy az arány ( n−2)s 0 2 /σ 2 törvény által terjesztett χ 2 a szabadságfokok számával n−2-t a kifejezés határozza meg


49. A regressziós egyenes konfidencia intervallumai. Konfidenciaintervallum függő változóértékekhez

Általában nem ismerjük a regressziós együtthatók valódi értékeit. aés b... Csak becsléseiket ismerjük. Más szóval, a valódi regressziós egyenes mehet feljebb vagy lejjebb, lehet meredekebb vagy sekélyebb, mint a mintaadatokból megszerkesztett. Kiszámoltuk a regressziós együtthatók konfidenciaintervallumát. Kiszámíthatja magának a regressziós egyenesnek a konfidenciatartományát is.

Legyen az egyszerű lineáris regresszióhoz szükséges (1− α ) konfidenciaintervallum a válasz matematikai elvárására Yértékben x = x 0. Ez a matematikai elvárás az a+bx 0, és annak becslése

Azóta.

A matematikai elvárás kapott becslése nem korrelált normális eloszlású értékek lineáris kombinációja, ezért normális eloszlása ​​is van, amelynek középpontja a feltételes matematikai elvárás és variancia valódi értékének pontja.

Ezért az egyes értékeknél a regressziós egyenes konfidenciaintervallumát x A 0-t mint


Mint látható, a minimális konfidenciaintervallumot a következő helyen kapjuk meg x 0 egyenlő az átlaggal, és így nő x 0 „eltávolodik” a közepétől bármely irányba.

A teljes regressziós függvényre annak teljes hosszában megfelelő együttes konfidenciaintervallumok halmazát kapni a fenti kifejezés helyett t n −2,α / 2-t kell helyettesíteni