Kendalli järgu korrelatsioonikordaja. Auaste korrelatsioon ja järgu korrelatsioonikordaja kendalli järgu korrelatsioonikordaja kendall Excelis

Lühike teooria

Kendalli korrelatsioonikordajat kasutatakse juhul, kui muutujad on esindatud kahe järguskaalaga, eeldusel, et seotud auastmeid pole. Kendalli koefitsiendi arvutamine on seotud vastete ja inversioonide arvu loendamisega.

See koefitsient varieerub piires ja arvutatakse järgmise valemi abil:

Arvutamiseks järjestatakse kõik ühikud vastavalt atribuudile; mitmete muude tunnuste puhul arvutatakse iga järgu jaoks etteantut ületavate järgnevate auastmete arv (tähistame neid tähisega ) ja antud järgnevate auastmete arv (tähistame neid tähega ).

Seda saab näidata

ja Kendalli järgu korrelatsioonikordaja võib kirjutada järgmiselt

Selleks, et testida nullhüpoteesi Kendalli üldise järgu korrelatsioonikordaja võrdsuse kohta nulliga konkureeriva hüpoteesi all olulisuse tasemel, on vaja arvutada kriitiline punkt:

kus on valimi suurus; - kahepoolse kriitilise piirkonna kriitiline punkt, mis leitakse Laplace'i funktsiooni tabelist võrdsuse järgi

Kui nullhüpoteesi tagasilükkamiseks pole põhjust. Tunnuste vaheline järjestuskorrelatsioon on ebaoluline.

Kui nullhüpotees lükatakse tagasi. Märkide vahel on märkimisväärne auaste korrelatsioon.

Probleemilahenduse näide

Ülesanne

Seitsme kandidaadi vabadele ametikohtadele palkamisel pakuti kahte testi. Testi tulemused (punktides) on toodud tabelis:

Test kandidaat 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Arvutage kahe testi testitulemuste vaheline Kendalli järgu korrelatsioonikordaja ja hinnake selle olulisust tasemel.

Probleemi lahendus

Arvutage Kendalli koefitsient

Faktoratribuudi auastmed on järjestatud rangelt kasvavas järjekorras ja efektiivse atribuudi vastavad auastmed kirjutatakse paralleelselt. Iga auastme jaoks loendatakse sellele järgnevate auastmete arvust suurem auastmete arv (kaasatud veerus ) ja väiksema väärtusega auastmete arv (kaasatud veerus ).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Summa 16 5

Üks normaalsuse eeldusel põhinevate kriteeriumide rakendamist piirav tegur on valimi suurus. Kuni valim on piisavalt suur (näiteks 100 või enam vaatlust), võite eeldada, et valimi jaotus on normaalne, isegi kui te pole kindel, et muutuja jaotus üldkogumis on normaalne. Kuid kui valim on väike, tuleks neid teste kasutada ainult siis, kui on kindel, et muutuja on tõepoolest normaalselt jaotunud. Seda eeldust pole aga võimalik väikese valimiga testida.

Normaalsuse eeldusel põhinevate kriteeriumide kasutamist piirab ka mõõtmise skaala (vt peatükki Andmeanalüüsi elementaarsed mõisted). Statistilised meetodid nagu t-test, regressioon jne eeldavad, et algandmed on pidevad. Siiski on olukordi, kus andmed lihtsalt järjestatakse (mõõdetakse järguskaalal), mitte ei mõõdeta täpselt.

Tüüpiline näide on Internetis olevate saitide reitingud: esimesel positsioonil on sait, millel on maksimaalne külastajate arv, teisel positsioonil on ülejäänud saitide hulgas (saitide hulgas, kust esimene sait eemaldati) jne. Teades hinnanguid, võime öelda, et ühe saidi külastajate arv on suurem kui teise saidi külastajate arv, kuid kui palju rohkem, seda on võimatu öelda. Kujutage ette, et teil on 5 saiti: A, B, C, D, E, mis asuvad 5 parimas kohas. Oletame, et käesoleval kuul oli meil järgmine korraldus: A, B, C, D, E ja eelmisel kuul: D, E, A, B, C. Küsimus on selles, kas reitingutes on toimunud olulisi muudatusi saitidest või mitte? Ilmselgelt ei saa me sellises olukorras kasutada t-testi nende kahe andmehulga võrdlemiseks ja me liigume konkreetsete tõenäosusarvutuste valdkonda (ja iga statistiline test sisaldab tõenäosusarvutust!). Arutleme ligikaudu järgmiselt: kui tõenäoline on, et kahe koha paigutuse erinevus tuleneb puhtjuhuslikest põhjustest või on see erinevus liiga suur ja seda ei saa seletada puhta juhusega. Nendes aruteludes kasutame ainult saitide auastmeid või permutatsioone ega kasuta nende külastajate arvu konkreetset tüüpi jaotust.

Väikeste proovide analüüsiks ja kehvadel skaalal mõõdetud andmetel kasutatakse mitteparameetrilisi meetodeid.

Lühiülevaade mitteparameetrilistest protseduuridest

Sisuliselt on iga parameetrilise kriteeriumi jaoks olemas vähemalt üks mitteparameetriline alternatiiv.

Üldiselt kuuluvad need protseduurid ühte järgmistest kategooriatest:

  • sõltumatute proovide erinevuse kriteeriumid;
  • sõltuvate valimite erinevuse kriteeriumid;
  • muutujatevahelise sõltuvuse määra hindamine.

Üldiselt peaks statistiliste kriteeriumide lähenemine andmeanalüüsis olema pragmaatiline ja mitte koormatud tarbetute teoreetiliste kaalutlustega. Kui teie käsutuses on STATISTICA arvuti, saate oma andmetele hõlpsalt rakendada mitmeid kriteeriume. Teades mõningaid meetodite lõkse, valite katsetamise teel õige lahenduse. Graafiku areng on üsna loomulik: kui on vaja võrrelda kahe muutuja väärtusi, siis kasuta t-testi. Siiski tuleb meeles pidada, et see põhineb normaalsuse ja dispersioonide võrdsuse eeldusel igas rühmas. Nendest eeldustest vabanemine viib mitteparameetriliste testideni, mis on eriti kasulikud väikeste proovide puhul.

T-testi väljatöötamine viib dispersioonanalüüsini, mida kasutatakse juhul, kui võrreldavate rühmade arv on suurem kui kaks. Mitteparameetriliste protseduuride vastav areng toob kaasa mitteparameetrilise dispersioonanalüüsi, kuigi see on palju viletsam kui klassikaline dispersioonanalüüs.

Sõltuvuse või, pisut suuresõnaliselt öeldes, seose läheduse astme hindamiseks arvutatakse Pearsoni korrelatsioonikordaja. Rangelt võttes on selle kasutamisel piirangud, mis on seotud näiteks skaala tüübiga, milles andmeid mõõdetakse, ja sõltuvuse mittelineaarsusega, mistõttu alternatiivina mitteparameetrilised ehk nn auastmed korrelatsioonikordajad. kasutatakse ka, mida kasutatakse näiteks järjestatud andmete jaoks. Kui andmeid mõõdetakse nominaalskaalal, siis on loomulik esitada need situatsioonitabelites, mis kasutavad Pearsoni hii-ruut testi koos erinevate variatsioonide ja täpsuse korrigeerimisega.

Seega on sisuliselt vaid mõnda tüüpi kriteeriume ja protseduure, mida pead teadma ja oskama kasutada, olenevalt andmete spetsiifikast. Peate kindlaks määrama, millist kriteeriumi tuleks konkreetses olukorras kohaldada.

Mitteparameetrilised meetodid on kõige sobivamad, kui valimi suurus on väike. Kui andmeid on palju (näiteks n > 100), pole sageli mõtet mitteparameetrilist statistikat kasutada.

Kui valimi suurus on väga väike (näiteks n = 10 või vähem), saab nende mitteparameetriliste testide olulisuse tasemeid, mis kasutavad tavalist lähendust, pidada ainult ligikaudseks hinnanguks.

Erinevused sõltumatute rühmade vahel. Kui on kaks proovi (nt mehed ja naised), mida tuleb mõne keskmise väärtuse, näiteks keskmise vererõhu või valgevereliblede arvu suhtes võrrelda, võib kasutada sõltumatu proovi t-testi.

Selle testi mitteparameetrilised alternatiivid on Wald-Wolfowitzi, Mann-Whitney )/n seeria test, kus x i on i-s väärtus, n on vaatluste arv. Kui muutuja sisaldab negatiivseid väärtusi või nulli (0), ei saa geomeetrilist keskmist arvutada.

Harmooniline keskmine

Harmooniliste keskmist kasutatakse mõnikord sageduste keskmistamiseks. Harmooniline keskmine arvutatakse valemiga: HS = n/S(1/x i) kus HS on harmooniline keskmine, n on vaatluste arv, x i on vaatluse väärtus arvuga i. Kui muutuja sisaldab nulli (0), ei saa harmoonilist keskmist arvutada.

Dispersioon ja standardhälve

Valimi dispersioon ja standardhälve on kõige sagedamini kasutatavad andmete varieeruvuse (variatsiooni) mõõdikud. Dispersioon arvutatakse muutuja väärtuste valimi keskmisest kõrvalekallete ruudus summana, jagatuna n-1-ga (kuid mitte n-ga). Standardhälve arvutatakse dispersioonihinnangu ruutjuurena.

ulatus

Muutuja vahemik on volatiilsuse mõõt, mis arvutatakse maksimumina miinus miinimum.

Kvartiilne vahemik

Kvartiil definitsiooni järgi on järgmine: ülemine kvartiil miinus alumine kvartiil (75% protsentiil miinus 25% protsentiil). Kuna 75% protsentiil (ülemine kvartiil) on väärtus, millest vasakul on 75% vaatlustest ja 25% protsentiil (alumine kvartiil) on väärtus, millest vasakul on 25% vaatlustest, siis kvartiil vahemik on mediaani ümber olev intervall, mis sisaldab 50% vaatlustest (muutuja väärtused).

Asümmeetria

Viltus on jaotuse kuju tunnus. Jaotus kaldub vasakule, kui kalduvus on negatiivne. Jaotus kaldub paremale, kui kalduvus on positiivne. Standardse normaaljaotuse viltus on 0. Kalduvus on seotud kolmanda momendiga ja defineeritakse järgmiselt: viltus = n × M 3 /[(n-1) × (n-2) × s 3 ], kus M 3 on: (x i -xmean x) 3 , s 3 - standardhälve tõstetud kolmanda astmeni, n - vaatluste arv.

Liigne

Kurtoos on jaotuskuju tunnus, nimelt selle tipu teravuse mõõt (normaaljaotuse suhtes, mille kurtoos on 0). Üldreeglina on normaaljaotusest teravama tipuga jaotustel positiivne kurtoos; jaotustel, mille tipp on normaaljaotuse tipust vähem terav, on negatiivne kurtoos. Kurtoos on seotud neljanda hetkega ja määratakse järgmise valemiga:

kurtosis = /[(n-1) × (n-2) × (n-3) × s 4 ], kus M j on: (x-x keskmine x, s 4 on standardhälve neljanda astmeni, n on vaatluste arv.

Seda kasutatakse kvantitatiivsete või kvalitatiivsete näitajate vahelise seose tuvastamiseks, kui neid saab järjestada. X-indikaatori väärtused määratakse kasvavas järjekorras ja neile määratakse auastmed. Y-indeksi väärtused järjestatakse ja Kendalli korrelatsioonikordaja arvutatakse:

kus S = PK.

P suur Y-järgu väärtus.

K on vaatluste koguarv pärast praeguseid vaatlusi alates väiksem Y-järgu väärtus. (Võrdsed auastmed ei lähe arvesse!)

Kui uuritud andmeid korratakse (sama järku), kasutatakse arvutustes korrigeeritud Kendalli korrelatsioonikordajat:

t- seotud auastmete arv sarjas X ja Y vastavalt.

19. Millest tuleks lähtuda uuringu teema, objekti, subjekti, eesmärgi, eesmärkide ja hüpoteesi määramisel?

Uurimisprogrammil on reeglina kaks osa: metoodiline ja protseduuriline. Esimene sisaldab teema asjakohasuse põhjendamist, probleemi sõnastamist, objekti ja õppeaine määratlemist, õppe eesmärkide ja eesmärkide sõnastamist, põhimõistete sõnastamist (kategooriaaparaat), uurimisobjekti esialgset süsteemset analüüsi ning tööhüpoteesi väljatöötamine. Teises osas tutvustatakse uuringu strateegilist plaani, samuti algandmete kogumise ja analüüsimise kava ja põhiprotseduure.

Eelkõige tuleb uurimisteema valikul lähtuda asjakohasusest. Asjakohasuse põhjendus sisaldab viidet õppimise ja probleemi lahendamise vajaduse ja õigeaegsuse kohta koolituse ja kasvatuse teooria ja praktika edasiarendamiseks. Käimasolevad uuringud annavad vastuse praeguse aja kõige pakilisematele küsimustele, peegeldavad pedagoogikateaduse jaoks ühiskonna sotsiaalset korraldust ning toovad välja olulisemad praktikas aset leidvad vastuolud. Asjakohasuse kriteerium on dünaamiline, mobiilne, sõltub ajast, võttes arvesse konkreetseid ja spetsiifilisi asjaolusid. Kõige üldisemal kujul iseloomustab asjakohasus lahknevuse astet teaduslike ideede ja praktiliste soovituste (konkreetse vajaduse rahuldamiseks) ja ettepanekute vahel, mida teadus ja praktika praegusel ajal pakkuda saavad.

Kõige veenvam alus, mis määrab uuringu teema, on ühiskonnakorraldus, mis peegeldab kõige teravamaid, sotsiaalselt olulisi probleeme, mis nõuavad kiireloomulisi lahendusi. Ühiskondlik korraldus nõuab konkreetse teema põhjendamist. Tavaliselt on see probleemi arenguastme analüüs teaduses.

Kui pedagoogilise praktika analüüsist tuleneb ühiskonnakorraldus, siis teaduslik probleem on teisel tasapinnal. See väljendab peamist vastuolu, mis tuleb lahendada teaduse vahenditega. Probleemi lahendus on tavaliselt uuringu eesmärk. Eesmärk on ümbersõnastatud probleem.

Probleemi sõnastus eeldab objekti valik uurimine. See võib olla pedagoogiline protsess, pedagoogilise reaalsuse valdkond või mingisugune pedagoogiline suhe, mis sisaldab vastuolu. Teisisõnu, objektiks võib olla kõik, mis otseselt või kaudselt sisaldab vastuolu ja tekitab probleemsituatsiooni. Objekt on midagi, millele tunnetusprotsess on suunatud. Õppeaine - objekti osa, külg. Need on praktilisest või teoreetilisest vaatepunktist kõige olulisemad objekti omadused, aspektid, omadused, mida otseselt uuritakse.

Kooskõlas õppetöö, uurimistöö eesmärgi, objekti ja subjektiga ülesanded, mida tavaliselt kasutatakse kontrollimiseks hüpoteesid. Viimane on kogum teoreetiliselt põhjendatud oletusi, mille tõesus kuulub kontrollimisele.

Kriteerium teaduslik uudsus kohaldatav lõpetatud õpingute kvaliteedi hindamiseks. See iseloomustab uusi teoreetilisi ja praktilisi järeldusi, haridusseadusi, selle ülesehitust ja mehhanisme, sisu, põhimõtteid ja tehnoloogiaid, mida selleks hetkeks ei tuntud ega pedagoogilises kirjanduses kajastatud. Uurimistöö uudsus võib olla nii teoreetilise kui ka praktilise tähendusega. Uuringu teoreetiline tähendus seisneb kontseptsiooni loomises, hüpoteesi saamises, seaduspärasuses, meetodi, mudeli, probleemi, trendi, suuna tuvastamiseks. Uuringu praktiline tähendus seisneb ettepanekute, soovituste jms koostamises. Uudsuse, teoreetilise ja praktilise tähtsuse kriteeriumid varieeruvad olenevalt uurimistöö liigist, sõltuvad ka uute teadmiste saamise ajast.

KENDALLI KORRELAATSIOONI KOEFITSIENT

Üks kahe juhusliku muutuja (tunnuse) sõltuvuse näidismõõtudest X ja jah näidiselementide järjestuse põhjal (X 1, Y x), .. ., (Х n, Y n). K. k. r. viitab seega sellele edetabeli statistikud ja määratakse valemiga

kus r i- Sina kuulud sellesse paari ( X, Y), mille jaoks Xraven i, S = 2N-(n-1)/2, N-proovi elementide arv, mille puhul nii j>i kui rj >r i. On alati Selektiivse sõltuvuse mõõdupuuna K. kuni. kasutas laialdaselt M. Kendall (M. Kendall, vt).

K. k. r. k kasutatakse juhuslike suuruste sõltumatuse hüpoteesi testimiseks. Kui sõltumatuse hüpotees on tõene, siis E t =0 ja D t =2(2n+5)/9n(n-1). Väikese valimiga, statistika kontrollimine sõltumatuse hüpoteesid püstitatakse spetsiaalsete tabelite abil (vt.). Kui n>10, kasutatakse m jaotuse normaallähendamist: kui

siis iseseisvuse hüpotees lükatakse tagasi, muidu aktsepteeritakse. Siin a . - olulisuse tase, u a /2 on normaaljaotuse protsendipunkt. K. k. r. k., nagu iga , saab kasutada kahe kvalitatiivse tunnuse sõltuvuse tuvastamiseks, kui nende tunnuste suhtes saab järjestada ainult valimi elemente. Kui a X, Y on ühine normaal korrelatsioonikordaja p, siis seos K. kuni. ja sellel on vorm:

Vaata ka Spearmani järgu korrelatsioon, järgu test.

Valgus: Kendal M., Auaste korrelatsioonid, tlk. inglise keelest, M., 1975; Van der Waerden B. L., Matemaatika, tlk. saksa keelest, M., 1960; Bolšev L. N., Smirnov N. V., Matemaatilise statistika tabelid, M., 1965.

A. V. Prohhorov.


Matemaatiline entsüklopeedia. - M.: Nõukogude entsüklopeedia. I. M. Vinogradov. 1977-1985.

Vaadake, mis on "KENDALL RANK COEFFICIENT" teistes sõnaraamatutes:

    Inglise tõhusa astme korrelatsiooniga Kendall; saksa keel Kendalls Rangkorrelationskoeffizient. Korrelatsioonikordaja, mis määrab kõigi objektipaaride järjestuse vastavusastme kahe muutuja järgi. Antinazi. Sotsioloogia entsüklopeedia, 2009 ... Sotsioloogia entsüklopeedia

    KENDALLI AJAKOEFITSIENT- Inglise. tõhus, auaste korrelatsioon Kendall; saksa keel Kendalls Rangkorrelationskoeffizient. Korrelatsioonikordaja, mis määrab kõigi objektipaaride järjestuse vastavusastme kahe muutuja järgi ... Sotsioloogia seletav sõnaraamat

    Kahe juhusliku muutuja (tunnuse) X ja Y sõltuvuse mõõt, mis põhineb sõltumatute vaatlustulemuste pingereas (X1, Y1), . . ., (Xn,Yn). Kui X väärtuste järgud on loomulikus järjekorras i=1, . . ., n,a Ri aste Y, mis vastab … … Matemaatiline entsüklopeedia

    Korrelatsioonikordaja- (Korrelatsioonikordaja) Korrelatsioonikordaja on kahe juhusliku suuruse sõltuvuse statistiline näitaja Korrelatsioonikordaja definitsioon, korrelatsioonikordaja tüübid, korrelatsioonikordaja omadused, arvutamine ja rakendamine ... ... Investori entsüklopeedia

    Juhuslike muutujate vaheline sõltuvus, millel üldiselt ei ole rangelt funktsionaalset iseloomu. Erinevalt funktsionaalsest sõltuvusest arvestatakse K.-ga reeglina siis, kui üks suurustest ei sõltu mitte ainult antud teisest, vaid ka ... ... Matemaatiline entsüklopeedia

    Korrelatsioon (korrelatsioonisõltuvus) on statistiline seos kahe või enama juhusliku muutuja vahel (või muutujate vahel, mida võib selliseks pidada teatud aktsepteeritava täpsusastmega). Samal ajal muutused ühe või ... ... Wikipedia väärtustes

    Korrelatsioon- (Korrelatsioon) Korrelatsioon on kahe või enama juhusliku muutuja statistiline seos. Korrelatsiooni mõiste, korrelatsioonitüübid, korrelatsioonikordaja, korrelatsioonianalüüs, hinnakorrelatsioon, valuutapaaride korrelatsioon Forexil Sisu ... ... Investori entsüklopeedia

    Üldtunnustatud on, et S. m. või, nagu seda sageli nimetatakse, "väike n" statistika, pandi paika 20. sajandi esimesel kümnendil W. Gosseti töö avaldamisega, millesse ta paigutas postuleeritud maailmajaotusega postuleeritud t jaotuse. veidi hiljem...... Psühholoogiline entsüklopeedia

    Maurice Kendall Sir Maurice George Kendall Sünniaeg: 6. september 1907 (1907 09 06) Sünnikoht: Kettering, Ühendkuningriik Surmaaeg ... Wikipedia

    Prognoos- (Prognoos) Prognoosi definitsioon, prognoosimise ülesanded ja põhimõtted Prognoosi mõiste, prognoosimise ülesanded ja põhimõtted, prognoosimismeetodid Sisukord Sisu Määratlus Prognoosimise põhimõisted Prognoosimise ülesanded ja põhimõtted ... ... Investori entsüklopeedia

Kendalli järgu korrelatsioonikordaja arvutamiseks rk andmed on vaja järjestada ühe tunnuse järgi kasvavas järjekorras ja määrata vastavad pingeread teise tunnuse järgi. Seejärel määratakse teise tunnuse iga auastme jaoks järgnevate auastmete arv, mis on suurem kui võetud auaste, ja leitakse nende arvude summa.

Kendalli astme korrelatsioonikordaja on antud


kus R i on teise muutuja ridade arv alates i+1, mille suurus on suurem kui suurusjärk i selle muutuja koht.

Seal on koefitsientide jaotuse protsendipunktide tabelid rk, mis võimaldab testida hüpoteesi korrelatsioonikordaja olulisuse kohta.

Suurte valimite puhul kriitilised väärtused rk ei ole tabelina esitatud ja need tuleb arvutada ligikaudsete valemite abil, mis põhinevad asjaolul, et nullhüpoteesi H 0 korral: rk=0 ja suur n juhuslik väärtus

jaotatud ligikaudu standardse normaalseaduse järgi.

40. Seosed tunnuste vahel, mida mõõdetakse nominaal- või järguskaalades

Sageli on probleem kahe tunnuse sõltumatuse kontrollimisel, mida mõõdetakse nominaal- või järguskaalal.

Mõõdetakse mõne objekti puhul kahte tunnust X ja Y tasemete arvuga r ja s vastavalt. Selliste vaatluste tulemused on mugav esitada tabeli kujul, mida nimetatakse tunnuste juhuslikkuse tabeliks.

Tabel u i(i = 1, ..., r) ja vj (j= 1, ..., s) on tunnuste poolt võetud väärtused, väärtus nij on objektide arv atribuuti omavate objektide koguarvust X omandas tähenduse u i ja märk Y- tähendus vj

Tutvustame järgmisi juhuslikke muutujaid:

u i


- väärtust omavate objektide arv vj


Lisaks on ilmne võrdsus



Diskreetsed juhuslikud muutujad X ja Y sõltumatu siis ja ainult siis

kõigile paaridele i, j

Seetõttu hüpotees diskreetsete juhuslike suuruste sõltumatuse kohta X ja Y võib kirjutada nii:

Alternatiivina kasutage reeglina hüpoteesi

Hüpoteesi H 0 paikapidavust tuleks hinnata valimisageduste põhjal nij situatsioonitabelid. Vastavalt suurte arvude seadusele, n→∞ suhtelised sagedused on lähedased vastavatele tõenäosustele:



Hüpoteesi H 0 kontrollimiseks kasutatakse statistikat

millel on hüpoteesi kehtivuse kohaselt jaotus χ 2 s rs − (r + s− 1) vabadusastmed.

Sõltumatuse kriteerium χ 2 lükkab ümber hüpoteesi H 0 olulisuse tasemega α, kui:


41. Regressioonanalüüs. Regressioonanalüüsi põhimõisted

Uuritavate muutujate vaheliste statistiliste seoste matemaatiliseks kirjeldamiseks tuleks lahendada järgmised ülesanded:

ü valida funktsioonide klass, milles on soovitav otsida huvipakkuva sõltuvuse parimat (teatud mõttes) lähendit;

ü leida soovitud sõltuvuse võrrandites sisalduvate parameetrite tundmatute väärtuste hinnangud;

ü määrata kindlaks soovitud sõltuvuse saadud võrrandi adekvaatsus;

ü tuvastada kõige informatiivsemad sisendmuutujad.

Nende ülesannete kogum on regressioonanalüüsi uurimistöö objekt.

Regressioonifunktsioon (või regressioon) on ühe juhusliku suuruse matemaatilise ootuse sõltuvus teise juhusliku suuruse poolt võetud väärtusest, mis moodustab esimesega kahemõõtmelise juhuslike suuruste süsteemi.

Olgu olemas juhuslike muutujate süsteem ( X,Y), siis regressioonifunktsiooni Y peal X

Ja regressioonifunktsioon X peal Y

Regressioonifunktsioonid f(x) ja φ (y), ei ole vastastikku pöörduvad, välja arvatud juhul, kui seos on nende vahel X ja Y ei ole funktsionaalne.

Millal n-mõõtmeline vektor koordinaatidega X 1 , X 2 ,…, X n on võimalik arvestada mis tahes komponendi tingimuslikku matemaatilist ootust. Näiteks selleks X 1


nimetatakse regressiooniks X 1 peale X 2 ,…, X n.

Regressioonifunktsiooni täielikuks määratlemiseks on vaja teada väljundmuutuja tingimuslikku jaotust sisendmuutuja fikseeritud väärtuste jaoks.

Kuna reaalses olukorras pole selline teave kättesaadav, piirduvad nad tavaliselt sobiva lähendusfunktsiooni otsimisega f a(x) jaoks f(x) vormi statistiliste andmete alusel ( x i, y i), i = 1,…, n. Need andmed on tulemus n sõltumatud tähelepanekud y 1 ,…, y n juhuslik muutuja Y sisendmuutuja väärtustel x 1 ,…, x n, samas kui regressioonanalüüsis eeldatakse, et sisendmuutuja väärtused on täpselt määratud.

Parima lähendusfunktsiooni valimise probleem f a(x), mis on regressioonanalüüsis peamine ja selle lahendamiseks pole formaliseeritud protseduure. Mõnikord tehakse valik eksperimentaalsete andmete analüüsi, sagedamini teoreetiliste kaalutluste põhjal.

Kui eeldada, et regressioonifunktsioon on piisavalt sujuv, siis seda lähendav funktsioon f a(x) saab esitada lineaarse kombinatsioonina mõnest lineaarselt sõltumatute baasfunktsioonide komplektist ψ k(x), k = 0, 1,…, m−1, st kujul


kus m on tundmatute parameetrite arv θ k(üldjuhul on väärtus teadmata, mudeli koostamise käigus täpsustatud).

Selline funktsioon on parameetritelt lineaarne, seetõttu kõneldakse vaadeldaval juhul parameetritelt lineaarsest regressioonifunktsiooni mudelist.

Siis regressioonisirge parima lähenduse leidmise probleem f(x) taandatakse selliste parameetrite väärtuste leidmiseks, mille jaoks f a(x;θ) on saadaolevate andmete jaoks kõige adekvaatsem. Üks selle probleemi lahendamise viise on vähimruutude meetod.

42. Vähima ruudu meetod

Olgu punktide hulk ( x i, y i), i= 1,…, n asub tasapinnal mööda mingit sirget

Siis funktsioonina f a(x) regressioonifunktsiooni lähendamine f(x) = M [Y|x] on loomulik võtta argumendi lineaarne funktsioon x:


See tähendab, et oleme siin valinud baasfunktsioonideks ψ 0 (x)≡1 ja ψ 1 (x)≡x. Seda regressiooni nimetatakse lihtsaks lineaarseks regressiooniks.

Kui punktide kogum ( x i, y i), i= 1,…, n mis asub piki mingit kõverat, siis as f a(x) on loomulik, et proovitakse valida paraboolide perekond

See funktsioon on parameetritelt mittelineaarne θ 0 ja θ 1 , aga funktsionaalse teisendusega (antud juhul logaritmiga) saab selle taandada uueks funktsiooniks f'a(x), lineaarsed parameetrid:


43. Lihtne lineaarne regressioon

Lihtsaim regressioonimudel on lihtne (ühemõõtmeline, ühefaktoriline, paariline) lineaarne mudel, millel on järgmine vorm:


kus ε i- korreleerimata juhuslikud muutujad (vead), millel on null matemaatilised ootused ja samad dispersioonid σ 2 , a ja b on konstantsed koefitsiendid (parameetrid), mida tuleb hinnata mõõdetud reaktsiooniväärtuste põhjal y i.

Parameetrite hinnangute leidmiseks a ja b lineaarne regressioon, mis määrab sirge, mis vastab kõige paremini katseandmetele:


rakendatakse vähimruutude meetodit.

Vastavalt vähimruudud parameetrite hinnangud a ja b leitakse väärtuste ruuduhälvete summa minimeerimise tingimusest y i vertikaalselt "tõelisest" regressioonijoonest:

Olgu juhusliku suuruse kohta kümme vaatlust Y muutuja fikseeritud väärtuste jaoks X

Et minimeerida D võrdsustavad osatuletised nulliga a ja b:



Selle tulemusena saame hinnangute leidmiseks järgmise võrrandisüsteemi a ja b:


Nende kahe võrrandi lahendamine annab:



Parameetrite hinnangute avaldised a ja b võib esitada ka kui:

Seejärel regressioonisirge empiiriline võrrand Y peal X võib kirjutada järgmiselt:


Erapooletu dispersiooni hindaja σ 2 väärtuse hälvet y i kohandatud regressioonisirge on antud

Arvutage regressioonivõrrandi parameetrid


Seega näeb otsene regressioon välja järgmine:


Ja väärtuste hälvete hajumise hindamine y i sobitatud sirgest regressioonijoonest


44. Regressioonisirge olulisuse kontrollimine

Leitud skoor b≠ 0 võib olla sellise juhusliku suuruse realisatsioon, mille matemaatiline ootus on võrdne nulliga, st võib selguda, et regressioonisõltuvust tegelikult pole.

Selle olukorra lahendamiseks peaksite testima hüpoteesi H 0: b= 0 konkureeriva hüpoteesi H 1 alusel: b ≠ 0.

Regressioonijoone olulisust saab testida dispersioonanalüüsi abil.

Kaaluge järgmist identiteeti:

Väärtus y iŷ i = ε i nimetatakse jäägiks ja see on kahe suuruse erinevus:

ü vaadeldava väärtuse (vastuse) kõrvalekalle vastuste üldkeskmisest;

ü prognoositava vastuse väärtuse hälve ŷ i samast keskmisest

Ülaltoodud identiteedi saab kirjutada kui


Mõlemad pooled ruudustades ja summeerides i, saame:


Kui kogused on nimetatud:

SC n ruutude täis (kogu) summa, mis on võrdne vaatluste ruutude hälvete summaga vaatluste keskmise väärtuse suhtes

SC p regressioonist tingitud ruutude summa, mis võrdub regressioonijoone väärtuste ruutude hälvete summaga vaatluste keskmise suhtes.

ruutude jääksumma SC 0 . mis võrdub vaatluste ruutude kõrvalekallete summaga regressioonijoone väärtuste suhtes

Seega levik Y-kov nende keskmise suhtes võib teatud määral seostada sellega, et kõik vaatlused ei asu regressioonisirgel. Kui see nii oleks, oleks ruutude summa regressiooni suhtes null. Sellest järeldub, et regressioon on oluline, kui SC p ruutude summa on suurem kui SC 0 ruutude summa.

Arvutused regressiooni olulisuse testimiseks on tehtud järgmises dispersioonanalüüsi tabelis

Kui vead ε i jaotatud vastavalt normaalseadusele, siis kui hüpotees H 0 on tõene: b= 0 statistikat:


jaotatud Fisheri seaduse järgi vabadusastmete arvuga 1 ja n−2.

Nullhüpotees lükatakse tagasi olulisuse tasemel α, kui statistika arvutatud väärtus F on suurem kui α-protsendipunkt f 1;n−2;α Fisheri jaotusest.

45. Regressioonimudeli adekvaatsuse kontrollimine. Jääkmeetod

Konstrueeritud regressioonimudeli adekvaatsuse all mõistetakse tõsiasja, et ükski teine ​​mudel ei anna vastuse prognoosimisel olulist paranemist.

Kui kõik vastuse väärtused saadakse erinevate väärtustega x st sama kohta pole mitut vastuse väärtust saadud x i, siis saab läbi viia ainult piiratud lineaarse mudeli adekvaatsuse testi. Sellise kontrolli aluseks on jäägid:

Kõrvalekalded kehtestatud mustrist:

Kuna X on ühemõõtmeline muutuja, punktid ( x i, d i) saab tasapinnal kujutada nn jääkgraafiku kujul. Selline esitus võimaldab mõnikord tuvastada jääkide käitumises mõningast seaduspärasust. Lisaks võimaldab jääkide analüüs analüüsida eeldust vigade jaotuse seaduse kohta.

Juhul, kui vead on jaotatud tavaseaduse järgi ja nende dispersioonile on a priori hinnang σ 2 (varem teostatud mõõtmiste põhjal saadud hinnang), siis on võimalik mudeli adekvaatsuse täpsem hinnang.

Kasutades F-Fischeri test, saate kontrollida, kas jääkvariatsioon on oluline s 0 2 erineb a priori hinnangust. Kui see on oluliselt suurem, siis on tegemist puudulikkusega ja mudel tuleks üle vaadata.

Kui a priori hinnang σ 2 ei, aga vastuse mõõtmised Y korratakse kaks või enam korda samade väärtustega X, siis saab neid korduvaid vaatlusi kasutada teise hinnangu saamiseks σ 2 (esimene on jääkdispersioon). Selline hinnang esindab väidetavalt "puhast" viga, sest kui teeme x sama kahe või enama vaatluse puhul, siis ainult juhuslikud muutused võivad tulemusi mõjutada ja nende vahel hajuvust tekitada.

Saadud hinnang osutub dispersiooni usaldusväärsemaks hinnanguks kui muude meetoditega saadud hinnang. Sel põhjusel on katsete planeerimisel mõttekas seada katseid kordustega.

Oletame, et on olemas m erinevaid tähendusi X : x 1 , x 2 , ..., x m. Laske iga väärtuse jaoks x i saadaval n i vastuse tähelepanekud Y. Vaatluste koguarv on:

Siis saab lihtsa lineaarse regressioonimudeli kirjutada järgmiselt:


Leiame "puhaste" vigade dispersiooni. See dispersioon on kombineeritud dispersiooni hinnang σ 2, kui esitame vastuse väärtused yij juures x = x i proovivõtu mahuna n i. Selle tulemusel on "puhaste" vigade dispersioon võrdne:

See dispersioon toimib hinnanguna σ 2 olenemata sellest, kas paigaldatud mudel on õige.

Näitame, et “puhaste vigade” ruutude summa on osa ruutude jääksummast (jääkvariatsiooni avaldises sisalduv ruutude summa). Jäänud jaoks j vaatlus kl x i võib kirjutada järgmiselt:

Kui me paneme selle võrrandi mõlemad pooled ruudu ruutu ja seejärel liidame need kokku j ja poolt i, siis saame:

Selle võrrandi vasakul küljel on ruutude jääksumma. Parempoolne esimene liige on "puhaste" vigade ruutude summa, teist liiget võib nimetada ebaadekvaatsuse ruutude summaks. Viimasel summal on m−2 vabadusastet, sellest ka ebaadekvaatsuse dispersioon

Teststatistika hüpoteesi testimiseks H 0: lihtne lineaarne mudel on adekvaatne, vastupidi hüpoteesile H 1: lihtne lineaarne mudel on ebapiisav, on juhuslik suurus

Kui nullhüpotees on tõene, siis väärtus F on Fisheri jaotus vabadusastmetega m−2 ja nm. Regressioonisirge lineaarsuse hüpotees tuleks tagasi lükata olulisuse tasemega α, kui saadud statistiline väärtus on suurem kui Fisheri jaotuse α-protsendipunkt vabadusastmete arvuga. m−2 ja nm.

46. Regressioonimudeli adekvaatsuse kontrollimine (vt 45). Dispersioonanalüüs

47. Regressioonimudeli adekvaatsuse kontrollimine (vt 45). Määramiskoefitsient

Mõnikord kasutatakse regressioonijoone kvaliteedi iseloomustamiseks näidismääramiskordajat. R 2 , mis näitab, milline osa (osa) regressioonist tingitud ruutude summast on SC p SC n ruutude kogusummas:

Mida lähemal R 2 ühele, mida paremini läheneb regressioon katseandmetele, seda lähemal asuvad vaatlused regressioonijoonele. Kui a R 2 = 0, siis vastuse muutused on täielikult tingitud arvestamata tegurite mõjust ja regressioonisirge on paralleelne teljega x-ov. Lihtsa lineaarse regressiooni korral determinatsioonikordaja R 2 on võrdne korrelatsioonikordaja ruuduga r 2 .

Maksimaalset väärtust R 2 =1 saab saavutada ainult juhul, kui vaatlused viidi läbi erinevatel x-s väärtustel. Kui andmetes on korduvaid kogemusi, siis R 2 väärtus ei saa jõuda ühikuni, ükskõik kui hea mudel ka poleks.

48. Lihtsate lineaarse regressiooni parameetrite usaldusvahemikud

Nii nagu valimi keskmine on tõelise keskmise (populatsiooni keskmise) hinnang, nii on ka regressioonivõrrandi valimi parameetrid a ja b- ei midagi muud kui tõeliste regressioonikordajate hinnangud. Erinevad valimid annavad erineva hinnangu keskmisele, nagu ka erinevad valimid annavad regressioonikordajatele erinevaid hinnanguid.

Eeldusel, et vigade jaotamise seadus ε i neid kirjeldab tavaline seadus, parameetri hinnang b on normaaljaotus parameetritega:


Kuna parameetri hinnang a on sõltumatute normaaljaotusega suuruste lineaarne kombinatsioon, sellel on ka normaaljaotus keskmise ja dispersiooniga:


Sel juhul dispersiooni hindamise usaldusvahemik (1 − α). σ 2, võttes arvesse, et suhe ( n−2)s 0 2 /σ 2 seadusega levitatud χ 2 vabadusastmete arvuga n−2 määratakse avaldise järgi


49. Regressioonijoone usaldusvahemikud. Usaldusvahemik sõltuvate muutuja väärtuste jaoks

Tavaliselt me ​​ei tea regressioonikoefitsientide tegelikke väärtusi a ja b. Teame ainult nende hinnanguid. Teisisõnu, tegelik regressioonisirge võib minna kõrgemale või madalamale, olla järsem või lamedam kui näidisandmetel põhinev. Arvutasime regressioonikoefitsientide usaldusvahemikud. Saate arvutada ka regressioonijoone enda usalduspiirkonna.

Olgu lihtsa lineaarse regressiooni jaoks vaja konstrueerida (1− α ) vastuse matemaatilise ootuse usaldusvahemik Y väärtusega X = X 0 . See matemaatiline ootus on a+bx 0 ja selle hinnang

Sest siis.

Saadud matemaatilise ootuse hinnang on korreleerimata normaaljaotusega suuruste lineaarne kombinatsioon ja seetõttu on sellel ka normaaljaotus, mille keskpunkt on tingimusliku matemaatilise ootuse ja dispersiooni tegelik väärtus.

Seetõttu iga väärtuse regressioonijoone usaldusvahemik x 0 võib esitada kui


Nagu näete, saadakse minimaalne usaldusvahemik, kui x 0 võrdub keskmise väärtusega ja suureneb kui x 0 “nihkub” keskmisest igas suunas.

Et saada ülaltoodud avaldises kogu regressioonifunktsiooni jaoks sobiv liigeste usaldusintervallide kogum kogu selle pikkuses. t n −2,α /2 tuleb asendada