Multikollineaarsuse definitsioon. Multikollineaarsuse põhjused ja tagajärjed

Multikollineaarsus on lineaarne seos kahe või enama faktori muutuja vahel mitmekordse regressiooni võrrandis. Kui selline sõltuvus on funktsionaalne, siis räägitakse täielik multikollineaarsus. Kui see on korrelatsioonis, siis osaline multikollineaarsus. Kui täielik multikollineaarsus on pigem teoreetiline abstraktsioon (see avaldub eelkõige siis, kui näiv muutuja, millel on k kvaliteeditasemed, asendada k dihhotoomsed muutujad), siis on osaline multikollineaarsus väga reaalne ja peaaegu alati olemas. Me saame rääkida ainult selle raskusastmest. Näiteks kui selgitavad muutujad hõlmavad kasutatavat tulu ja tarbimist, siis on need mõlemad muutujad loomulikult tugevas korrelatsioonis.

Multikollineaarsuse puudumine on klassikalise lineaarse mitmikmudeli üks soovitavaid eeldusi. See on tingitud järgmistest kaalutlustest:

1) Täieliku multikolineaarsuse korral on lineaarse mitmikregressiooni parameetrite hinnangute koostamine vähimruutude meetodil üldiselt võimatu.

2) Osalise multikollineaarsuse korral võivad regressiooniparameetrite hinnangud olla ebausaldusväärsed ja lisaks on raske määrata

tegurite isoleeritud panus tulemuslikkuse näitajasse.

Multikollineaarsuse esinemise peamiseks põhjuseks on protsesside olemasolu uuritavas objektis, mis mõjutavad samaaegselt mõnda sisendmuutujat, kuid mida mudelis ei arvestata. Selle põhjuseks võib olla ainevaldkonna ebakvaliteetne uuring või uuritava objekti parameetrite vahelise seose keerukus.

Kahtlustatakse multikollineaarsuse olemasolu:

– mudelis suur hulk ebaolulisi tegureid;

– regressiooniparameetrite suured standardvead;

- hinnangute ebastabiilsus (väike algandmete muutus toob kaasa nende olulise muutumise).

Üks lähenemisviis multikollineaarsuse olemasolu või puudumise kindlakstegemiseks on korrelatsioonimaatriksi analüüsimine

selgitavate muutujate vahel ja kõrge p(tavaliselt suurem kui 0,7) tegurite paaride tuvastamine. Kui sellised tegurid on olemas, siis räägitakse nendevahelisest selgest kollineaarsusest.

Siiski ei saa paaripõhised korrelatsioonikordajad individuaalselt hinnata mitme teguri (mitte ainult kahe) koosmõju.

Seetõttu, et hinnata mudelis multikollineaarsuse olemasolu, on tegurite vaheliste pamaatriksi determinant ( interfaktoriaalne korrelatsioonimaatriksi determinant)

Mida lähemal on interfaktori korrelatsioonimaatriksi determinant 0-le, seda tugevam on multikollineaarsus ja vastupidi, mida lähemal on determinant 1-le, seda väiksem on multikollineaarsus.


Multikollineaarsustegurite statistiline olulisus määratakse nullhüpoteesi testimise teel alternatiivse hüpoteesi alusel. Nullhüpoteesi kontrollimiseks kasutatakse Pearsoni jaotust vabadusastmetega. Statistika vaadeldud väärtus leitakse valemiga , kus n on vaatluste arv, m on tegurite arv. Antud olulisuse taseme jaoks määratakse kriitiline väärtus Pearsoni jaotuse kriitiliste punktide tabelist. Kui , siis hüpotees lükatakse tagasi ja leitakse, et mudelil on tegurite multikollineaarsus.

Multikollineaarsust mõjutavaid tegureid saab eristada ka mitmekordse määramise koefitsientide analüüsiga, mis arvutatakse tingimusel, et iga tegurit käsitletakse teistest teguritest sõltuva muutujana: , , …, . Mida lähemal need on 1-le, seda tugevam on tegurite multikollineaarsus. See tähendab, et mitmekordse määramise koefitsiendi minimaalse väärtusega tegurid tuleks võrrandisse jätta.

Täieliku multikollineaarsuse osas tuleks selle vastu võidelda kõige resoluutsema võitlusega: regressioonivõrrandist tuleb kohe eemaldada muutujad, mis on teiste muutujate lineaarsed kombinatsioonid.

Osaline multikollineaarsus ei ole nii tõsine pahe, mida tuleks avastada ja kõrvaldada. Kõik sõltub uuringu eesmärkidest. Kui modelleerimise põhiülesanne on ainult sõltuva muutuja väärtuste ennustamine, siis piisavalt suure määramiskoefitsiendiga () ei mõjuta multikollineaarsuse olemasolu mudeli ennustusomadusi. Kui modelleerimise eesmärk on määrata iga teguri panus sõltuva muutuja muutumisse, siis on multikollineaarsuse olemasolu tõsine probleem.

Lihtsaim meetod multikollineaarsuse kõrvaldamiseks on mudelist ühe või mitme korrelatsioonimuutuja väljajätmine.

Kuna multikollineaarsus sõltub otseselt valimist, siis on võimalik, et erineva valimi puhul ei teki multikollineaarsust üldse või pole see nii tõsine. Seetõttu piisab mõnel juhul multikollineaarsuse vähendamiseks valimi suuruse suurendamisest.

Mõnikord saab multikollineaarsuse probleemi lahendada mudeli spetsifikatsiooni muutmisega: kas muudetakse mudeli kuju või lisatakse tegureid, mida algses mudelis arvesse ei võetud, kuid mis mõjutavad oluliselt sõltuvat muutujat.

Mõnel juhul on võimalik multikollineaarsust minimeerida või täielikult kõrvaldada faktorimuutujate teisendamise teel. Kõige tavalisemad teisendused on:

1. Multikollineaarsete muutujate lineaarne kombinatsioon (näiteks ).

2. Multikollineaarse muutuja asendamine selle juurdekasvuga .

3. Ühe kollineaarse muutuja jagamine teisega.

Oletame, et me kaalume regressioonivõrrandit ja selle hindamise andmed sisaldavad vaatlusi erineva kvaliteediga objektide kohta: meeste ja naiste, valgete ja mustade kohta. Küsimus, mis võib siinkohal meile huvi pakkuda, on järgmine - kas vastab tõele, et vaadeldav mudel on kahe erineva kvaliteediga objektide hulka kuuluva valimi puhul sama? Sellele küsimusele saab vastata Chow testi abil.

Mõelge mudelitele:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

Esimeses proovis N tähelepanekud, teises - M tähelepanekud. Näide: Y- töötasu, selgitavad muutujad - vanus, staaž, haridustase. Kas olemasolevatest andmetest järeldub, et palga sõltuvuse mudel paremal pool seletavatest muutujatest on meestel ja naistel sama?

Selle hüpoteesi kontrollimiseks võite kasutada üldist hüpoteeside kontrollimise skeemi, võrreldes regressiooni piirangutega ja regressiooni ilma piiranguteta. Piiramatu regressioon on siin regressioonide (1) ja (2) liit, s.o. ESSUR = ESS 1 + ESS 2 , vabadusastmete arv - N + M - 2k. Piiratud regressioon (st regressioon eeldusel, et nullhüpotees on täidetud) oleks regressioon kogu saadaolevate vaatluste jaoks:

, i = 1,…, N+M (3).

Hinnates (3), saame ESS R. Nullhüpoteesi testimiseks kasutame järgmist statistikat:

Millel nullhüpoteesi kehtivuse korral on Fisheri jaotus lugeja vabadusastmete arvuga k ja nimetaja N+ M- 2k.

Kui nullhüpotees on tõene, saame kombineerida saadaolevad valimid üheks ja hinnata mudelit N+M tähelepanekud. Kui lükkame nullhüpoteesi tagasi, ei saa me kahte valimit üheks liita ja me peame neid kahte mudelit eraldi hindama.


Üldise lineaarse mudeli uurimine, mida me varem käsitlesime, on statistilise aparaadi põhjal väga oluline, nagu nägime. Kuid nagu kõigi rakenduste puhul, on mat. Statistika kohaselt sõltub meetodi tugevus eeldustest, mis selle aluseks on ja on selle rakendamiseks vajalikud. Mõnda aega käsitleme olukordi, kus üht või mitut lineaarse mudeli aluseks olevat hüpoteesi rikutakse. Nendel juhtudel kaalume alternatiivseid hindamismeetodeid. Näeme, et mõnede hüpoteeside roll on olulisem kui teiste roll. Peame nägema, milliseid tagajärgi võivad teatud tingimuste (eelduste) rikkumised kaasa tuua, suutma kontrollida, kas need on täidetud või mitte, ning teadma, milliseid statistilisi meetodeid saab ja tuleks rakendada, kui klassikaline vähimruutude meetod ei sobi.

1. Muutujate vaheline seos on lineaarne ja seda väljendab võrrand - mudeli spetsifikatsioonivead (oluliste seletavate muutujate lisamata jätmine võrrandisse, mittevajalike muutujate lisamine võrrandisse, muutujatevahelise sõltuvuse vormi vale valik);


2. X 1 ,…,X k- deterministlikud muutujad - stohhastilised regressorid, lineaarselt sõltumatud - täielik multikollineaarsus;

4. - heteroskedastilisus;

5. kl i ¹ k- vea autokorrelatsioon

Enne vestluse alustamist vaatleme järgmisi mõisteid: paariskorrelatsioonikordaja ja osakorrelatsioonikordaja.

Oletame, et uurime ühe muutuja mõju teisele muutujale ( Y ja X). Et mõista, kuidas need muutujad on üksteisega seotud, arvutame paaripõhise korrelatsioonikordaja järgmise valemi abil:

Kui saime korrelatsioonikordaja väärtuse 1 lähedale, siis järeldame, et muutujad on omavahel üsna tugevalt seotud.

Kui aga kahe uuritava muutuja vaheline korrelatsioonikordaja on 1-le lähedane, ei pruugi need tegelikult olla sõltuvad. Vaimuhaigete ja raadiovastuvõtjate näide on näide nn "valekorrelatsioonist". Korrelatsioonikordaja kõrge väärtus võib tuleneda ka kolmanda muutuja olemasolust, millel on tugev mõju kahele esimesele muutujale, mis on nende kõrge korrelatsiooni põhjuseks. Seetõttu tekib muutujate vahelise "puhta" korrelatsiooni arvutamise probleem X ja Y, st korrelatsioonid, mille puhul on välistatud teiste muutujate mõju (lineaarne). Selleks võetakse kasutusele osalise korrelatsioonikordaja mõiste.

Seega tahame määrata muutujate vahelise osalise korrelatsiooni koefitsiendi X ja Y, välja arvatud muutuja lineaarne mõju Z. Selle määramiseks kasutatakse järgmist protseduuri:

1. Hindame regressiooni,

2. Saame saldod,

3. Hindame regressiooni,

4. Saame saldod,

5. - osalise korrelatsiooni valimikordaja, mõõdab muutujatevahelise seose astet X ja Y, puhastatud muutuja mõjust Z.

Otsesed arvutused:

Omadus:

Osalise korrelatsioonikordaja konstrueerimise protseduur on üldistatud juhuks, kui soovitakse vabaneda kahe või enama muutuja mõjust.


1. Täiuslik multikollineaarsus.

Üks Gauss-Markovi nõue ütleb meile, et seletavaid muutujaid ei tohiks seostada ühegi täpse seosega. Kui muutujate vahel on selline seos olemas, siis ütleme, et mudelil on täiuslik multikollineaarsus. Näide. Mõelge mudelile, mille keskmine testiskoor koosneb kolmest selgitavast muutujast: ma- vanema sissetulek D- keskmine koolitusele kulutatud tundide arv päevas, W- keskmine koolitusele kulutatud tundide arv nädalas. See on ilmne W=7D. Ja see suhe täitub iga meie valimisse sattunud õpilase puhul. Täieliku multikollineaarsuse juhtu on lihtne jälgida, kuna sel juhul pole vähimruutude meetodit kasutades hinnanguid võimatu koostada.

2. Osaline multikollineaarsus või lihtsalt multikollineaarsus.

Märksa levinum on olukord, kus seletavate muutujate vahel puudub täpne lineaarne seos, kuid nende vahel on tihe korrelatsioon - seda juhtumit nimetatakse reaalseks või osaliseks multikollineaarsuseks (lihtsalt multikollineaarsuseks) - muutujate vahel tihedate statistiliste seoste olemasolu. Peab ütlema, et multikollineaarsuse küsimus on pigem nähtuse avaldumisastme, mitte tüübi küsimus. Iga regressioonihinnang mõjutab seda ühel või teisel viisil, välja arvatud juhul, kui kõik selgitavad muutujad on täiesti korrelatsioonita. Selle probleemi käsitlemine algab alles siis, kui see hakkab tõsiselt mõjutama regressioonihinnangu tulemusi (statistiliste seoste olemasolu regressorite vahel ei anna tingimata ebarahuldavaid hinnanguid). Seega on multikollineaarsus probleem, kui tugev korrelatsioon regressorite vahel põhjustab ebausaldusväärseid regressioonihinnanguid.

Multikollineaarsuse tagajärjed:

Formaalselt alates ( X"X) on mittedegenereerunud, siis saame koostada regressioonikordajate OLS-hinnangud. Tuletagem aga meelde, kuidas väljenduvad regressioonikordajate hinnangute teoreetilised dispersioonid: , kus a ii - i-maatriksi diagonaalelement . Kuna maatriks (X"X) on lähedane degeneratsioonile ja det( X"X) » 0, siis

1) pöördmaatriksi põhidiagonaalil on väga suured arvud, kuna pöördmaatriksi elemendid on pöördvõrdelised det( X"X). Seega teoreetiline dispersioon i koefitsient on piisavalt suur ja dispersioonihinnang on samuti suur, seetõttu t- statistika on väike, mis võib viia statistilise ebaolulisuseni i- koefitsient. See tähendab, et muutujal on seletatavale muutujale oluline mõju ja me järeldame, et see on ebaoluline.

2) Kuna hinnangud ja sõltuvad ( X"X) -1 , mille elemendid on pöördvõrdelised det( X"X), siis kui lisame või eemaldame ühe või kaks vaatlust, lisades või eemaldades maatriksisse ühe või kaks rida X"X, siis ja väärtused võivad oluliselt muutuda kuni märgi muutumiseni - hinnangutulemuste ebastabiilsus.

3) Regressioonivõrrandi tõlgendamise raskused. Oletame, et võrrandis on kaks muutujat, mis on omavahel seotud: X 1 ja X 2. Regressioonikoefitsient juures X 1 tõlgendatakse muutuse mõõduna Y muutes X 1 ceteris paribus, s.o. kõigi teiste muutujate väärtused jäävad samaks. Kuna aga muutujad X 1 ja X 2 on seotud, siis muutuja muutused X 1 toob kaasa prognoositavad muutused muutujas X 2 ja väärtus X 2 ei jää samaks.

Näide: kus X 1 – kogupindala, X 2 - elutuba. Ütleme: "Kui elamispinda suurendada 1 ruutmeetri võrra, siis muude asjaolude samaks jäädes tõuseb korteri hind dollarite võrra." Kuid sel juhul suureneb elamispind 1 ruutmeetri võrra. m ja hinnatõus on . Piirake muutuja mõju Y iga muutuja eraldi ei ole enam võimalik. Väljapääs selles olukorras korteri hinnaga on võtta mudelisse mitte üldpind, vaid nn "lisa" või "lisa" pind.

Multikollineaarsuse märgid.

Puuduvad täpsed kriteeriumid multikollineaarsuse olemasolu (puudumise) määramiseks. Siiski on selle tuvastamiseks heuristilised soovitused:

1) Analüüsige regressorite omavaheliste paariskorrelatsioonikordajate maatriksit ja kui korrelatsioonikordaja väärtus on lähedane 1-le, siis peetakse seda multikollineaarsuse märgiks.

2) Korrelatsioonimaatriksi analüüs on vaid pealiskaudne hinnang multikollineaarsuse olemasolu (puudumise) kohta. Selle probleemi hoolikamaks uurimiseks arvutatakse osakorrelatsioonikordajad või iga selgitava muutuja määramiskoefitsiendid kõigi teiste regressioonis olevate selgitavate muutujate jaoks.

4) (XX) on sümmeetriline positiivne-määratletud maatriks, seetõttu on kõik selle omaväärtused mittenegatiivsed. Kui maatriksi determinant ( XX) on võrdne nulliga, siis on ka minimaalne omaväärtus null ja pidevus säilib. Seetõttu saab inimese omaväärtuse järgi hinnata ka maatriksi determinandi lähedust nullile ( XX). Lisaks sellele omadusele on oluline ka minimaalne omaväärtus, kuna koefitsiendi standardviga on pöördvõrdeline .

5) Multikollineaarsuse olemasolu saab hinnata väliste märkide järgi, mis on multikollineaarsuse tagajärjed:

a) mõnel hinnangul on majandusteooria seisukohalt ebaõiged märgid või ebamõistlikult suured väärtused;

b) väike muutus esialgsetes majandusandmetes toob kaasa olulise muutuse mudeli koefitsientide hinnangutes;

c) enamus t-koefitsientide statistika ei erine oluliselt nullist, samal ajal on mudel tervikuna märkimisväärne, mida tõendab kõrge väärtus F- statistika.

Kuidas vabaneda multikollineaarsusest, kuidas see kõrvaldada:

1) Faktoranalüüsi kasutamine. Üleminek algsest regressorite hulgast, mille hulgas on statistiliselt sõltuvaid, uutele regressoritele Z 1 ,…,Z m kasutades põhikomponentide meetodit - algsete muutujate asemel käsitleme algsete muutujate asemel mõnda nende lineaarset kombinatsiooni, mille vaheline korrelatsioon on väike või puudub üldse. Siin on ülesanne anda uutele muutujatele sisukas tõlgendus Z. Kui see ebaõnnestub, pöördume tagasi algsete muutujate juurde, kasutades pöördteisendusi. Saadud hinnangud on siiski kallutatud, kuid neil on väiksem dispersioon.

2) Valige kõigi saadaolevate muutujate hulgast need tegurid, mis selgitatavat muutujat kõige olulisemalt mõjutavad. Valikumenetlusi käsitletakse allpool.

3) Üleminek kallutatud hindamismeetoditele.

Multikollineaarsuse probleemiga silmitsi seistes soovib kogenematu teadlane esialgu lihtsalt kõrvaldada täiendavad regressorid, mis võivad seda põhjustada. Siiski ei ole alati selge, millised muutujad on selles mõttes üleliigsed. Lisaks, nagu allpool näidatakse, põhjustab nn oluliselt mõjutavate muutujate tagasilükkamine OLS-i hinnangute nihke.


Pange tähele, et mõnel juhul ei ole multikollineaarsus nii tõsine "pahe", et selle tuvastamiseks ja kõrvaldamiseks tuleks teha märkimisväärseid jõupingutusi. Põhimõtteliselt sõltub kõik uuringu eesmärgist.
Kui mudeli põhiülesanne on ennustada sõltuva muutuja tulevasi väärtusi, siis piisavalt suure määramiskoefitsiendiga R2(gt; 0,9) ei mõjuta multikollineaarsuse olemasolu tavaliselt mudeli ennustusomadusi ( kui edaspidi säilivad korrelatsioonimuutujate vahel samad seosed nagu varem ).
Kui on vaja määrata iga selgitava muutuja mõju aste sõltuvale muutujale, moonutab multikollineaarsus, mis viib standardvigade suurenemiseni, tõenäoliselt muutujate vahelisi tõelisi seoseid. Selles olukorras on suur probleem multikollineaarsus.
Multikollineaarsuse kõrvaldamiseks pole ühtset meetodit, mis toimiks igal juhul. See on tingitud asjaolust, et multikollineaarsuse põhjused ja tagajärjed on mitmetähenduslikud ning sõltuvad suuresti valimi tulemustest.
Välista muutuja(d) mudelist
Lihtsaim meetod multikollineaarsuse kõrvaldamiseks on mudelist ühe või mitme korrelatsioonimuutuja väljajätmine. Selle meetodi rakendamisel tuleb olla ettevaatlik. Sellises olukorras on võimalikud spetsifikatsioonivead, mistõttu on rakendatud ökonomeetrilistes mudelites soovitav mitte välistada selgitavaid muutujaid enne, kui multikollineaarsus muutub tõsiseks probleemiks.
Rohkemate andmete või uue näidise hankimine
Kuna multikollineaarsus sõltub otseselt valimist, siis on võimalik, et erineva valimi puhul multikollineaarsus ei ole või ei ole nii tõsine. Mõnikord piisab multikollineaarsuse vähendamiseks valimi suuruse suurendamisest. Näiteks kui kasutate aastaandmeid, saate üle minna kvartaliandmetele. Andmete hulga suurendamine vähendab regressioonikordajate dispersioone ja suurendab seega nende statistilist olulisust. Uue proovi hankimine või vana laiendamine ei ole aga alati võimalik või on seotud tõsiste kuludega. Lisaks võib see lähenemisviis parandada autokorrelatsiooni. Need probleemid piiravad selle meetodi rakendatavust.
Mudeli spetsifikatsiooni muutus
Mõnel juhul saab multikollineaarsuse probleemi lahendada mudeli spetsifikatsiooni muutmisega: kas muudetakse mudeli kuju või lisatakse selgitavad muutujad, mida algses mudelis ei arvestata, kuid mis mõjutavad oluliselt sõltuvat muutujat. . Kui see meetod on õigustatud, vähendab selle kasutamine hälvete ruudu summat, vähendades seeläbi regressiooni standardviga. See toob kaasa koefitsientide standardvigade vähenemise.
Eelteabe kasutamine mõne parameetri kohta
Mõnikord saate mitme regressioonimudeli koostamisel kasutada eelteavet, eriti mõne regressioonikoefitsiendi teadaolevaid väärtusi.
Tõenäoliselt saab praegu väljatöötatava mudeli jaoks kasutada mõne esialgse (tavaliselt lihtsama) mudeli või sarnase mudeli jaoks arvutatud koefitsientide väärtusi, mis põhinevad eelnevalt saadud valimil.
Kõige olulisemate selgitavate muutujate valik. Elementide järjestikuse ühendamise protseduur
Liikumine vähemate selgitavate muutujate juurde võib vähendada üksteisest väga sõltuvate funktsioonide edastatava teabe dubleerimist. See on täpselt see, millega me seisame silmitsi selgitavate muutujate multikollineaarsuse korral.
Lase

Mitmekordne koefitsient
korrelatsioonid sõltuva muutuja Y ja selgitavate muutujate hulga X 1,X 2,...,Xm vahel. Seda defineeritakse kui tavalist paarikaupa korrelatsioonikoefitsienti Y ja lineaarfunktsiooni vahel
regressioon Y = b0 + KX1 + b2X2+... + bmXm. Laske & = R-1 – maatriks maatriksi R pöördväärtusega:


Siis saab koefitsiendi Ry.X = Rr(xi,x2,..,x) ruudu arvutada valemiga:


Korrigeerituna erapooletuse suhtes, on määramisteguri R2y.X hinnang R*2.X järgmiselt:

(Kui valem (6.7) annab negatiivse arvu, siis eeldame


Madalam usalduspiir

kindlaks määratud
valemi järgi:

Praktikas kasutatakse mudelisse kaasatavate selgitavate muutujate otsustamisel sageli järjestikuse ühendamise protseduuri.
(j = 1, 2,..., m). Kus

langeb kokku tavalise ruuduga
paaride korrelatsioonikordaja

Lase


siis on xp muutuja kõige informatiivsem. Seejärel arvutatakse erapooletu-korrigeeritud koefitsient
(m = 1) ja selle alumine usalduspiir R2min (1) .


paar jxp,xq on informatiivsem). Seejärel arvutatakse kõrvalekalde suhtes korrigeeritud koefitsient (m = 2)
ja selle alumine usalduspiir R2min (2) .

Protseduuri jätkatakse, kuni etapis (kuni +1) on täidetud järgmine tingimus:
Seejärel kaasatakse mudelisse kõige informatiivsemad muutujad, mis on saadud esimesel k sammul. Pange tähele, et arvutustes kasutatakse valemeid (6.7) ja (6.8), milles m asemel võtame sammuarvu k vastava väärtuse.
Tegelikult ei garanteeri see meetod multikollineaarsusest vabanemist.
Multikollineaarsuse kõrvaldamiseks kasutatakse ka muid meetodeid.
Näide 6.1. Saadaval on järgmised tingimuslikud andmed (tabel 6.1):
Tabel 6.1
Andmed jadaühenduse meetodi jaoks


X1

x2

X3

Kell

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Mõelge iga selgitava muutuja mõju sõltuvale muutujale eraldi. Paari korrelatsioonikordajate arvutamisel saame, et koefitsiendi väärtus on suurim

Seejärel:


Vaatleme muutujapaaride (x1, x2) ja (x1, x3) mõju sõltuvale muutujale. Esiteks kaaluge muutujapaari (x1, x2) mõju.



icuvum uvjpcuuivi, ykhsdul rsymsldsіtsshіm msіida ііi^іsdіsіїslpi-
muutujate liitumisel tuleks võrrandisse lisada kaks selgitavat muutujat. Seetõttu on teoreetiline võrrand järgmine:
kammi meetod
Kaaluge "harja meetodit" ("harja regressioon"), et kõrvaldada multikollineaarsus. Meetodi pakkus välja A. E. Hoerl 1962. aastal ja seda kasutatakse siis, kui maatriks (xtX) on degeneratsiooni lähedal. Maatriksi diagonaalelementidele (xtX) lisatakse väike arv (0,1 kuni 0,4). Sel juhul saadakse võrrandi parameetrite kallutatud hinnangud. Kuid selliste hinnangute standardvead multikollineaarsuse korral on väiksemad kui tavalise vähimruutude meetodi korral.
Näide 6.2. Algandmed on toodud tabelis 6 2 Selgitavate muutujate korrelatsioonikordaja

mida
näitab tugevat multikollineaarsust.
Tabel 6.2
Andmed multikollineaarsuse uurimiseks harjameetodil


x1

x2

Kell

1

1,4

7

2

3,1

12


Siis saame võrrandi y \u003d 2,63 + 1,37x1 + 1,95x2. Pöördmaatriksi diagonaalelemendid vähenevad oluliselt ja on võrdsed z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, mis toob kaasa koefitsientide standardvigade vähenemise.
Kokkuvõte
Peamiste tagajärgede hulgas, mida multikollineaarsus võib kaasa tuua, on järgmised:
  1. kui testida põhihüpoteesi mitme regressioonikordaja ebaolulisuse kohta t-testi abil, siis enamikul juhtudel sellega nõustutakse, kuid regressioonivõrrand ise osutub A-testiga testimisel siiski oluliseks, mis näitab mitmekordse korrelatsioonikordaja ülehinnatud väärtus;
  2. saadud hinnangud mitmekordse regressioonivõrrandi kordajate kohta on enamasti ebamõistlikult kõrged või ebaõigete märkidega;
  3. ühe või kahe vaatluse lisamine või väljajätmine algandmetest avaldab tugevat mõju mudeli koefitsientide hinnangutele;
  4. multikollineaarsuse olemasolu mitme regressiooni mudelis võib muuta selle edasiseks kasutamiseks (näiteks prognooside tegemiseks) sobimatuks.
Küsimused enesekontrolliks
  1. Mis on multikollineaarsus?
  2. Millised näitajad näitavad multikollineaarsuse olemasolu?
  3. Mis on XTX-maatriksi determinant täiusliku multikollineaarsuse korral?
  4. Mida saab öelda selgitavate muutujate juures olevate koefitsientide tähenduse kohta multikollineaarsuse korral?
  5. Millist transformatsiooni tehakse harjameetodil, milleni see viib?
  6. Milline on selgitavate muutujate arvu järjestikuse suurendamise meetodi tehte järjekord?
  7. Mida näitab korrelatsioonikordaja?
  8. Mida näitab osakorrelatsioonikordaja?
0

Vene Föderatsiooni haridus- ja teadusministeerium

Föderaalne riigieelarveline õppeasutus

kõrgharidus

TVER RIIGIKOOLI TEHNIKAÜLIKOOL

"Raamatupidamise ja rahanduse osakond"

KURSUSE PROJEKT
erialal "Ökonomeetria"

"Multikollineaarsuse uurimine ökonomeetrilistes mudelites: muutuja(te) väljajätmine mudelist"

Tööjuht:

cand. need. Teadused, dotsent

Konovalova

Teostaja:

EK-1315 EPO rühma õpilane

Tver, 2015

Sissejuhatus………………………………………………………………………………3

1. Analüütiline osa…………………………………………………………………4

1.1. Üldistatud multikollineaarsuse tunnused ökonomeetrilistes mudelites………………………………………………………………………………….4

1.2. Peamised viisid multikollineaarsuse kõrvaldamiseks ökonomeetrilistes mudelites…………..……………………………………………..7

2. Kujundusosa………………………………………………………………………..11

2.1. Ökonomeetriliste uuringute teave ja metoodiline tugi……………………………………………………………………….11

2.2. Näide ökonomeetrilisest uuringust……………………………….17

Järeldus …………………………………………………………………………..30

Kasutatud allikate loetelu………………………………………………31

Sissejuhatus

Töö teema „Multikollineaarsuse uurimine ökonomeetrilistes mudelites: muutuja(te) väljajätmine mudelist“ asjakohasus tuleneb sellest, et meie ajal kohtab seda probleemi sageli rakenduslikes ökonomeetrilistes mudelites.

Uurimisobjektiks on multikollineaarsuse probleem. Uurimisobjektiks on ökonomeetrilised mudelid.

Töö põhieesmärk on ökonomeetriliste uuringute info- ja metoodilise toe disainilahenduste väljatöötamine.

Eesmärgi saavutamiseks püstitati ja lahendati järgmised õppetöö põhiülesanded:

  1. Multikollineaarsuse märkide üldistamine ökonomeetrilistes mudelites.
  2. Peamiste viiside väljaselgitamine multikollineaarsuse kõrvaldamiseks.

3. Ökonomeetriliste uuringute info- ja metoodilise toe arendamine.

  1. Analüütiline osa

1.1. Üldistatud multikollineaarsuse tunnused ökonomeetrilistes mudelites

Multikollineaarsus – ökonomeetrias (regressioonanalüüs) – lineaarse seose olemasolu regressioonimudeli seletavate muutujate (tegurite) vahel. Samal ajal eristavad nad täielik kollineaarsus, mis tähendab funktsionaalse (identse) lineaarse sõltuvuse olemasolu ja osaline või lihtsalt multikollineaarsus— tugeva korrelatsiooni olemasolu tegurite vahel.

Täielik kollineaarsus viib selleni ebakindlus parameetrid lineaarses regressioonimudelis, sõltumata hindamismeetoditest. Mõelge sellele, kasutades näitena järgmist lineaarset mudelit:

Olgu selle mudeli tegurid identselt seotud järgmiselt: . Seejärel kaaluge algset lineaarset mudelit, milles lisame esimesele koefitsiendile meelevaldne number a ja lahutada sama arv kahest ülejäänud koefitsiendist. Siis on meil (ilma juhusliku veata):

Seega, vaatamata mudeli koefitsientide suhteliselt suvalisele muutmisele, saadakse sama mudel. Selline mudel on põhimõtteliselt tuvastamatu. Ebakindlus on juba mudelis endas olemas. Kui arvestada 3-mõõtmelist koefitsientide ruumi, siis selles ruumis pole tõeliste koefitsientide vektor antud juhul ainus, vaid terve sirge. Iga punkt sellel sirgel on koefitsientide tõeline vektor.

Kui täielik kollineaarsus põhjustab parameetrite väärtuste ebakindlust, siis osaline multikollineaarsus põhjustab nende ebastabiilsust. hinnangud. Ebastabiilsus väljendub statistilise ebakindluse – hinnangute dispersiooni – suurenemises. See tähendab, et konkreetsed hindamistulemused võivad prooviti väga erineda, kuigi proovid on homogeensed.

Nagu teada, on mitmekordse regressiooni parameetrite hinnangute kovariatsioonimaatriks vähimruutude meetodil võrdne. Seega, mida “väiksem” on kovariatsioonimaatriks (selle determinant), seda “suurem” on parameetrihinnangute kovariatsioonimaatriks ja eelkõige seda suuremad on selle maatriksi diagonaalelemendid, st parameetrite hinnangute dispersioon. Suurema selguse huvides vaadake kahefaktorilise mudeli näidet:

Siis on parameetri hinnangu dispersioon näiteks esimese teguriga:

kus on valimi korrelatsioonikordaja tegurite vahel.

Siin on selgelt näha, et mida suurem on teguritevahelise korrelatsiooni absoluutväärtus, seda suurem on parameetrite hinnangute hajumine. At (täielik kollineaarsus) kaldub dispersioon lõpmatuseni, mis vastab varem öeldule.

Seega on parameetrite hinnangud ebatäpsed, mis tähendab, et teatud tegurite mõju seletatavale muutujale on raske tõlgendada. Samas ei mõjuta multikollineaarsus mudeli kui terviku kvaliteeti – seda võib tunnistada statistiliselt oluliseks ka siis, kui kõik koefitsiendid on ebaolulised (see on üks multikollineaarsuse tunnuseid).

Lineaarsetes mudelites võivad parameetrite vahelised korrelatsioonikoefitsiendid olla positiivsed või negatiivsed. Esimesel juhul kaasneb ühe parameetri suurenemisega teise parameetri suurenemine. Teisel juhul, kui üks parameeter suureneb, väheneb teine.

Sellest lähtuvalt on võimalik tuvastada lubatav ja lubamatu multikollineaarsus. Lubamatu multikollineaarsus on siis, kui tegurite 1 ja 2 vahel on oluline positiivne korrelatsioon ja samal ajal on iga teguri mõju korrelatsioonile funktsiooniga y ühesuunaline, st nii teguri 1 kui ka 2 suurenemine toob kaasa funktsiooni y suurendamiseks või vähendamiseks. Teisisõnu, mõlemad tegurid mõjuvad funktsioonile y ühtemoodi ja nendevaheline oluline positiivne korrelatsioon võib lubada ühe neist välja jätta.

Lubatud multikollineaarsus on selline, et tegurid toimivad funktsioonile y erinevalt. Siin on kaks võimalikku juhtumit:

a) teguritevahelise olulise positiivse korrelatsiooni korral on iga teguri mõju korrelatsioonile funktsiooniga y mitmesuunaline, s.t. ühe teguri suurenemine toob kaasa funktsiooni suurenemise ja teise teguri suurenemine funktsiooni y vähenemise.

b) kui tegurite vahel on oluline negatiivne korrelatsioon, siis ühe teguri suurenemisega kaasneb teise teguri vähenemine ja see muudab tegurid erinevaks, seega on võimalik igasugune märk tegurite mõjust funktsioonile y.

Praktikas eristatakse mõningaid iseloomulikumaid multikollineaarsuse tunnuseid: 1. Väike muutus algandmetes (näiteks uute vaatluste lisamine) toob kaasa olulise muutuse mudeli koefitsientide hinnangutes. 2. Hinnangutel on suured standardvead, väike olulisus, samas kui mudel tervikuna on oluline (kõrge määramiskoefitsiendi R 2 väärtus ja vastav F-statistika). 3. Koefitsientide hinnangud on teooria seisukohalt valed märgid või ebamõistlikult suured väärtused.

Kaudsed multikollineaarsuse tunnused on mudeli parameetrite hinnangute kõrged standardvead, väike t-statistika (ehk koefitsientide ebaolulisus), hinnangute valed märgid, hoolimata sellest, et mudel tervikuna tunnistatakse statistiliselt oluliseks (F suur väärtus). -statistika). Multikollineaarsusele võib viidata ka parameetrite hinnangute tugev muutus valimiandmete lisamisest (või eemaldamisest) (kui on täidetud proovi piisava homogeensuse nõuded).

Faktorite multikollineaarsuse tuvastamiseks saab analüüsida otseselt tegurite korrelatsioonimaatriksit. Juba paaride korrelatsioonikoefitsientide suurte moodulväärtuste (üle 0,7–0,8) olemasolu viitab võimalikele probleemidele saadud hinnangute kvaliteediga.

Paaripõhiste korrelatsioonikordajate analüüs on aga ebapiisav. On vaja analüüsida tegurite regressioonide määramise koefitsiente ülejäänud teguritele (). Soovitatav on indikaator arvutada. Viimaste liiga kõrged väärtused tähendavad multikollineaarsuse olemasolu.

Seega on multikollineaarsuse tuvastamise peamised kriteeriumid järgmised: kõrge R 2 kõigi ebaoluliste koefitsientide jaoks, kõrged paaridevahelised korrelatsioonikoefitsiendid, VIF-koefitsiendi kõrged väärtused.

1.2. Peamised viisid multikollineaarsuse kõrvaldamiseks ökonomeetrilistes mudelites

Enne multikollineaarsuse kõrvaldamise peamiste meetodite väljatoomist märgime, et mõnel juhul ei ole multikollineaarsus tõsine probleem, mis nõuab märkimisväärseid jõupingutusi selle tuvastamiseks ja kõrvaldamiseks. Põhimõtteliselt sõltub kõik uuringu eesmärgist.

Kui mudeli põhiülesanne on regressiooni ja tulevaste väärtuste ennustamine, siis piisavalt suure määramiskoefitsiendiga R2 (> 0,9) ei mõjuta multikollineaarsuse olemasolu tavaliselt mudeli ennustusomadusi. Kuigi see väide on õigustatud vaid juhul, kui edaspidi säilivad korrelatsiooniregressorite vahel samad suhted, mis seni. Kui uuringu eesmärk on määrata iga regressori mõju aste regressioonile, siis multikollineaarsuse olemasolu, mis viib standardvigade suurenemiseni, moonutab tõenäoliselt regressorite vahelisi tõelisi seoseid. Selles olukorras on suur probleem multikollineaarsus.

Pange tähele, et multikollineaarsuse kõrvaldamiseks pole ühtegi meetodit, mis igal juhul sobiks. Selle põhjuseks on asjaolu, et multikollineaarsuse põhjused ja tagajärjed on mitmetähenduslikud ja sõltuvad suuresti valimitulemustest.

Praktikas eristatakse multikollineaarsuse kõrvaldamise peamisi meetodeid:

  1. Regressorite väljajätmine mudelist Lihtsaim meetod multikollineaarsuse kõrvaldamiseks on mudelist ühe või mitme korrelatsiooniregressori väljajätmine. Selle meetodi rakendamisel tuleb siiski olla ettevaatlik. Sellises olukorras on võimalikud spetsifikatsioonivead. Näiteks teatud kauba nõudluse uurimisel saab selgitavate muutujatena kasutada selle kauba hinda ja selle kauba asendajate hindu, mis sageli omavahel korreleeruvad. Jättes mudelist välja asendushinnad, teeme suurema tõenäosusega spetsifikatsioonivea. Selle tulemusena on võimalik saada kallutatud hinnanguid ja teha ebamõistlikke järeldusi. Seega on rakendatud ökonomeetrilistes mudelites soovitav mitte kõrvaldada regressorid enne, kui nende kollineaarsus muutub tõsiseks probleemiks.
  2. Täiendavate andmete või uue valimi saamine Kuna multikollineaarsus sõltub otseselt valimist, siis on võimalik, et teise valimi puhul ei teki multikollineaarsust üldse või pole see nii tõsine. Mõnikord piisab multikollineaarsuse vähendamiseks valimi suuruse suurendamisest. Näiteks kui kasutate aastaandmeid, saate üle minna kvartaliandmetele. Andmete hulga suurendamine vähendab regressioonikordajate dispersioone ja suurendab seega nende statistilist olulisust. Uue proovi hankimine või vana laiendamine ei ole aga alati võimalik või on seotud tõsiste kuludega. Lisaks võib see lähenemisviis parandada autokorrelatsiooni. Need probleemid piiravad selle meetodi rakendatavust.

III. Mudeli spetsifikatsiooni muutmine Mõnel juhul saab multikollineaarsuse probleemi lahendada mudeli spetsifikatsiooni muutmisega: kas muudetakse mudeli kuju või lisatakse uusi regressoreid, mida algses mudelis ei arvestata. kuid mõjutavad oluliselt sõltuvat muutujat. Kui see meetod on õigustatud, vähendab selle kasutamine hälvete ruudu summat, vähendades seeläbi regressiooni standardviga. See toob kaasa koefitsientide standardvigade vähenemise.

  1. Muutujate teisendamisel on paljudel juhtudel võimalik multikollineaarsuse probleemi minimeerida või täielikult kõrvaldada ainult muutujate teisendamise abil. Iga vaatluse sisendandmed jagatakse selle vaatluse ühe sõltuva regressori väärtustega. Põhikomponentide meetodi rakendamine mudeli teguritele võimaldab lähtetegureid teisendada ja saada ortogonaalsete (korreleerimata) tegurite kogum. Samal ajal võimaldab multikollineaarsuse olemasolu piirduda väikese arvu põhikomponentidega. Siiski võib tekkida probleem põhikomponentide mõtestatud tõlgendamisel.

Kui kõigi märkide järgi on olemas multikollineaarsus, siis ökonomeetriate seas on selles küsimuses erinevaid arvamusi. Multikollineaarsuse probleemiga silmitsi seistes võib loomulikult tekkida soov loobuda "lisa" sõltumatutest muutujatest, mis võivad seda põhjustada. Siiski tuleb meeles pidada, et sel juhul võivad tekkida uued raskused. Esiteks pole kaugeltki alati selge, millised muutujad on näidatud tähenduses üleliigsed.

Multikollineaarsus tähendab ainult ligikaudset lineaarset seost tegurite vahel, kuid see ei too alati esile "lisa" muutujaid. Teiseks võib paljudes olukordades mis tahes sõltumatute muutujate eemaldamine oluliselt mõjutada mudeli tähendust. Lõpuks nn oluliste muutujate tagasilükkamine, s.o. sõltumatud muutujad, mis tegelikult mõjutavad uuritavat sõltuvat muutujat, põhjustavad mudeli koefitsientide nihke. Praktikas eemaldatakse tavaliselt multikollineaarsuse tuvastamisel analüüsi jaoks kõige vähem oluline tegur ja seejärel arvutusi korratakse.

Seega eristatakse praktikas põhilisi multikollineaarsuse elimineerimise meetodeid: valimi muutmine või suurendamine, ühe muutuja välistamine, multikollineaarsete muutujate teisendamine (kasutada mittelineaarseid vorme, kasutada agregaate (mitme muutuja lineaarsed kombinatsioonid), kasutada selle asemel esimesi erinevusi Kui aga multikollineaarsust ei välistata, võite seda ignoreerida, võttes arvesse erandi otstarbekust.

  1. Disain osa

2.1. Ökonomeetriliste uuringute info- ja metoodiline tugi

Ökonomeetriliste uuringute teabetugi sisaldab järgmist teavet:

Sisestage teave:

  • statistilised andmed sotsiaal-majandusliku näitaja kohta, mis on määratletud sõltuva muutujana (tegurid – tulemused);
  • statistilised andmed sotsiaal-majanduslike näitajate kohta, mis on määratletud selgitavate muutujatena (tegurid - märgid);

Vaheinfo:

  • regressioonivõrrandi mudel, hinnanguline regressioonivõrrand, kvaliteedinäitajad ja järeldus regressioonivõrrandi kvaliteedi kohta, järeldus multikollineaarsuse probleemi olemasolu (puudumise) kohta, soovitused mudeli kasutamiseks;

Tõhus teave:

  • hinnanguline regressioonivõrrand, järeldus regressioonivõrrandi kvaliteedi kohta, järeldus multikollineaarsuse probleemi olemasolu (puudumise) kohta, soovitused mudeli kasutamiseks.

Ökonomeetrilise uurimistöö metoodika on järgmine: täpsustus; parametriseerimine, kontrollimine, lisauuringud, prognoosimine.

1. Regressioonivõrrandi mudeli spetsifikatsioon sisaldab sõltuva muutuja korrelatsioonisõltuvuse graafilist analüüsi igast seletavast muutujast. Graafilise analüüsi tulemuste põhjal tehakse järeldus lineaarsete või mittelineaarsete tüüpide regressioonivõrrandi mudeli kohta. Graafiliseks analüüsiks on kõige sagedamini soovitatav kasutada MsExceli hajutusgraafiku tööriista. Selle etapi tulemusena määratakse regressioonivõrrandi mudel ning mittelineaarse vormi puhul määratakse ka selle lineariseerimise meetodid.

2. Regressioonivõrrandi parameetrite määramine hõlmab regressiooniparameetrite hindamist ja nende sotsiaalmajanduslikku tõlgendamist. Parameetristamiseks kasutatakse MsExceli lisandmoodulite "Data Analysis" osana "Regression" tööriista. Automatiseeritud regressioonianalüüsi tulemuste põhjal (veerg „Koefitsiendid“) määratakse regressiooniparameetrid ning antakse ka nende tõlgendus vastavalt standardreeglile:

Bj tähistab suurust, mille võrra muutuja Y väärtus keskmiselt muutub, kui sõltumatu muutuja Xj suureneb ühe võrra, kui kõik muud asjad on võrdsed.

Regressioonivõrrandi vaba liige on võrdne sõltuva muutuja Y ennustatud väärtusega juhul, kui kõik sõltumatud muutujad on võrdsed nulliga.

3. Regressioonivõrrandi kontrollimine toimub automaatse regressioonianalüüsi (2. etapp) tulemuste põhjal järgmiste näitajate kohta: "R-ruut", "Olulisus F", "P-väärtus" (iga regressiooniparameetri jaoks ), samuti vastavalt sobitus- ja jääkgraafikule .

Määratakse kindlaks koefitsientide olulisus ja hinnatakse mudeli kvaliteeti. Selleks võetakse arvesse "F olulisust", "P-väärtust" ja "R-ruutu". Kui "P-väärtus" on väiksem kui staatilise olulisuse võrrand, näitab see koefitsiendi olulisust. Kui “R-ruut” on suurem kui 0,6, siis see tähendab, et regressioonimudel kirjeldab hästi sõltuva muutuja Y käitumist muutujate teguritel.

Kui "olulisus F" on väiksem kui staatilise olulisuse võrrand, tunnistatakse määramiskordaja (R-ruut) tinglikult statistiliselt oluliseks.

Jääkide graafik võimaldab hinnata vigade erinevusi. Kui Xi erinevatele väärtustele vastavate vigade vahel pole olulisi erinevusi, see tähendab, et Xi erinevate väärtuste veavariatsioonid on ligikaudu samad ja võib eeldada, et probleeme pole. Sobivusgraafik võimaldab teil kujundada hinnanguid baas-, prognoosi- ja faktoriväärtuste kohta.

Kokkuvõttes tehakse otsus regressioonivõrrandi kvaliteedi kohta.

  1. Täiendavad uuringud.

4.1. Multikollineaarsuse esimese märgi avastamine. Lõigetes 2-3 saadud regressioonanalüüsi tulemuste põhjal kontrollitakse olukordi, kus määramiskordaja on kõrge väärtusega (R 2 > 0,7) ja staatiliselt oluline (olulisus F<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05). Sellise olukorra tuvastamisel tehakse järeldus multikollineaarsuse eelduse kohta.

4.2. Multikollineaarsuse teise märgi tuvastamine. Tegurmuutujate vaheliste korrelatsioonikordajate arvutuste põhjal määratakse üksiktegurite oluline seos. Arvutuste tegemiseks MS Excelis on soovitatav kasutada tööriista "Andmeanalüüs / korrelatsioon". Vastavalt korrelatsioonikordaja väärtustele tehakse järeldused: mida lähemal (r) äärmuslikele punktidele (±1), seda suurem on lineaarse seose aste, kui korrelatsioonikordaja on väiksem kui 0,5, siis seda peetakse. et suhe on nõrk. Multikollineaarsuse olemasolu eeldatakse järgmisel juhul, kui vähemalt kahe muutuja vahel on oluline korrelatsioonikordaja (st absoluutväärtuses üle 0,7).

4.3. Multikollineaarsuse kolmanda märgi tuvastamine. Tegurmuutujate vaheliste ja olulise korrelatsioonikordaja (jaotis 4.2) muutujate vahelise abiregressiooni hindamise põhjal tehakse järeldus multikollineaarsuse olemasolu kohta, kui vähemalt üks abiregressioon on oluline ja oluline. Determinantkoefitsiendi täiendavate regressioonide meetod on järgmine: 1) koostatakse regressioonivõrrandid, mis ühendavad iga regressori kõigi ülejäänud regressioonidega; 2) iga regressioonivõrrandi jaoks arvutatakse determinatsioonikoefitsiendid R 2; 3) kui võrrand ja määramiskordaja tunnistatakse statistiliselt oluliseks, siis see regressor toob kaasa multikollineaarsuse.

4.4 Kohtuotsuste üldistamine.

Punktide 4.1–4.3 alusel moodustatakse otsus multikollineaarsuse ja multikollineaarsuseni viivate regressorite olemasolu/puudumise kohta.

Järgmiseks koostatakse juhised mudeli kasutamiseks (multikollineaarsuse probleemi ignoreerimisel või puudumisel) või soovitused multikollineaarsuse kõrvaldamiseks (praktikas muutuja elimineerimiseks).

Muutuja välistamisel on soovitatav kasutada reeglit:

Determinatsioonikordaja määratakse algselt n vaatluse põhjal koostatud regressioonivõrrandi jaoks (R 2 1);

Jättes arvesse (k) viimased muutujad, moodustatakse ülejäänud tegurite jaoks vastavalt esialgsele n vaatlusele võrrand ja määratakse sellele determinatsioonikordaja (R 2 2);

F-statistika arvutatakse: kus (R 1 2 -R 2 2) on võrrandi kadu muutujateks langemise tagajärjel, (K) on täiendavalt ilmnenud vabadusastmete arv, (1- R 1 2 ) / (n-m-l) on algvõrrandite seletamatu dispersioon;

Kriitiline väärtus F a ,k ,n- m -1 määratakse Fisheri jaotuse kriitiliste punktide tabelite järgi antud olulisuse tasemel a ja vabadusastmetel v 1 =k, v 2 =n-m-l;

Otsused väljajätmise otstarbekuse kohta kujundatakse reegli järgi: k muutuja võrrandist väljajätmine (samaaegne) loetakse F > F a , k , n- m - 1 korral sobimatuks, vastasel juhul on selline välistamine lubatav.

Kui muutuja on elimineeritud, analüüsitakse saadud mudelit vastavalt lõigetele 3–4; ja võrreldes algse mudeliga valitakse selle tulemusel “parim”. Praktikas, kuna multikollineaarsus ei mõjuta mudeli ennustavat jõudlust, võib seda probleemi ignoreerida.

5. Prognoosimine toimub punktis 4.4 valitud esialgse / “parim” mudeli järgi, retrospektiivse prognoosimise skeemi järgi, mille puhul kasutatakse prognoosi jaoks viimast 1/3 vaatlustest.

5.1. Punkti prognoos. Tegurmuutujate tegelikud väärtused prognoosiperioodil loetakse prognoosituks, saadud muutuja prognoosiväärtused määratakse nii, nagu ennustab algne / "parim" mudel, tuginedes prognoosiperioodi faktormuutujatele. Microsoft Exceli "Graafik" tööriista abil joonistatakse vaatluste põhjal saadud muutuja tegelike ja prognoositud väärtuste graafik ning tehakse järeldus tegelike väärtuste läheduse kohta prognoositutele.

5.2. Intervallprognoosimine hõlmab standardsete ennustusvigade (kasutades Salkeveri näivaid muutujaid) ning prognoosiväärtuste ülemise ja alumise piiri arvutamist.

Microsoft Exceli "Andmete analüüsi/regressiooni" tööriista abil koostatakse kogu näidisandmestiku ja prognoosiperioodi jaoks regressioon, kuid lisatakse näivmuutujad D 1 , D 2 , ..., D p . Sel juhul on D i = 1 ainult vaatlushetke (n + i) puhul, kõikidel muudel hetkedel D i =0. Siis on näiva muutuja D i koefitsient võrdne prognoosiveaga ajahetkel (n + i) ja koefitsiendi standardviga on võrdne prognoosi standardveaga (S i). Seega viiakse läbi mudeli automatiseeritud regressioonanalüüs, kus X-väärtustena kasutatakse faktormuutujate koondväärtusi (valim ja ennustav) ning Salkeveri näivmuutujate väärtusi ning koondväärtust (valim ja Y-väärtustena kasutatakse saadud muutuja ennustavaid väärtusi.

Saadud Salkeveri näivate muutujate koefitsientide standardvead on võrdsed standardsete ennustusvigadega. Seejärel arvutatakse vahemiku prognoosi piirid järgmiste valemite järgi: Ymin n + i = Yemp n + i -S i *t cr, Ymax n + i = Yemp n + i +S i *t cr, kus t cr on Studenti jaotuse kriitiline väärtus, mis on määratud valemiga "=STYURASV(0,05; n-m-1)", m on selgitavate tegurite arv mudelis (Y * t), Yemp n + i on prognoositud väärtused saadud muutujast (punkt 5.1).

Microsoft Exceli "Graafik" tööriista abil koostatakse graafik vastavalt saadud muutuja tegelikele ja prognoositud väärtustele, prognoosi ülemisele ja alumisele piirile vaatluste kaupa. Järeldatakse, et saadud muutuja tegelikud väärtused mahuvad prognoositava intervalli piiridesse.

5.3. Mudeli stabiilsuse hindamine CHS-testi abil viiakse läbi järgmiselt:

a) Microsoft Exceli "Andmeanalüüsi/regressiooni" tööriista abil koostatakse regressioon, kus X-väärtusteks võetakse faktormuutujate koguväärtused (näidis ja prognoositud) ning Y väärtused on saadud muutuja koondväärtused (valim ja prognoositud). See regressioon määrab jääkide S ruutude summa;

b) punkti 5.2 regressiooni teel Salkeveri näidismuutujatega määratakse jääkide ruudu Sd summa;

c) F-statistika väärtus arvutatakse ja hinnatakse järgmise valemi järgi:

kus p on ennustavate sammude arv. Kui saadud väärtus on suurem kui kriitiline väärtus Fcr, mis on määratud valemiga "=FINV(0,05; p; n-m-1)", siis mudeli stabiilsuse hüpotees prognoosiperioodil lükatakse tagasi, vastasel juhul aktsepteeritakse.

5.4.Punktide 5.1-5.3 alusel hinnangute üldistamine mudeli ennustusomaduste kohta, mille tulemusena moodustub järeldus mudeli ennustuskvaliteedi kohta ja soovitused mudeli kasutamiseks prognoosimisel.

Seega vastab väljatöötatud informatsioon ja metoodiline tugi mitmete regressioonimudelite multikollineaarsuse probleemi ökonomeetrilise uurimise põhiülesannetele.

2.2. Näide ökonomeetrilisest uuringust

Uuring põhineb andmetel, mis kajastavad Venemaa Föderatsiooni tegelikke makromajanduslikke näitajaid ajavahemikul 2003-2011. (tabel 1), vastavalt p.2.1 meetodile.

Tabel 1

Majakulud. leibkonnad (miljardit rubla)[Y]

Rahvaarv (miljonit inimest)

Rahapakkumine (miljard rubla)

Töötuse määr (%)

1.Spetsifikatsioon Regressioonivõrrandi mudel sisaldab sõltuva muutuja Y korrelatsioonisõltuvuse graafilist analüüsi (Leibkonna kulutused selgitaval muutujal X 1 (rahvaarv) (joonis 1), sõltuva muutuja Y korrelatsioonisõltuvust (Leibkonna kulutused seletaval muutujal) X 2 (Rahapakkumine) (joonis 2), sõltuva muutuja Y (Leibkonna kulutused selgitava muutuja X 3 (Töötuse määr) korrelatsioonisõltuvus (joonis 3).

Joonisel 1 näidatud Y ja X 1 vahelise korrelatsiooni graafik peegeldab Y olulist (R 2 = 0,71) pöördlineaarset sõltuvust X 1 -st.

Joonisel 2 esitatud Y ja X 2 vahelise korrelatsiooni graafik peegeldab Y olulist (R 2 = 0,98) otsest lineaarset sõltuvust X 2 -st.

Joonisel 3 näidatud Y ja X 3 vahelise korrelatsiooni graafik peegeldab Y ebaolulist (R 2 = 0,15) pöördvõrdelist lineaarset sõltuvust X 3-st.

1. pilt

Joonis 2

Joonis 3

Selle tulemusena saab määrata lineaarse mitme regressiooni mudeli Y=b 0 +b 1 X 1 +b 2 X 2 + b 3 X 3 .

2. Parameetristamine regressioonivõrrand viiakse läbi "Regression" tööriista abil, mis on osa MsExceli lisandmoodulitest "Data Analysis" (joonis 4).

Joonis 4

Hinnanguline regressioonivõrrand on järgmine:

233983,8- 1605,6X 1 + 1,0X 2 + 396,22X 3.

Samal ajal tõlgendatakse regressioonikoefitsiente järgmiselt: rahvaarvu suurenemisega 1 miljoni inimese võrra, majakulud. talud vähenevad 1605,6 miljardi rubla võrra; rahapakkumise suurenemisega 1 miljardi rubla võrra. maja kulud. talud suurenevad 1,0 miljardi rubla võrra; kui töötuse määr tõuseb 1%, majakulud. talud suurenevad 396,2 miljardi rubla võrra. Faktormuutujate nullväärtuste korral majakulud. talud moodustavad 233 983,8 miljardit rubla, millel võib-olla puudub majanduslik tõlgendus.

3. Kontrollimine regressioonivõrrand viiakse läbi automatiseeritud regressioonianalüüsi tulemuste põhjal (2. etapp).

Seega on "R-ruut" võrdne 0,998-ga, st. regressioonivõrrand kirjeldab sõltuva muutuja käitumist 99% võrra, mis viitab võrrandi kirjelduse kõrgele tasemele. "F tähtsus" on 2,14774253442155E-07, mis tähendab, et "R-ruut" on märkimisväärne. B 0 "P-väärtus" on 0,002, mis näitab, et see parameeter on oluline. B 1 "P-väärtus" on 0,002, mis näitab, et see koefitsient on oluline. B 2 "P-väärtus" on 8,29103190343224E-07, mis näitab, et see koefitsient on märkimisväärne. B 3 "P-väärtus" on 0,084, mis näitab, et see koefitsient ei ole oluline.

Jääkide graafikute põhjal on jäägid e juhuslikud suurused.

Valikugraafikute põhjal tehakse järeldus mudeli tegelike ja prognoositud väärtuste läheduse kohta.

Seega on mudelil hea kvaliteet, samas kui b 3 ei ole oluline, seega võime eeldada multikollineaarsuse olemasolu.

4.Lisauuringud.

4.1. Multikollineaarsuse esimese märgi tuvastamine. Regressioonanalüüsi (joonis 5) järgi võime öelda, et on olemas esimene märk multikollineaarsusest, kuna ilmneb kõrge ja oluline R 2, leiti, et võrrandil on kõrge määramistegur ja üks koefitsientidest ei ole märkimisväärne. See viitab multikollineaarsuse olemasolule.

4.2. Multikollineaarsuse teise märgi tuvastamine.

Tegurmuutujate vaheliste korrelatsioonikordajate arvutuste põhjal määratakse üksiktegurite oluline seos. (Tabel 2). Multikollineaarsuse olemasolu eeldatakse järgmisel juhul, kui vähemalt kahe muutuja vahel on oluline korrelatsioonikordaja (st absoluutväärtuses üle 0,5).

tabel 2

[ x2]

[ X3]

[ x2]

[ X3]

Meie puhul on korrelatsioonikordaja X 1 ja X 2 vahel (-0,788), mis näitab tugevat seost muutujate X 1, X 2 vahel, samuti on korrelatsioonikordaja X 1 ja X 3 vahel (0,54), mis näitab tugevat sõltuvust muutujate X 1, X 3 vahel.

Selle tulemusena võime eeldada multikollineaarsuse olemasolu.

4.3. Multikollineaarsuse kolmanda märgi tuvastamine.

Kuna punktis 4.2 leiti tugev seos muutujate X 1 ja X 2 vahel, analüüsitakse täiendavalt nende muutujate vahelist abiregressiooni (joonis 5).

Joonis 5

Kuna "F-i olulisus" on 0,01, mis tähendab, et "R-ruut" ja abiregressioon on olulised, võib eeldada, et X 2 regressor viib multikollineaarsuseni.

Kuna punktis 4.2 leiti korrelatsioon muutujate X 1 ja X 3 vahel üle keskmise taseme, analüüsitakse täiendavalt nende muutujate vahelist abiregressiooni (joonis 6).

Joonis 6

Kuna "F-i olulisus" on 0,13, mis tähendab, et "R-ruut" ja abiregressioon ei ole olulised, võib eeldada, et X 3 regressor ei too kaasa multikollineaarsust.

Seega võime kolmanda märgi järgi eeldada multikollineaarsuse olemasolu.

4.4 Kohtuotsuste üldistamine.

Lõigete 4.1-4.3 analüüsi kohaselt leiti kõik kolm multikollineaarsuse märki, seega võib seda oletada suure tõenäosusega. Samal ajal, vaatamata jaotises 4.3 olevale eeldusele, mis puudutab regressorit, mis viib multikollineaarsuseni, võime soovitada X 3 esialgsest mudelist välja jätta, kuna X 3 on väikseima korrelatsioonikoefitsiendiga Y-ga ja koefitsient selles regressoris on algses võrrandis ebaoluline. Regressioonanalüüsi tulemused pärast X 3 välistamist on näidatud joonisel fig. 7.

Joonis 7

Samal ajal arvutame väljajätmise otstarbekuse kontrollimiseks F - statistika:

F fakt = 4,62,

ja F tabel = F 0,05; 1; 5 = 6,61, kuna F on fakt< F табл, то исключение допустимо для переменной X 3 .

Lineaarse mitmikregressioonimudeli kvaliteedi hindamine Y=b 0 +b 1 X 1 +b 2 X 2 . "R-ruut" võrdub 0,996, s.o. regressioonivõrrand kirjeldab sõltuva muutuja käitumist 99% võrra, mis viitab võrrandi kirjelduse kõrgele tasemele. "F tähtsus" on 3,02415218982089E-08, mis tähendab, et "R-ruut" on märkimisväärne. B 0 "P-väärtus" on 0,004, mis näitab, et see parameeter on oluline. B 1 "P-väärtus" on 0,005, mis näitab, et see koefitsient on oluline. B 2 "P-väärtus" on 3,87838361673427E-07, mis näitab, et see koefitsient on märkimisväärne. Hinnanguline regressioonivõrrand on järgmine:

2015 11,7 -1359,6 x 1 + 1,01 x 2

Samal ajal tõlgendatakse regressioonikoefitsiente järgmiselt: rahvaarvu vähenemisega 1 miljoni inimese võrra, majakulud. talud vähenevad 1359,6 miljardi rubla võrra; rahapakkumise taseme tõusuga, majakulutused. talud suurenevad 1,0 võrra) (miljardit rubla). Faktormuutujate nullväärtuste korral majakulud. talud moodustavad 201511,7 miljardit rubla, millel võib olla majanduslik tõlgendus.

Seega on mudel = 201511,7 -1359,6X 1 + 1,01X 2 hea kvaliteediga ja seda soovitatakse algmudeliga võrreldes “parima” prognoosimiseks.

5. Prognoosimine.

5.1 Punktiprognoos. Tegurmuutujate tegelikud väärtused prognoosiperioodil loetakse prognoosituks, saadud muutuja prognoosiväärtused määratakse nii, nagu ennustab "parim" mudel (= 201511,7 -1359,6X 1 + 1,01X 2) teguri põhjal. muutujad prognoosiperioodil. Microsoft Exceli "Graafik" tööriista abil joonistatakse vaatluste põhjal saadud muutuja tegelike ja prognoositud väärtuste graafik ning tehakse järeldus tegelike väärtuste läheduse kohta prognoositutele.

Tegurmuutujate ennustavad väärtused on toodud tabelis 3.

Tabel 3

Saadud muutuja prognoositavad väärtused määratakse prognoosiperioodi faktormuutujate põhjal nii, nagu ennustab "parim" mudel (= 201511,7 -1359,6X 1 + 1,01X 2). Prognoositavad väärtused on toodud tabelis 4, võrdluseks on lisatud tegelikud väärtused.

Tabel 4

[Y] empiiriline

Joonisel 8 on näidatud saadud muutuja tegelikud ja prognoositud väärtused, samuti prognoosi alumine ja ülemine piir.

Joonis 8

Vastavalt joonisele 8 säilitab prognoos tõusutrendi ja kõik prognoosi väärtused on lähedased tegelikele.

5.2. Intervallide prognoos.

Microsoft Exceli "Andmete analüüsi/regressiooni" tööriista abil koostatakse kogu näidisandmestiku ja prognoosiperioodi jaoks regressioon, kuid lisatakse näivmuutujad D 1 , D 2 , ..., D p . Sel juhul on D i = 1 ainult vaatlushetke (n + i) puhul, kõikidel muudel hetkedel D i =0. Andmed on toodud tabelis 5, regressioonitulemus joonisel 9.

Tabel 5

[Y] öökullid

Joonis 9

Siis on näiva muutuja koefitsiendi standardviga võrdne prognoosi standardveaga (S i): 2012. aastal on see 738,5; 2013. aastaks on 897,1; 2014. aastaks on 1139,4.

Intervallprognoosi piirid on arvutatud tabelis 6.

Tabel 6

[Y] empiiriline

[Y] öökullid

[S]pr

Tabeli järgi. 6, kasutades Microsoft Exceli "Graafik" tööriista, koostatakse graafik vastavalt saadud muutuja tegelikele ja prognoositud väärtustele, vaatlustel põhineva prognoosi ülemisele ja alumisele piirile (joonis 10).

Joonis 10

Graafiku järgi sobivad prognoosi väärtused intervallprognoosi piiridesse, mis näitab prognoosi head kvaliteeti.

5.3. Mudeli stabiilsuse hindamine CHS-testi abil viiakse läbi järgmiselt:

a) Microsoft Exceli "Andmeanalüüsi/regressiooni" tööriista abil koostatakse regressioon (joonis 11), kus X-väärtusteks võetakse faktormuutujate summaarsed (näidis- ja prognoositavad) väärtused ja Y-väärtused on koguväärtuste (proovi ja prognoosi) tulemuse muutuja. Selle regressiooni põhjal määratakse jääkide S=2058232,333 ruutude summa.

Joonis 11

b) regressiooniga p.3.2 Salkeveri näivate muutujatega (joonis 9) määratakse jääkide ruudu summa Sd=1270272,697.

c) F-statistika väärtus arvutatakse ja hinnatakse:

samal ajal F cr = F 0,05;3;5 = 5,40, siis on saadud väärtus väiksem kui kriitiline väärtus F cr ja nõustutakse mudeli stabiilsuse hüpoteesiga prognoosiperioodil.

5.4.Otsuste üldistamine mudeli ennustavate omaduste kohta punktide 5.1-5.3 alusel moodustatakse selle tulemusena järeldus mudeli kõrge ennustuskvaliteedi kohta (= 201511,7 -1359,6X 1 + 1,01X 2) ja antakse soovitused mudeli kasutamiseks prognoosimisel.

P.2.1 tehnikat on edukalt testitud, see võimaldab tuvastada peamised multikollineaarsuse tunnused ja seda võib soovitada sellisteks uuringuteks.

Järeldus

Multikollineaarsus – ökonomeetrias (regressioonanalüüs) – lineaarse seose olemasolu regressioonimudeli seletavate muutujate (tegurite) vahel. Samal ajal eristatakse täielikku kollineaarsust, mis tähendab funktsionaalse (identse) lineaarse sõltuvuse olemasolu, ja osalist või lihtsalt multikollineaarsust - tugeva korrelatsiooni olemasolu tegurite vahel.

Multikollineaarsuse peamised tagajärjed on: hinnangute suured dispersioonid, koefitsientide t-statistika vähenemine, koefitsientide hinnangud vähimruutude järgi muutuvad ebastabiilseks, raskused muutujate panuse määramisel, koefitsiendile vale märgi saamine.

Peamised kriteeriumid multikollineaarsuse tuvastamiseks on järgmised: kõrge R 2 ebaoluliste koefitsientidega; Kõrged paaridevahelised korrelatsioonikoefitsiendid; kõrged VIF väärtused.

Peamised meetodid multikollineaarsuse elimineerimiseks on: muutuja(te) väljajätmine mudelist; lisaandmete või uue proovi saamine; mudeli spetsifikatsiooni muutmine; mõne parameetri eelteabe kasutamine.

Väljatöötatud informatsioon ja metoodiline tugi vastab multikollineaarsuse probleemi ökonomeetrilise uuringu põhiülesannetele mitmes regressioonimudelis ja on soovitav sellisteks uuringuteks.

Kasutatud allikate loetelu

  1. Astahhov, S.N. Ökonomeetria [Tekst]: Hariduslik ja metoodiline kompleks. Kaasan, 2008. - 107 lk.
  2. Bardasov, S. A. ECONOMETRICA [Tekst]: õpik. 2. väljaanne, muudetud. ja täiendavad Tjumen: Tjumeni osariigi ülikooli kirjastus, 2010. 264 lk.
  3. Borodkina, L.I. Loengute kursus [Elektrooniline ressurss]. Juurdepääsurežiim – http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboynikov, Yu.E. ÖKONOMETRIA in EXCEL 1. osa [Tekst]: õpik, Novosibirsk 2005,156 lk.
  5. Eliseeva, I.I. Ökonomeetria töötuba: õpik. toetus majandusele. ülikoolid / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [ja jne] ; toim. I.I. Eliseeva - M.: Rahandus ja statistika, 2001. - 191 lk. - (14126-1).
  6. Multikollineaarsus [Elektrooniline ressurss]. Juurdepääsurežiim - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikov, A.I. Ökonomeetria [Tekst]: õpik. toetust nt. "Finants ja krediit", "Majandus" - M.: Dashkov i K, 2013. - 223 lk - (93895-1).
  8. Multikollineaarsuse probleem [Elektrooniline ressurss]. Juurdepääsurežiim - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak, V. Rakendusökonomeetria. Loeng nr 9 [Elektrooniline allikas]. Juurdepääsurežiim http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - entsüklopeediline sait [Elektrooniline ressurss]. Juurdepääsurežiim - http://kodcupon.ru/ra17syplinoe97/Multicollinearity.

Lae alla: Teil pole juurdepääsu failide allalaadimiseks meie serverist.

Vene Föderatsiooni Föderaalne Haridus- ja Teadusamet

Kostroma Riiklik Tehnikaülikool.

Kõrgema matemaatika osakond

ökonomeetriast teemal:

Multikollineaarsus

Esitatud

1. kursuse üliõpilane

kirjavahetusteaduskond

klass “Raamatupidamine,

analüüs ja audit”.

Kontrollitud

Katerzhina S.F.

Kostroma 2008


Multikollineaarsus

Multikollineaarsust mõistetakse seletavate muutujate kõrge vastastikuse korrelatsioonina. Multikollineaarsus võib avalduda funktsionaalses (eksplitsiitses) ja stohhastilises (varjatud) vormis.

Multikollineaarsuse funktsionaalses vormis on vähemalt üks seletavate muutujate vaheline paarisuhe lineaarne funktsionaalne seos. Sel juhul on maatriks X`X eriline, kuna sisaldab lineaarselt sõltuvaid veeruvektoreid ja selle determinant on võrdne nulliga, s.o. rikutakse regressioonanalüüsi eeldust, mis toob kaasa vastava normaalvõrrandisüsteemi lahendamise ja regressioonimudeli parameetrite hinnangute saamise võimatuse.

Majandusuuringutes avaldub aga multikollineaarsus sageli stohhastilisel kujul, kui vähemalt kahe seletava muutuja vahel on tihe korrelatsioon. Maatriks X`X on sel juhul mitteainsuses, kuid selle determinant on väga väike.

Samal ajal on reitinguvektor b ja selle kovariatsioonimaatriks ∑ b võrdelised pöördmaatriksiga (X`X) -1 ja seega on nende elemendid pöördvõrdelised determinandi |X`X| väärtusega. Selle tulemusel saadakse regressioonikordajate b 0 , b 1 ,…,b p olulised standardhälbed (standardvead) ja nende olulisuse hindamine t-kriteeriumi järgi ei ole mõttekas, kuigi üldiselt võib regressioonimudel pöörata. F-kriteeriumi järgi oluliseks.

Hinnangud muutuvad väga tundlikuks väikeste muutuste suhtes vaatlusandmetes ja valimi suuruses. Regressioonivõrranditel pole sel juhul reeglina tegelikku tähendust, kuna mõnel selle koefitsiendil võivad olla majandusteooria seisukohalt valed märgid ja ebamõistlikult suured väärtused.

Puuduvad täpsed kvantitatiivsed kriteeriumid multikollineaarsuse olemasolu või puudumise kindlakstegemiseks. Siiski on selle tuvastamiseks mõned heuristilised lähenemisviisid.

Üks selline lähenemine on analüüsida korrelatsioonimaatriksit selgitavate muutujate X 1 , X 2 ,…, X p vahel ja tuvastada muutujate paarid, millel on kõrge korrelatsioonimuutuja (tavaliselt suurem kui 0,8). Kui sellised muutujad on olemas, räägitakse nendevahelisest multikollineaarsusest. Samuti on kasulik leida ühe selgitava muutuja ja mõne nende rühma vahel mitu determinatsioonikordajat. Kõrge mitmekordse määramiskoefitsiendi olemasolu (tavaliselt suurem kui 0,6) näitab multikollineaarsust.

Teine lähenemine on X`X maatriksi uurimine. Kui maatriksi X`X determinant või selle minimaalne omaväärtus λ min on nullilähedased (näiteks samas suurusjärgus kumulatiivsete arvutusvigadega), siis see viitab multikollineaarsuse olemasolule. sama võib tõendada maatriksi X`X maksimaalse omaväärtuse λmax olulise kõrvalekaldega selle minimaalsest omaväärtusest λmin .

Multikollineaarsuse kõrvaldamiseks või vähendamiseks kasutatakse mitmeid tehnikaid. Lihtsaim neist (kuid sugugi mitte alati võimalik) on see, et kahest suure korrelatsioonikordaja (suurem kui 0,8) seletavast muutujast jäetakse üks muutuja vaatlusest välja. Samas otsustatakse eelkõige majanduslikest kaalutlustest lähtuvalt, milline muutuja alles jätta ja milline analüüsist eemaldada. Kui majanduslikust vaatenurgast ei saa eelistada kumbagi muutujat, siis jäetakse kahest muutujast see, millel on sõltuva muutujaga suurem korrelatsioonikordaja.

Teine meetod multikollineaarsuse kõrvaldamiseks või vähendamiseks on lülitumine erapooletutelt vähimruutude hinnangutelt kallutatud hinnangutele, millel on siiski väiksem dispersioon hinnangulise parameetri suhtes, st. väiksem matemaatiline ootus hinnangu b j ruudus hälbele parameetrist β j või M (b j - β j) 2 .

Vektoriga määratud hinnangutel on Gaussi-Markovi teoreemi kohaselt kõigi lineaarsete erapooletute hinnangute klassis minimaalsed dispersioonid, kuid multikollineaarsuse korral võivad need dispersioonid osutuda liiga suureks ja viidates vastavale kallutatud hinnangule. hinnangud võivad suurendada regressiooniparameetrite hindamise täpsust. Joonisel on kujutatud juhtum, kui kallutatud hinnang β j ^ , mille valimijaotus on antud tihedusega φ (β j ^).

Tõepoolest, olgu hinnangulise parameetri β j maksimaalne lubatud usaldusvahemik (β j -Δ, β j + Δ). Siis on usaldustõenäosus ehk hinnangu usaldusväärsus, mis on määratud intervalli jaotuskõvera aluse pindalaga (β j -Δ, β j +Δ), nagu jooniselt on hästi näha, sel juhul suurem β j hinnangul võrreldes b j-ga (joonisel on need alad varjutatud). Sellest lähtuvalt on kallutatud hinnangu korral hinnangu hälbe keskmine ruut hinnangulisest parameetrist väiksem, st:

M (β j ^ - β j) 2< M (b j - β j) 2

Kui kasutate "harja regressiooni" (või "harja regressiooni"), kasutatakse erapooletute hinnangute asemel vektori poolt antud kallutatud hinnanguid

β τ ^ =(X`X+τ E p +1) -1 X`Y,

kus τ – mingi positiivne arv, mida nimetatakse "harjaks" või "harjaks"

E p +1 on (р+1) järjestuse identsusmaatriks.

Lisa τ maatriksi diagonaalelementidele teeb X`X mudeli parameetrite hinnanguid nihutatud, kuid samal ajal suureneb normaalvõrrandisüsteemi maatriksi determinant - (X`X) asemel võrdub alates

|X`X+τ E p +1 |

Seega on võimalik multikollineaarsus välistada juhul, kui determinant |X`X| nullilähedane.

Multikollineaarsuse välistamiseks võib kasutada üleminekut algsetelt, üsna tiheda korrelatsiooniga seotud seletavatelt muutujatelt X 1 ,X 2 ,…, X n uutele muutujatele, mis esindavad algsete lineaarseid kombinatsioone. Sel juhul peaksid uued muutujad olema nõrgalt korrelatsioonis või üldse mitte. Selliste muutujatena võetakse näiteks komponentanalüüsis uuritud algsete seletusmuutujate vektori nn põhikomponendid ja vaadeldakse põhikomponentide regressiooni, milles viimased toimivad üldistatud selgitavate muutujatena, eeldusel, et edasine mõtestatud (majanduslik) tõlgendus.

Põhikomponentide ortogonaalsus takistab multikollineaarsuse efekti avaldumist. Lisaks võimaldab kasutatav meetod piirduda väikese arvu põhikomponentidega, millel on suhteliselt palju esialgseid selgitavaid muutujaid.

Multikollineaarsus - on mõiste, mida kasutatakse probleemi kirjeldamiseks, kus seletavate muutujate vaheline mitterange lineaarne seos annab ebausaldusväärsed regressioonihinnangud. Muidugi ei pruugi selline sõltuvus anda ebarahuldavaid hinnanguid. Kui kõik muud tingimused on soodsad, st kui vaatluste arv ja selgitavate muutujate valimi dispersioon on suur ning juhusliku liikme dispersioon väike, siis võib saada üsna häid hinnanguid.

Seega peab multikollineaarsus olema põhjustatud mitterange sõltuvuse ja ühe (või mitme) ebasoodsa tingimuse kombinatsioonist ja see on küsimus.

nähtuse avaldumisaste, mitte selle tüüp. Igasugune regressioonihinnang kannatab sellest mingil määral, välja arvatud juhul, kui kõik selgitavad muutujad on täiesti korrelatsioonita. Selle probleemi käsitlemine algab alles siis, kui see mõjutab tõsiselt regressioonihinnangu tulemusi.

See probleem on tavaline aegridade regressioonide puhul, st kui andmed koosnevad vaatluste seeriast teatud aja jooksul. Kui kahel või enamal sõltumatul muutujal on tugev ajatrend, on need tugevalt korrelatsioonis ja see võib viia multikollineaarsuseni.


Mida saab sel juhul teha?

Erinevad meetodid, mida saab kasutada multikollineaarsuse leevendamiseks, jagunevad kahte kategooriasse: esimesse kategooriasse kuuluvad katsed suurendada nelja tingimuse, mis tagavad regressioonihinnangu usaldusväärsuse, täitumise astet; teine ​​kategooria on välisteabe kasutamine. Kui kasutada esmalt võimalikke otsesaadavaid andmeid, siis oleks ilmselt kasulik vaatluste arvu suurendada.

Kui kasutate aegridade andmeid, saate seda teha iga ajaperioodi pikkust lühendades. Näiteks harjutuste 5.3 ja 5.6 nõudlusfunktsiooni võrrandite hindamisel saate aastaandmete kasutamiselt lülituda kvartaliandmetele.

Pärast seda tehakse 25 vaatluse asemel 100. See on nii ilmne ja nii lihtne teha, et enamik aegridu kasutavaid teadlasi rakendab aastaandmete asemel peaaegu automaatselt kvartaliandmeid, kui need on olemas, isegi kui multikollineaarsuse probleem on ei ole kõne all, vaid selleks, et vähendada regressioonikordajate minimaalseid teoreetilisi dispersioone. Siiski on selle lähenemisviisiga võimalikke probleeme. Saate autokorrelatsiooni sisse viia või tõhustada, kuid seda saab neutraliseerida. Lisaks saab mõõtmisvigadest tingitud nihke sisse tuua (või võimendada), kui kvartaliandmeid mõõdetakse väiksema täpsusega kui vastavad aastaandmed. Seda probleemi pole nii lihtne lahendada, kuid see võib osutuda tähtsusetuks.