Multikolinearitātes definīcija. Multikolinearitātes cēloņi un sekas

Daudzkolinearitāte Ir lineāra sakarība starp diviem vai vairākiem faktoriāliem mainīgajiem daudzkārtējās regresijas vienādojumā. Ja šāda atkarība ir funkcionāla, tad runā par to pilnīga multikolinearitāte... Ja tā ir korelācija, tad daļēja multikolinearitāte... Ja pilna multikolinearitāte drīzāk ir teorētiska abstrakcija (tā īpaši izpaužas, ja fiktīvais mainīgais ir k kvalitātes līmeņi, aizstāt ar k dihotomiski mainīgie), tad daļēja multikolinearitāte ir ļoti reāla un gandrīz vienmēr pastāv. Mēs varam runāt tikai par tā smaguma pakāpi. Piemēram, ja skaidrojošie mainīgie ietver rīcībā esošos ienākumus un patēriņu, tad abi šie mainīgie, protams, būs cieši saistīti.

Multikolinearitātes trūkums ir viens no klasiskā lineārā daudzkārtu modeļa vēlamajiem priekšnoteikumiem. Tas ir saistīts ar šādiem apsvērumiem:

1) Pilnīgas multikolinearitātes gadījumā parasti nav iespējams konstruēt lineārās daudzkārtējās regresijas parametru aplēses, izmantojot OLS.

2) Daļējas multikolinearitātes gadījumā regresijas parametru aplēses var būt neuzticamas un turklāt to ir grūti noteikt

faktoru izolēts ieguldījums efektīvajā rādītājā.

Galvenais multikolinearitātes rašanās iemesls ir tādu procesu klātbūtne pētāmajā objektā, kas vienlaikus ietekmē dažus ievades mainīgos, bet netiek ņemti vērā modelī. Tas var būt nekvalitatīva priekšmeta jomas pētījuma vai pētāmā objekta parametru savstarpējo attiecību sarežģītības rezultāts.

Ir aizdomas, ka daudzkolinearitāte ir:

- modelī liels skaits nenozīmīgu faktoru;

- lielas regresijas parametru standartkļūdas;

- aplēšu nestabilitāte (nelielas izmaiņas sākotnējos datos rada būtiskas izmaiņas).

Viena pieeja, lai noteiktu multikolinearitātes esamību vai neesamību, ir korelācijas matricas analīze

starp skaidrojošajiem mainīgajiem un faktoru pāru identificēšanu ar augstiem pāru korelācijas koeficientiem (parasti vairāk nekā 0,7). Ja šādi faktori pastāv, tad starp tiem ir skaidra kolinearitāte.

Tomēr pāru korelācijas koeficienti, ņemot vērā atsevišķi, nevar novērtēt vairāku faktoru (un ne tikai divu) kumulatīvo mijiedarbību.

Tāpēc, lai novērtētu multikolinearitātes esamību modelī, pāru korelācijas koeficientu matricas determinants starp faktoriem ( starpfaktoru korelācijas matricas determinants)

Jo tuvāk interfaktoru korelācijas matricas determinants 0, jo spēcīgāka ir multikolinearitāte, un otrādi, jo tuvāk determinants 1, jo mazāka multikolinearitāte.


Faktoru multikolinearitātes statistisko nozīmīgumu nosaka, pārbaudot nulles hipotēzi saskaņā ar alternatīvu hipotēzi. Pīrsona sadalījums ar brīvības pakāpēm tiek izmantots, lai pārbaudītu nulles hipotēzi. Novēroto statistikas vērtību nosaka pēc formulas, kur n- novērojumu skaits, m- faktoru skaits. Dotajam nozīmīguma līmenim kritisko vērtību nosaka no Pīrsona sadalījuma kritisko punktu tabulas. Ja, tad hipotēze tiek noraidīta un tiek uzskatīts, ka modelī pastāv faktoru multikolinearitāte.

Multikolinearitāti ietekmējošos faktorus var atšķirt arī, analizējot daudzkārtējās noteikšanas koeficientus, kas aprēķināti ar nosacījumu, ka katrs no faktoriem tiek uzskatīts par citu faktoru atkarīgu mainīgo:,,…,. Jo tuvāk tie ir 1, jo spēcīgāka ir faktoru multikolinearitāte. Tas nozīmē, ka vienādojumā ir jāatstāj faktori ar minimālo daudzkārtējās noteikšanas koeficienta vērtību.

Kas attiecas uz pilnīgu multikolinearitāti, tad ar to ir jāizcīna visizšķirošākā cīņa: nekavējoties izņemiet no regresijas vienādojuma mainīgos, kas ir citu mainīgo lineāras kombinācijas.

Daļēja multikolinearitāte nav tik nopietns ļaunums, lai tas būtu jāidentificē un jānovērš. Tas viss ir atkarīgs no pētījuma mērķiem. Ja modelēšanas galvenais uzdevums ir tikai paredzēt atkarīgā mainīgā vērtības, tad ar pietiekami lielu determinācijas koeficientu () multikolinearitātes klātbūtne neietekmē modeļa paredzamās īpašības. Ja modelēšanas mērķis ir arī noteikt katra faktora ieguldījumu atkarīgā mainīgā izmaiņās, tad multikolinearitātes klātbūtne ir nopietna problēma.

Vienkāršākā metode multikolinearitātes novēršanai ir izslēgt no modeļa vienu vai vairākus korelētus mainīgos.

Tā kā multikolinearitāte ir tieši atkarīga no izlases, iespējams, ka ar citu izlasi multikolinearitātes nebūs vispār vai arī tā nebūs tik nopietna. Tāpēc, lai samazinātu multikolinearitāti, dažos gadījumos ir pietiekami palielināt izlases lielumu.

Dažreiz multikolinearitātes problēmu var atrisināt, mainot modeļa specifikāciju: vai nu mainās modeļa forma, vai tiek pievienoti faktori, kas netika ņemti vērā sākotnējā modelī, bet būtiski ietekmē atkarīgo mainīgo.

Dažos gadījumos multikolinearitāti var samazināt vai pilnībā novērst, pārveidojot faktoru mainīgos. Šajā gadījumā visizplatītākās ir šādas transformācijas:

1. Daudzkolineāru mainīgo lineāra kombinācija (piemēram,).

2. Daudzkolineārā mainīgā aizstāšana ar tā pieaugumu.

3. Viena kolineāra mainīgā dalīšana ar citu.

Pieņemsim, ka mēs apsveram regresijas vienādojumu un tā novērtēšanas dati satur novērojumus par dažādas kvalitātes objektiem: vīriešiem un sievietēm, baltajiem un melnādainajiem. jautājums, kas mūs šeit varētu interesēt, ir šāds - vai tiešām aplūkojamais modelis sakrīt diviem paraugiem, kas saistīti ar dažādas kvalitātes objektiem? Jūs varat atbildēt uz šo jautājumu, izmantojot čau testu.

Apsveriet modeļus:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

Pirmajā paraugā N novērojumi, otrajā - M novērojumiem. Piemērs: Y- darba samaksa, skaidrojošie mainīgie - vecums, darba stāžs, izglītības līmenis. Vai no pieejamajiem datiem izriet, ka darba samaksas atkarības modelis no labajā pusē esošajiem skaidrojošajiem mainīgajiem ir vienāds vīriešiem un sievietēm?

Lai pārbaudītu šo hipotēzi, varat izmantot vispārējo hipotēžu pārbaudes shēmu, salīdzinot ierobežoto regresiju un neierobežoto regresiju. Regresija bez ierobežojumiem šeit ir regresijas (1) un (2) savienība, t.i. ESS UR = ESS 1 + ESS 2, brīvības pakāpju skaits - N + M - 2k... Ierobežota regresija (t.i., regresija, pieņemot, ka nulles hipotēze ir izpildīta) būs regresija visai pieejamajai novērojumu kopai:

, i = 1,…, N+M (3).

Novērtējot (3), iegūstam ESS R... Lai pārbaudītu nulles hipotēzi, mēs izmantojam šādu statistiku:

Kuram, ja nulles hipotēze ir patiesa, ir Fišera sadalījums ar skaitītāja brīvības pakāpju skaitu k un saucējs N+ M- 2k.

Ja nulles hipotēze ir patiesa, mēs varam apvienot pieejamos paraugus vienā un novērtēt modeli N+M novērojumiem. Ja mēs noraidām nulles hipotēzi, mēs nevaram apvienot abus paraugus vienā, un mums būs jānovērtē šie divi modeļi atsevišķi.


Vispārējā lineārā modeļa izpēte, ko mēs aplūkojām iepriekš, ir ļoti svarīga, kā mēs redzējām, pamatojoties uz statistikas aparātu. Tomēr, tāpat kā visos pieteikumos mate. Statistika, metodes stiprums ir atkarīgs no pieņēmumiem, kas ir tās pamatā un nepieciešami tās piemērošanai. Kādu laiku mēs apsvērsim situācijas, kad tiek pārkāpta viena vai vairākas no lineārā modeļa pamatā esošajām hipotēzēm. Šādos gadījumos mēs apsvērsim alternatīvas novērtēšanas metodes. Mēs redzēsim, ka dažu hipotēžu loma ir nozīmīgāka nekā citu. Jāredz, kādas sekas var novest pie noteiktu nosacījumu (pieņēmumu) pārkāpšanas, jāspēj pārbaudīt, vai tie ir izpildīti vai nē, un jāzina, kādas statistikas metodes var un vajag pielietot, ja klasiskā mazāko kvadrātu metode nav piemērota.

1. Attiecības starp mainīgajiem ir lineāras un tiek izteiktas ar vienādojumu - modeļa specifikācijas kļūdas (nozīmīgo skaidrojošo mainīgo neiekļaušana vienādojumā, nevajadzīgu mainīgo iekļaušana vienādojumā, nepareiza atkarības formas izvēle starp mainīgie);


2. X 1 ,…,X k- deterministiskie mainīgie - stohastiskie regresori, lineāri neatkarīgi - pilna multikolinearitāte;

4. - heteroskedastiskums;

5.kad i ¹ k- kļūdu autokorelācija

Pirms sarunas uzsākšanas apsveriet šādus jēdzienus: pāra korelācijas koeficients un daļējās korelācijas koeficients.

Pieņemsim, ka mēs pētām viena mainīgā ietekmi uz citu mainīgo ( Y un X). Lai saprastu, kā šie mainīgie ir saistīti viens ar otru, mēs aprēķinām pāra korelācijas koeficientu, izmantojot šādu formulu:

Ja iegūstam korelācijas koeficienta vērtību tuvu 1, secinām, ka mainīgie ir diezgan cieši saistīti viens ar otru.

Tomēr, ja korelācijas koeficients starp diviem interesējošiem mainīgajiem ir tuvu 1, tie faktiski var nebūt atkarīgi. Garīgi slimo un radio ir piemērs tam, ko sauc par "viltus korelāciju". Korelācijas koeficienta augstā vērtība var būt saistīta arī ar trešā mainīgā esamību, kas spēcīgi ietekmē pirmos divus mainīgos, kas ir iemesls to augstajai korelācijai. Tāpēc rodas problēma, aprēķinot "tīro" korelāciju starp mainīgajiem X un Y, t.i., korelācija, kurā tiek izslēgta citu mainīgo ietekme (lineāra). Šim nolūkam tiek ieviests daļējās korelācijas koeficienta jēdziens.

Tātad, mēs vēlamies noteikt mainīgo lielumu daļējās korelācijas koeficientu X un Y, izņemot mainīgā lineāro ietekmi Z... Lai to noteiktu, tiek izmantota šāda procedūra:

1. Mēs novērtējam regresiju,

2. Mēs iegūstam pārpalikumus,

3. Mēs novērtējam regresiju,

4. Mēs iegūstam pārpalikumus,

5. - daļējas korelācijas izlases koeficients, mēra sakarības pakāpi starp mainīgajiem X un Y, atbrīvots no mainīgā ietekmes Z.

Tiešie aprēķini:

Īpašums:

Daļējās korelācijas koeficienta konstruēšanas procedūra ir vispārināta gadījumā, ja vēlamies atbrīvoties no divu vai vairāku mainīgo ietekmes.


1. Perfekta multikolinearitāte.

Viena no Gausa-Markova prasībām norāda, ka skaidrojošie mainīgie nedrīkst būt saistīti nevienā precīzā attiecībā. Ja starp mainīgajiem pastāv šāda sakarība, mēs sakām, ka modelim ir ideāla multikolinearitāte. Piemērs. Apsveriet modeli ar vidējo eksāmena punktu skaitu, kas sastāv no trim skaidrojošiem mainīgajiem: es- vecāku ienākumi, D- vidējais apmācībā pavadīto stundu skaits dienā, W- vidējais apmācībām pavadīto stundu skaits nedēļā. Ir skaidrs, ka W=7D... Un šī attiecība tiks izpildīta katram studentam, kurš ietilpst mūsu izlasē. Pilnīgas multikolinearitātes gadījumu ir viegli izsekot, jo šajā gadījumā aplēses nav iespējams konstruēt, izmantojot mazāko kvadrātu metodi.

2. Daļēja multikolinearitāte vai vienkārši multikolinearitāte.

Daudz biežāk sastopama situācija, kad starp skaidrojošajiem mainīgajiem nav precīzas lineāras attiecības, bet starp tiem pastāv cieša korelācija – šo gadījumu sauc par reālu vai daļēju multikollinearitāti (vienkārši multikollinearitāti) – ciešu statistisko sakarību esamība starp mainīgajiem. Jāteic, ka jautājums par multikolinearitāti drīzāk ir parādības izpausmes pakāpes, nevis tās veida jautājums. Jebkurš regresijas rezultāts vienā vai otrā veidā cietīs no tā, ja vien visi skaidrojošie mainīgie nav pilnīgi nekorelēti. Šīs problēmas izskatīšana sākas tikai tad, kad tā sāk nopietni ietekmēt regresijas novērtējuma rezultātus (statistisko sakarību esamība starp regresoriem ne vienmēr sniedz neapmierinošus aprēķinus). Tātad multikolinearitāte ir problēma, kurā ciešā korelācija starp regresoriem rada neuzticamus regresijas aprēķinus.

Multikolinearitātes sekas:

Formāli kopš ( X"X) ir nedeģenerēts, tad varam konstruēt regresijas koeficientu OLS aplēses. Tomēr atcerēsimies, kā tiek izteiktas regresijas koeficientu aplēšu teorētiskās dispersijas:, kur a ii - i matricas diagonālais elements. Tā kā matrica (X "X) ir tuvu deģenerācijai un det ( X"X) »0, tad

1) uz apgrieztās matricas galvenās diagonāles ir ļoti lieli skaitļi, jo apgrieztās matricas elementi ir apgriezti proporcionāli det ( X"X). Tāpēc teorētiskā dispersija i- koeficients ir pietiekami liels un arī dispersijas novērtējums ir liels, tāpēc t- statistika ir maza, kas var novest pie statistikas nenozīmīguma i th koeficients. Tas ir, mainīgajam ir būtiska ietekme uz izskaidroto mainīgo, un mēs secinām, ka tas ir nenozīmīgs.

2) Tā kā aprēķini un ir atkarīgi no ( X"X) -1, kura elementi ir apgriezti proporcionāli det ( X"X), tad, ja mēs pievienojam vai noņemam vienu vai divus novērojumus, pievienojot vai noņemot matricai vienu vai divas rindas X"X, tad vērtības un var būtiski mainīties, līdz pat zīmes izmaiņām – aplēses rezultātu nestabilitātei.

3) Grūtības interpretēt regresijas vienādojumu. Pieņemsim, ka vienādojumā ir divi mainīgie, kas ir saistīti viens ar otru: X 1 un X 2. Regresijas koeficients pie X 1 tiek interpretēts kā izmaiņu mērs Y mainot X 1 ceteris paribus, t.i. visu pārējo mainīgo vērtības paliek nemainīgas. Tomēr, tā kā mainīgie X 1 un X 2 ir savienoti, tad izmaiņas mainīgajā X 1 izraisīs paredzamas izmaiņas mainīgajā X 2 un vērtība X 2 nepaliks tas pats.

Piemērs: kur X 1 — kopējā platība, X 2 - dzīvojamā zona. Mēs sakām: "Ja dzīvojamā platība palielināsies par 1 kv.m., tad, visu pārējo nemainīgu, dzīvokļa cena pieaugs par USD." Tomēr šajā gadījumā arī dzīvojamā platība palielināsies par 1 kv. m un cenu pieaugums būs. Nosakiet ietekmi uz mainīgo Y katrs mainīgais atsevišķi vairs nav iespējams. Izeja šajā situācijā ar dzīvokļa cenu ir modelī iekļaut nevis kopējo platību, bet gan tā saukto "papildu" vai "papildu" platību.

Daudzkolinearitātes pazīmes.

Nav precīzu kritēriju multikolinearitātes esamības (neesamības) noteikšanai. Tomēr ir heiristiski ieteikumi tā noteikšanai:

1) Analizēt pāru korelācijas koeficientu matricu starp regresoriem un, ja korelācijas koeficienta vērtība ir tuvu 1, tad to uzskata par multikolinearitātes pazīmi.

2) Korelācijas matricas analīze ir tikai virspusējs spriedums par multikolinearitātes esamību (neesamību). Rūpīgāku šī jautājuma izpēti panāk, aprēķinot daļējās korelācijas koeficientus vai aprēķinot determinācijas koeficientus katram no skaidrojošajiem mainīgajiem visiem pārējiem regresijas skaidrojošajiem mainīgajiem.

4) (XX) Ir simetriska pozitīva noteikta matrica, tāpēc visas tās īpašvērtības ir nenegatīvas. Ja matricas determinants ( XX) ir vienāda ar nulli, tad arī minimālā īpašvērtība ir nulle un nepārtrauktība tiek saglabāta. Līdz ar to cilvēka īpašvērtības vērtību var spriest arī pēc matricas determinanta tuvuma nullei ( XX). Papildus šai īpašībai svarīga ir arī minimālā īpašvērtība, jo koeficienta standarta kļūda ir apgriezti proporcionāla.

5) Multikolinearitātes esamību var spriest pēc ārējām pazīmēm, kas ir multikolinearitātes sekas:

a) dažām aplēsēm ir no ekonomikas teorijas viedokļa nepareizas pazīmes vai nepamatoti augstas vērtības;

b) nelielas izmaiņas sākotnējos ekonomiskajos datos rada būtiskas izmaiņas modeļa koeficientu aplēsēs;

c) vairākums t- koeficientu statistika nenozīmīgi atšķiras no nulles, tajā pašā laikā modelis kopumā ir nozīmīgs, par ko liecina augstā vērtība F- statistika.

Kā atbrīvoties no multikolinearitātes, kā to novērst:

1) Izmantojot faktoru analīzi. Pāreja no sākotnējās regresoru kopas, starp kurām ir statistiski atkarīgie, uz jauniem regresoriem Z 1 ,…,Z m izmantojot galveno komponentu metodi - sākotnējo mainīgo vietā sākotnējo mainīgo vietā aplūkojam dažas to lineārās kombinācijas, kuru savstarpējā korelācija ir maza vai tās nav vispār. Izaicinājums šeit ir sniegt jēgpilnu interpretāciju jauniem mainīgajiem. Z... Ja tas neizdodas, mēs atgriežamies pie sākotnējiem mainīgajiem, izmantojot apgrieztās transformācijas. Tomēr iegūtie aprēķini būs neobjektīvi, taču tiem būs mazāka dispersija.

2) No visiem pieejamajiem mainīgajiem atlasiet faktorus, kas visvairāk ietekmē izskaidroto mainīgo. Atlases procedūras tiks apspriestas turpmāk.

3) Pāreja uz neobjektīvām novērtējuma metodēm.

Kad mēs saskaramies ar multikolinearitātes problēmu, nepieredzējušam pētniekam sākumā ir vēlme vienkārši izslēgt nevajadzīgus regresorus, kas to var izraisīt. Tomēr ne vienmēr ir skaidrs, kuri mainīgie šajā ziņā ir lieki. Turklāt, kā tiks parādīts turpmāk, tā saukto būtiski ietekmējošo mainīgo atmešana noved pie OLS aplēšu novirzes.


Ņemiet vērā, ka daudzos gadījumos multikolinearitāte nav tik nopietns "ļaunums", lai pieliktu ievērojamas pūles, lai to identificētu un novērstu. Būtībā tas viss ir atkarīgs no pētījuma mērķiem.
Ja modeļa galvenais uzdevums ir prognozēt atkarīgā mainīgā nākotnes vērtības, tad ar pietiekami lielu determinācijas koeficientu R2 (gt; 0,9) multikolinearitātes klātbūtne parasti neietekmē modeļa paredzamās īpašības ( ja turpmāk korelētie mainīgie paliks tādi paši kā iepriekš ).
Ja ir nepieciešams noteikt katra skaidrojošā mainīgā ietekmes pakāpi uz atkarīgo mainīgo, tad multikolinearitāte, kas izraisa standarta kļūdu pieaugumu, visticamāk, izkropļo patiesās attiecības starp mainīgajiem. Šajā situācijā multikolinearitāte ir nopietna problēma.
Nav vienas metodes multikolinearitātes novēršanai, kas būtu piemērota jebkurā gadījumā. Tas ir saistīts ar faktu, ka multikolinearitātes cēloņi un sekas ir neskaidras un lielā mērā ir atkarīgas no izlases rezultātiem.
Mainīgā(-u) izslēgšana no modeļa
Vienkāršākā metode multikolinearitātes novēršanai ir izslēgt no modeļa vienu vai vairākus korelētus mainīgos. Lietojot šo metodi, jāievēro zināma piesardzība. Šajā situācijā ir iespējamas specifikācijas kļūdas, tādēļ pielietotajos ekonometriskos modeļos ir vēlams neizslēgt skaidrojošos mainīgos, līdz multikolinearitāte kļūst par nopietnu problēmu.
Papildu datu vai jauna parauga izgūšana
Tā kā multikolinearitāte ir tieši atkarīga no izlases, iespējams, ka ar citu izlasi multikolinearitāte nebūs vai nebūs tik nopietna. Dažreiz, lai samazinātu multikolinearitāti, pietiek ar izlases lieluma palielināšanu. Piemēram, ja izmantojat gada datus, varat pāriet uz ceturkšņa datiem. Datu apjoma palielināšana samazina regresijas koeficientu dispersiju un līdz ar to palielina to statistisko nozīmīgumu. Tomēr jauna parauga iegūšana vai vecā parauga paplašināšana ne vienmēr ir iespējama vai saistīta ar nopietnām izmaksām. Turklāt šī pieeja var uzlabot autokorelāciju. Šīs problēmas ierobežo šīs metodes izmantošanu.
Modeļa specifikācijas modificēšana
Dažos gadījumos multikolinearitātes problēmu var atrisināt, mainot modeļa specifikāciju: vai nu mainās modeļa forma, vai tiek pievienoti skaidrojošie mainīgie, kas sākotnējā modelī netika ņemti vērā, bet būtiski ietekmē atkarīgo mainīgo. Ja šī metode ir pamatota, tad tās izmantošana samazina noviržu kvadrātu summu, tādējādi samazinot regresijas standartkļūdu. Tas noved pie koeficientu standarta kļūdu samazināšanās.
Izmantojot sākotnējo informāciju par dažiem parametriem
Dažreiz, veidojot vairāku regresijas modeli, varat izmantot provizorisku informāciju, jo īpaši dažu regresijas koeficientu zināmās vērtības.
Visticamāk, ka šobrīd izstrādātajam modelim var izmantot koeficientu vērtības, kas aprēķinātas jebkuriem sākotnējiem (parasti vienkāršākiem) modeļiem vai līdzīgam modelim, pamatojoties uz iepriekš iegūto paraugu.
Nozīmīgāko skaidrojošo mainīgo lielumu atlase. Elementu secīgas savienošanas procedūra
Pāreja uz mazāk skaidrojošo mainīgo lielumu var samazināt informācijas dublēšanos, ko nodrošina ļoti savstarpēji atkarīgi līdzekļi. Tieši ar to mēs saskaramies daudzkolineāru skaidrojošo mainīgo gadījumā.
Ļaujiet

Vairāki koeficienti
korelācijas starp atkarīgo mainīgo Y un skaidrojošo mainīgo kopu X 1, X 2, ..., Xm. To definē kā parasto pāru korelācijas koeficientu starp Y un lineāro funkciju
regresija Y = b0 + KX1 + b2X2 + ... + bmXm. Ļaujiet amp; = R-1 — matrica apgriezta matricai R:


Tad kvadrātveida koeficientu Ry.X = Rr (xi, x2, .., x) var aprēķināt pēc formulas:


Aprēķins R * 2.X, kas koriģēts ar determinācijas koeficienta R2y.X neobjektīvumu, ir šāds:

(Ja pēc formulas (6.7) iegūts negatīvs skaitlis, tad pieņemam


Apakšējā ticamības robeža

noteikts
pēc formulas:

Praksē, lemjot, kuri skaidrojošie mainīgie ir jāiekļauj modelī, bieži tiek izmantota elementu secīgas savienošanas procedūra.
(j = 1, 2, ..., m). Kurā

sakrīt ar parastā kvadrātu
pāra korelācijas koeficients

Ļaujiet


tad xp mainīgais būs visinformatīvākais. Pēc tam aprēķina koeficientu, kas koriģēts pēc neobjektīvuma
(ja m = 1) un tā apakšējā ticamības robeža R2min (1).


pāris jxp, xq būs informatīvāks). Tad aprēķina koeficientu, kas koriģēts attiecībā uz neobjektīvumu (ar m = 2)
un tā apakšējā ticamības robeža R2min (2).

Procedūra turpinās, līdz solī (līdz +1) ir izpildīts nosacījums:
Tad modelī ir iekļauti pirmajos soļos iegūtie informatīvākie mainīgie. Ievērojiet, ka aprēķinos tiek izmantotas formulas (6.7) un (6.8), kurās m vietā tiek ņemta atbilstošā soļa skaitļa k vērtība.
Patiesībā šī metode negarantē, ka mēs atbrīvosimies no multikolinearitātes.
Tiek izmantotas arī citas multikolinearitātes novēršanas metodes.
Piemērs 6.1. Ir šādi nosacījuma dati (6.1. tabula):
6.1. tabula
Dati margrietiņu ķēdes metodei


X1

X2

X3

Ir

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Apskatīsim katra skaidrojošā mainīgā ietekmi uz atkarīgo mainīgo atsevišķi. Aprēķinot pāru korelācijas koeficientus, atklājam, ka koeficients

Pēc tam:


Apsveriet mainīgo pāru (x1, x2) un (x1, x3) ietekmi uz atkarīgo mainīgo. Vispirms apsveriet mainīgo (x1, x2) pāra ietekmi.



Icuvum uvjpcuuivi
Savienojot mainīgos, vienādojumā jāiekļauj divi skaidrojošie mainīgie. Tāpēc teorētiskais vienādojums būs šāds:
Ridge metode
Apsveriet kores metodi (kores regresiju), lai novērstu multikolinearitāti. Šo metodi 1962. gadā ierosināja A. E. Hoerls, un to izmanto, ja matrica (xtX) ir tuvu deģenerācijai. Matricas diagonālajiem elementiem (xtX) tiek pievienots neliels skaitlis (no 0,1 līdz 0,4). Šajā gadījumā tiek iegūti vienādojuma parametru neobjektīvi aprēķini. Taču šādu aprēķinu standartkļūdas multikolinearitātes gadījumā ir zemākas par tām, kas iegūtas ar parasto mazāko kvadrātu metodi.
Piemērs 6.2. Sākotnējie dati ir parādīti "6. tabulā 2. Skaidrojošo mainīgo korelācijas koeficients

kas
norāda uz spēcīgu multikolinearitāti.
6.2. tabula
Dati multikolinearitātes izpētei ar kores metodi


x1

x2

Ir

1

1,4

7

2

3,1

12


Tad mēs iegūstam vienādojumu y = 2,63 + 1,37x1 + 1,95x2. Apgrieztās matricas diagonālie elementi ievērojami samazināsies un būs vienādi ar z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, kas noved pie koeficientu standartkļūdu samazināšanās.
Kopsavilkums
Starp galvenajām sekām, ko var izraisīt multikolinearitāte, var izdalīt šādas:
  1. pārbaudot galveno hipotēzi par daudzkārtējo regresijas koeficientu nenozīmīgumu, izmantojot t-testu, vairumā gadījumu tā tiek pieņemta, tomēr pats regresijas vienādojums, pārbaudot ar A-testu, izrādās nozīmīgs, kas norāda uz pārvērtētu vērtību. daudzkārtējo korelācijas koeficientu;
  2. iegūtie daudzkārtējās regresijas vienādojuma koeficientu aprēķini parasti ir nepamatoti pārvērtēti vai ar nepareizām zīmēm;
  3. viena vai divu novērojumu pievienošana vai izslēgšana no sākotnējiem datiem spēcīgi ietekmē modeļa koeficientu aplēses;
  4. multikolinearitātes klātbūtne daudzkārtējas regresijas modelī var padarīt to nepiemērotu turpmākai izmantošanai (piemēram, prognožu veidošanai).
Pašpārbaudes jautājumi
  1. Kas ir multikolinearitāte?
  2. Kādi rādītāji norāda uz multikolinearitātes klātbūtni?
  3. Kas ir matricas XTX determinants perfektas multikolinearitātes gadījumā?
  4. Ko var teikt par skaidrojošo mainīgo koeficientu nozīmi multikolinearitātes gadījumā?
  5. Kāda transformācija tiek veikta ķemmes metodē, pie kā tas noved?
  6. Kāda ir darbību secība skaidrojošo mainīgo skaita secīgas palielināšanas metodē?
  7. Ko parāda korelācijas koeficients?
  8. Ko parāda daļējās korelācijas koeficients?
0

Krievijas Federācijas Izglītības un zinātnes ministrija

Federālā valsts budžeta izglītības iestāde

augstākā izglītība

TVERAS VALSTS TEHNISKĀ UNIVERSITĀTE

"Grāmatvedības un finanšu katedra"

KURSA PROJEKTS
disciplīnā "Ekonometrija"

"Multikolinearitātes izpēte ekonometriskajos modeļos: mainīgā (-u) izslēgšana no modeļa"

Darba vadītājs:

Cand. tie. Zinātnes, asociētais profesors

Konovalova

Izpildītājs:

EK-1315 EPO grupas audzēknis

Tvera, 2015

Ievads …………………………………………………………………………… 3

1. Analītiskā daļa …………………………………………………………… 4

1.1. Vispārējās multikolinearitātes pazīmes ekonometriskajos modeļos ………………………………………………………………………………

1.2. Galvenie veidi, kā novērst multikolinearitāti ekonometriskos modeļos ………… .. …………………………………………… ..7

2. Dizaina daļa …………………………………………………………………… ..11

2.1. Ekonometrisko pētījumu informatīvais un metodiskais nodrošinājums …………………………………………………………………… .11

2.2. Ekonometriskā pētījuma piemērs ……………………………… .17

Secinājums …………………………………………………………………… .... 30

Izmantoto avotu saraksts …………………………………………… 31

Ievads

Darba tēmas “Multikolinearitātes izpēte ekonometriskajos modeļos: mainīgā (-u) izslēgšana no modeļa” aktualitāte ir saistīta ar to, ka mūsdienās ar šo problēmu bieži nākas saskarties lietišķajos ekonometriskos modeļos.

Pētījuma priekšmets ir multikolinearitātes problēma. Pētījuma objekts ir ekonometriskie modeļi.

Darba galvenais mērķis ir izstrādāt dizaina risinājumus ekonometrisko pētījumu informatīvajam un metodiskā atbalsta nodrošināšanai.

Mērķa sasniegšanai tika izvirzīti un atrisināti šādi galvenie pētījuma uzdevumi:

  1. Multikolinearitātes pazīmju vispārināšana ekonometriskos modeļos.
  2. Galveno multikolinearitātes novēršanas veidu identificēšana.

3. Ekonometrisko pētījumu informatīvā un metodiskā nodrošinājuma izstrāde.

  1. Analītiskā daļa

1.1. Vispārinātas multikolinearitātes pazīmes ekonometriskos modeļos

Multikollinearitāte - ekonometrikā (regresijas analīze) - lineāras attiecības esamība starp regresijas modeļa skaidrojošajiem mainīgajiem (faktoriem). Tajā pašā laikā ir pilnīga kolinearitāte, kas nozīmē funkcionālas (identiskas) lineāras atkarības esamību, un daļēja vai vienkārši daudzkolinearitāte- spēcīgas korelācijas klātbūtne starp faktoriem.

Pilnīga kolinearitāte noved pie neskaidrības parametrus lineārās regresijas modelī neatkarīgi no novērtēšanas metodēm. Apsveriet to, izmantojot šādu lineāro modeli kā piemēru:

Ļaujiet šī modeļa faktoriem būt identiski saistītiem šādi:. Pēc tam apsveriet sākotnējo lineāro modeli, kurā mēs pievienojam pirmajam koeficientam patvaļīgi numuru a, un atņemiet to pašu skaitli no pārējiem diviem koeficientiem. Tad mums ir (bez nejaušas kļūdas):

Tādējādi, neskatoties uz salīdzinoši patvaļīgām modeļa koeficientu izmaiņām, tiek iegūts tas pats modelis. Šis modelis būtībā nav identificējams. Nenoteiktība jau pastāv pašā modelī. Ja ņemam vērā koeficientu 3-dimensiju telpu, tad šajā telpā patieso koeficientu vektors šajā gadījumā nav vienīgais, bet gan vesela taisne. Jebkurš punkts uz šīs līnijas ir patiess koeficientu vektors.

Ja pilnīga kolinearitāte rada parametru vērtību nenoteiktību, tad daļēja multikolinearitāte noved pie to nestabilitātes. novērtējumiem... Nestabilitāte izpaužas statistiskās nenoteiktības – aplēšu dispersijas – pieaugumā. Tas nozīmē, ka konkrētie novērtējuma rezultāti var ievērojami atšķirties atkarībā no parauga, lai gan paraugi ir viendabīgi.

Kā zināms, vairāku regresijas parametru aplēšu kovariācijas matrica, izmantojot mazāko kvadrātu metodi, ir vienāda ar. Tādējādi, jo “mazāka” ir kovariācijas matrica (tās determinants), jo “lielāka” ir parametru aplēšu kovariācijas matrica un, jo īpaši, jo lielāki ir šīs matricas diagonālie elementi, tas ir, parametru novērtējumu dispersija. Skaidrības labad apsveriet divu faktoru modeļa piemēru:

Tad parametra aplēses dispersija, piemēram, pirmajam faktoram, ir vienāda ar:

kur ir izlases korelācijas koeficients starp faktoriem.

Šeit ir skaidri redzams, ka jo lielāks ir korelācijas modulis starp faktoriem, jo ​​lielāka ir parametru novērtējumu dispersija. Pie (pilnīga kolinearitāte) dispersijai ir tendence līdz bezgalībai, kas atbilst iepriekš teiktajam.

Tādējādi parametru aplēses tiek iegūtas neprecīzas, kas nozīmē, ka būs grūti interpretēt atsevišķu faktoru ietekmi uz skaidrojamo mainīgo. Tajā pašā laikā multikolinearitāte neietekmē modeļa kvalitāti kopumā – to var atzīt par statistiski nozīmīgu pat tad, ja visi koeficienti ir nenozīmīgi (tā ir viena no multikolinearitātes pazīmēm).

Lineārajos modeļos korelācijas koeficienti starp parametriem var būt pozitīvi un negatīvi. Pirmajā gadījumā viena parametra palielināšanos papildina cita parametra palielināšanās. Otrajā gadījumā, kad viens parametrs palielinās, otrs samazinās.

Pamatojoties uz to, ir iespējams noteikt pieņemamu un nepieņemamu multikolinearitāti. Nepieņemama multikolinearitāte radīsies, ja starp 1. un 2. faktoru būs nozīmīga pozitīva korelācija, un tajā pašā laikā katra faktora ietekme uz korelāciju ar y funkciju ir vienvirziena, tas ir, palielinās gan 1., gan 2. faktors. noved pie y funkcijas palielināšanās vai samazināšanās. Citiem vārdiem sakot, abi faktori vienādi iedarbojas uz funkciju y, un nozīmīga pozitīva korelācija starp tiem var ļaut izslēgt vienu no tiem.

Pieļaujamā multikolinearitāte ir tāda, ka faktori dažādi ietekmē funkciju y. Šeit ir iespējami divi gadījumi:

a) ar būtisku pozitīvu korelāciju starp faktoriem katra faktora ietekme uz korelāciju ar funkciju y ir daudzvirzienu, t.i. viena faktora palielināšanās izraisa funkcijas palielināšanos, bet cita faktora palielināšanās izraisa y funkcijas samazināšanos.

b) ar būtisku negatīvu korelāciju starp faktoriem, viena faktora pieaugumu pavada cita faktora samazināšanās un tas padara faktorus neviennozīmīgus, tāpēc iespējama jebkura faktoru ietekmes pazīme uz y funkciju.

Praksē tiek izdalītas dažas raksturīgākās multikolinearitātes pazīmes: 1. Neliela sākotnējo datu izmaiņa (piemēram, jaunu novērojumu pievienošana) noved pie būtiskām izmaiņām modeļa koeficientu novērtējumos. 2. Aplēsēm ir lielas standartkļūdas, zema nozīmība, savukārt modelis kopumā ir nozīmīgs (augsta determinācijas koeficienta R 2 vērtība un atbilstošā F-statistika). 3. Koeficientu aplēsēm ir no teorētiskā viedokļa nepareizas zīmes vai nepamatoti lielas vērtības.

Netiešās multikolinearitātes pazīmes ir modeļa parametru novērtējumu augstas standarta kļūdas, maza t statistika (tas ir, nenozīmīgi koeficienti), nepareizas aplēšu pazīmes, savukārt modelis kopumā tiek atzīts par statistiski nozīmīgu (liela F-statistikas vērtība) . Par multikolinearitāti var liecināt arī spēcīgas izmaiņas parametru aplēsēs no paraugu datu pievienošanas (vai noņemšanas) (ja ir izpildītas prasības par pietiekamu parauga viendabīgumu).

Lai noteiktu faktoru multikolinearitāti, faktoru korelācijas matricu var analizēt tieši. Jau lielu absolūto vērtību (virs 0,7-0,8) pāru korelācijas koeficientu klātbūtne norāda uz iespējamām problēmām ar iegūto novērtējumu kvalitāti.

Tomēr pāru korelācijas koeficientu analīze ir nepietiekama. Ir nepieciešams analizēt faktoru regresijas noteikšanas koeficientus citiem faktoriem (). Ieteicams aprēķināt rādītāju. Pārāk augstas pēdējās vērtības nozīmē multikolinearitātes klātbūtni.

Tādējādi galvenie kritēriji multikolinearitātes noteikšanai ir šādi: augsts R 2 visiem nenozīmīgajiem koeficientiem, augsts pāru korelācijas koeficients, augstas VIF koeficienta vērtības.

1.2. Galvenie veidi, kā novērst multikolinearitāti ekonometriskos modeļos

Pirms norādīt galvenās metodes multikolinearitātes novēršanai, mēs atzīmējam, ka daudzos gadījumos multikolinearitāte nav nopietna problēma, kuras noteikšanai un novēršanai būtu jāpieliek ievērojamas pūles. Būtībā tas viss ir atkarīgs no pētījuma mērķiem.

Ja modeļa galvenais uzdevums ir prognozēt regresijas nākotnes vērtības un tad ar pietiekami lielu determinācijas koeficientu R2 (> 0,9) multikolinearitātes klātbūtne parasti neietekmē modeļa paredzamās īpašības. Lai gan šis apgalvojums būs pamatots tikai tādā gadījumā, ja turpmāk korelētie regresori saglabās tādas pašas attiecības kā iepriekš. Ja pētījuma mērķis ir noteikt katra regresora ietekmes pakāpi uz regresu, tad multikolinearitātes klātbūtne, kas izraisa standarta kļūdu palielināšanos, visticamāk, izkropļo patiesās attiecības starp regresoriem. Šajā situācijā multikolinearitāte ir nopietna problēma.

Ņemiet vērā, ka nav vienas metodes multikolinearitātes novēršanai, kas būtu piemērota jebkurā gadījumā. Tas ir saistīts ar faktu, ka multikolinearitātes cēloņi un sekas ir neskaidras un lielā mērā ir atkarīgas no izlases rezultātiem.

Praksē izšķir galvenās multikolinearitātes novēršanas metodes:

  1. Regresoru izslēgšana no modeļa Vienkāršākā metode multikolinearitātes novēršanai ir izslēgt no modeļa vienu vai vairākus korelētus regresorus. Tomēr, piemērojot šo metodi, ir jāievēro zināma piesardzība. Šādā situācijā ir iespējamas specifikācijas kļūdas. Piemēram, pētot pieprasījumu pēc noteiktas preces, kā skaidrojošos mainīgos var izmantot šīs preces cenu un šīs preces aizstājēju cenas, kas bieži vien ir savstarpēji saistītas. Izslēdzot no modeļa aizstājēju cenas, mēs, visticamāk, pieļausim specifikācijas kļūdu. Rezultātā var iegūt neobjektīvus aprēķinus un izdarīt nepamatotus secinājumus. Tādējādi pielietotajos ekonometriskos modeļos ir vēlams neizslēgt regresorus, līdz to kolinearitāte kļūst par nopietnu problēmu.
  2. Iegūstot papildu datus vai jaunu paraugu, jo multikolinearitāte ir tieši atkarīga no izlases, tad, iespējams, ar citu izlasi multikolinearitātes vispār nebūs, vai arī tā nebūs tik nopietna. Dažreiz, lai samazinātu multikolinearitāti, pietiek ar izlases lieluma palielināšanu. Piemēram, ja izmantojat gada datus, varat pāriet uz ceturkšņa datiem. Datu apjoma palielināšana samazina regresijas koeficientu dispersiju un līdz ar to palielina to statistisko nozīmīgumu. Tomēr jauna parauga iegūšana vai vecā parauga paplašināšana ne vienmēr ir iespējama vai saistīta ar nopietnām izmaksām. Turklāt šī pieeja var uzlabot autokorelāciju. Šīs problēmas ierobežo šīs metodes izmantošanu.

III. Modeļa specifikācijas maiņa Dažos gadījumos multikolinearitātes problēmu var atrisināt, mainot modeļa specifikāciju: vai nu tiek mainīta modeļa forma, vai arī tiek pievienoti jauni regresori, kas netika ņemti vērā sākotnējā modelī, bet būtiski ietekmē atkarīgo. mainīgs. Ja šī metode ir pamatota, tad tās izmantošana samazina noviržu kvadrātu summu, tādējādi samazinot regresijas standartkļūdu. Tas noved pie koeficientu standarta kļūdu samazināšanās.

  1. Mainīgo transformāciju dažos gadījumos var minimizēt vai vispār novērst multikolinearitātes problēmu tikai ar mainīgo transformācijas palīdzību. Sākotnējie dati katrā gadījumā tiek dalīti ar viena atkarīgā regresora vērtībām šajā gadījumā. Principiālo komponentu metodes pielietošana modeļa faktoriem ļauj transformēt sākotnējos faktorus un iegūt ortogonālu (nekorelētu) faktoru kopu. Šajā gadījumā multikolinearitātes klātbūtne ļaus mums aprobežoties ar nelielu skaitu galveno komponentu. Tomēr var rasties problēmas ar galveno komponentu jēgpilnu interpretāciju.

Ja pēc visām pazīmēm ir daudzkolinearitāte, tad ekonometriešu vidū šajā jautājumā ir dažādi viedokļi. Saskaroties ar multikolinearitātes problēmu, var rasties dabiska vēlme atmest “nevajadzīgos” neatkarīgos mainīgos, kas to var izraisīt. Tomēr jāatceras, ka to darot var rasties jaunas grūtības. Pirmkārt, ne vienmēr ir skaidrs, kuri mainīgie šajā ziņā ir lieki.

Multikollinearitāte nozīmē tikai aptuvenu lineāru sakarību starp faktoriem, taču tas ne vienmēr izceļ "papildus" mainīgos. Otrkārt, daudzās situācijās jebkuru neatkarīgu mainīgo noņemšana var būtiski ietekmēt modeļa nozīmi. Visbeidzot, atmetot tā sauktos būtiskos mainīgos, t.i. neatkarīgi mainīgie, kas faktiski ietekmē pētīto atkarīgo mainīgo, noved pie modeļa koeficientu novirzes. Praksē parasti, konstatējot multikolinearitāti, tiek noņemts vismazāk nozīmīgais analīzes faktors un pēc tam aprēķini tiek atkārtoti.

Tādējādi praksē tiek izdalītas galvenās metodes multikolinearitātes novēršanai: izlases maiņa vai palielināšana, viena no mainīgajiem izslēgšana, multikolineāro mainīgo transformēšana (izmantot nelineāras formas, izmantot agregātus (vairāku mainīgo lineāras kombinācijas), izmantot pirmās atšķirības Tomēr, ja multikolinearitāte nav novērsta, varat to ignorēt, ņemot vērā izslēgšanas lietderīgumu.

  1. Projekta daļa

2.1. Ekonometrisko pētījumu informatīvais un metodiskais nodrošinājums

Ekonometrisko pētījumu informatīvais atbalsts ietver šādu informāciju:

Ievades informācija:

  • statistikas dati par sociāli ekonomisko rādītāju, kas definēts kā atkarīgais mainīgais (faktori - rezultāti);
  • statistikas dati par sociāli ekonomiskajiem rādītājiem, kas definēti kā skaidrojošie mainīgie (faktori - zīmes);

Starpposma informācija:

  • regresijas vienādojuma modelis, novērtētais regresijas vienādojums, kvalitātes rādītāji un secinājums par regresijas vienādojuma kvalitāti, secinājums par multikolinearitātes problēmas esamību (neesamību), modeļa izmantošanas ieteikumi;

Efektīva informācija:

  • novērtētais regresijas vienādojums, secinājums par regresijas vienādojuma kvalitāti, secinājums par multikolinearitātes problēmas esamību (neesamību), ieteikumi modeļa pielietošanai.

Ekonometriskā pētījuma metodoloģija ir šāda: specifikācija; parametru noteikšana, verifikācija, papildu izpēte, prognozēšana.

1. Regresijas vienādojuma modeļa specifikācija ietver atkarīgā mainīgā korelācijas atkarības no katra skaidrojošā mainīgā grafisko analīzi. Pamatojoties uz grafiskās analīzes rezultātiem, tiek izdarīts secinājums par lineāro vai nelineāro tipu regresijas vienādojuma modeli. Grafiskajai analīzei visbiežāk ieteicamais MsExcel izkliedes diagrammas rīks. Šī posma rezultātā tiek noteikts regresijas vienādojuma modelis, bet nelineāras formas gadījumā noteiktas arī tā linearizācijas metodes.

2. Regresijas vienādojuma parametrizēšana ietver regresijas parametru novērtēšanu un to sociāli ekonomisko interpretāciju. Parametru noteikšanai izmantojiet rīku "Regression" kā daļu no pievienojumprogrammas "Datu analīze" MsExcel. Pamatojoties uz automatizētās regresijas analīzes rezultātiem (kolonna "Koeficienti"), tiek noteikti regresijas parametri, kā arī tiek sniegta to interpretācija saskaņā ar standarta noteikumu:

Bj ir summa, par kādu mainīgā Y vērtība vidēji mainās, neatkarīgajam mainīgajam Xj palielinoties par vienu, ceteris paribus.

Regresijas vienādojuma krustpunkts ir vienāds ar atkarīgā mainīgā Y prognozēto vērtību, kad visi neatkarīgie mainīgie ir nulle.

3. Regresijas vienādojuma pārbaude tiek veikta, pamatojoties uz automatizētās regresijas analīzes rezultātiem (2. posms) pēc šādiem rādītājiem: "R-kvadrāts", "Nozīmīgums F", "P-vērtība" (katram parametram regresijas), kā arī atlases un atlikuma grafikos ...

Tiek noteikta koeficientu nozīme un novērtēta modeļa kvalitāte. Šim nolūkam tiek ņemti vērā “nozīmība F”, “P-vērtība” un “R-kvadrāts”. Ja “P vērtība” ir mazāka par statiskās nozīmes vienādojumu, tas norāda uz koeficienta nozīmīgumu. Ja “R kvadrāts” ir lielāks par 0,6, tas nozīmē, ka regresijas modelis labi apraksta atkarīgā mainīgā Y uzvedību uz mainīgo faktoriem.

Ja “Svarīgums F” ir mazāks par statisko nozīmīguma vienādojumu, tad determinācijas koeficients (R-kvadrāts) tiek uzskatīts par nosacīti statistiski nozīmīgu.

Atlikušais grafiks ļauj novērtēt kļūdu variācijas. Ja starp kļūdām, kas atbilst dažādām Xi vērtībām, nav īpašu atšķirību, tas ir, kļūdu variācijas dažādām Xi vērtībām ir aptuveni vienādas un var pieņemt, ka problēmu nav. Pielāgošanas grafiks ļauj veidot spriedumus par bāzes līniju, prognozētajām un faktoru vērtībām.

Noslēgumā tiek veidots spriedums par regresijas vienādojuma kvalitāti.

  1. Papildu pētījumi.

4.1. Pirmās multikolinearitātes pazīmes noteikšana. Pamatojoties uz 2.-3.punktā iegūtajiem regresijas analīzes rezultātiem, tiek pārbaudīta situācija, kurā determinācijas koeficientam ir augsta vērtība (R 2> 0,7) un statiski nozīmīga (nozīmība F).<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05) .Konstatējot šādu situāciju, tiek izdarīts secinājums par multikolinearitātes pieņēmumu.

4.2. Multikolinearitātes otrās pazīmes noteikšana. Pamatojoties uz faktoru mainīgo lielumu korelācijas koeficientu aprēķiniem, tiek noteikta būtiska atsevišķu faktoru sakarība. Aprēķiniem programmā MS Excel ieteicams izmantot datu analīzes/korelācijas rīku. Pamatojoties uz korelācijas koeficienta vērtībām, tiek izdarīti secinājumi: jo tuvāk (r) galējiem punktiem (± 1), jo lielāka ir lineārās attiecības pakāpe, ja korelācijas koeficients ir mazāks par 0,5, tad to uzskata. ka attiecības ir vājas. Multikolinearitātes esamība tiek pieņemta šādā gadījumā, ja starp vismaz diviem mainīgajiem ir ievērojams korelācijas koeficients (t.i., modulis ir lielāks par 0,7).

4.3. Trešās multikolinearitātes pazīmes noteikšana. Pamatojoties uz palīgregresiju novērtējumu starp faktoru mainīgajiem lielumiem, kā arī starp mainīgajiem, kuriem ir nozīmīgs korelācijas koeficients (4.2. sadaļa), secināts, ka multikolinearitāte pastāv, ja vismaz vienā palīgregresijā tā ir nozīmīga un nozīmīga. Determinācijas koeficienta papildu regresiju metode ir šāda: 1) tiek konstruēti regresijas vienādojumi, kas savieno katru no regresoriem ar visiem atlikušajiem; 2) katram regresijas vienādojumam aprēķina determinācijas koeficientus R 2; 3) ja vienādojums un determinācijas koeficients tiek uzskatīti par statistiski nozīmīgiem, tad šis regresors noved pie multikolinearitātes.

4.4. Spriedumu vispārināšana.

Pamatojoties uz 4.1.-4.3. punktu, tiek veidots spriedums par multikolinearitātes un regresoru esamību / neesamību, kas noved pie multikolinearitātes.

Tālāk tiek veidoti modeļa izmantošanas virzieni (multikolinearitātes problēmas ignorēšanas vai neesamības gadījumā) vai ieteikumi multikolinearitātes novēršanai (praksē, izslēdzot mainīgo).

Izslēdzot mainīgo, ieteicams izmantot noteikumu:

Determinācijas koeficientu nosaka regresijas vienādojumam, kas sākotnēji tika izveidots no n novērojumiem (R 2 1);

Izslēdzot no apsvēruma (k) pēdējos mainīgos, atlikušajiem faktoriem, pamatojoties uz sākotnējiem n novērojumiem, tiek izveidots vienādojums un tam tiek noteikts determinācijas koeficients (R 2 2);

Tiek aprēķināta F-statistika: kur (R 1 2 -R 2 2) ir vienādojuma zudums, nokrītot uz mainīgajiem, (K) ir parādījušos papildu brīvības pakāpju skaits, (1- R 1 2) / (nml) ir sākotnējo vienādojumu neizskaidrojama dispersija;

F a, k, n-m -1 kritisko vērtību nosaka pēc Fišera sadalījuma kritisko punktu tabulām pie noteiktā nozīmīguma a līmeņa un brīvības pakāpēm v 1 = k, v 2 = n-m-l;

Spriedumus par izņēmuma lietderību veido pēc noteikuma: k mainīgo (vienlaicīga) izslēgšana no vienādojuma tiek uzskatīta par nepiemērotu F> F a, k, n-m - 1, pretējā gadījumā šāds izņēmums ir pieļaujams.

Kad mainīgais ir izslēgts, iegūtais modelis tiek analizēts saskaņā ar 3.-4. un tiek salīdzināts ar sākotnējo modeli, kā rezultātā tiek izvēlēts "labākais". Praksē, tā kā multikolinearitāte neietekmē modeļa paredzamās īpašības, šo problēmu var ignorēt.

5. Prognozēšana tiek veikta pēc 4.4.punktā izvēlētā sākotnējā / "labākā" modeļa, pēc retrospektīvās prognozēšanas shēmas, kurā prognozēšanai tiek izmantota pēdējā 1/3 novērojumu.

5.1. Punktu prognoze. Faktoru mainīgo lielumu faktiskās vērtības prognozes periodā tiek uzskatītas par prognozētām, rezultējošā mainīgā prognozētās vērtības tiek noteiktas tā, kā to paredz sākotnējais / "labākais" modelis, pamatojoties uz faktoru mainīgajiem lielumiem prognozes periodā. Izmantojot Microsoft Excel rīku "Grafs", saskaņā ar novērojumiem tiek uzzīmēts iegūtā mainīgā faktisko un paredzamo vērtību grafiks un tiek izdarīts secinājums par faktisko vērtību tuvumu prognozētajām.

5.2. Intervālu prognozēšana ietver prognozēšanas standarta kļūdu aprēķināšanu (izmantojot Salkever fiktīvos mainīgos) un prognozēto vērtību augšējo un apakšējo robežu.

Izmantojot Microsoft Excel datu analīzes/regresijas rīku, tiek veidota regresija izlases un prognozes perioda apkopotajai datu kopai, bet pievienojot fiktīvus mainīgos D 1, D 2, ..., D p. Šajā gadījumā D i = 1 tikai novērošanas brīdim (n + i), visiem pārējiem momentiem D i = 0. Tad fiktīva mainīgā D i koeficients ir vienāds ar prognozēšanas kļūdu brīdī (n + i), un koeficienta standartkļūda ir vienāda ar prognozēšanas standartkļūdu (S i). Tādējādi tiek veikta modeļa automatizēta regresijas analīze, kurā kā X vērtības tiek izmantotas faktoru mainīgo lielumu summētās (izlases un prognozētās) vērtības un Salkevera fiktīvo mainīgo vērtības, bet agregātu (izlases un prognozētās) iegūtā mainīgā vērtības tiek izmantotas kā Y vērtības.

Iegūtās Salkever fiktīvo mainīgo koeficientu standartkļūdas ir vienādas ar prognozēšanas standartkļūdām. Tad intervāla prognozes robežas aprēķina, izmantojot šādas formulas: Ymin n + i = Yemp n + i -S i * t cr, Ymax n + i = Yemp n + i + S i * t cr, kur t cr ir Studenta sadalījuma kritiskā vērtība, kas noteikta pēc formulas “= STYURASPOBR (0,05; nm-1)”, m ir skaidrojošo faktoru skaits modelī (Y * t), Yemp n + i ir prognozētās vērtības no rezultējošā mainīgā lieluma (5.1. punkts).

Izmantojot Microsoft Excel rīku "Grafs", grafiks tiek veidots atbilstoši iegūtā mainīgā faktiskajām un prognozētajām vērtībām, novērojumu prognozes augšējai un apakšējai robežai. Tiek izdarīts secinājums par iegūtā mainīgā faktisko vērtību atbilstību intervāla prognozes robežām.

5.3. Modeļa stabilitātes novērtējums, izmantojot NCO testu, tiek veikts šādi:

a) izmantojot Microsoft Excel "Datu analīzes/regresijas" rīku, tiek veidota regresija, kur faktoru mainīgo summētās (izlases un prognozētās) vērtības tiek ņemtas par X vērtībām, bet apkopotās (izlases un prognozētās) vērtības. no iegūtā mainīgā lieluma tiek ņemtas par Y vērtībām. Šo regresiju izmanto, lai noteiktu atlikumu S kvadrātu summu;

b) saskaņā ar 5.2. punkta regresiju ar Salkever fiktīvajiem mainīgajiem tiek noteikta atlikuma Sd kvadrātu summa;

c) F statistikas vērtību aprēķina un novērtē pēc formulas:

kur p ir paredzamo soļu skaits. Ja iegūtā vērtība ir lielāka par kritisko vērtību F cr, kas noteikta pēc formulas "= FDISP (0,05; p; nm-1)", tad hipotēze par modeļa stabilitāti prognozes periodā tiek noraidīta, pretējā gadījumā tā ir pieņemts.

5.4.Spriedumu vispārināšana par modeļa prognozēšanas kvalitātēm, pamatojoties uz 5.1.-5.3.punktu, kā rezultātā tiek veidots secinājums par modeļa prognozēšanas kvalitāti un ieteikumi modeļa izmantošanai prognozēšanā.

Tādējādi izstrādātais informatīvais un metodiskais nodrošinājums atbilst multikolinearitātes problēmas ekonometriskās izpētes galvenajiem mērķiem daudzkārtējās regresijas modeļos.

2.2. Ekonometriskā pētījuma piemērs

Pētījums veikts, pamatojoties uz datiem, kas atspoguļo Krievijas Federācijas reālos makroekonomiskos rādītājus laika posmā no 2003. līdz 2011. gadam. (1. tabula), saskaņā ar šo noteikumu 2.1.

1. tabula

Mājas izdevumi. saimniecības (miljardi rubļu) [Y]

Iedzīvotāji (miljoni cilvēku)

Naudas piedāvājums (miljardi rubļu)

Bezdarba līmenis (%)

1.Specifikācija Regresijas vienādojuma modelis ietver atkarīgā mainīgā Y korelācijas atkarības grafisko analīzi (Mājsaimniecības izdevumi no skaidrojošā mainīgā X 1 (Iedzīvotāji) (1. att.), atkarīgā mainīgā Y korelācijas atkarības (Mājsaimniecības izdevumi no skaidrojošā mainīgā lieluma). X 2 (Naudas piedāvājums) (2. att.), atkarīgā mainīgā Y (Mājsaimniecības izdevumi no skaidrojošā mainīgā X 3 (Bezdarba līmenis)) korelācijas atkarība (3. att.).

Korelācijas atkarības starp Y un X 1 grafiks, kas parādīts 1. attēlā, atspoguļo Y nozīmīgu (R 2 = 0,71) apgriezto lineāro atkarību no X 1.

2. attēlā parādītais Y un X 2 korelācijas atkarības grafiks atspoguļo Y nozīmīgu (R 2 = 0,98) tiešu lineāro atkarību no X 2.

3. attēlā parādītais Y un X 3 korelācijas atkarības grafiks atspoguļo nenozīmīgu (R 2 = 0,15) Y apgriezto lineāro atkarību no X 3.

1. attēls

2. attēls

3. attēls

Rezultātā var norādīt lineāras daudzkārtējas regresijas modeli Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3.

2.Parametrizēšana regresijas vienādojumi tiek veikti, izmantojot "Regression" rīku kā daļu no "Data Analysis" pievienojumprogrammām MsExcel (4. att.).

4. attēls

Aprēķinātais regresijas vienādojums ir:

233983.8-1605.6X 1 + 1.0X 2 + 396.22X 3.

Šajā gadījumā regresijas koeficienti tiek interpretēti šādi: palielinoties iedzīvotāju skaitam par 1 miljonu cilvēku, mājas izdevumi. saimniecības samazinās par 1605,6 miljardiem rubļu; ar naudas piedāvājuma pieaugumu par 1 miljardu rubļu. mājas izdevumi. saimniecības palielināsies par 1,0 miljardiem rubļu; pieaugot bezdarba līmenim par 1%, mājokļa izdevumiem. saimniecības palielināsies par 396,2 miljardiem rubļu. Ar faktora mainīgo lielumu nulles vērtībām mājas izmaksas. saimniecības sastādīs 233 983,8 miljardus rubļu, kam, iespējams, nav nekādas ekonomiskās interpretācijas.

3.Pārbaude regresijas vienādojums tiek veikts, pamatojoties uz automatizētās regresijas analīzes rezultātiem (2. posms).

Tātad "R-kvadrāts" ir vienāds ar 0,998, t.i. regresijas vienādojums apraksta atkarīgā mainīgā uzvedību par 99%, kas norāda uz augstu vienādojuma apraksta līmeni. "F nozīme" ir 2.14774253442155E-07, kas norāda, ka "R kvadrāts" ir nozīmīgs. B 0 “P vērtība” ir 0,002, kas norāda, ka šis parametrs ir nozīmīgs. B 1 “P vērtība” ir 0,002, kas norāda, ka šis koeficients ir nozīmīgs. B 2 “P vērtība” ir 8,29103190343224E-07, kas norāda, ka šis koeficients ir nozīmīgs. B 3 “P vērtība” ir 0,084, kas norāda, ka šis koeficients nav nozīmīgs.

Pamatojoties uz atlikuma diagrammām, atlikumi e ir nejaušas vērtības.

Pamatojoties uz pielāgošanas diagrammām, tiek izdarīts secinājums par modeļa faktisko un prognozēto vērtību tuvumu.

Tātad modelis ir labas kvalitātes, savukārt b 3 nav nozīmīgs, tāpēc varam pieņemt, ka pastāv multikolinearitāte.

4. Papildus pētījumi.

4.1. Pirmās multikolinearitātes pazīmes noteikšana. Pēc regresijas analīzes datiem (5. attēls) var teikt, ka ir pirmā multikolinearitātes pazīme, jo tiek konstatēts augsts un nozīmīgs R 2, atklājas, ka vienādojumam ir augsts determinācijas koeficients, kā arī viens. koeficientu skaits nav nozīmīgs. Tas liecina par multikolinearitātes esamību.

4.2. Multikolinearitātes otrās pazīmes noteikšana.

Pamatojoties uz faktoru mainīgo lielumu korelācijas koeficientu aprēķiniem, tiek noteikta būtiska atsevišķu faktoru sakarība. (2. tabula). Multikolinearitātes esamība tiek pieņemta šādā gadījumā, ja starp vismaz diviem mainīgajiem ir ievērojams korelācijas koeficients (t.i., modulis ir lielāks par 0,5).

2. tabula

[ X2]

[ X3]

[ X2]

[ X3]

Mūsu gadījumā pastāv korelācijas koeficients starp X 1 un X 2 (-0,788), kas norāda uz spēcīgu atkarību starp mainīgajiem X 1, X 2, ir arī korelācijas koeficients starp X 1 un X 3 (0,54), kas norāda uz spēcīgu atkarību starp mainīgajiem lielumiem X 1, X 3.

Rezultātā var pieņemt, ka pastāv multikolinearitāte.

4.3. Trešās multikolinearitātes pazīmes noteikšana.

Tā kā 4.2. sadaļā tika konstatēta spēcīga sakarība starp mainīgajiem lielumiem X 1 un X 2, tad tiek analizēta papildu regresija starp šiem mainīgajiem (5. att.).

5. attēls

Tā kā "F nozīme" ir 0,01, kas norāda, ka "R kvadrāts" un palīgregresija ir nozīmīga, var pieņemt, ka regresors X 2 noved pie multikolinearitātes.

Tā kā 4.2. sadaļā tika konstatēta sakarība starp mainīgajiem lielumiem X 1 un X 3 virs vidējā līmeņa, tad tiek analizēta papildu regresija starp šiem mainīgajiem (6. att.).

6. attēls

Tā kā "Significance F" ir 0,13, kas norāda, ka "R kvadrāts" un palīgregresija nav nozīmīga, var pieņemt, ka regresors X 3 neizraisa multikolinearitāti.

Tātad, saskaņā ar trešo pazīmi, var pieņemt multikolinearitātes klātbūtni.

4.4. Spriedumu vispārināšana.

Saskaņā ar 4.1.-4.3. punktu analīzi tika konstatētas visas trīs multikolinearitātes pazīmes, tāpēc to var pieņemt ar lielu varbūtību. Tajā pašā laikā, neskatoties uz pieņēmumu 4.3. sadaļā par regresoru, kas noved pie multikolinearitātes, ir iespējams ieteikt X 3 izslēgt no sākotnējā modeļa, jo X 3 ir mazākais korelācijas koeficients ar Y, un šī regresora koeficients sākotnējā vienādojumā ir nenozīmīgs. Regresijas analīzes rezultāti pēc X 3 izslēgšanas ir parādīti attēlā. 7.

7. attēls

Šajā gadījumā mēs aprēķināsim F - statistiku, lai pārbaudītu izslēgšanas iespējamību:

F fakts = 4,62,

un F tab = F 0,05; 1; 5 = 6,61, jo F fakts< F табл, то исключение допустимо для переменной X 3 .

Lineārās daudzkārtējās regresijas modeļa Y = b 0 + b 1 X 1 + b 2 X 2 kvalitātes novērtējums. "R kvadrāts" ir 0,996, t.i. regresijas vienādojums apraksta atkarīgā mainīgā uzvedību par 99%, kas norāda uz augstu vienādojuma apraksta līmeni. "F nozīme" ir 3.02415218982089E-08, kas norāda, ka "R kvadrāts" ir nozīmīgs. B 0 “P vērtība” ir 0,004, kas norāda, ka šis parametrs ir nozīmīgs. “P vērtība” pie b 1 ir 0,005, kas norāda, ka šis koeficients ir nozīmīgs. B 2 “P vērtība” ir 3,87838361673427E-07, kas norāda, ka šis koeficients ir nozīmīgs. Aprēķinātais regresijas vienādojums ir:

2015 11,7–1359,6 X 1 + 1,01 X 2

Šajā gadījumā regresijas koeficienti tiek interpretēti šādi: samazinoties iedzīvotāju skaitam par 1 miljonu cilvēku, mājas izmaksas. saimniecības samazinās par 1359,6 miljardiem rubļu; palielinoties naudas piedāvājuma līmenim, mājas izdevumi. saimniecības palielināsies par 1,0) (miljardi rubļu). Ar faktora mainīgo lielumu nulles vērtībām mājas izmaksas. saimniecības sastādīs 201511,7 miljardus rubļu, kam var būt ekonomiska interpretācija.

Tātad modelis = 201511.7 -1359.6X 1 + 1.01X 2 ir labas kvalitātes un ir ieteicams prognozēšanai kā "labākais" salīdzinājumā ar sākotnējo modeli.

5. Prognozēšana.

5.1 Punktu prognozēšana. Faktoru mainīgo lielumu faktiskās vērtības prognozes periodā tiek uzskatītas par prognozētām, rezultējošā mainīgā prognozētās vērtības tiek noteiktas tā, kā paredz "labākais" modelis (= 201511,7 -1359,6X 1 + 1,01X 2), pamatojoties uz faktoru mainīgie lielumi prognozētajā periodā. Izmantojot Microsoft Excel rīku "Grafs", saskaņā ar novērojumiem tiek uzzīmēts iegūtā mainīgā faktisko un paredzamo vērtību grafiks un tiek izdarīts secinājums par faktisko vērtību tuvumu prognozētajām.

Prognozētās faktoru mainīgo vērtības ir parādītas 3. tabulā.

3. tabula

Paredzamās efektīvā mainīgā vērtības tiek noteiktas, kā to paredz "labākais" modelis (= 201511,7 -1359,6X 1 + 1,01X 2), pamatojoties uz faktoru mainīgajiem lielumiem prognozētajā periodā. Prognozētās vērtības ir parādītas 4. tabulā; faktiskās vērtības ir pievienotas salīdzinājumam.

4. tabula

[Y] empīriski

8. attēlā parādītas iegūtā mainīgā faktiskās un prognozētās vērtības, kā arī prognozes apakšējās un augšējās robežas.

8. attēls

Saskaņā ar 8. attēlu prognoze saglabā pieauguma tendenci, un visas prognozes vērtības ir tuvu faktiskajām.

5.2. Intervāla prognoze.

Izmantojot Microsoft Excel datu analīzes/regresijas rīku, tiek veidota regresija izlases un prognozes perioda apkopotajai datu kopai, bet pievienojot fiktīvus mainīgos D 1, D 2, ..., D p. Šajā gadījumā D i = 1 tikai novērošanas brīdim (n + i), visiem pārējiem momentiem D i = 0. Dati parādīti 5. tabulā, regresijas rezultāts 9. att.

5. tabula

[Y] pūces

9. attēls

Tad fiktīva mainīgā koeficienta standartkļūda ir vienāda ar prognozēšanas standarta kļūdu (S i): 2012. gadam tā būs 738,5; 2013. gadam būs 897,1; 2014. gadam būs 1139,4.

Intervālu prognozes robežas ir aprēķinātas 6. tabulā.

6. tabula

[Y] empīriski

[Y] pūces

[S] pr

Saskaņā ar tabulu. 6, izmantojot Microsoft Excel "Graph" rīku, tiek izveidots grafiks atbilstoši rezultējošā mainīgā faktiskajām un prognozētajām vērtībām, novērojumu prognozes augšējai un apakšējai robežai (10. att.).

10. attēls

Saskaņā ar grafiku, prognozētās vērtības iekļaujas intervāla prognozes robežās, kas norāda uz labu prognozes kvalitāti.

5.3. Modeļa stabilitātes novērtēšana, izmantojot NCO testu tiek veikta šādi:

a) izmantojot Microsoft Excel rīku "Datu analīze / Regresija", tiek veidota regresija (11. att.), kur faktoru mainīgo summētās (izlases un prognozes) vērtības tiek ņemtas par X vērtībām, un apkopojums (11. attēls). paraugs un prognoze) vērtības tiek ņemtas kā Y vērtības kā rezultāta mainīgais. Šo regresiju izmanto, lai noteiktu atlikuma kvadrātu summu S = 2058232,333.

11. attēls

b) veicot 3.2. punkta regresiju ar Salkever fiktīvajiem mainīgajiem (9. att.), nosaka atlikuma kvadrātu summu Sd = 1270272,697.

c) F statistikas vērtību aprēķina un novērtē:

savukārt F cr = F 0,05; 3; 5 = 5,40, tad iegūtā vērtība ir mazāka par kritisko vērtību F cr un tiek pieņemta hipotēze par modeļa stabilitāti prognozētajā periodā.

5.4. Spriedumu vispārināšana par modeļa prognozēšanas īpašībām pamatojoties uz 5.1.-5.3.punktu, rezultātā tiek veidots secinājums par modeļa augsto prognozēšanas kvalitāti (= 201511,7 -1359,6X 1 + 1,01X 2) un sniegti ieteikumi par modeļa izmantošanu prognozēšanai.

2.1. punkta tehnika ir veiksmīgi pārbaudīta, ļauj identificēt galvenās multikolinearitātes pazīmes un ir ieteicama šādiem pētījumiem.

Secinājums

Multikollinearitāte - ekonometrikā (regresijas analīze) - lineāras attiecības esamība starp regresijas modeļa skaidrojošajiem mainīgajiem (faktoriem). Tajā pašā laikā tiek izšķirta pilnīga kolinearitāte, kas nozīmē funkcionālas (identiskas) lineāras attiecības esamību, un daļēja vai vienkārši multikolinearitāte, kas nozīmē spēcīgas korelācijas esamību starp faktoriem.

Galvenās multikolinearitātes sekas ir: lielas novērtējumu dispersijas, koeficientu t-statistikas samazināšanās, koeficientu aplēses, izmantojot mazāko kvadrātu metodi, kļūst nestabilas, ir grūti noteikt mainīgo devumu un nepareiza koeficienta zīme. tiek iegūts.

Galvenie kritēriji multikolinearitātes noteikšanai ir šādi: augsts R 2 ar nenozīmīgiem koeficientiem; Augsti pāru korelācijas koeficienti; augstas VIF koeficienta vērtības.

Galvenās metodes multikolinearitātes novēršanai ir: mainīgā(-u) izslēgšana no modeļa; papildu datu vai jauna parauga iegūšana; modeļa specifikācijas maiņa; provizoriskas informācijas izmantošana par dažiem parametriem.

Izstrādātais informatīvais un metodiskais nodrošinājums atbilst multikolinearitātes problēmas ekonometriskās izpētes galvenajiem mērķiem daudzkārtējās regresijas modeļos un ir rekomendējams šādiem pētījumiem.

Izmantoto avotu saraksts

  1. Astahovs, S.N. Ekonometrija [Teksts]: Izglītojoši metodiskais komplekss. Kazaņa, 2008 .-- 107s.
  2. Bardasovs, S. A. EKONOMETRIKA [Teksts]: apmācība. 2. izdevums, Rev. un pievienot. Tjumeņa: Tjumeņas Valsts universitātes izdevniecība, 2010.264 lpp.
  3. Borodkina, L.I. Lekciju kurss [Elektroniskais resurss]. Piekļuves režīms - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboinikovs, Ju. EKONOMETRIKA programmā EXCEL 1. daļa [Teksts]: mācību rokasgrāmata, Novosibirska 2005,156 lpp.
  5. Elisejeva, I.I. Ekonometrijas seminārs: mācību grāmata. ceļvedis ekonomikā. universitātes / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [un utt.] ; ed. I.I. Elisejeva - M .: Finanses un statistika, 2001 .-- 191 lpp. - (14126-1).
  6. Multikollinearitāte [Elektroniskais resurss]. Piekļuves režīms - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikovs, A.I. Ekonometrija [Teksts]: mācību grāmata. rokasgrāmata piem. "Finanses un kredīts", "Ekonomika" - M .: Daškovs un K, 2013. - 223 lpp. - (93895-1).
  8. Multikolinearitātes problēma [Elektroniskais resurss]. Piekļuves režīms - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Čerņaks V. Lietišķā ekonometrija. Lekcija Nr.9 [Elektroniskais resurss]. Piekļuves režīms http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - enciklopēdiskā vietne [Elektroniskais resurss]. Piekļuves režīms - http://kodcupon.ru/ra17syplinoe97/ Multicollinearity.

Lejupielādēt: Jums nav piekļuves, lai lejupielādētu failus no mūsu servera.

Krievijas Federācijas federālā izglītības un zinātnes aģentūra

Kostromas Valsts tehnoloģiskā universitāte.

Augstākās matemātikas katedra

par ekonometriju par tēmu:

Daudzkolinearitāte

Izpildīts

1. kursa studente

korespondences fakultāte

sp-t "Grāmatvedība,

analīze un audits".

Pārbaudīts

Katežina S.F.

Kostroma, 2008


Daudzkolinearitāte

Daudzkolinearitāte tiek saprasta kā skaidrojošo mainīgo lielu savstarpēja korelācija. Multikollinearitāte var izpausties funkcionālā (eksplicītā) un stohastiskā (latentā) formās.

Multikolinearitātes funkcionālajā formā vismaz viena no pāru attiecībām starp skaidrojošajiem mainīgajiem ir lineāra funkcionāla atkarība. Šajā gadījumā matrica X`X ir īpaša, jo tajā ir lineāri atkarīgi kolonnu vektori, un tās determinants ir vienāds ar nulli, t.i. tiek pārkāpts regresijas analīzes priekšnoteikums, tas noved pie neiespējamības atrisināt atbilstošo normālo vienādojumu sistēmu un iegūt regresijas modeļa parametru aplēses.

Taču ekonomiskajos pētījumos multikolinearitāte bieži izpaužas stohastiskā formā, kad pastāv cieša korelācija starp vismaz diviem skaidrojošajiem mainīgajiem. Matrica X`X šajā gadījumā nav vienskaitlī, bet tās determinants ir ļoti mazs.

Tajā pašā laikā novērtējumu b vektors un tā kovariācijas matrica ∑ b ir proporcionāli apgrieztajai matricai (X`X) -1, kas nozīmē, ka to elementi ir apgriezti proporcionāli determinanta | X`X | vērtībai. Rezultātā tiek iegūtas būtiskas regresijas koeficientu b 0, b 1,…, bp standartnovirzes (standarta kļūdas) un to nozīmīguma novērtējumam pēc t kritērija nav jēgas, lai gan kopumā regresijas modelis var pagriezties. nozīmīgs pēc F kritērija.

Aplēses kļūst ļoti jutīgas pret nelielām izmaiņām novērojumos un izlases lielumā. Regresijas vienādojumiem šajā gadījumā, kā likums, nav īstas nozīmes, jo dažiem tā koeficientiem var būt no ekonomikas teorijas viedokļa nepareizas zīmes un nepamatoti lielas vērtības.

Nav precīzu kvantitatīvu kritēriju, lai noteiktu multikolinearitātes esamību vai neesamību. Tomēr tās noteikšanai ir dažas heiristiskas pieejas.

Viena šāda pieeja ir analizēt korelācijas matricu starp skaidrojošajiem mainīgajiem X 1, X 2, ..., X p un identificēt mainīgo pārus ar augstu korelācijas mainīgo lielumu (parasti lielāku par 0,8). Ja šādi mainīgie pastāv, var runāt par multikolinearitāti starp tiem. Ir arī lietderīgi atrast vairākus determinācijas koeficientus starp vienu no skaidrojošajiem mainīgajiem un kādu to grupu. Augsta daudzkārtēja determinācijas koeficienta klātbūtne (parasti vairāk nekā 0,6) norāda uz multikolinearitāti.

Vēl viena pieeja ir pārbaudīt X`X matricu. Ja matricas X`X determinants vai tās minimālā īpašvērtība λ min ir tuvu nullei (piemēram, vienāda lieluma ar uzkrājošajām skaitļošanas kļūdām), tad tas norāda uz multikolinearitātes esamību. to pašu var apliecināt ar ievērojamu matricas X`X maksimālās īpašvērtības λ max novirzi no tās minimālās īpašvērtības λ min.

Lai novērstu vai samazinātu multikolinearitāti, tiek izmantotas vairākas metodes. Vienkāršākais no tiem (bet ne vienmēr iespējams) ir tas, ka no diviem skaidrojošiem mainīgajiem ar augstu korelācijas koeficientu (lielāku par 0,8), viens mainīgais tiek izslēgts no izskatīšanas. Tajā pašā laikā, kuru mainīgo atstāt un kuru izņemt no analīzes, lemj galvenokārt, pamatojoties uz ekonomiskiem apsvērumiem. Ja no ekonomiskā viedokļa nevar dot priekšroku nevienam no mainīgajiem, tad atstāj vienu no diviem mainīgajiem, kuram ir lielāks korelācijas koeficients ar atkarīgo mainīgo.

Cita metode multikolinearitātes novēršanai vai samazināšanai ir pāriet no objektīviem aprēķiniem, kas noteikti ar mazāko kvadrātu metodi, uz neobjektīviem aprēķiniem, kuriem tomēr ir mazāka izkliede attiecībā pret novērtējamo parametru, t.i. vērtējuma b j novirzes no parametra β j vai M (b j - β j) kvadrāta mazāka matemātiskā sagaidāma.

Vektora noteiktajiem aprēķiniem saskaņā ar Gausa-Markova teorēmu ir minimālas novirzes visu lineāro objektīvo novērtējumu klasē, bet multikolinearitātes klātbūtnē šīs dispersijas var izrādīties pārāk lielas un, pievēršoties atbilstošajai neobjektīvi aprēķini var palielināt regresijas parametru novērtējuma precizitāti. Attēlā parādīts gadījums, kad neobjektīvais novērtējums β j ^, kura izlases sadalījumu dod blīvums φ (β j ^).

Patiešām, lai aprēķinātā parametra β j maksimālais pieļaujamais ticamības intervāls ir (β j -Δ, β j + Δ). Tad ticamības varbūtība jeb aplēses ticamība, ko nosaka laukums zem sadalījuma līknes intervālā (β j -Δ, β j + Δ), kā tas ir viegli redzams no attēla, šajā gadījumā būs lielāks, lai novērtētu β j, salīdzinot ar bj (attēlā šie apgabali ir iekrāsoti). Attiecīgi aplēses novirzes no aplēstā parametra vidējais kvadrāts būs mazāks neobjektīvam novērtējumam, t.i.:

M (β j ^ - β j) 2< M (b j - β j) 2

Izmantojot kores regresiju (vai grēdas regresiju), objektīvu aprēķinu vietā vektora doti neobjektīvi aprēķini.

β τ ^ = (X`X + τ E p +1) -1 X`Y,

kur τ – kāds pozitīvs skaitlis, ko sauc par "kores" vai "kores",

E p +1 ir (р + 1) -tās kārtas vienību matrica.

Pievienošana τ uz matricas diagonālajiem elementiem X`X padara modeļa parametru novērtējumus neobjektīvus, bet tajā pašā laikā normālo vienādojumu sistēmas matricas determinants palielinās - (X`X) vietā no būs vienāds ar

X`X + τ E p +1 |

Tādējādi kļūst iespējams izslēgt multikolinearitāti gadījumā, ja determinants | X`X | ir tuvu nullei.

Lai novērstu multikolinearitāti, var izmantot pāreju no sākotnējiem skaidrojošajiem mainīgajiem X 1, X 2, ..., X n, kas savstarpēji saistīti ar diezgan ciešu korelācijas atkarību, uz jauniem mainīgajiem, kas attēlo sākotnējo lineāras kombinācijas. Šajā gadījumā jaunajiem mainīgajiem jābūt vāji korelētiem vai vispār nekorelētiem. Kā šādus mainīgos mēs ņemam, piemēram, tā sauktos sākotnējo skaidrojošo mainīgo vektora galvenos komponentus, kas pētīti komponentu analīzē, un apsveram regresiju uz galvenajiem komponentiem, kuros pēdējie darbojas kā vispārināti skaidrojošie mainīgie, kas ir pakļauti turpmākiem nozīmīgiem ( ekonomiskā) interpretācija.

Galveno komponentu ortogonalitāte novērš multikolinearitātes efekta izpausmi. Turklāt pielietotā metode ļauj aprobežoties ar nelielu skaitu galveno komponentu ar salīdzinoši lielu sākotnējo skaidrojošo mainīgo skaitu.

Daudzkolinearitāte - tas ir termins, ko lieto, lai aprakstītu problēmu, kurā brīva lineāra sakarība starp skaidrojošajiem mainīgajiem rada neuzticamas regresijas aplēses. Protams, šādas attiecības ne vienmēr sniedz neapmierinošus vērtējumus. Ja visi pārējie nosacījumi ir labvēlīgi, tas ir, ja novērojumu skaits un skaidrojošo mainīgo izlases dispersijas ir lielas, un nejaušā vārda dispersija ir neliela, tad rezultātā var iegūt diezgan labus aprēķinus.

Tātad multikolinearitāti vajadzētu izraisīt brīvas atkarības un viena (vai vairāku) nelabvēlīgu apstākļu kombinācijai, un tas ir jautājums

parādības smagums, nevis tās veids. Jebkurš regresijas rezultāts zināmā mērā cietīs no tā, ja vien visi skaidrojošie mainīgie nav pilnīgi nekorelēti. Šīs problēmas izskatīšana sākas tikai tad, kad tā nopietni ietekmē regresijas aplēses rezultātus.

Šī problēma ir izplatīta laika rindu regresijā, tas ir, kad dati tiek veidoti no novērojumu sērijas noteiktā laika periodā. Ja diviem vai vairākiem skaidrojošiem mainīgajiem ir spēcīga laika tendence, tie būs cieši saistīti, un tas var izraisīt multikolinearitāti.


Ko šajā gadījumā var darīt?

Dažādās metodes, ko var izmantot, lai mazinātu multikolinearitāti, iedala divās kategorijās: pirmā kategorija ir mēģinājumi uzlabot četru nosacījumu izpildes pakāpi, kas nodrošina regresijas aprēķinu ticamību; otrā kategorija ir ārējās informācijas izmantošana. Ja iespējams, vispirms tiek izmantoti tieši iegūtie dati, tad acīmredzot būtu lietderīgi palielināt novērojumu skaitu.

Ja izmantojat laikrindu datus, varat to izdarīt, saīsinot katra laika perioda garumu. Piemēram, novērtējot pieprasījuma funkcijas vienādojumus 5.3. un 5.6. uzdevumā, varat pārslēgties no gada datu izmantošanas uz ceturkšņa datiem.

Pēc tam 25 novērojumu vietā būs 100. Tas ir tik pašsaprotami un tik vienkārši izdarāmi, ka lielākā daļa pētnieku, kas izmanto laikrindas, gandrīz automātiski gada datu vietā izmanto ceturkšņa datus, ja tādi ir pieejami, pat ja multikolinearitātes problēma. nav tā vērts, tikai lai līdz minimumam samazinātu regresijas koeficientu teorētiskās dispersijas. Tomēr ar šo pieeju ir iespējamas problēmas. Autokorelāciju var ieviest vai uzlabot, bet to var neitralizēt. Turklāt mērījumu kļūdu dēļ var tikt ieviesta (vai pastiprināta) novirze, ja ceturkšņa dati tiek mērīti ar mazāku precizitāti nekā attiecīgie gada dati. Šo problēmu nav viegli atrisināt, taču tā var nebūt nozīmīga.