Definícia multikolinearity. Príčiny a dôsledky multikolinearity

Multikolinearita Je lineárny vzťah medzi dvoma alebo viacerými faktoriálnymi premennými vo viacnásobnej regresnej rovnici. Ak je takáto závislosť funkčná, potom sa hovorí o plná multikolinearita... Ak je to korelácia, tak čiastočná multikolinearita... Ak je plná multikolinearita skôr teoretickou abstrakciou (prejavuje sa najmä vtedy, ak fiktívna premenná má kúrovne kvality, nahradiť za k dichotomické premenné), potom je čiastočná multikolinearita veľmi reálna a je takmer vždy prítomná. Môžeme hovoriť len o stupni jeho závažnosti. Napríklad, ak vysvetľujúce premenné zahŕňajú disponibilný príjem a spotrebu, potom obe tieto premenné budú, samozrejme, vysoko korelované.

Absencia multikolinearity je jedným z požadovaných predpokladov klasického lineárneho viacnásobného modelu. Je to spôsobené nasledujúcimi úvahami:

1) V prípade úplnej multikolinearity je vo všeobecnosti nemožné skonštruovať odhady parametrov lineárnej viacnásobnej regresie pomocou OLS.

2) V prípade čiastočnej multikolinearity môžu byť odhady regresných parametrov nespoľahlivé a navyše je ťažké určiť

izolovaný príspevok faktorov k efektívnemu ukazovateľu.

Hlavným dôvodom výskytu multikolinearity je prítomnosť v skúmanom objekte procesov, ktoré súčasne ovplyvňujú niektoré vstupné premenné, ale nie sú v modeli zohľadnené. Môže to byť dôsledok nekvalitného štúdia predmetnej oblasti alebo zložitosti vzájomných vzťahov parametrov študovaného objektu.

Existuje podozrenie, že multikolinearita je:

- veľké množstvo nepodstatných faktorov v modeli;

- veľké štandardné chyby regresných parametrov;

- nestabilita odhadov (malá zmena počiatočných údajov vedie k významnej zmene).

Jedným z prístupov na určenie prítomnosti alebo neprítomnosti multikolinearity je analýza korelačnej matice

medzi vysvetľujúcimi premennými a identifikáciou párov faktorov s vysokými párovými korelačnými koeficientmi (zvyčajne viac ako 0,7). Ak takéto faktory existujú, potom medzi nimi existuje jasná kolinearita.

Párové korelačné koeficienty, posudzované jednotlivo, však nemôžu posúdiť kumulatívnu interakciu viacerých faktorov (a nielen dvoch).

Preto na posúdenie prítomnosti multikolinearity v modeli je determinantom matice párových korelačných koeficientov medzi faktormi ( determinant medzifaktorovej korelačnej matice)

Čím bližšie je determinant medzifaktorovej korelačnej matice k 0, tým silnejšia je multikolinearita a naopak, čím bližšie je determinant k 1, tým menšia je multikolinearita.


Štatistická významnosť multikolinearity faktorov sa určuje testovaním nulovej hypotézy v rámci alternatívnej hypotézy. Na testovanie nulovej hypotézy sa používa Pearsonovo rozdelenie so stupňami voľnosti. Pozorovanú hodnotu štatistiky zistíme vzorcom, kde n- počet pozorovaní, m- počet faktorov. Pre danú hladinu významnosti sa kritická hodnota určí z tabuľky kritických bodov Pearsonovho rozdelenia. Ak, potom je hypotéza zamietnutá a predpokladá sa, že v modeli je prítomná multikolinearita faktorov.

Faktory ovplyvňujúce multikolinearitu možno rozlíšiť aj analýzou koeficientov viacnásobného určenia, vypočítaných za podmienky, že každý z faktorov sa považuje za závislú premennú iných faktorov:,,…,. Čím bližšie sú k 1, tým silnejšia je multikolinearita faktorov. To znamená, že faktory s minimálnou hodnotou koeficientu viacnásobného určenia by mali byť v rovnici ponechané.

Čo sa týka úplnej multikolinearity, treba s ňou viesť ten najrozhodnejší boj: okamžite odstráňte z regresnej rovnice premenné, ktoré sú lineárnymi kombináciami iných premenných.

Čiastočná multikolinearita nie je také vážne zlo, aby sa dala identifikovať a odstrániť. Všetko závisí od cieľov štúdie. Ak je hlavnou úlohou modelovania iba predpovedať hodnoty závislej premennej, potom s dostatočne veľkým koeficientom determinácie () prítomnosť multikolinearity neovplyvňuje prediktívne vlastnosti modelu. Ak je cieľom modelovania tiež určiť príspevok každého faktora k zmene závislej premennej, potom je prítomnosť multikolinearity vážnym problémom.

Najjednoduchšou metódou na odstránenie multikolinearity je vylúčenie jednej alebo viacerých korelovaných premenných z modelu.

Keďže multikolinearita priamo závisí od vzorky, je možné, že s inou vzorkou nebude multikolinearita vôbec, alebo nebude taká vážna. Preto na zníženie multikolinearity v niektorých prípadoch stačí zväčšiť veľkosť vzorky.

Niekedy sa dá problém multikolinearity vyriešiť zmenou špecifikácie modelu: buď sa zmení tvar modelu, alebo sa pridajú faktory, ktoré neboli v pôvodnom modeli zohľadnené, ale výrazne ovplyvňujú závislú premennú.

V niektorých prípadoch môže byť multikolinearita minimalizovaná alebo úplne eliminovaná transformáciou premenných faktorov. V tomto prípade sú najčastejšie tieto transformácie:

1. Lineárna kombinácia multikolineárnych premenných (napríklad).

2. Nahradenie multikolineárnej premennej jej prírastkom.

3. Delenie jednej kolineárnej premennej druhou.

Predpokladajme, že uvažujeme o regresnej rovnici a údaje na jej odhad obsahujú pozorovania pre objekty rôznej kvality: pre mužov a ženy, pre bielych a čiernych. otázka, ktorá nás tu môže zaujímať, je nasledujúca - je pravda, že uvažovaný model sa zhoduje pre dve vzorky súvisiace s objektmi rôznej kvality? Na túto otázku môžete odpovedať pomocou Chow testu.

Zvážte modely:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

V prvej ukážke N pozorovania, v druhom - M pozorovania. Príklad: Y- mzdy, vysvetľujúce premenné - vek, odpracovaná doba, stupeň vzdelania. Vyplýva z dostupných údajov, že model závislosti miezd od vysvetľujúcich premenných na pravej strane je rovnaký pre mužov aj ženy?

Na testovanie tejto hypotézy môžete použiť všeobecnú schému testovania hypotéz porovnaním obmedzenej regresie a neobmedzenej regresie. Regresia bez obmedzení je tu spojenie regresií (1) a (2), t.j. ESS UR = ESS 1 + ESS 2, počet stupňov voľnosti - N + M - 2k... Obmedzená regresia (t. j. regresia za predpokladu, že je splnená nulová hypotéza) bude regresiou pre celý dostupný súbor pozorovaní:

, i = 1,…, N+M (3).

Odhadom (3) dostaneme ESS R... Na testovanie nulovej hypotézy používame nasledujúce štatistiky:

Ktorá, ak je pravdivá nulová hypotéza, má Fisherovo rozdelenie s počtom stupňov voľnosti čitateľa k a menovateľ N+ M- 2k.

Ak je nulová hypotéza pravdivá, môžeme dostupné vzorky spojiť do jednej a model odhadnúť N+M pozorovania. Ak zamietneme nulovú hypotézu, potom nemôžeme tieto dve vzorky zlúčiť do jednej a budeme musieť tieto dva modely vyhodnotiť oddelene.


Štúdium všeobecného lineárneho modelu, o ktorom sme uvažovali skôr, je veľmi dôležité, ako sme videli, na základe štatistického aparátu. Avšak, ako vo všetkých aplikáciách mate. štatistike, sila metódy závisí od predpokladov, z ktorých vychádza a ktoré sú potrebné na jej aplikáciu. Na chvíľu sa budeme zaoberať situáciami, keď je porušená jedna alebo viacero hypotéz, ktoré sú základom lineárneho modelu. V týchto prípadoch zvážime alternatívne metódy hodnotenia. Uvidíme, že úloha niektorých hypotéz je významnejšia ako úloha iných. Musíme vidieť, k akým dôsledkom môže viesť porušenie určitých podmienok (predpokladov), vedieť si skontrolovať, či sú splnené alebo nie, a vedieť, aké štatistické metódy možno a treba použiť, keď klasická metóda najmenších štvorcov nie je vhodná.

1. Vzťah medzi premennými je lineárny a vyjadruje ho rovnica - chyby špecifikácie modelu (nezahrnutie významných vysvetľujúcich premenných do rovnice, zahrnutie nepotrebných premenných do rovnice, nesprávna voľba formy závislosti medzi premenné);


2. X 1 ,…,X k- deterministické premenné - stochastické regresory, lineárne nezávislé - plná multikolinearita;

4. - heteroskedasticita;

5.kedy i ¹ k- autokorelácia chýb

Pred začatím rozhovoru zvážte nasledujúce pojmy: koeficient párovej korelácie a koeficient parciálnej korelácie.

Predpokladajme, že skúmame vplyv jednej premennej na inú premennú ( Y a X). Aby sme pochopili, ako tieto premenné navzájom súvisia, vypočítame párový korelačný koeficient pomocou nasledujúceho vzorca:

Ak sa dostaneme k hodnote korelačného koeficientu blízkej 1, dôjdeme k záveru, že premenné spolu dosť silne súvisia.

Ak sa však korelačný koeficient medzi týmito dvoma premennými, ktoré sú predmetom záujmu, blíži k 1, nemusia byť v skutočnosti závislé. Prípad duševne chorého a rádia je príkladom toho, čo sa nazýva „falošná korelácia“. Vysoká hodnota korelačného koeficientu môže byť spôsobená aj existenciou tretej premennej, ktorá má silný vplyv na prvé dve premenné, čo je dôvodom ich vysokej korelácie. Preto vzniká problém s výpočtom „čistej“ korelácie medzi premennými X a Y, teda korelácia, v ktorej je vylúčený vplyv (lineárny) iných premenných. Na tento účel je zavedený koncept parciálneho korelačného koeficientu.

Chceme teda určiť koeficient parciálnej korelácie medzi premennými X a Y, s vylúčením lineárneho vplyvu premennej Z... Na jej určenie sa používa nasledujúci postup:

1. Odhadujeme regresiu,

2. Dostaneme zvyšky,

3. Odhadneme regresiu,

4. Dostaneme zvyšky,

5. - výberový koeficient parciálnej korelácie, meria mieru vzťahu medzi premennými X a Y, očistené od vplyvu premennej Z.

Priame výpočty:

Nehnuteľnosť:

Postup konštrukcie parciálneho korelačného koeficientu je zovšeobecnený v prípade, že sa chceme zbaviť vplyvu dvoch alebo viacerých premenných.


1. Dokonalá multikolinearita.

Jedna z Gauss-Markovových požiadaviek nám hovorí, že vysvetľujúce premenné by nemali súvisieť v žiadnom presnom vzťahu. Ak takýto vzťah medzi premennými existuje, hovoríme, že model má dokonalú multikolinearitu. Príklad. Zoberme si model s priemerným skóre skúšky, ktorý pozostáva z troch vysvetľujúcich premenných: ja- rodičovský príjem, D- priemerný počet hodín strávených na tréningu za deň, W- priemerný počet hodín strávených na tréningu za týždeň. To je zrejmé W=7D... A tento pomer splní každý žiak, ktorý spadne do našej vzorky. Prípad úplnej multikolinearity sa dá ľahko vysledovať, pretože v tomto prípade nie je možné zostaviť odhady pomocou metódy najmenších štvorcov.

2. Čiastočná multikolinearita alebo jednoducho multikolinearita.

Oveľa bežnejšia situácia je, keď medzi vysvetľujúcimi premennými neexistuje presný lineárny vzťah, ale existuje medzi nimi úzka korelácia – tento prípad sa nazýva reálna alebo čiastočná multikolinearita (jednoducho multikolinearita) – existencia úzkych štatistických vzťahov medzi premennými. Treba povedať, že otázka multikolinearity je skôr vecou miery prejavu javu, ako jeho typu. Akékoľvek regresné skóre ním bude trpieť v tej či onej forme, pokiaľ nie sú všetky vysvetľujúce premenné úplne nekorelované. Uvažovanie o tomto probléme sa začína až vtedy, keď začne vážne ovplyvňovať výsledky regresného odhadu (prítomnosť štatistických vzťahov medzi regresormi nemusí nutne poskytovať neuspokojivé odhady). Takže multikolinearita je problém, kde tesná korelácia medzi regresormi vedie k nespoľahlivým regresným odhadom.

Dôsledky multikolinearity:

Formálne, keďže ( X"X) Je nedegenerovaný, potom môžeme skonštruovať OLS odhady regresných koeficientov. Pripomeňme si však, ako sú vyjadrené teoretické rozptyly odhadov regresných koeficientov:, kde a ii - i diagonálny prvok matice. Keďže matica (X "X) je blízko k degenerácii a det ( X"X) »0 teda

1) na hlavnej diagonále inverznej matice sú veľmi veľké čísla, pretože prvky inverznej matice sú nepriamo úmerné det ( X"X). Preto ten teoretický rozptyl i-tý koeficient je dostatočne veľký a odhad rozptylu je tiež veľký, preto t- štatistiky sú malé, čo môže viesť k štatistickej nevýznamnosti i koeficientu. To znamená, že premenná má významný vplyv na vysvetľovanú premennú a usudzujeme, že je nevýznamná.

2) Keďže odhady a závisia od ( X"X) -1, ktorého prvky sú nepriamo úmerné det ( X"X), ak pridáme alebo odstránime jedno alebo dve pozorovania, pridáme alebo odoberieme teda jeden alebo dva riadky do matice X"X, potom sa hodnoty a môžu výrazne meniť, až po zmenu znamienka - nestabilita výsledkov odhadu.

3) Ťažkosti s interpretáciou regresnej rovnice. Povedzme, že v rovnici máme dve premenné, ktoré spolu súvisia: X 1 a X 2. Regresný koeficient pri X 1 sa interpretuje ako miera zmeny Y zmenou X 1 ceteris paribus, t.j. hodnoty všetkých ostatných premenných zostávajú rovnaké. Keďže však premenné X 1 a X 2 sú spojené, potom zmeny v premennej X 1 spôsobí predvídateľné zmeny v premennej X 2 a hodnotu X 2 nezostane rovnaký.

Príklad: kde X 1 - celková plocha, X 2 - obytná časť. Hovoríme: "Ak sa obytná plocha zväčší o 1 m2, potom, ak sú ostatné veci rovnaké, cena bytu sa zvýši o USD." V tomto prípade sa však obytná plocha zvýši aj o 1 m2. m. a zvýšenie ceny bude. Vymedziť vplyv na premennú Y každá premenná samostatne už nie je možná. Východiskom v tejto situácii s cenou bytu je zahrnúť do modelu nie celkovú plochu, ale takzvanú „dodatočnú“ alebo „dodatočnú“ plochu.

Znaky multikolinearity.

Neexistujú žiadne presné kritériá na určenie prítomnosti (neprítomnosti) multikolinearity. Existujú však heuristické odporúčania na jeho zistenie:

1) Analyzujte maticu párových korelačných koeficientov medzi regresormi a ak je hodnota korelačného koeficientu blízka 1, potom sa to považuje za znak multikolinearity.

2) Analýza korelačnej matice je len povrchným úsudkom o prítomnosti (neprítomnosti) multikolinearity. Dôkladnejšie štúdium tejto problematiky sa dosiahne výpočtom koeficientov parciálnej korelácie alebo výpočtom koeficientov determinácie pre každú z vysvetľujúcich premenných pre všetky ostatné vysvetľujúce premenné v regresii.

4) (XX) Je symetrická pozitívne definitívna matica; preto sú všetky jej vlastné hodnoty nezáporné. Ak determinant matice ( XX) sa rovná nule, potom je minimálna vlastná hodnota tiež nulová a kontinuita je zachovaná. V dôsledku toho možno hodnotu vlastnej hodnoty zvieraťa posudzovať aj na základe blízkosti k nule determinantu matice ( XX). Okrem tejto vlastnosti je dôležitá aj minimálna vlastná hodnota, pretože smerodajná chyba koeficientu je nepriamo úmerná.

5) Prítomnosť multikolinearity možno posúdiť podľa vonkajších znakov, ktoré sú dôsledkom multikolinearity:

a) niektoré z odhadov majú znaky, ktoré sú z hľadiska ekonomickej teórie nesprávne alebo neoprávnene vysoké hodnoty;

b) malá zmena počiatočných ekonomických údajov vedie k významnej zmene v odhadoch modelových koeficientov;

c) väčšina t- štatistika koeficientov sa nevýznamne líši od nuly, zároveň je model ako celok významný, o čom svedčí vysoká hodnota F-štatistika.

Ako sa zbaviť multikolinearity, ako ju odstrániť:

1) Použitie faktorovej analýzy. Prechod z pôvodného súboru regresorov, medzi ktorými sú štatisticky závislí, k novým regresorom Z 1 ,…,Z m pomocou metódy hlavných komponentov - namiesto počiatočných premenných namiesto počiatočných premenných uvažujeme o niektorých ich lineárnych kombináciách, medzi ktorými je korelácia malá alebo úplne chýba. Výzvou je poskytnúť zmysluplnú interpretáciu nových premenných. Z... Ak zlyhá, vrátime sa k pôvodným premenným pomocou inverzných transformácií. Získané odhady však budú skreslené, ale budú mať nižší rozptyl.

2) Spomedzi všetkých dostupných premenných vyberte faktory, ktoré najvýraznejšie ovplyvňujú vysvetľovanú premennú. Postupy výberu budú uvedené nižšie.

3) Prechod na metódy skresleného odhadu.

Keď stojíme pred problémom multikolinearity, neskúsený výskumník má najprv túžbu jednoducho vylúčiť nepotrebné regresory, ktoré ju môžu spôsobovať. Nie je však vždy jasné, ktoré premenné sú v tomto zmysle nadbytočné. Okrem toho, ako bude ukázané nižšie, vyradenie takzvaných významne ovplyvňujúcich premenných vedie k skresleniu odhadov OLS.


Všimnite si, že v mnohých prípadoch nie je multikolinearita takým závažným „zlom“, aby sa vynaložilo značné úsilie na jej identifikáciu a odstránenie. V podstate všetko závisí od cieľov štúdie.
Ak je hlavnou úlohou modelu predpovedať budúce hodnoty závislej premennej, potom pri dostatočne veľkom koeficiente determinácie R2 (gt; 0,9) prítomnosť multikolinearity zvyčajne neovplyvňuje prediktívne vlastnosti modelu ( ak v budúcnosti zostanú korelované premenné rovnaké ako doteraz ).
Ak je potrebné určiť mieru vplyvu každej z vysvetľujúcich premenných na závislú premennú, potom multikolinearita vedúca k zvýšeniu štandardných chýb pravdepodobne skreslí skutočné vzťahy medzi premennými. V tejto situácii je multikolinearita vážnym problémom.
Neexistuje jediná metóda na odstránenie multikolinearity, ktorá by bola v každom prípade vhodná. Je to spôsobené tým, že príčiny a dôsledky multikolinearity sú nejednoznačné a do značnej miery závisia od výsledkov vzorky.
Vylúčenie premennej (premenných) z modelu
Najjednoduchšou metódou na odstránenie multikolinearity je vylúčenie jednej alebo viacerých korelovaných premenných z modelu. Pri aplikácii tejto metódy je potrebná určitá opatrnosť. V tejto situácii sú možné chyby v špecifikácii, preto sa v aplikovaných ekonometrických modeloch odporúča nevylučovať vysvetľujúce premenné, kým sa multikolinearita nestane vážnym problémom.
Získanie ďalších údajov alebo novej vzorky
Keďže multikolinearita priamo závisí od vzorky, je možné, že pri inej vzorke multikolinearita nebude alebo nebude taká vážna. Niekedy je zväčšenie veľkosti vzorky dostatočné na zníženie multikolinearity. Ak napríklad používate ročné údaje, môžete prejsť na štvrťročné údaje. Zvýšenie množstva údajov znižuje rozptyl regresných koeficientov a tým zvyšuje ich štatistickú významnosť. Získanie novej vzorky alebo rozšírenie starej však nie je vždy možné alebo si vyžaduje značné náklady. Okrem toho tento prístup môže zlepšiť autokoreláciu. Tieto problémy obmedzujú použitie tejto metódy.
Úprava špecifikácie modelu
V niektorých prípadoch možno problém multikolinearity vyriešiť zmenou špecifikácie modelu: buď sa zmení tvar modelu, alebo sa pridajú vysvetľujúce premenné, ktoré neboli v pôvodnom modeli zohľadnené, ale výrazne ovplyvňujú závislú premennú. Ak je táto metóda opodstatnená, jej použitie znižuje súčet druhých mocnín odchýlok, čím sa znižuje štandardná chyba regresie. To vedie k zníženiu štandardných chýb koeficientov.
Použitie predbežných informácií o niektorých parametroch
Niekedy pri vytváraní viacnásobného regresného modelu môžete použiť predbežné informácie, najmä známe hodnoty niektorých regresných koeficientov.
Je pravdepodobné, že hodnoty koeficientov vypočítané pre akékoľvek predbežné (zvyčajne jednoduchšie) modely alebo pre podobný model založený na predtým získanej vzorke možno použiť pre model, ktorý sa práve vyvíja.
Výber najvýznamnejších vysvetľujúcich premenných. Postup pri postupnom spájaní prvkov
Prechod na menej vysvetľujúcich premenných môže znížiť duplicitu informácií poskytovaných vysoko vzájomne závislými funkciami. Presne s tým sa stretávame v prípade multikolineárnych vysvetľujúcich premenných.
Nechaj

Viacnásobný faktor
korelácie medzi závislou premennou Y a súborom vysvetľujúcich premenných X 1, X 2, ..., Xm. Je definovaný ako obvyklý párový korelačný koeficient medzi Y a lineárnou funkciou
regresia Y = b0 + KX1 + b2X2 + ... + bmXm. Nechajte zosilňovač; = R-1 - matica inverzná k matici R:


Potom možno koeficient na druhú Ry.X = Rr (xi, x2, .., x) vypočítať podľa vzorca:


Odhad R * 2.X opravený o nestrannosť koeficientu determinácie R2y.X má tvar:

(Ak sa pomocou vzorca (6.7) získa záporné číslo, potom predpokladáme


Spodná hranica spoľahlivosti pre

určený
podľa vzorca:

V praxi sa pri rozhodovaní o tom, ktoré vysvetľujúce premenné by mali byť zahrnuté do modelu, často využíva postup postupného spájania prvkov.
(j = 1, 2, ..., m). V čom

sa zhoduje so štvorcom obvyklého
párový korelačný koeficient

Nechaj


potom bude premenná xp najinformatívnejšia. Potom sa vypočíta koeficient korigovaný na nestrannosť
(pre m = 1) a jeho spodný limit spoľahlivosti R2min (1).


dvojica jxp, xq bude informatívnejšia). Potom sa vypočíta koeficient korigovaný na nezaujatosť (s m = 2)
a jeho spodný limit spoľahlivosti R2min (2).

Postup pokračuje, kým v kroku (až po +1) nie je splnená podmienka:
Potom model obsahuje najinformatívnejšie premenné získané v prvých krokoch. Všimnite si, že vo výpočtoch sa používajú vzorce (6.7) a (6.8), v ktorých sa namiesto m berie zodpovedajúca hodnota čísla kroku k.
V skutočnosti táto metóda nezaručuje, že sa zbavíme multikolinearity.
Používajú sa aj iné metódy eliminácie multikolinearity.
Príklad 6.1. Existujú nasledujúce podmienené údaje (tabuľka 6.1):
Tabuľka 6.1
Údaje pre metódu daisy-chaining


X1

X2

X3

Mať

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Uvažujme vplyv každej z vysvetľujúcich premenných na závislú premennú samostatne. Výpočtom párových korelačných koeficientov zistíme, že koeficient

potom:


Zvážte vplyv párov premenných (x1, x2) a (x1, x3) na závislú premennú. Najprv zvážte vplyv dvojice premenných (x1, x2).



Icuvum uvjpcuuivi
Pri spájaní premenných by sa do rovnice mali zahrnúť dve vysvetľujúce premenné. Preto bude mať teoretická rovnica tvar:
Ridge metóda
Zvážte hrebeňovú metódu (ridge regresia) na odstránenie multikolinearity. Metódu navrhol A.E. Hoerl v roku 1962 a používa sa, keď je matrica (xtX) blízko degenerácie. K diagonálnym prvkom matice (xtX) sa pridá malé číslo (od 0,1 do 0,4). V tomto prípade sa získajú skreslené odhady parametrov rovnice. Ale štandardné chyby takýchto odhadov v prípade multikolinearity sú nižšie ako tie, ktoré dáva obvyklá metóda najmenších štvorcov.
Príklad 6.2. Východiskové údaje sú prezentované „Tabuľka 6 2 Koeficient korelácie vysvetľujúcich premenných

čo
označuje silnú multikolinearitu.
Tabuľka 6.2
Údaje pre štúdium multikolinearity hrebeňovou metódou


x1

x2

Mať

1

1,4

7

2

3,1

12


Potom dostaneme rovnicu y = 2,63 + 1,37x1 + 1,95x2. Diagonálne prvky inverznej matice výrazne klesnú a budú sa rovnať z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, čo vedie k zníženiu smerodajných chýb koeficientov.
Zhrnutie
Medzi hlavné dôsledky, ku ktorým môže multikolinearita viesť, možno rozlíšiť:
  1. pri testovaní hlavnej hypotézy o nevýznamnosti viacnásobných regresných koeficientov pomocou t-testu je vo väčšine prípadov akceptovaná, samotná regresná rovnica sa však pri testovaní pomocou A-testu ukazuje ako významná, čo naznačuje nadhodnotenú hodnotu. viacnásobného korelačného koeficientu;
  2. získané odhady koeficientov viacnásobnej regresnej rovnice sú vo všeobecnosti neoprávnene nadhodnotené alebo majú nesprávne znamienka;
  3. pridanie alebo vylúčenie jedného alebo dvoch pozorovaní z počiatočných údajov má silný vplyv na odhady modelových koeficientov;
  4. prítomnosť multikolinearity vo viacnásobnom regresnom modeli môže spôsobiť, že nebude vhodný na ďalšie použitie (napríklad na vytváranie prognóz).
Samotestovacie otázky
  1. Čo je multikolinearita?
  2. Aké indikátory naznačujú prítomnosť multikolinearity?
  3. Aký je determinant matice XTX v prípade dokonalej multikolinearity?
  4. Čo možno povedať o význame koeficientov vysvetľujúcich premenných v prípade multikolinearity?
  5. Aká transformácia sa vykonáva v hrebeňovej metóde, k čomu vedie?
  6. Aké je poradie akcií pri metóde postupného zvyšovania počtu vysvetľujúcich premenných?
  7. Čo ukazuje korelačný koeficient?
  8. Čo ukazuje koeficient parciálnej korelácie?
0

Ministerstvo školstva a vedy Ruskej federácie

Federálna štátna rozpočtová vzdelávacia inštitúcia

vyššie vzdelanie

ŠTÁTNA TECHNICKÁ UNIVERZITA TVER

Katedra "účtovníctva a financií"

PROJEKT KURZU
v odbore "ekonometria"

"Skúmanie multikolinearity v ekonometrických modeloch: vylúčenie premenných (premenných) z modelu"

Vedúci práce:

Cand. tie. vedy, docent

Konovalovej

vykonávateľ:

študent skupiny EK-1315 EPO

Tver, 2015

Úvod ………………………………………………………………………………… ... 3

1.Analytická časť ………………………………………………………………… 4

1.1. Zovšeobecnené znaky multikolinearity v ekonometrických modeloch ………………………………………………………………………………… .4

1.2. Hlavné spôsoby eliminácie multikolinearity v ekonometrických modeloch ………… .. ………………………………………………… ..7

2. Dizajnová časť ……………………………………………………………………… ..11

2.1. Informačná a metodická podpora ekonometrického výskumu ………………………………………………………………………… .11

2.2. Príklad ekonometrickej štúdie …………………………… .17

Záver ………………………………………………………………… .... 30

Zoznam použitých zdrojov ………………………………………… ... 31

Úvod

Aktuálnosť témy práce „Skúmanie multikolinearity v ekonometrických modeloch: vylúčenie premennej (premenných) z modelu“ je daná tým, že v súčasnosti sa s týmto problémom často stretávame v aplikovaných ekonometrických modeloch.

Predmetom skúmania je problém multikolinearity. Predmetom výskumu sú ekonometrické modely.

Hlavným cieľom práce je vývoj návrhových riešení pre informačnú a metodickú podporu ekonometrického výskumu.

Na dosiahnutie cieľa boli stanovené a vyriešené tieto hlavné výskumné úlohy:

  1. Zovšeobecnenie vlastností multikolinearity v ekonometrických modeloch.
  2. Identifikácia hlavných spôsobov eliminácie multikolinearity.

3. Rozvoj informačnej a metodickej podpory ekonometrického výskumu.

  1. Analytická časť

1.1. Zovšeobecnené znaky multikolinearity v ekonometrických modeloch

Multikolinearita - v ekonometrii (regresná analýza) - prítomnosť lineárneho vzťahu medzi vysvetľujúcimi premennými (faktormi) regresného modelu. Zároveň existujú úplná kolinearita, čo znamená prítomnosť funkčnej (identickej) lineárnej závislosti, a čiastočné alebo jednoducho multikolinearita- prítomnosť silnej korelácie medzi faktormi.

Úplná kolinearita vedie k neistoty parametrov v lineárnom regresnom modeli bez ohľadu na metódy odhadu. Zvážte to pomocou nasledujúceho lineárneho modelu ako príkladu:

Nech faktory tohto modelu spolu súvisia takto:. Potom zvážte pôvodný lineárny model, v ktorom pripočítame k prvému koeficientu svojvoľnýčíslo a a odpočítajte rovnaké číslo od ostatných dvoch koeficientov. Potom máme (bez náhodnej chyby):

Takto sa napriek relatívne svojvoľnej zmene koeficientov modelu získa rovnaký model. Tento model je v podstate neidentifikovateľný. Neistota existuje už v samotnom modeli. Ak vezmeme do úvahy 3-rozmerný priestor koeficientov, potom v tomto priestore vektor skutočných koeficientov nie je v tomto prípade jediný, ale je to celá priamka. Akýkoľvek bod na tejto priamke je skutočným vektorom koeficientov.

Ak úplná kolinearita vedie k neistote v hodnotách parametrov, potom čiastočná multikolinearita vedie k ich nestabilite. hodnotenia... Nestabilita je vyjadrená zvýšením štatistickej neistoty – rozptylom odhadov. To znamená, že špecifické výsledky hodnotenia sa môžu v jednotlivých vzorkách značne líšiť, aj keď sú vzorky homogénne.

Ako viete, kovariančná matica odhadov viacerých regresných parametrov pomocou metódy najmenších štvorcov sa rovná. Čím je teda „menšia“ kovariančná matica (jej determinant), tým „väčšia“ je kovariančná matica odhadov parametrov, a najmä čím väčšie sú diagonálne prvky tejto matice, teda rozptyl odhadov parametrov. Pre jasnosť zvážte príklad dvojfaktorového modelu:

Potom sa rozptyl odhadu parametra, napríklad pre prvý faktor, rovná:

kde je výberový korelačný koeficient medzi faktormi.

Tu je jasne vidieť, že čím väčší je modul korelácie medzi faktormi, tým väčší je rozptyl odhadov parametrov. Pri (plnej kolinearite) má rozptyl tendenciu k nekonečnu, čo zodpovedá tomu, čo bolo povedané skôr.

Odhady parametrov sú teda získané nepresné, čo znamená, že bude ťažké interpretovať vplyv určitých faktorov na vysvetľovanú premennú. Zároveň multikolinearita neovplyvňuje kvalitu modelu ako celku – možno ju považovať za štatisticky významnú, aj keď všetky koeficienty sú nevýznamné (toto je jeden zo znakov multikolinearity).

V lineárnych modeloch môžu byť korelačné koeficienty medzi parametrami kladné a záporné. V prvom prípade je zvýšenie jedného parametra sprevádzané zvýšením iného parametra. V druhom prípade, keď sa jeden parameter zvýši, druhý sa zníži.

Na základe toho je možné stanoviť prijateľnú a neprijateľnú multikolinearitu. Neprijateľná multikolinearita nastane, keď existuje významná pozitívna korelácia medzi faktormi 1 a 2 a vplyv každého faktora na koreláciu s funkciou y je jednosmerný, to znamená, že zvýšenie oboch faktorov 1 a 2 vedie k zvýšeniu alebo zníženie funkcie y. Inými slovami, oba faktory pôsobia na funkciu y rovnakým spôsobom a významná pozitívna korelácia medzi nimi môže umožniť vylúčenie jedného z nich.

Prípustná multikolinearita je taká, že faktory ovplyvňujú funkciu y rozdielne. Tu sú možné dva prípady:

a) pri výraznej pozitívnej korelácii medzi faktormi je vplyv každého faktora na koreláciu s funkciou y viacsmerný, t.j. zvýšenie jedného faktora vedie k zvýšeniu funkcie a zvýšenie iného faktora vedie k zníženiu funkcie y.

b) pri výraznej negatívnej korelácii medzi faktormi je nárast jedného faktora sprevádzaný poklesom iného faktora, a preto sú faktory nejednoznačné, preto je možný akýkoľvek náznak vplyvu faktorov na funkciu y.

V praxi sa rozlišujú niektoré z najcharakteristickejších znakov multikolinearity: 1. Malá zmena počiatočných údajov (napríklad pridanie nových pozorovaní) vedie k významnej zmene v odhadoch modelových koeficientov. 2. Odhady majú veľké štandardné chyby, nízku významnosť, pričom model ako celok je významný (vysoká hodnota koeficientu determinácie R 2 a zodpovedajúce F-štatistiky). 3. Odhady koeficientov majú z teoretického hľadiska nesprávne znamienka alebo neopodstatnene vysoké hodnoty.

Nepriamymi znakmi multikolinearity sú vysoké štandardné chyby odhadov parametrov modelu, malé t-štatistiky (čiže nevýznamné koeficienty), nesprávne znaky odhadov, pričom model ako celok je uznaný ako štatisticky významný (veľká hodnota F-štatistiky) . Multikolinearitu možno doložiť aj výraznou zmenou v odhadoch parametrov z pridania (alebo odstránenia) údajov vzorky (ak sú splnené požiadavky na dostatočnú homogenitu vzorky).

Na zistenie multikolinearity faktorov je možné priamo analyzovať korelačnú maticu faktorov. Už prítomnosť veľkých hodnôt v absolútnej hodnote (nad 0,7-0,8) párových korelačných koeficientov naznačuje možné problémy s kvalitou získaných odhadov.

Analýza párových korelačných koeficientov je však nedostatočná. Je potrebné analyzovať koeficienty určenia regresií faktorov pre ostatné faktory (). Odporúča sa vypočítať ukazovateľ. Príliš vysoké hodnoty posledne menovaných znamenajú prítomnosť multikolinearity.

Hlavné kritériá na detekciu multikolinearity sú teda nasledovné: vysoké R2 pre všetky nevýznamné koeficienty, vysoké párové korelačné koeficienty, vysoké hodnoty koeficientu VIF.

1.2. Hlavné spôsoby eliminácie multikolinearity v ekonometrických modeloch

Pred uvedením hlavných metód na odstránenie multikolinearity poznamenávame, že v mnohých prípadoch multikolinearita nie je vážnym problémom, ktorý si vyžaduje značné úsilie na jej identifikáciu a odstránenie. V podstate všetko závisí od cieľov štúdie.

Ak je hlavnou úlohou modelu predpovedať budúce hodnoty regresie, potom pri dostatočne veľkom determinačnom koeficiente R2 (> 0,9) prítomnosť multikolinearity zvyčajne neovplyvňuje prediktívne vlastnosti modelu. Aj keď toto tvrdenie bude opodstatnené iba v prípade, že v budúcnosti si korelovaní regresori zachovajú rovnaký vzťah ako doteraz. Ak je cieľom štúdie určiť mieru vplyvu každého z regresorov na regresor, potom prítomnosť multikolinearity, ktorá vedie k zvýšeniu štandardných chýb, pravdepodobne skreslí skutočné vzťahy medzi regresormi. V tejto situácii je multikolinearita vážnym problémom.

Všimnite si, že neexistuje jediná metóda na odstránenie multikolinearity, ktorá by bola v každom prípade vhodná. Je to spôsobené tým, že príčiny a dôsledky multikolinearity sú nejednoznačné a do značnej miery závisia od výsledkov vzorky.

V praxi sa rozlišujú hlavné metódy eliminácie multikolinearity:

  1. Vylúčenie regresorov z modelu Najjednoduchšou metódou na elimináciu multikolinearity je vylúčenie jedného alebo viacerých korelovaných regresorov z modelu. Pri aplikácii tejto metódy je však potrebná určitá opatrnosť. V tejto situácii sú možné chyby špecifikácie. Napríklad pri skúmaní dopytu po určitom tovare možno ako vysvetľujúce premenné použiť cenu tohto tovaru a ceny substitútov za tento tovar, ktoré spolu často korelujú. Vylúčením cien náhrad z modelu s väčšou pravdepodobnosťou urobíme chybu v špecifikácii. V dôsledku toho možno získať skreslené odhady a vyvodiť nerozumné závery. V aplikovaných ekonometrických modeloch je teda žiaduce nevylučovať regresory, kým sa ich kolinearita nestane vážnym problémom.
  2. Získanie dodatočných údajov alebo novej vzorky, keďže multikolinearita priamo závisí od vzorky, potom možno pri inej vzorke nebude multikolinearita vôbec, alebo to nebude také vážne. Niekedy je zväčšenie veľkosti vzorky dostatočné na zníženie multikolinearity. Ak napríklad používate ročné údaje, môžete prejsť na štvrťročné údaje. Zvýšenie množstva údajov znižuje rozptyl regresných koeficientov a tým zvyšuje ich štatistickú významnosť. Získanie novej vzorky alebo rozšírenie starej však nie je vždy možné alebo si vyžaduje značné náklady. Okrem toho tento prístup môže zlepšiť autokoreláciu. Tieto problémy obmedzujú použitie tejto metódy.

III. Zmena špecifikácie modelu V niektorých prípadoch možno problém multikolinearity vyriešiť zmenou špecifikácie modelu: buď sa zmení tvar modelu, alebo sa pridajú nové regresory, ktoré neboli zohľadnené v pôvodnom modeli, ale výrazne ovplyvňujú závislé premenlivý. Ak je táto metóda opodstatnená, jej použitie znižuje súčet druhých mocnín odchýlok, čím sa znižuje štandardná chyba regresie. To vedie k zníženiu štandardných chýb koeficientov.

  1. Transformáciu premenných možno v niektorých prípadoch minimalizovať alebo úplne eliminovať problém multikolinearity iba pomocou transformácie premenných. Pôvodné údaje sú v tomto prípade rozdelené hodnotami jedného zo závislých regresorov. Aplikácia metódy hlavných komponentov na faktory modelu umožňuje transformovať počiatočné faktory a získať súbor ortogonálnych (nekorelovaných) faktorov. V tomto prípade nám prítomnosť multikolinearity umožní obmedziť sa na malý počet hlavných komponentov. Napriek tomu môže nastať problém zmysluplnej interpretácie hlavných komponentov.

Ak podľa všetkého existuje multikolinearita, potom medzi ekonometrimi existujú rôzne názory na túto záležitosť. Pri konfrontácii s problémom multikolinearity môže existovať prirodzená túžba zbaviť sa „zbytočných“ nezávislých premenných, ktoré ju môžu spôsobovať. Malo by sa však pamätať na to, že pri tom môžu vzniknúť nové ťažkosti. Po prvé, nie je vždy jasné, ktoré premenné sú v tomto zmysle nadbytočné.

Multikolinearita znamená iba približný lineárny vzťah medzi faktormi, ale nie vždy to zvýrazní „extra“ premenné. Po druhé, v mnohých situáciách môže odstránenie akýchkoľvek nezávislých premenných výrazne ovplyvniť význam modelu. Napokon vyradenie takzvaných podstatných premenných, t.j. nezávislých premenných, ktoré skutočne ovplyvňujú študovanú závislú premennú, vedie k skresleniu koeficientov modelu. V praxi sa zvyčajne, keď sa zistí multikolinearita, odstráni najmenej významný faktor pre analýzu a potom sa výpočty zopakujú.

V praxi sa teda rozlišujú hlavné metódy na odstránenie multikolinearity: zmena alebo zvýšenie vzorky, vylúčenie jednej z premenných, transformácia multikolineárnych premenných (použitie nelineárnych foriem, použitie agregátov (lineárne kombinácie viacerých premenných), použitie prvých rozdielov namiesto Ak však multikolinearita nie je eliminovaná, môžete ju ignorovať, berúc do úvahy vhodnosť vylúčenia.

  1. Projektová časť

2.1. Informačná a metodická podpora ekonometrického výskumu

Informačná podpora ekonometrického výskumu zahŕňa nasledujúce informácie:

Vstupné informácie:

  • štatistické údaje o sociálno-ekonomickom ukazovateli, definovanom ako závislá premenná (faktory - výsledky);
  • štatistické údaje o sociálno-ekonomických ukazovateľoch, definovaných ako vysvetľujúce premenné (faktory – znaky);

Priebežné informácie:

  • model regresnej rovnice, odhadnutá regresná rovnica, indikátory kvality a záver o kvalite regresnej rovnice, záver o prítomnosti (neprítomnosti) problému multikolinearity, odporúčania na použitie modelu;

Efektívne informácie:

  • odhadnutá regresná rovnica, záver o kvalite regresnej rovnice, záver o prítomnosti (neprítomnosti) úlohy multikolinearity, odporúčania pre aplikáciu modelu.

Metodológia ekonometrického výskumu je nasledovná: špecifikácia; parametrizácia, overovanie, doplnkový výskum, prognózovanie.

1. Špecifikácia modelu regresnej rovnice zahŕňa grafickú analýzu korelačnej závislosti závislej premennej na každej vysvetľujúcej premennej. Na základe výsledkov grafickej analýzy sa robí záver o modeli regresnej rovnice lineárneho alebo nelineárneho typu. Pre grafickú analýzu sa najčastejšie odporúča nástroj MsExcel Scatter Chart. Výsledkom tejto etapy je stanovenie modelu regresnej rovnice a v prípade nelineárnej formy aj metódy jej linearizácie.

2. Parametrizácia regresnej rovnice zahŕňa odhad regresných parametrov a ich socioekonomickú interpretáciu. Na parametrizáciu použite nástroj "Regresia" ako súčasť doplnkov "Analýza údajov" MsExcel. Na základe výsledkov automatizovanej regresnej analýzy (stĺpec "Koeficienty") sa určia regresné parametre a ich interpretácia je tiež daná podľa štandardného pravidla:

Bj je množstvo, o ktoré sa hodnota premennej Y mení v priemere, keď sa nezávislá premenná Xj zväčšuje o 1, ceteris paribus.

Priesečník regresnej rovnice sa rovná predpovedanej hodnote závislej premennej Y, keď sú všetky nezávislé premenné nulové.

3. Overenie regresnej rovnice sa vykonáva na základe výsledkov automatizovanej regresnej analýzy (2. fáza) podľa nasledujúcich ukazovateľov: „R-štvorec“, „Významnosť F“, „P-hodnota“ (pre každý parameter regresie), ako aj na grafoch výberu a zvyškov ...

Stanoví sa významnosť koeficientov a posúdi sa kvalita modelu. Na tento účel sa berú do úvahy „významnosť F“, „hodnota P“ a „štvorec R“. Ak je „P-hodnota“ menšia ako rovnica statickej významnosti, znamená to významnosť koeficientu. Ak je „R-squared“ väčší ako 0,6, znamená to, že regresný model dobre opisuje správanie závislej premennej Y na faktoroch premenných.

Ak je „významnosť F“ menšia ako statická rovnica významnosti, potom sa koeficient determinácie (R-štvorec) považuje za podmienene štatisticky významný.

Graf zvyškov vám umožňuje odhadnúť odchýlky v chybách. Ak neexistujú žiadne špeciálne rozdiely medzi chybami zodpovedajúcimi rôznym hodnotám Xi, to znamená, že odchýlky v chybách pre rôzne hodnoty Xi sú približne rovnaké a možno predpokladať, že neexistujú žiadne problémy. Harmonogram montáže vám umožňuje urobiť úsudok o základnej, predpokladanej a faktorovej hodnote.

Na záver sa vytvorí úsudok o kvalite regresnej rovnice.

  1. Dodatočný výskum.

4.1 Detekcia prvého znaku multikolinearity. Na základe výsledkov regresnej analýzy získaných v odsekoch 2-3 sa kontroluje situácia, v ktorej má koeficient determinácie vysokú hodnotu (R 2> 0,7) a staticky významný (významnosť F<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05) Keď sa takáto situácia zistí, urobí sa záver o predpoklade multikolinearity.

4.2 Detekcia druhého znaku multikolinearity. Na základe výpočtov korelačných koeficientov medzi faktorovými premennými je určený významný vzťah jednotlivých faktorov. Pre výpočty v MS Excel je vhodné použiť nástroj Data Analysis / Correlation. Na základe hodnôt korelačného koeficientu sa vyvodia závery: čím bližšie (r) k extrémnym bodom (± 1), tým väčší je stupeň lineárneho vzťahu, ak je korelačný koeficient menší ako 0,5, potom sa uvažuje že vzťah je slabý. Prítomnosť multikolinearity sa predpokladá v nasledujúcom prípade, ak existuje významný korelačný koeficient medzi aspoň dvoma premennými (t. j. väčší ako 0,7 modulu).

4.3 Detekcia tretieho znaku multikolinearity. Na základe posúdenia pomocných regresií medzi faktorovými premennými a medzi premennými, kde existuje významný korelačný koeficient (časť 4.2), sa dospelo k záveru, že multikolinearita je prítomná, ak je aspoň v jednej pomocnej regresii významná a významná. Metóda dodatočných regresií koeficientu determinácie je nasledovná: 1) zostrojia sa regresné rovnice, ktoré spájajú každý z regresorov so všetkými ostatnými; 2) koeficienty determinácie R2 sa vypočítajú pre každú regresnú rovnicu; 3) ak sa rovnica a koeficient determinácie považujú za štatisticky významné, potom tento regresor vedie k multikolinearite.

4.4 Zovšeobecňovanie rozsudkov.

Na základe článkov 4.1-4.3 sa vytvára úsudok o prítomnosti/neprítomnosti multikolinearity a regresorov vedúcich k multikolinearite.

Ďalej sa tvoria smery použitia modelu (v prípade ignorovania alebo absencie problému multikolinearity) alebo odporúčania na odstránenie multikolinearity (v praxi s vylúčením premennej).

Pri vylúčení premennej je vhodné použiť pravidlo:

Koeficient determinácie je určený pre regresnú rovnicu pôvodne zostavenú z n pozorovaní (R 2 1);

Vylúčením posledných premenných z úvahy (k) sa na základe počiatočných n pozorovaní vytvorí rovnica pre zostávajúce faktory a určí sa pre ňu koeficient determinácie (R 2 2);

Vypočíta sa F-štatistika: kde (R 1 2 -R 2 2) je strata rovnice v dôsledku poklesu na premenné, (K) je počet dodatočných stupňov voľnosti, ktoré sa objavili, (1- R 1 2) / (nml) je nevysvetlený rozptyl počiatočných rovníc;

Kritická hodnota F a, k, n-m -1 sa určí podľa tabuliek kritických bodov Fisherovho rozdelenia pri danej hladine významnosti a a stupňoch voľnosti v 1 = k, v 2 = n-m-l;

O vhodnosti výnimky sa tvoria úsudky podľa pravidla: (súčasné) vylúčenie k premenných z rovnice sa považuje za nevhodné pre F> F a, k, n-m - 1, inak je takáto výnimka prípustná.

Keď je premenná eliminovaná, výsledný model sa analyzuje v súlade s odsekmi 3-4; a porovná sa s pôvodným modelom, v dôsledku čoho sa vyberie „najlepší“. V praxi, keďže multikolinearita neovplyvňuje prediktívne vlastnosti modelu, možno tento problém ignorovať.

5. Prognóza sa vykonáva podľa počiatočného / „najlepšieho“ modelu zvoleného v odseku 4.4, podľa schémy retrospektívnej prognózy, v ktorej sa na prognózovanie používa posledná 1/3 pozorovaní.

5.1. Bodová predpoveď. Skutočné hodnoty faktorových premenných v prognózovanom období sa považujú za predpovedané, predpovedané hodnoty výslednej premennej sú určené podľa predpovede pôvodného / „najlepšieho“ modelu na základe faktorových premenných v prognózovanom období. Pomocou nástroja Microsoft Excel "Graph" sa vykreslí graf skutočných a predpokladaných hodnôt výslednej premennej podľa pozorovaní a urobí sa záver o blízkosti skutočných hodnôt k predpovedaným.

5.2. Intervalové predpovedanie zahŕňa výpočet štandardných chýb predikcie (pomocou fiktívnych premenných Salkever) a hornej a dolnej hranice predpovedaných hodnôt.

Pomocou nástroja Microsoft Excel Data Analysis / Regression tool sa vytvorí regresia pre súhrnný súbor údajov vzorky a prognózovaného obdobia, ale s pridaním fiktívnych premenných D 1, D 2, ..., D p. V tomto prípade D i = 1 len pre moment pozorovania (n + i), pre všetky ostatné momenty D i = 0. Potom sa koeficient fiktívnej premennej Di rovná chybe predikcie v čase (n + i) a štandardná chyba koeficientu sa rovná štandardnej chybe predikcie (Si). Uskutočňuje sa teda automatizovaná regresná analýza modelu, kde sú ako hodnoty X použité súhrnné (vzorové a predpovedané) hodnoty faktorových premenných a hodnoty fiktívnych premenných Salkeveru a súhrnné hodnoty (vzorka a predpovedané) hodnoty výslednej premennej sa používajú ako hodnoty Y.

Získané štandardné chyby koeficientov pre Salkever fiktívne premenné sa rovnajú štandardným chybám predikcie. Potom sa hranice intervalovej predpovede vypočítajú pomocou nasledujúcich vzorcov: Ymin n + i = Yemp n + i -S i * t cr, Ymax n + i = Yemp n + i + S i * t cr, kde t cr je kritická hodnota Studentovho rozdelenia, určená vzorcom „= STYURASPOBR (0,05; nm-1)“, m je počet vysvetľujúcich faktorov v modeli (Y * t), Yemp n + i sú predpovedané hodnoty výslednej premennej (odsek 5.1).

Pomocou nástroja Microsoft Excel "Graph" sa vytvorí graf podľa skutočných a predpokladaných hodnôt výslednej premennej, hornej a dolnej hranice predpovede pre pozorovania. Urobí sa záver o prispôsobení skutočných hodnôt výslednej premennej do hraníc intervalovej predpovede.

5.3. Hodnotenie stability modelu pomocou testu NCO sa vykonáva takto:

a) pomocou nástroja Microsoft Excel "Analýza / Regresia údajov" sa vytvorí regresia, kde súhrnné (vzorové a predpovedané) hodnoty faktorových premenných sa berú ako hodnoty X a súhrnné (vzorové a predpovedané) hodnoty výslednej premennej sa berú ako hodnoty Y. Táto regresia sa používa na určenie súčtu druhých mocnín rezíduí S;

b) podľa regresie článku 5.2 s fiktívnymi premennými Salkever sa určí súčet druhých mocnín rezíduí Sd;

c) hodnota štatistiky F sa vypočíta a odhadne podľa vzorca:

kde p je počet prediktívnych krokov. Ak je získaná hodnota väčšia ako kritická hodnota F cr, určená vzorcom "= FDISP (0,05; p; nm-1)", potom je hypotéza o stabilite modelu v prognózovanom období zamietnutá, v opačnom prípade je prijatý.

5.4 Zovšeobecnenie úsudkov o prediktívnych kvalitách modelu na základe článkov 5.1-5.3, výsledkom čoho je záver o prediktívnej kvalite modelu a odporúčania na použitie modelu na prognózovanie.

Vyvinutá informačná a metodická podpora teda zodpovedá hlavným cieľom ekonometrickej štúdie problému multikolinearity vo viacnásobných regresných modeloch.

2.2. Príklad ekonometrickej štúdie

Štúdia sa vykonáva na základe údajov odrážajúcich reálne makroekonomické ukazovatele Ruskej federácie za obdobie rokov 2003-2011. (tabuľka 1), podľa metódy bodu 2.1.

stôl 1

Náklady na dom. farmy (miliardy rubľov) [Y]

Obyvateľstvo (milión ľudí)

Peňažná zásoba (miliardy rubľov)

Miera nezamestnanosti (%)

1. Špecifikácia Model regresnej rovnice obsahuje grafickú analýzu korelačnej závislosti závislej premennej Y (Výdavky domácnosti od vysvetľujúcej premennej X 1 (Obyvateľstvo) (obr. 1), korelačnej závislosti závislej premennej Y (Výdavky domácnosti od vysvetľujúcej premennej X 2 (Peňažná ponuka) (obr. 2), korelačná závislosť závislej premennej Y (Výdavky domácnosti na vysvetľujúcej premennej X 3 (miera nezamestnanosti) (obr. 3).

Graf korelačnej závislosti medzi Y a X 1 uvedený na obrázku 1 odráža významnú (R 2 = 0,71) inverznú lineárnu závislosť Y na X 1.

Graf korelačnej závislosti medzi Y a X 2 uvedený na obrázku 2 odráža významnú (R 2 = 0,98) priamu lineárnu závislosť Y na X 2.

Graf korelačnej závislosti medzi Y a X 3 uvedený na obrázku 3 odráža nevýznamnú (R 2 = 0,15) inverznú lineárnu závislosť Y na X 3.

Obrázok 1

Obrázok 2

Obrázok 3

Výsledkom je, že lineárny viacnásobný regresný model možno špecifikovať Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3.

2.Parametrizácia regresné rovnice sa vykonávajú pomocou nástroja "Regresia" ako súčasti doplnkov "Analýza údajov" MsExcel (obr. 4).

Obrázok 4

Odhadovaná regresná rovnica je:

233983,8-1605,6X 1 + 1,0X 2 + 396,22X 3.

V tomto prípade sa regresné koeficienty interpretujú takto: s nárastom populácie o 1 milión ľudí, náklady na dom. farmy sa znížia o 1605,6 miliardy rubľov; so zvýšením peňažnej zásoby o 1 miliardu rubľov. náklady na dom. farmy sa zvýšia o 1,0 miliardy rubľov; pri zvýšení miery nezamestnanosti o 1%, výdavky na dom. farmy sa zvýšia o 396,2 miliardy rubľov. Pri nulových hodnotách faktorových premenných sú náklady na dom. farmy budú predstavovať 233 983,8 miliárd rubľov, čo možno nemá žiadnu ekonomickú interpretáciu.

3. Overenie regresná rovnica sa vykonáva na základe výsledkov automatizovanej regresnej analýzy (2. fáza).

Takže "R-štvorec" sa rovná 0,998, t.j. regresná rovnica opisuje správanie závislej premennej na 99 %, čo naznačuje vysokú úroveň popisu rovnice. "Významnosť F" je 2,14774253442155E-07, čo znamená, že "R-štvorec" je významný. „P-Value“ pre b 0 je 0,002, čo znamená, že tento parameter je významný. „P-hodnota“ pre b 1 je 0,002, čo znamená, že tento koeficient je významný. „Hodnota P“ pre b 2 je 8,29103190343224E-07, čo znamená, že tento koeficient je významný. „P-hodnota“ pre b 3 je 0,084, čo znamená, že tento koeficient nie je významný.

Na základe grafov zvyškov sú zvyšky e náhodné hodnoty.

Na základe vhodných grafov sa urobí záver o blízkosti skutočných a predpokladaných hodnôt pre model.

Takže model je dobrej kvality, zatiaľ čo b 3 nie je významné, takže môžeme predpokladať prítomnosť multikolinearity.

4. Dodatočný výskum.

4.1. Detekcia prvého znaku multikolinearity. Podľa údajov z regresnej analýzy (obrázok 5) môžeme povedať, že existuje prvý znak multikolinearity, keďže sa zistí vysoký a významný R2, ukáže sa, že rovnica má vysoký koeficient determinácie a jeden z koeficienty nie sú významné. To naznačuje prítomnosť multikolinearity.

4.2 Detekcia druhého znaku multikolinearity.

Na základe výpočtov korelačných koeficientov medzi faktorovými premennými je určený významný vzťah jednotlivých faktorov. (Tabuľka 2). Prítomnosť multikolinearity sa predpokladá v nasledujúcom prípade, ak existuje významný korelačný koeficient medzi aspoň dvoma premennými (t. j. väčší ako 0,5 modulu).

tabuľka 2

[ X2]

[ X3]

[ X2]

[ X3]

V našom prípade existuje korelačný koeficient medzi X 1 a X 2 (-0,788), čo naznačuje silnú závislosť medzi premennými X 1, X 2, existuje aj korelačný koeficient medzi X 1 a X 3 (0,54), čo naznačuje silnú závislosť medzi premennými X 1, X 3.

V dôsledku toho možno predpokladať prítomnosť multikolinearity.

4.3 Detekcia tretieho znaku multikolinearity.

Keďže v časti 4.2 bol zistený silný vzťah medzi premennými X 1 a X 2, analyzujeme pomocnú regresiu medzi týmito premennými (obr. 5).

Obrázok 5

Pretože „významnosť F“ je 0,01, čo naznačuje, že „R-kvadrát“ a pomocná regresia sú významné, možno predpokladať, že regresor X 2 vedie k multikolinearite.

Keďže v časti 4.2 bol zistený vzťah medzi premennými X 1 a X 3 nad priemernou úrovňou, analyzujeme pomocnú regresiu medzi týmito premennými (obr. 6).

Obrázok 6

Pretože "významnosť F" je 0,13, čo naznačuje, že "R-kvadrát" a pomocná regresia nie sú významné, možno predpokladať, že regresor X 3 nevedie k multikolinearite.

Takže podľa tretieho znaku možno predpokladať prítomnosť multikolinearity.

4.4 Zovšeobecňovanie rozsudkov.

Podľa rozboru odsekov 4.1-4.3 boli zistené všetky tri znaky multikolinearity, takže sa dá s vysokou pravdepodobnosťou predpokladať. Zároveň, napriek predpokladu v časti 4.3 ohľadom regresora vedúceho k multikolinearite, je možné odporučiť vylúčenie X 3 z pôvodného modelu, keďže X 3 má najmenší korelačný koeficient s Y a koeficient tohto regresora je v pôvodnej rovnici nevýznamný. Výsledky regresnej analýzy po vylúčení X3 sú znázornené na obr. 7.

Obrázok 7

V tomto prípade vypočítame F - štatistiku na kontrolu uskutočniteľnosti vylúčenia:

Fakt = 4,62,

a F tab = F 0,05, 1, 5 = 6,61, pretože F fakt< F табл, то исключение допустимо для переменной X 3 .

Posúdenie kvality lineárneho viacnásobného regresného modelu Y = b 0 + b 1 X 1 + b 2 X 2. "R-štvorec" je 0,996, t.j. regresná rovnica opisuje správanie závislej premennej na 99 %, čo naznačuje vysokú úroveň popisu rovnice. "F významnosť" je 3,02415218982089E-08, čo znamená, že "R-štvorec" je významný. „P-hodnota“ pre b 0 je 0,004, čo znamená, že tento parameter je významný. „P-hodnota“ pre b 1 je 0,005, čo znamená, že tento koeficient je významný. „Hodnota P“ pre b 2 je 3,87838361673427E-07, čo znamená, že tento koeficient je významný. Odhadovaná regresná rovnica je:

201511,7 -1359,6X 1 + 1,01X 2

V tomto prípade sa regresné koeficienty interpretujú takto: s poklesom počtu obyvateľov o 1 milión ľudí náklady na dom. farmy sa znížia o 1 359,6 miliardy rubľov; so zvýšením úrovne peňažnej zásoby, výdavkov na dom. farmy sa zvýšia o 1,0) (miliardy rubľov). Pri nulových hodnotách faktorových premenných sú náklady na dom. farmy budú predstavovať 201511,7 miliardy rubľov, čo môže mať ekonomický výklad.

Takže model = 201511,7 -1359,6X 1 + 1,01X 2 je kvalitný a odporúča sa na predpovedanie ako „najlepší“ v porovnaní s pôvodným modelom.

5. Predpovedanie.

5.1 Predpoveď bodov. Skutočné hodnoty faktorových premenných v prognózovanom období sa považujú za predpovedané, predpovedané hodnoty výslednej premennej sú určené podľa predpovede „najlepšieho“ modelu (= 201511,7 -1359,6X 1 + 1,01X 2) na základe faktorové premenné v prognózovanom období. Pomocou nástroja Microsoft Excel "Graph" sa vykreslí graf skutočných a predpokladaných hodnôt výslednej premennej podľa pozorovaní a urobí sa záver o blízkosti skutočných hodnôt k predpovedaným.

Predpokladané hodnoty faktorových premenných sú uvedené v tabuľke 3.

Tabuľka 3

Predpovedané hodnoty efektívnej premennej sú určené podľa predpovede „najlepšieho“ modelu (= 201511,7 -1359,6X 1 + 1,01X 2) na základe faktorových premenných v prognózovanom období. Predpokladané hodnoty sú uvedené v tabuľke 4; skutočné hodnoty sú pridané na porovnanie.

Tabuľka 4

[Y] empirický

Obrázok 8 zobrazuje skutočné a prognózované hodnoty výslednej premennej, ako aj dolné a horné hranice prognózy.

Obrázok 8

Predpoveď si podľa obr. 8 zachováva rastúci trend a všetky predpovedané hodnoty sú blízke skutočným.

5.2. Predpoveď intervalov.

Pomocou nástroja Microsoft Excel Data Analysis / Regression tool sa vytvorí regresia pre súhrnný súbor údajov vzorky a prognózovaného obdobia, ale s pridaním fiktívnych premenných D 1, D 2, ..., D p. V tomto prípade D i = 1 len pre moment pozorovania (n + i), pre všetky ostatné momenty D i = 0. Údaje sú uvedené v tabuľke 5, výsledok regresie na obr.

Tabuľka 5

[Y] sovy

Obrázok 9

Potom sa štandardná chyba koeficientu pre fiktívnu premennú rovná štandardnej chybe predikcie (S i): pre rok 2012 to bude 738,5; na rok 2013 bude 897,1; pre rok 2014 bude 1139,4.

Hranice intervalovej predpovede sú vypočítané v tabuľke 6.

Tabuľka 6

[Y] empirický

[Y] sovy

[S] pr

Podľa tabuľky. 6 pomocou nástroja Microsoft Excel „Graph“ sa zostaví graf podľa skutočných a predpokladaných hodnôt výslednej premennej, hornej a dolnej hranice predpovede pre pozorovania (obr. 10).

Obrázok 10

Podľa grafu predpovedané hodnoty zapadajú do hraníc intervalovej predpovede, čo naznačuje dobrú kvalitu predpovede.

5.3. Hodnotenie stability modelu pomocou NCO testu sa vykonáva takto:

a) pomocou nástroja Microsoft Excel „Analýza / regresia“ sa vytvorí regresia (obr. 11), kde súhrnné (vzorové a prognózované) hodnoty faktorových premenných sa berú ako hodnoty X a súhrnné ( vzorka a predpoveď) hodnoty sa berú ako hodnoty Y a výsledná premenná. Táto regresia sa používa na určenie súčtu druhých mocnín rezíduí S = 2058232,333.

Obrázok 11

b) regresiou bodu 3.2 so Salkeverovými fiktívnymi premennými (obr. 9) sa určí súčet druhých mocnín rezíduí Sd = 1270272,697.

c) vypočíta sa a vyhodnotí sa hodnota F štatistiky:

kým F cr = F 0,05, 3, 5 = 5,40, potom je získaná hodnota menšia ako kritická hodnota F cr a je akceptovaná hypotéza o stabilite modelu v prognózovanom období.

5.4 Zovšeobecnenie úsudkov o prediktívnych kvalitách modelu na základe článkov 5.1-5.3 sa v dôsledku toho vytvára záver o vysokej prediktívnej kvalite modelu (= 201511.7 -1359.6X 1 + 1.01X 2) a sú uvedené odporúčania na použitie modelu na predpovedanie.

Technika z článku 2.1 bola úspešne testovaná, umožňuje nám identifikovať hlavné znaky multikolinearity a možno ju odporučiť pre takéto štúdie.

Záver

Multikolinearita - v ekonometrii (regresná analýza) - prítomnosť lineárneho vzťahu medzi vysvetľujúcimi premennými (faktormi) regresného modelu. Zároveň sa rozlišuje úplná kolinearita, ktorá znamená prítomnosť funkčného (identického) lineárneho vzťahu, a čiastočná alebo jednoducho multikolinearita, ktorá znamená prítomnosť silnej korelácie medzi faktormi.

Hlavnými dôsledkami multikolinearity sú: veľké rozptyly odhadov, pokles t-štatistiky koeficientov, odhady koeficientov metódou najmenších štvorcov sa stávajú nestabilnými, je ťažké určiť príspevok premenných a nesprávne znamienko koeficientu. je získané.

Hlavné kritériá na detekciu multikolinearity sú nasledovné: vysoký R2 s nevýznamnými koeficientmi; Vysoké párové korelačné koeficienty; vysoké hodnoty koeficientu VIF.

Hlavné metódy na elimináciu multikolinearity sú: vylúčenie premennej (premenných) z modelu; získanie dodatočných údajov alebo novej vzorky; zmena špecifikácie modelu; použitie predbežných informácií o niektorých parametroch.

Vyvinutá informačná a metodická podpora zodpovedá hlavným cieľom ekonometrickej štúdie problému multikolinearity vo viacnásobných regresných modeloch a možno ju pre takéto štúdie odporučiť.

Zoznam použitých zdrojov

  1. Astakhov, S.N. Ekonometria [Text]: Výchovno-metodický komplex. Kazaň, 2008 .-- 107s.
  2. Bardasov, S. A. ECONOMETRICS [Text]: návod. 2. vydanie, Rev. a pridať. Tyumen: Vydavateľstvo Štátnej univerzity v Tyumen, 2010.264 s.
  3. Borodkina, L.I. Kurz prednášok [Elektronický zdroj]. Režim prístupu - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboinikov, Yu. EKONOMETRIE v EXCELi 1. časť [Text]: študijná príručka, Novosibirsk 2005, 156 s.
  5. Eliseeva, I.I. Workshop z ekonometrie: učebnica. príručka pre ekonomiku. univerzity / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [a atď.]; vyd. I.I. Eliseeva - M .: Financie a štatistika, 2001 .-- 191 s. - (14126-1).
  6. Multikolinearita [Elektronický zdroj]. Režim prístupu - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikov, A.I. Ekonometria [Text]: učebnica. manuál napr. "Financie a úver", "Ekonomika" - M.: Dashkov a K, 2013. - 223 s. - (93895-1).
  8. Problém multikolinearity [Elektronický zdroj]. Režim prístupu - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak V. Aplikovaná ekonometria. Prednáška č. 9 [Elektronický zdroj]. Režim prístupu http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - encyklopedická stránka [Elektronický zdroj]. Režim prístupu - http://kodcupon.ru/ra17syplinoe97/ Multikolinearita.

Stiahnuť ▼: Nemáte prístup k sťahovaniu súborov z nášho servera.

Federálna agentúra pre vzdelávanie a vedu Ruskej federácie

Štátna technologická univerzita Kostroma.

Katedra vyššej matematiky

o ekonometrii na tému:

Multikolinearita

Vykonané

študent 1. ročníka

korešpondenčnej fakulte

sp-t "účtovníctvo,

analýza a audit“.

Skontrolované

Katezhina S.F.

Kostroma 2008


Multikolinearita

Multikolinearita sa chápe ako vysoká vzájomná korelácia vysvetľujúcich premenných. Multikolinearita sa môže prejaviť vo funkčnej (explicitnej) a stochastickej (latentnej) forme.

Vo funkčnej forme multikolinearity je aspoň jeden z párových vzťahov medzi vysvetľujúcimi premennými lineárnou funkčnou závislosťou. V tomto prípade je matica X`X špeciálna, keďže obsahuje lineárne závislé stĺpcové vektory a jej determinant je rovný nule, t.j. je porušený predpoklad regresnej analýzy, čo vedie k nemožnosti vyriešiť príslušný systém normálnych rovníc a získať odhady parametrov regresného modelu.

V ekonomickom výskume sa však multikolinearita často prejavuje v stochastickej podobe, keď existuje úzka korelácia medzi aspoň dvoma vysvetľujúcimi premennými. Matica X`X je v tomto prípade nesingulárna, ale jej determinant je veľmi malý.

Vektor odhadov b a jeho kovariančná matica ∑ b sú zároveň úmerné inverznej matici (X`X) -1, čo znamená, že ich prvky sú nepriamo úmerné hodnote determinantu | X`X |. Výsledkom je, že sa získajú významné smerodajné odchýlky (štandardné chyby) regresných koeficientov b 0, b 1,…, bp a hodnotenie ich významnosti t-kritériom nedáva zmysel, aj keď vo všeobecnosti sa regresný model môže obrátiť podľa kritéria F.

Odhady sú veľmi citlivé na malé zmeny v pozorovaniach a veľkosti vzorky. Regresné rovnice v tomto prípade spravidla nemajú skutočný význam, pretože niektoré jej koeficienty môžu mať znamienka, ktoré sú z hľadiska ekonomickej teórie nesprávne a neopodstatnene veľké hodnoty.

Neexistujú žiadne presné kvantitatívne kritériá na určenie prítomnosti alebo neprítomnosti multikolinearity. Napriek tomu existujú určité heuristické prístupy k jeho detekcii.

Jedným z takýchto prístupov je analýza korelačnej matice medzi vysvetľujúcimi premennými X 1, X 2, ..., X p a identifikácia párov premenných s vysokými korelačnými premennými (zvyčajne väčšími ako 0,8). Ak takéto premenné existujú, hovorí sa o multikolinearite medzi nimi. Je tiež užitočné nájsť viacero koeficientov determinácie medzi jednou z vysvetľujúcich premenných a niektorou z nich. Prítomnosť vysokého viacnásobného koeficientu determinácie (zvyčajne viac ako 0,6) indikuje multikolinearitu.

Ďalším prístupom je skúmanie matice X`X. Ak je determinant matice X`X alebo jej minimálna vlastná hodnota λ min blízko nule (napríklad rádovo rovnakého s hromadiacimi sa výpočtovými chybami), potom to indikuje prítomnosť multikolinearity. to isté možno doložiť výraznou odchýlkou ​​maximálnej vlastnej hodnoty λ max matice X`X od jej minimálnej vlastnej hodnoty λ min.

Na odstránenie alebo zníženie multikolinearity sa používa množstvo metód. Najjednoduchšia z nich (ale nie vždy možná) je tá, že z dvoch vysvetľujúcich premenných s vysokým korelačným koeficientom (vyšším ako 0,8) je jedna premenná vylúčená. O tom, ktorú premennú ponechať a ktorú z analýzy odstrániť, sa zároveň rozhoduje predovšetkým na základe ekonomických úvah. Ak z ekonomického hľadiska nemožno uprednostniť žiadnu z premenných, potom sa ponechá tá z dvoch premenných, ktorá má väčší korelačný koeficient so závislou premennou.

Ďalšou metódou eliminácie alebo zníženia multikolinearity je prechod od nezaujatých odhadov určených metódou najmenších štvorcov k skresleným odhadom, ktoré však majú menší rozptyl v porovnaní s odhadovaným parametrom, t.j. nižšie matematické očakávanie druhej mocniny odchýlky odhadu b j od parametra β j alebo M (b j - β j) 2.

Odhady určené vektorom v súlade s Gauss-Markovovou vetou majú minimálne odchýlky v triede všetkých lineárnych nezaujatých odhadov, ale v prítomnosti multikolinearity sa tieto odchýlky môžu ukázať ako príliš veľké a môžu sa zmeniť na zodpovedajúce skreslené odhady môžu zvýšiť presnosť odhadu regresných parametrov. Na obrázku je znázornený prípad, kedy je skreslený odhad β j ^, ktorého výberové rozdelenie je dané hustotou φ (β j ^).

Nech je skutočne maximálny prípustný interval spoľahlivosti pre odhadovaný parameter β j (β j -Δ, β j + Δ). Potom pravdepodobnosť spoľahlivosti alebo spoľahlivosť odhadu, určená plochou pod distribučnou krivkou v intervale (β j -Δ, β j + Δ), ako je ľahko vidieť z obrázku, bude v tomto prípade väčšia pre odhad β j v porovnaní s bj (na obrázku sú tieto oblasti vytieňované). V súlade s tým bude stredná štvorec odchýlky odhadu od odhadovaného parametra menšia pre skreslený odhad, t. j.:

M (pj^ - pj) 2< M (b j - β j) 2

Pri použití hrebeňovej regresie (alebo hrebeňovej regresie) sa namiesto nezaujatých odhadov použijú skreslené odhady dané vektorom

β τ ^ = (X`X + τ E p +1) -1 X`Y,

kde τ – nejaké kladné číslo nazývané „hrebeň“ alebo „hrebeň“,

E p +1 je (р + 1) matica jednotiek -tého rádu.

Pridávanie τ k diagonálnym prvkom matice X`X skresľuje odhady parametrov modelu, ale zároveň rastie determinant matice sústavy normálnych rovníc - namiesto (X`X) od sa bude rovnať

X`X + τ E p +1 |

Takto je možné vylúčiť multikolinearitu v prípade, že determinant | X`X | sa blíži k nule.

Na odstránenie multikolinearity možno využiť prechod z pôvodných vysvetľujúcich premenných X 1, X 2, ..., X n, vzájomne prepojených pomerne úzkou korelačnou závislosťou, k novým premenným reprezentujúcim lineárne kombinácie pôvodných. V tomto prípade by nové premenné mali byť slabo korelované alebo vo všeobecnosti nekorelované. Ako také premenné berieme napríklad takzvané hlavné komponenty vektora počiatočných vysvetľujúcich premenných študovaných v analýze komponentov a uvažujeme o regresii hlavných komponentov, v ktorých tieto hlavné komponenty pôsobia ako zovšeobecnené vysvetľujúce premenné podliehajúce ďalším zmysluplným ( ekonomický) výklad.

Ortogonalita hlavných komponentov bráni prejavu efektu multikolinearity. Okrem toho použitá metóda umožňuje obmedziť sa na malý počet hlavných komponentov s relatívne veľkým počtom počiatočných vysvetľujúcich premenných.

Multikolinearita - je to termín používaný na opis problému, kde voľný lineárny vzťah medzi vysvetľujúcimi premennými vedie k nespoľahlivým regresným odhadom. Samozrejme, takýto vzťah nemusí nutne dávať neuspokojivé hodnotenia. Ak sú všetky ostatné podmienky priaznivé, to znamená, ak je počet pozorovaní a rozptyly vzoriek vysvetľujúcich premenných veľké a rozptyl náhodného členu je malý, potom je možné získať celkom dobré odhady.

Takže multikolinearita by mala byť spôsobená kombináciou voľnej závislosti a jednej (alebo viacerých) nepriaznivých podmienok, a to je otázka

závažnosť javu a nie jeho typ. Akékoľvek regresné skóre tým bude do určitej miery trpieť, pokiaľ nie sú všetky vysvetľujúce premenné úplne nekorelované. Uvažovanie o tomto probléme začína až vtedy, keď vážne ovplyvní výsledky regresného odhadu.

Tento problém je bežný pri regresiách časových radov, to znamená, keď sa údaje skladajú zo série pozorovaní za určité časové obdobie. Ak majú dve alebo viac vysvetľujúcich premenných silný časový trend, potom budú úzko korelované, čo môže viesť k multikolinearite.


Čo sa dá v tomto prípade urobiť?

Rôzne metódy, ktoré možno použiť na zmiernenie multikolinearity, spadajú do dvoch kategórií: prvá kategória zahŕňa pokusy o zlepšenie miery, do akej sú splnené štyri podmienky, ktoré zabezpečujú spoľahlivosť regresných odhadov; druhou kategóriou je využívanie externých informácií. Ak je to možné, najskôr sa použijú priamo získané údaje, potom by bolo zrejme užitočné zvýšiť počet pozorovaní.

Ak používate údaje časových radov, môžete to urobiť skrátením dĺžky každého časového obdobia. Napríklad pri vyhodnocovaní rovníc funkcie dopytu v cvičeniach 5.3 a 5.6 môžete prejsť z používania ročných údajov na štvrťročné údaje.

Potom ich namiesto 25 pozorovaní bude 100. Je to také zrejmé a také jednoduché, že väčšina výskumníkov používajúcich časové rady takmer automaticky používa namiesto ročných údajov štvrťročné údaje, ak sú k dispozícii, aj keď problém multikolinearity nestojí za to, len zredukovať na minimum teoretické rozptyly regresných koeficientov. S týmto prístupom však existujú potenciálne problémy. Autokorelácia môže byť zavedená alebo posilnená, ale môže byť neutralizovaná. Okrem toho sa môže zaviesť (alebo zosilniť) odchýlka v dôsledku chýb merania, ak sa štvrťročné údaje merajú s menšou presnosťou ako zodpovedajúce ročné údaje. Tento problém nie je ľahké vyriešiť, ale nemusí byť významný.