A multikollinearitás definíciója. A multikollinearitás okai és következményei

Multikollinearitás Lineáris kapcsolat két vagy több faktoriális változó között a többszörös regressziós egyenletben. Ha egy ilyen függőség működőképes, akkor arról beszélünk teljes multikollinearitás... Ha ez korreláció, akkor részleges multikollinearitás... Ha a teljes multikollinearitás inkább elméleti absztrakció (ez különösen akkor nyilvánul meg, ha egy álváltozó k minőségi szintek, cserélje ki k dichotóm változók), akkor a részleges multikollinearitás nagyon is valóságos, és szinte mindig jelen van. Csak súlyosságának mértékéről beszélhetünk. Például, ha a magyarázó változók között szerepel a rendelkezésre álló jövedelem és a fogyasztás, akkor természetesen mindkét változó erősen korrelál.

A multikollinearitás hiánya a klasszikus lineáris többszörös modell egyik kívánatos előfeltétele. Ennek oka a következő megfontolások:

1) Teljes multikollinearitás esetén általában lehetetlen a lineáris többszörös regresszió paramétereinek becslése OLS segítségével.

2) Részleges multikollinearitás esetén a regressziós paraméterek becslései megbízhatatlanok lehetnek, ráadásul nehéz meghatározni.

tényezők elszigetelt hozzájárulása a hatékony mutatóhoz.

A multikollinearitás előfordulásának fő oka az, hogy a vizsgált objektumban olyan folyamatok jelen vannak, amelyek egyidejűleg érintenek néhány bemeneti változót, de nem veszik figyelembe a modellben. Ennek oka lehet a témakör rossz minőségű tanulmányozása vagy a vizsgált objektum paraméterei közötti összefüggések összetettsége.

A multikollinearitás gyanúja a következő:

- nagyszámú jelentéktelen tényező a modellben;

- a regressziós paraméterek nagy standard hibái;

- a becslések instabilitása (a kezdeti adatok kis változása jelentős változáshoz vezet).

A multikollinearitás meglétének vagy hiányának meghatározásának egyik módja a korrelációs mátrix elemzése

a magyarázó változók és a magas párkorrelációs együtthatójú (általában 0,7-nél nagyobb) faktorpárok azonosítása között. Ha léteznek ilyen tényezők, akkor egyértelmű kollinearitás van közöttük.

A páros korrelációs együtthatók külön-külön vizsgálva azonban nem képesek több tényező (és nem csak kettő) kumulatív kölcsönhatását felmérni.

Ezért a multikollinearitás modellben való meglétének felméréséhez a tényezők közötti páronkénti korrelációs együtthatók mátrixának determinánsa ( az interfaktor korrelációs mátrix meghatározója)

Minél közelebb van az interfaktor-korrelációs mátrix determinánsa a 0-hoz, annál erősebb a multikollinearitás, és fordítva, minél közelebb van a determináns 1-hez, annál kisebb a multikollinearitás.


A faktorok multikollinearitásának statisztikai szignifikanciáját a nullhipotézis alternatív hipotézis alapján történő tesztelésével határozzuk meg. A szabadságfokokkal rendelkező Pearson-eloszlást használjuk a nullhipotézis tesztelésére. A statisztika megfigyelt értékét a képlet adja meg, ahol n- a megfigyelések száma, m- a tényezők száma. Egy adott szignifikanciaszinthez a kritikus értéket a Pearson-eloszlás kritikus pontjainak táblázatából határozzuk meg. Ha, akkor a hipotézist elvetjük, és úgy tekintjük, hogy a faktorok multikollinearitása jelen van a modellben.

A multikollinearitást befolyásoló tényezők a többszörös determinációs együtthatók elemzésével is megkülönböztethetők, azzal a feltétellel, hogy mindegyik tényezőt más tényezők függő változójának tekintjük:,,…,. Minél közelebb vannak az 1-hez, annál erősebb a faktorok multikollinearitása. Ez azt jelenti, hogy a többszörös meghatározási együttható minimális értékű tényezőit meg kell hagyni az egyenletben.

Ami a teljes multikollinearitást illeti, ezzel kell megvívni a legdöntőbb küzdelmet: azonnal távolítsuk el a regressziós egyenletből azokat a változókat, amelyek más változók lineáris kombinációi.

A részleges multikollinearitás nem olyan súlyos rossz, hogy azonosítani és megszüntetni kellene. Minden a tanulmány céljaitól függ. Ha a modellezés fő feladata csak a függő változó értékeinek előrejelzése, akkor kellően nagy determinációs együtthatóval () a multikollinearitás jelenléte nem befolyásolja a modell prediktív tulajdonságait. Ha a modellezés célja az is, hogy meghatározzuk az egyes tényezők hozzájárulását a függő változó változásához, akkor a multikollinearitás jelenléte komoly probléma.

A multikollinearitás kiküszöbölésének legegyszerűbb módja egy vagy több korrelált változó kizárása a modellből.

Mivel a multikollinearitás közvetlenül függ a mintától, lehetséges, hogy egy másik mintával egyáltalán nem lesz multikollinearitás, vagy nem lesz olyan súlyos. Ezért a multikollinearitás csökkentése érdekében bizonyos esetekben elegendő a minta méretének növelése.

Néha a multikollinearitás problémája megoldható a modell specifikációjának megváltoztatásával: vagy megváltozik a modell alakja, vagy olyan tényezőket adnak hozzá, amelyeket az eredeti modell nem vett figyelembe, de jelentősen befolyásolják a függő változót.

Egyes esetekben a multikollinearitás minimalizálható vagy teljesen kiküszöbölhető a faktorváltozók transzformációjával. Ebben az esetben a következő átalakítások a leggyakoribbak:

1. Multikollineáris változók lineáris kombinációja (például).

2. A multikollineáris változó lecserélése a növekedésével.

3. Egy kollineáris változó felosztása egy másikkal.

Tegyük fel, hogy egy regressziós egyenletet vizsgálunk, és a becsléséhez szükséges adatok különböző minőségű objektumokra vonatkozó megfigyeléseket tartalmaznak: férfiak és nők, fehérek és feketék esetében. a kérdés, ami itt érdekelhet, a következő - igaz-e, hogy a vizsgált modell egybeesik két különböző minőségű objektumra vonatkozó mintánál? Erre a kérdésre a Chow teszt segítségével válaszolhat.

Vegye figyelembe a modelleket:

, én=1,…,N (1);

, én=N+1,…,N+M (2).

Az első mintában N megfigyelések, a másodikban - M megfigyelések. Példa: Y- bérek, magyarázó változók - életkor, szolgálati idő, iskolai végzettség. Következik-e a rendelkezésre álló adatokból, hogy a bérek jobb oldali magyarázó változóktól való függésének modellje megegyezik a férfiak és a nők esetében?

Ennek a hipotézisnek a teszteléséhez használhatja az általános hipotézis-tesztelési sémát a korlátozott regresszió és a korlátlan regresszió összehasonlításával. A megkötések nélküli regresszió itt az (1) és (2) regressziók uniója, azaz. ESS UR = ESS 1 + ESS 2, a szabadságfokok száma - N + M - 2k... A korlátozott regresszió (azaz a nullhipotézis teljesülésének feltételezése melletti regresszió) a megfigyelések teljes halmazára vonatkozó regresszió lesz:

, én = 1,…, N+M (3).

A (3) becslést kapjuk ESS R... A nullhipotézis teszteléséhez a következő statisztikákat használjuk:

Amelynek, ha a nullhipotézis igaz, a Fisher-eloszlás a számláló szabadságfokainak számával kés nevező N+ M- 2k.

Ha a nullhipotézis igaz, akkor a rendelkezésre álló mintákat egyesíthetjük, és megbecsülhetjük a modellt N+M megfigyelések. Ha a nullhipotézist elvetjük, akkor a két mintát nem tudjuk egybevonni, és ezt a két modellt külön kell értékelnünk.


Az általános lineáris modell tanulmányozása, amelyet korábban vizsgáltunk, nagyon lényeges, mint láttuk, a statisztikai apparátus alapján. Azonban, mint minden alkalmazásban társ. statisztika, egy módszer erőssége a mögöttes és az alkalmazásához szükséges feltételezésektől függ. Egy ideig mérlegeljük azokat a helyzeteket, amikor a lineáris modell alapjául szolgáló hipotézisek közül egy vagy több megsérül. Ezekben az esetekben alternatív értékelési módszereket fogunk mérlegelni. Látni fogjuk, hogy egyes hipotézisek szerepe jelentősebb, mint másoké. Látnunk kell, hogy bizonyos feltételek (feltételezések) megszegése milyen következményekkel járhat, ellenőrizni kell, hogy azok teljesülnek-e vagy sem, és tudnunk kell, hogy milyen statisztikai módszereket lehet és érdemes alkalmazni, ha a klasszikus legkisebb négyzetek módszere nem megfelelő.

1. A változók közötti kapcsolat lineáris, és az egyenlettel fejeződik ki - modellspecifikációs hibák (jelentős magyarázó változók egyenletbe nem kerülése, szükségtelen változók felvétele az egyenletbe, a függőség formájának helytelen megválasztása változók);


2. x 1 ,…,X k- determinisztikus változók - sztochasztikus regresszorok, lineárisan független - teljes multikollinearitás;

4. - heteroszkedaszticitás;

5.mikor én ¹ k- a hibák autokorrelációja

A beszélgetés megkezdése előtt vegye figyelembe a következő fogalmakat: párkorrelációs együttható és parciális korrelációs együttható.

Tegyük fel, hogy egy változó hatását vizsgáljuk egy másik változóra ( Yés x). Annak érdekében, hogy megértsük, hogyan kapcsolódnak ezek a változók egymáshoz, kiszámítjuk a pár korrelációs együtthatóját a következő képlettel:

Ha a korrelációs együttható értékét 1-hez közelítjük, akkor arra a következtetésre jutunk, hogy a változók meglehetősen erős kapcsolatban állnak egymással.

Ha azonban a két érdeklődésre számot tartó változó közötti korrelációs együttható közel 1, akkor lehet, hogy valójában nem függőek. Az elmebetegek és a rádió esete az úgynevezett „hamis összefüggés” példája. A korrelációs együttható magas értéke egy harmadik változó meglétéből is adódhat, amely erősen hat az első két változóra, ez az oka a magas korrelációnak. Ezért felmerül a probléma a változók közötti „tiszta” korreláció kiszámításával xés Y, azaz egy olyan összefüggés, amelyben a többi változó befolyása (lineáris) ki van zárva. Ehhez vezetjük be a parciális korrelációs együttható fogalmát.

Tehát meg akarjuk határozni a változók közötti parciális korrelációs együtthatót xés Y, kivéve a változó lineáris hatását Z... Ennek meghatározásához a következő eljárást kell alkalmazni:

1. Megbecsüljük a regressziót,

2. Megkapjuk a maradékot,

3. Megbecsüljük a regressziót,

4. Megkapjuk a maradékot,

5. - parciális korrelációs minta együttható, a változók közötti kapcsolat mértékét méri xés Y, megtisztítva a változó befolyásától Z.

Közvetlen számítások:

Ingatlan:

A parciális korrelációs együttható megalkotásának eljárását általánosítjuk abban az esetben, ha két vagy több változó befolyásától meg akarunk szabadulni.


1. Tökéletes multikollinearitás.

Az egyik Gauss-Markov követelmény azt mondja, hogy a magyarázó változóknak nem szabad semmiféle egzakt összefüggésben kapcsolódniuk. Ha ilyen kapcsolat áll fenn a változók között, akkor azt mondjuk, hogy a modell tökéletes multikollinearitású. Példa. Vegyünk egy olyan modellt, amelynek átlagos vizsgapontszáma három magyarázó változóból áll: én- szülői jövedelem, D- az edzéssel töltött átlagos óraszám naponta, W- heti átlagos edzésre fordított óraszám. Ez nyilvánvaló W=7D... Ez az arány pedig minden mintánkba kerülő diák esetében teljesülni fog. A teljes multikollinearitás esete könnyen nyomon követhető, mivel ebben az esetben lehetetlen a legkisebb négyzetek módszerével becsléseket készíteni.

2. Részleges multikollinearitás vagy egyszerűen multikollinearitás.

Sokkal gyakoribb az a helyzet, amikor a magyarázó változók között nincs pontos lineáris kapcsolat, de szoros összefüggés van közöttük - ezt az esetet nevezzük valós vagy részleges multikollinearitásnak (egyszerűen multikollinearitásnak) - a változók közötti szoros statisztikai kapcsolatok megléte. Azt kell mondanunk, hogy a multikollinearitás kérdése inkább a jelenség megnyilvánulási fokától, nem pedig típusától függ. Bármely regressziós pontszám valamilyen formában szenved tőle, kivéve, ha az összes magyarázó változó teljesen korrelál. A probléma mérlegelése csak akkor kezdődik, amikor már komolyan befolyásolja a regressziós becslés eredményeit (a regresszorok közötti statisztikai kapcsolatok jelenléte nem feltétlenül ad nem kielégítő becslést). Tehát a multikollinearitás olyan probléma, ahol a regresszorok közötti szoros korreláció megbízhatatlan regressziós becslésekhez vezet.

A multikollinearitás következményei:

Formálisan, mivel ( x"x) Ha nem degenerált, akkor a regressziós együtthatók OLS becsléseit készíthetjük. Emlékezzünk azonban vissza, hogyan fejeződik ki a regressziós együtthatók becsléseinek elméleti szórása:, ahol a ii - én a mátrix átlós eleme. Mivel a mátrix (X "X) közel áll a degenerált és det ( x"x) »0, akkor

1) nagyon nagy számok vannak az inverz mátrix főátlóján, mivel az inverz mátrix elemei fordítottan arányosak det ( x"x). Ezért az elméleti variancia én-a együttható elég nagy és a varianciabecslés is nagy, ezért t- a statisztika kicsi, ami statisztikai jelentéktelenséghez vezethet én együttható. Vagyis a változó szignifikáns hatással van a magyarázott változóra, és arra következtetünk, hogy jelentéktelen.

2) Mivel a becslések és attól függnek ( x"x) -1, melynek elemei fordítottan arányosak det ( x"x), akkor ha hozzáadunk vagy eltávolítunk egy vagy két megfigyelést, hozzáadva vagy eltávolítva tehát egy vagy két sort a mátrixhoz x"x, akkor az és értékek jelentősen változhatnak, egészen az előjel változásáig - a becslési eredmények instabilitásáig.

3) Nehézségek a regressziós egyenlet értelmezésében. Tegyük fel, hogy az egyenletben két változónk van, amelyek kapcsolatban állnak egymással: x 1 és x 2. Regressziós együttható at x 1-et a változás mértékeként értelmezzük Y Megváltoztatásával x 1 ceteris paribus, azaz az összes többi változó értéke változatlan marad. Mivel azonban a változók NS 1 és NS 2 kapcsolódnak, akkor a változó változásai NS 1 előre látható változásokat okoz a változóban NS 2 és érték NS 2 nem marad a régiben.

Példa: hol NS 1 - teljes terület, NS 2 - nappali. Azt mondjuk: "Ha a lakóterület 1 négyzetméterrel növekszik, akkor, ha minden más nem változik, egy lakás ára USD-vel nő." Ebben az esetben azonban a lakóterület is megnő 1 négyzetméterrel. m. és az áremelkedés lesz. Határozza meg a változóra gyakorolt ​​hatást Y minden változó külön-külön már nem lehetséges. A kiút ebben a helyzetben a lakás árával az, hogy a modellbe nem a teljes területet, hanem az úgynevezett "kiegészítő" vagy "kiegészítő" területet kell belefoglalni.

Multikollinearitás jelei.

Nincsenek pontos kritériumok a multikollinearitás jelenlétének (hiányának) meghatározására. Vannak azonban heurisztikus ajánlások az észlelésére:

1) Elemezze a regresszorok közötti páros korrelációs együtthatók mátrixát, és ha a korrelációs együttható értéke közel 1, akkor ezt a multikollinearitás jelének tekintjük.

2) A korrelációs mátrix elemzése csak felületes ítélet a multikollinearitás jelenlétéről (hiányáról). A probléma alaposabb tanulmányozása a parciális korrelációs együttható vagy a determinációs együttható kiszámításával érhető el minden egyes magyarázó változóhoz a regresszióban szereplő összes többi magyarázó változó esetében.

4) (NSx) Szimmetrikus pozitív határozott mátrix, ezért minden sajátértéke nemnegatív. Ha a mátrix determinánsa ( NSx) egyenlő nullával, akkor a minimális sajátérték is nulla, és a folytonosság megmarad. Következésképpen az emberi sajátérték értéke a mátrix determinánsának nullához való közelsége alapján is megítélhető ( NSx). Ezen a tulajdonságon kívül a minimális sajátérték is fontos, mert az együttható standard hibája fordítottan arányos.

5) A multikollinearitás jelenléte külső jelek alapján ítélhető meg, amelyek a multikollinearitás következményei:

a) a becslések egy része közgazdaságelméleti szempontból hibás előjelekkel vagy indokolatlanul magas értékkel rendelkezik;

b) a kezdeti gazdasági adatok kismértékű változása a modell együtthatók becslésének jelentős változásához vezet;

c) a többség t- az együtthatók statisztikái elenyészően térnek el a nullától, ugyanakkor a modell egésze szignifikáns, amit a magas érték is bizonyít F-statisztika.

Hogyan lehet megszabadulni a multikollinearitástól, hogyan lehet megszüntetni:

1) Faktoranalízis segítségével. Átmenet a regresszorok eredeti halmazáról, amelyek között vannak statisztikailag függőek, új regresszorokra Z 1 ,…,Z m főkomponensek módszerével - a kezdeti változók helyett a kezdőváltozók helyett azok lineáris kombinációit vesszük figyelembe, amelyek között kicsi vagy hiányzik a korreláció. A kihívás itt az, hogy értelmes értelmezést adjunk az új változóknak. Z... Ha nem sikerül, akkor az inverz transzformációk segítségével visszatérünk az eredeti változókhoz. A kapott becslések azonban torzak lesznek, de kisebb lesz a szórása.

2) Az összes elérhető változó közül válassza ki azokat a tényezőket, amelyek a legjelentősebben befolyásolják a magyarázott változót. A kiválasztási eljárásokat az alábbiakban tárgyaljuk.

3) Áttérés torzított becslési módszerekre.

Amikor a multikollinearitás problémájával szembesülünk, a tapasztalatlan kutatónak először az a vágya, hogy egyszerűen kizárja azokat a szükségtelen regresszorokat, amelyek ezt okozhatják. Nem mindig világos azonban, hogy mely változók redundánsak ebben az értelemben. Ezen túlmenően, amint az alább látható lesz, az úgynevezett jelentősen befolyásoló változók elvetése az OLS becslések torzulásához vezet.


Megjegyzendő, hogy számos esetben a multikollinearitás nem olyan súlyos "gonosz", hogy jelentős erőfeszítéseket kell tenni annak azonosítására és megszüntetésére. Alapvetően minden a tanulmány céljaitól függ.
Ha a modell fő feladata a függő változó jövőbeli értékeinek előrejelzése, akkor kellően nagy R2 (gt; 0,9) determinációs együttható mellett a multikollinearitás jelenléte általában nem befolyásolja a modell prediktív tulajdonságait ( ha a jövőben a korrelált változók ugyanazok maradnak, mint korábban ).
Ha meg kell határozni az egyes magyarázó változók befolyásának mértékét a függő változóra, akkor a multikollinearitás, ami a standard hibák növekedéséhez vezet, valószínűleg torzítja a változók közötti valódi kapcsolatokat. Ebben a helyzetben a multikollinearitás komoly probléma.
A multikollinearitás kiküszöbölésére nincs egyetlen olyan módszer, amely minden esetben megfelelő lenne. Ennek oka az a tény, hogy a multikollinearitás okai és következményei nem egyértelműek, és nagymértékben függenek a mintaeredményektől.
Változó(k) kizárása a modellből
A multikollinearitás kiküszöbölésének legegyszerűbb módja egy vagy több korrelált változó kizárása a modellből. Ennek a módszernek az alkalmazásakor némi körültekintésre van szükség. Ebben a helyzetben specifikációs hibák előfordulhatnak, ezért az alkalmazott ökonometriai modellekben nem célszerű a magyarázó változókat mindaddig nem kizárni, amíg a multikollinearitás komoly problémát nem okoz.
További adatok vagy új minta lekérése
Mivel a multikollinearitás közvetlenül függ a mintától, lehetséges, hogy egy másik mintával a multikollinearitás nem lesz, vagy nem lesz olyan súlyos. Néha a minta méretének növelése elegendő a multikollinearitás csökkentéséhez. Például, ha éves adatokat használ, ugorhat a negyedéves adatokra. Az adatok mennyiségének növelése csökkenti a regressziós együtthatók szórását, ezáltal növeli statisztikai szignifikanciájukat. Új minta beszerzése vagy egy régi bővítése azonban nem mindig lehetséges, vagy komoly költségekkel jár. Ezenkívül ez a megközelítés javíthatja az autokorrelációt. Ezek a problémák korlátozzák ennek a módszernek a használatát.
A modell specifikációjának módosítása
Egyes esetekben a multikollinearitás problémája megoldható a modell specifikáció megváltoztatásával: vagy megváltozik a modell alakja, vagy olyan magyarázó változók kerülnek hozzáadásra, amelyeket az eredeti modell nem vett figyelembe, de jelentősen befolyásolják a függő változót. Ha ez a módszer indokolt, akkor alkalmazása csökkenti az eltérések négyzeteinek összegét, ezáltal csökkenti a regresszió standard hibáját. Ez az együtthatók standard hibáinak csökkenéséhez vezet.
Előzetes információk felhasználása egyes paraméterekkel kapcsolatban
Néha többszörös regressziós modell felépítésekor előzetes információkat használhat, különösen néhány regressziós együttható ismert értékeit.
Valószínűleg bármely előzetes (általában egyszerűbb) modellre, vagy egy korábban kapott mintán alapuló hasonló modellre kiszámított együtthatók értékei felhasználhatók a jelenleg fejlesztés alatt álló modellhez.
A legjelentősebb magyarázó változók kiválasztása. Az elemek szekvenciális összekapcsolásának eljárása
A kevesebb magyarázó változóra való áttérés csökkentheti a nagymértékben kölcsönösen függő szolgáltatások által szolgáltatott információk megkettőzését. Pontosan ezzel állunk szemben a multikollineáris magyarázó változók esetében.
Legyen

Többszörös együttható
összefüggések az Y függő változó és az X 1, X 2, ..., Xm magyarázó változók halmaza között. Ez a szokásos páronkénti korrelációs együttható az Y és a lineáris függvény között
regresszió Y = b0 + KX1 + b2X2 + ... + bmXm. Legyen erősítő; = R-1 - mátrix inverz az R mátrixhoz:


Ekkor a Ry.X = Rr (xi, x2, .., x) négyzetes együttható a következő képlettel számítható ki:


Az R * 2.X becslés az R2y.X determinációs együttható torzítatlanságával korrigált formában a következő:

(Ha a (6.7) képlettel negatív számot kapunk, akkor feltételezzük


Az alsó megbízhatósági határ a

eltökélt
képlet szerint:

A gyakorlatban annak eldöntésekor, hogy mely magyarázó változók kerüljenek bele a modellbe, gyakran alkalmazzák az elemek szekvenciális összekapcsolásának eljárását.
(j = 1, 2, ..., m). Ahol

egybeesik a szokásos négyzetével
pár korrelációs együttható

Legyen


akkor az xp változó lesz a leginformatívabb. Ezután kiszámítjuk a torzítatlanságra korrigált együtthatót
(m = 1 esetén) és alsó konfidenciahatára R2min (1).


a jxp, xq pár informatívabb lesz). Ezután kiszámítjuk a torzítatlanságra korrigált együtthatót (m = 2)
és alsó megbízhatósági határa R2min (2).

Az eljárás addig folytatódik, amíg a lépésnél (+1-ig) nem teljesül a feltétel:
Ekkor a modell tartalmazza az első lépésekben kapott leginformatívabb változókat. Figyeljük meg, hogy a számításoknál a (6.7) és a (6.8) képleteket használjuk, amelyekben m helyett a k lépésszám megfelelő értékét veszik fel.
Valójában ez a módszer nem garantálja, hogy megszabadulunk a multikollinearitástól.
Más módszereket is alkalmaznak a multikollinearitás kiküszöbölésére.
6.1. példa. A következő feltételes adatok vannak (6.1. táblázat):
6.1. táblázat
Adatok a daisy-chaining módszerhez


X1

X2

X3

Van

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Tekintsük az egyes magyarázó változók függő változóra gyakorolt ​​hatását külön-külön. A párosított korrelációs együtthatók kiszámításával azt találjuk, hogy az együttható

Azután:


Tekintsük az (x1, x2) és (x1, x3) változópárok hatását a függő változóra. Először is vizsgáljuk meg egy változópár (x1, x2) hatását.



Icuvum uvjpcuuivi
Változók összekapcsolásakor két magyarázó változót kell az egyenletbe belefoglalni. Ezért az elméleti egyenlet a következőképpen alakul:
Ridge módszer
Tekintsük a ridge módszert (ridge regresszió) a multikollinearitás kiküszöbölésére. A módszert A.E. Hoerl javasolta 1962-ben, és akkor alkalmazzák, amikor a mátrix (xtX) közel van a degeneráltsághoz. A mátrix (xtX) átlós elemeihez kis számot (0,1-től 0,4-ig) adunk. Ebben az esetben az egyenlet paramétereinek torzított becsléseit kapjuk. De az ilyen becslések standard hibái multikollinearitás esetén alacsonyabbak, mint a szokásos legkisebb négyzetek módszerével.
6.2. példa. A kiinduló adatok a következők: "6 2. táblázat A magyarázó változók korrelációs együtthatója

mit
erős multikollinearitást jelez.
6.2. táblázat
Adatok a multikollinearitás gerinc módszerrel történő vizsgálatához


x1

x2

Van

1

1,4

7

2

3,1

12


Ekkor az y = 2,63 + 1,37x1 + 1,95x2 egyenletet kapjuk. Az inverz mátrix átlós elemei jelentősen csökkennek, és egyenlők lesznek a következőkkel: z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, ami az együtthatók standard hibáinak csökkenéséhez vezet.
Összegzés
A multikollinearitás főbb következményei között a következők különböztethetők meg:
  1. a többszörös regressziós együtthatók jelentéktelenségére vonatkozó főhipotézis t-próbával történő tesztelésekor a legtöbb esetben elfogadják, azonban az A-próbával tesztelve maga a regressziós egyenlet bizonyul szignifikánsnak, ami túlbecsült értéket jelez. a többszörös korrelációs együttható;
  2. a többszörös regressziós egyenlet együtthatóira kapott becslések általában indokolatlanul túlbecsültek vagy hibás előjelűek;
  3. egy vagy két megfigyelés hozzáadása vagy kizárása a kezdeti adatokból erősen befolyásolja a modell együtthatóinak becslését;
  4. a multikollinearitás jelenléte a többszörös regressziós modellben alkalmatlanná teheti további felhasználásra (például előrejelzések készítésére).
Önellenőrző kérdések
  1. Mi a multikollinearitás?
  2. Milyen mutatók jelzik a multikollinearitás jelenlétét?
  3. Mi a determinánsa az XTX mátrixnak tökéletes multikollinearitás esetén?
  4. Mit mondhatunk a magyarázó változók együtthatóinak jelentéséről multikollinearitás esetén?
  5. Milyen átalakítást hajtanak végre a fésűs módszerben, mihez vezet?
  6. Milyen sorrendben kell végrehajtani a magyarázó változók számának egymást követő növelését?
  7. Mit mutat a korrelációs együttható?
  8. Mit mutat a parciális korrelációs együttható?
0

Az Orosz Föderáció Oktatási és Tudományos Minisztériuma

Szövetségi Állami Költségvetési Oktatási Intézmény

felsőoktatás

TVER ÁLLAMI MŰSZAKI EGYETEM

„Számvitel és Pénzügy” Osztály

TANFOLYAM PROJEKT
az "Ökonometria" tudományágban

"A multikollinearitás vizsgálata ökonometriai modellekben: a változó(k) kizárása a modellből"

Munkavezető:

Folypát. azok. Tudományok, egyetemi docens

Konovalova

Végrehajtó:

az EK-1315 EPO csoport tanulója

Tver, 2015

Bevezetés …………………………………………………………………………… 3

1. Elemző rész …………………………………………………………… 4

1.1. A multikollinearitás általánosított jelei ökonometriai modellekben ……………………………………………………………………………… .4

1.2. A multikollinearitás kiküszöbölésének fő módjai az ökonometriai modellekben ………… .. …………………………………………… ..7

2. Tervezési rész …………………………………………………………………… ..11

2.1. Az ökonometriai kutatás információs és módszertani támogatása ……………………………………………………………………… .11

2.2. Példa egy ökonometriai vizsgálatra ……………………………… .17

Következtetés …………………………………………………………………… 30

Felhasznált források listája …………………………………………… 31

Bevezetés

A "Multikkollinearitás vizsgálata ökonometriai modellekben: változó(k) kizárása a modellből" című munka témájának relevanciája annak köszönhető, hogy manapság gyakran találkozunk ezzel a problémával az alkalmazott ökonometriai modellekben.

A kutatás tárgya a multikollinearitás problémája. A kutatás tárgya az ökonometriai modellek.

A munka fő célja az ökonometriai kutatások információs és módszertani támogatására szolgáló tervezési megoldások kidolgozása.

A cél elérése érdekében a következő főbb kutatási feladatokat tűztük ki és oldottuk meg:

  1. Multikollinearitási jellemzők általánosítása ökonometriai modellekben.
  2. A multikollinearitás megszüntetésének főbb módjainak azonosítása.

3. Az ökonometriai kutatás információs és módszertani támogatásának fejlesztése.

  1. Elemző rész

1.1. A multikollinearitás általánosított jelei ökonometriai modellekben

Multikollinearitás - az ökonometriában (regressziós elemzés) - a regressziós modell magyarázó változói (tényezői) közötti lineáris kapcsolat jelenléte. Ugyanakkor vannak teljes kollinearitás, ami funkcionális (azonos) lineáris függés meglétét jelenti, ill részleges vagy egyszerűen multikollinearitás- a tényezők közötti erős korreláció jelenléte.

A teljes kollinearitás oda vezet bizonytalanságok paramétereket egy lineáris regressziós modellben, függetlenül a becslési módszerektől. Tekintsük ezt a következő lineáris modell segítségével példaként:

Legyen ennek a modellnek a faktorai azonos kapcsolatban az alábbiak szerint:. Ezután tekintsük az eredeti lineáris modellt, amelyben hozzáadjuk az első együtthatót tetszőleges szám a, és vonjuk ki ugyanazt a számot a másik két együtthatóból. Akkor van (véletlen hiba nélkül):

Így a modell együtthatóinak viszonylag önkényes változtatása ellenére ugyanazt a modellt kapjuk. Ez a modell alapvetően nem azonosítható. A bizonytalanság már magában a modellben is megvan. Ha az együtthatók 3 dimenziós terét vesszük figyelembe, akkor ebben a térben a valódi együtthatók vektora ebben az esetben nem az egyetlen, hanem egy egész egyenes. Ezen az egyenesen bármely pont az együtthatók valódi vektora.

Ha a teljes kollinearitás a paraméterértékek bizonytalanságához vezet, akkor a részleges multikollinearitás instabilitásához vezet. értékelések... Az instabilitás a statisztikai bizonytalanság növekedésében – a becslések varianciájában – fejeződik ki. Ez azt jelenti, hogy a konkrét értékelési eredmények mintánként nagyon eltérőek lehetnek, még akkor is, ha a minták homogének.

Mint ismeretes, a többszörös regressziós paraméterek becsléseinek kovarianciamátrixa a legkisebb négyzetek módszerével egyenlő. Így minél „kisebb” a kovarianciamátrix (determinánsa), annál „nagyobb” a paraméterbecslések kovarianciamátrixa, és különösen minél nagyobb ennek a mátrixnak az átlós elemei, vagyis a paraméterbecslések szórása. Az érthetőség kedvéért nézzünk meg egy kéttényezős modell példáját:

Ekkor a paraméterbecslés szórása például az első tényezőnél egyenlő:

ahol a faktorok közötti mintakorrelációs együttható.

Itt jól látható, hogy minél nagyobb a faktorok közötti korrelációs modulus, annál nagyobb a paraméterbecslések szórása. A (teljes kollinearitás) esetén a szórás a végtelenbe hajlik, ami megfelel a korábban elmondottaknak.

Így a paraméterek becslései pontatlanok, ami azt jelenti, hogy nehéz lesz értelmezni bizonyos tényezők hatását a magyarázott változóra. Ugyanakkor a multikollinearitás nem befolyásolja a modell egészének minőségét – statisztikailag szignifikánsnak ismerhető fel, még akkor is, ha összes az együtthatók jelentéktelenek (ez a multikollinearitás egyik jele).

A lineáris modellekben a paraméterek közötti korrelációs együtthatók pozitívak és negatívak lehetnek. Az első esetben az egyik paraméter növekedését egy másik paraméter növekedése kíséri. A második esetben, amikor az egyik paraméter nő, a másik csökken.

Ez alapján megállapítható az elfogadható és az elfogadhatatlan multikollinearitás. Elfogadhatatlan multikollinearitás lép fel, ha az 1-es és 2-es faktor között szignifikáns pozitív korreláció áll fenn, és az egyes faktorok befolyása az y függvényével való korrelációra egyirányú, azaz az 1-es és 2-es faktor növekedése növekedéshez vezet. vagy y függvényének csökkenése. Más szóval, mindkét tényező azonos módon hat az y függvényre, és a köztük lévő szignifikáns pozitív korreláció lehetővé teheti az egyik kizárását.

A megengedett multikollinearitás olyan, hogy a tényezők eltérően hatnak az y függvényre. Itt két eset lehetséges:

a) a faktorok közötti szignifikáns pozitív korreláció esetén az egyes tényezők befolyása az y függvénnyel való korrelációra többirányú, azaz. az egyik tényező növekedése a funkció növekedéséhez, egy másik faktor növekedése pedig az y függvényének csökkenéséhez vezet.

b) a tényezők közötti szignifikáns negatív korreláció mellett az egyik tényező növekedése egy másik faktor csökkenésével jár, és ez a tényezőket kétértelművé teszi, ezért a tényezők y funkciójára gyakorolt ​​​​hatásának bármilyen jele lehetséges.

A gyakorlatban a multikollinearitás néhány legjellemzőbb vonása megkülönböztethető: 1. A kiindulási adatok kis változása (például új megfigyelések hozzáadása) a modell együtthatóinak becslésében jelentős változáshoz vezet. 2. A becslések nagy standard hibával, alacsony szignifikanciával rendelkeznek, míg a modell egésze szignifikáns (az R 2 determinációs együttható és a megfelelő F-statisztika magas értéke). 3. Az együtthatók becslései elméleti szempontból hibás előjelűek vagy indokolatlanul nagyok.

A multikollinearitás közvetett jelei a modellparaméterek becslésének nagy standard hibái, a kis t-statisztikák (azaz jelentéktelen együtthatók), a becslések helytelen jelei, miközben a modell egészét statisztikailag szignifikánsnak ismerik el (az F-statisztika nagy értéke). . A multikollinearitást a mintaadatok összeadásából (vagy eltávolításából) származó paraméterbecslések erőteljes változása is bizonyítja (ha teljesülnek a kellő mintahomogenitás követelményei).

A faktorok multikollinearitásának kimutatására a faktorok korrelációs mátrixa közvetlenül elemezhető. Már a párkorrelációs együtthatók nagy abszolút értékű (0,7-0,8 feletti) értékeinek jelenléte a kapott becslések minőségével kapcsolatos lehetséges problémákat jelez.

A páros korrelációs együtthatók elemzése azonban nem elegendő. Szükséges elemezni a tényezők regresszióinak meghatározásának együtthatóit más tényezőkre (). A mutató kiszámítása javasolt. Ez utóbbi túl magas értéke a multikollinearitás jelenlétét jelenti.

Így a multikollinearitás kimutatásának fő kritériumai a következők: magas R 2 minden jelentéktelen együttható esetén, magas párkorrelációs együttható, a VIF együttható magas értékei.

1.2. A multikollinearitás kiküszöbölésének fő módjai az ökonometriai modellekben

Mielőtt bemutatnánk a multikollinearitás kiküszöbölésének főbb módszereit, megjegyezzük, hogy a multikollinearitás számos esetben nem olyan súlyos probléma, amely jelentős erőfeszítéseket igényel annak azonosítása és megszüntetése. Alapvetően minden a tanulmány céljaitól függ.

Ha a modell fő feladata a regresszió jövőbeli értékeinek megjóslása, akkor kellően nagy R2 determinációs együttható (> 0,9) mellett a multikollinearitás jelenléte általában nem befolyásolja a modell prediktív tulajdonságait. Bár ez az állítás csak abban az esetben lesz indokolt, ha a jövőben a korrelált regresszorok ugyanazt az összefüggést tartják fenn, mint korábban. Ha a vizsgálat célja az egyes regresszorok regresszióra gyakorolt ​​hatásának meghatározása, akkor a multikollinearitás jelenléte, amely a standard hibák növekedéséhez vezet, valószínűleg torzítja a regresszorok közötti valódi kapcsolatokat. Ebben a helyzetben a multikollinearitás komoly probléma.

Megjegyzendő, hogy nincs egyetlen olyan módszer a multikollinearitás kiküszöbölésére, amely minden esetben megfelelő lenne. Ennek oka az a tény, hogy a multikollinearitás okai és következményei nem egyértelműek, és nagymértékben függenek a mintaeredményektől.

A gyakorlatban megkülönböztetik a multikollinearitás kiküszöbölésének fő módszereit:

  1. Regresszorok kiiktatása a modellből A multikollinearitás kiküszöbölésének legegyszerűbb módja, ha egy vagy több korrelált regresszort kizárunk a modellből. Ennek a módszernek az alkalmazásakor azonban némi óvatosságra van szükség. Ebben a helyzetben specifikációs hibák előfordulhatnak. Például egy bizonyos áru keresletének vizsgálatakor ennek a jószágnak az ára és a helyettesítő termékek ára, amelyek gyakran korrelálnak egymással, használhatók magyarázó változóként. A helyettesítők árának a modellből való kizárásával nagyobb valószínűséggel követünk el specifikációs hibát. Ennek eredményeként elfogult becslések születhetnek, és ésszerűtlen következtetések vonhatók le. Így az alkalmazott ökonometriai modellekben nem kívánatos a regresszorok kizárása mindaddig, amíg kollinearitásuk komoly problémát nem okoz.
  2. További adatok vagy új minta beszerzése, mivel a multikollinearitás közvetlenül függ a mintától, akkor egy másik minta esetén talán egyáltalán nem lesz multikollinearitás, vagy nem lesz olyan súlyos. Néha a minta méretének növelése elegendő a multikollinearitás csökkentéséhez. Például, ha éves adatokat használ, ugorhat a negyedéves adatokra. Az adatok mennyiségének növelése csökkenti a regressziós együtthatók szórását, ezáltal növeli statisztikai szignifikanciájukat. Új minta beszerzése vagy egy régi bővítése azonban nem mindig lehetséges, vagy komoly költségekkel jár. Ezenkívül ez a megközelítés javíthatja az autokorrelációt. Ezek a problémák korlátozzák ennek a módszernek a használatát.

III. A modell specifikáció megváltoztatása Bizonyos esetekben a multikollinearitás probléma megoldható a modell specifikáció megváltoztatásával: vagy megváltozik a modell alakja, vagy olyan új regresszorokat adnak hozzá, amelyeket az eredeti modellben nem vettek figyelembe, de jelentősen befolyásolják a függőt. változó. Ha ez a módszer indokolt, akkor alkalmazása csökkenti az eltérések négyzeteinek összegét, ezáltal csökkenti a regresszió standard hibáját. Ez az együtthatók standard hibáinak csökkenéséhez vezet.

  1. A változók transzformációja bizonyos esetekben csak a változók transzformációjával minimalizálható vagy teljesen kiküszöbölhető a multikollinearitás problémája. Az eredeti adatokat minden esetben elosztjuk az egyik függő regresszor értékével. A főkomponensek módszerének alkalmazása a modell faktoraira lehetővé teszi a kezdeti tényezők transzformálását és ortogonális (korrelálatlan) tényezők halmazának előállítását. Ebben az esetben a multikollinearitás jelenléte lehetővé teszi, hogy néhány főkomponensre korlátozzuk magunkat. Ennek ellenére felmerülhet a főkomponensek értelmes értelmezésének problémája.

Ha minden jel szerint multikollinearitásról van szó, akkor az ökonometrikusok között eltérő vélemények vannak ebben a kérdésben. Amikor szembesülünk a multikollinearitás problémájával, természetes vágy lehet a „felesleges” független változók elvetésére, amelyek ezt okozhatják. Nem szabad azonban elfelejteni, hogy ennek során új nehézségek adódhatnak. Először is, korántsem mindig világos, hogy mely változók redundánsak ebben az értelemben.

A multikollinearitás csak hozzávetőleges lineáris kapcsolatot jelent a tényezők között, de ez nem mindig emeli ki az "extra" változókat. Másodszor, sok helyzetben a független változók eltávolítása jelentősen befolyásolhatja a modell jelentését. Végül elvetjük az úgynevezett lényeges változókat, azaz. független változók, amelyek ténylegesen befolyásolják a vizsgált függő változót, a modell együtthatóinak torzulásához vezet. A gyakorlatban általában multikollinearitás észlelésekor az elemzés szempontjából legkevésbé szignifikáns tényezőt eltávolítják, majd a számításokat megismétlik.

Így a gyakorlatban megkülönböztetik a multikollinearitás kiküszöbölésének főbb módszereit: a minta megváltoztatása vagy növelése, az egyik változó kizárása, multikollineáris változók transzformálása (nemlineáris formák használata, aggregátumok használata (több változó lineáris kombinációja), az első különbségek használata Ha azonban a multikollinearitás nem szűnik meg, figyelmen kívül hagyhatja, figyelembe véve a kizárás célszerűségét.

  1. Projekt rész

2.1. Az ökonometriai kutatás információs és módszertani támogatása

Az ökonometriai kutatás információs támogatása a következő információkat tartalmazza:

Beviteli információ:

  • a függő változóként meghatározott társadalmi-gazdasági mutató statisztikai adatai (tényezők - eredmények);
  • statisztikai adatok a társadalmi-gazdasági mutatókról, amelyeket magyarázó változóként (tényezők - jelek) határoznak meg;

Köztes információ:

  • a regressziós egyenlet modellje, a becsült regressziós egyenlet, a minőségi mutatók és a regressziós egyenlet minőségére vonatkozó következtetés, a multikollinearitási probléma meglétére (hiányára) vonatkozó következtetés, javaslatok a modell használatára;

Hatékony információ:

  • a becsült regressziós egyenlet, a regressziós egyenlet minőségére vonatkozó következtetés, a multikollinearitási probléma meglétére (hiányára) vonatkozó következtetés, javaslatok a modell alkalmazására.

Az ökonometriai kutatás módszertana a következő: specifikáció; paraméterezés, ellenőrzés, kiegészítő kutatás, előrejelzés.

1. A regressziós egyenletmodell specifikációja tartalmazza a függő változó korrelációs függésének grafikus elemzését az egyes magyarázó változóktól. A grafikus elemzés eredményei alapján következtetést vonunk le a lineáris vagy nemlineáris típusok regressziós egyenletének modelljére. Grafikus elemzéshez a leggyakrabban ajánlott MsExcel Scatter Chart eszköz. Ennek eredményeként meghatározzuk a regressziós egyenlet modelljét, illetve nemlineáris forma esetén annak linearizálásának módszereit is.

2. A regressziós egyenlet paraméterezése magában foglalja a regressziós paraméterek becslését és társadalmi-gazdasági értelmezését. A paraméterezéshez használja a "Regression" eszközt az MsExcel "Data Analysis" bővítmény részeként. Az automatizált regresszióanalízis eredményei ("Együtthatók" oszlop) alapján meghatározásra kerülnek a regressziós paraméterek, és ezek értelmezése is a standard szabály szerint történik:

Bj az az összeg, amennyivel az Y változó értéke átlagosan változik, ha az Xj független változó eggyel nő, ceteris paribus.

A regressziós egyenlet metszéspontja egyenlő az Y függő változó előrejelzett értékével, ha az összes független változó nulla.

3. A regressziós egyenlet ellenőrzése az automatizált regresszióanalízis (2. szakasz) eredményei alapján történik a következő mutatók szerint: "R-négyzet", "F szignifikancia", "P-érték" (minden paraméterre a regresszió), valamint a szelekció és a maradékok grafikonjain ...

Meghatározzuk az együtthatók szignifikanciáját, és értékeljük a modell minőségét. Ehhez az „F szignifikanciát”, „P-értéket” és az „R-négyzetet” veszik figyelembe. Ha a „P-érték” kisebb, mint a statikus szignifikancia egyenlet, akkor ez az együttható szignifikanciáját jelzi. Ha az „R-négyzet” nagyobb, mint 0,6, az azt jelenti, hogy a regressziós modell jól írja le az Y függő változó viselkedését a változók tényezőire.

Ha az „F szignifikancia” kisebb, mint a statikus szignifikanciaegyenlet, akkor a determinációs együttható (R-négyzet) feltételesen statisztikailag szignifikánsnak tekinthető.

A maradék diagram lehetővé teszi a hibák változásának becslését. Ha nincs különösebb különbség az Xi különböző értékeinek megfelelő hibák között, vagyis a hibák eltérései Xi különböző értékeire megközelítőleg azonosak, és feltételezhető, hogy nincs probléma. Az illesztési ütemterv lehetővé teszi, hogy ítéletet alkosson az alapvonal, az előre jelzett és a faktorértékekről.

Végezetül egy ítélet születik a regressziós egyenlet minőségéről.

  1. Kiegészítő kutatás.

4.1 A multikollinearitás első jelének észlelése. A 2-3. pontokban kapott regresszióanalízis eredményei alapján azt a helyzetet vizsgáljuk, amelyben a determinációs együttható nagy értékű (R 2> 0,7) és statikailag szignifikáns (F szignifikancia)<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05) .Ha ilyen helyzetet észlelünk, következtetést vonunk le a multikollinearitás feltételezéséről.

4.2 A multikollinearitás második jelének kimutatása. A faktorváltozók közötti korrelációs együtthatók számításai alapján az egyes tényezők szignifikáns kapcsolatát határozzuk meg. Az MS Excelben végzett számításokhoz célszerű az Adatelemző / Korrelációs eszközt használni. A korrelációs együttható értékei alapján következtetéseket vonunk le: minél közelebb van (r) a szélső pontokhoz (± 1), annál nagyobb a lineáris kapcsolat mértéke, ha a korrelációs együttható kisebb, mint 0,5, akkor azt tekintjük. hogy gyenge a kapcsolat. A multikollinearitás jelenlétét a következő esetben feltételezzük, ha legalább két változó között szignifikáns korrelációs együttható van (azaz modulusban nagyobb, mint 0,7).

4.3 A multikollinearitás harmadik jelének kimutatása. A faktorváltozók és a szignifikáns korrelációs együtthatóval rendelkező változók közötti segédregressziók értékelése (4.2. fejezet) alapján megállapítható, hogy a multikollinearitás akkor áll fenn, ha legalább egy segédregresszióban szignifikáns és szignifikáns. A determinációs együttható további regresszióinak módszere a következő: 1) olyan regressziós egyenleteket állítunk össze, amelyek az egyes regresszorokat összekapcsolják az összes többivel; 2) az R 2 determinációs együtthatókat minden regressziós egyenlethez kiszámítjuk; 3) ha az egyenletet és a determinációs együtthatót statisztikailag szignifikánsnak tekintjük, akkor ez a regresszor multikollinearitáshoz vezet.

4.4 Az ítéletek általánosítása.

A 4.1-4.3. pontok alapján ítélet születik a multikollinearitás és a multikollinearitáshoz vezető regresszorok meglétéről/hiányáról.

Továbbá kidolgozásra kerülnek a modell használati irányai (multikollinearitási probléma figyelmen kívül hagyása vagy hiánya esetén), illetve ajánlások a multikollinearitás kiküszöbölésére (a gyakorlatban egy változó kizárásával).

Változó kizárásakor célszerű a következő szabályt használni:

A determinációs együtthatót az eredetileg n megfigyelésből összeállított regressziós egyenletre határozzuk meg (R 2 1);

Az utolsó változókat a (k) figyelembevételből kizárva a kezdeti n megfigyelés alapján egyenletet alkotunk a fennmaradó tényezőkre, és meghatározzuk a determinációs együtthatót (R 2 2);

Az F-statisztikát kiszámítjuk: ahol (R 1 2 -R 2 2) az egyenlet vesztesége a változókra való visszaesés következtében, (K) a további megjelent szabadsági fokok száma, (1- R 1 2) / (nml) a kezdeti egyenletek megmagyarázhatatlan szórása;

F a, k, n-m -1 kritikus értékét a Fisher-eloszlás kritikus pontjai táblázatai alapján határozzuk meg adott a szignifikanciaszinten és szabadsági fokon v 1 = k, v 2 = n-m-l;

A kivétel célszerűségéről a szabály szerint ítéletek születnek: F> F a, k, n-m - 1 esetén az egyenletből k változó (egyidejű) kizárása nem megfelelő, egyébként ilyen kivétel megengedett.

Amikor a változót kiiktatjuk, az eredményül kapott modellt a 3-4. pontok szerint elemzik; és összehasonlítják az eredeti modellel, ennek eredményeként a "legjobb" kerül kiválasztásra. A gyakorlatban, mivel a multikollinearitás nem befolyásolja a modell prediktív tulajdonságait, ez a probléma figyelmen kívül hagyható.

5. Az előrejelzés a 4.4. pontban kiválasztott kezdeti / "legjobb" modell szerint, a retrospektív előrejelzési séma szerint történik, amelyben a megfigyelések utolsó 1/3-át használják előrejelzésre.

5.1. Pont előrejelzés. A faktorváltozók tényleges értékeit az előrejelzési időszakban előrejelzettnek tekintjük, az eredő változó előrejelzett értékeit az eredeti / "legjobb" modell előrejelzése szerint határozza meg az előrejelzési időszak faktorváltozói alapján. A Microsoft Excel "Graph" eszközével a kapott változó tényleges és előrejelzett értékeinek grafikonja a megfigyelések szerint ábrázolásra kerül, és következtetést von le a tényleges értékek közelségéről az előrejelzettekhez.

5.2. Az intervallum-előrejelzés magában foglalja az előrejelzési standard hibák kiszámítását (Salkever álváltozók használatával), valamint az előrejelzett értékek felső és alsó határait.

A Microsoft Excel adatelemző/regressziós eszközével regresszió készül a minta és az előrejelzési időszak összesített adatkészletére, de D 1, D 2, ..., D p álváltozók hozzáadásával. Ebben az esetben D i = 1 csak a megfigyelési pillanatra (n + i), az összes többi pillanatra D i = 0. Ekkor a D i álváltozó együtthatója egyenlő az időbeli előrejelzési hibával (n + i), az együttható standard hibája pedig az előrejelzési standard hibával (S i). Így a modell automatizált regressziós analízisét végzik el, ahol a faktorváltozók összesített (minta és előrejelzett) értékeit és a Salkever álváltozók értékeit használják X-értékként, és az aggregátumot (minta és A kapott változó előre jelzett értékeit használjuk Y értékként.

A Salkever álváltozók együtthatóinak standard hibái megegyeznek az előrejelzési standard hibákkal. Ezután az intervallum előrejelzés határait a következő képletekkel számítjuk ki: Ymin n + i = Yemp n + i -S i * t cr, Ymax n + i = Yemp n + i + S i * t cr, ahol t cr a Student-eloszlás kritikus értéke, amelyet a "= STYURASPOBR (0,05; nm-1)" képlet határoz meg, m a magyarázó tényezők száma a modellben (Y * t), Yemp n + i a becsült értékek az eredő változóból (5.1. pont).

A Microsoft Excel "Graph" eszközével egy grafikon épül fel az eredő változó tényleges és előrejelzett értékei, a megfigyelések előrejelzésének felső és alsó határa szerint. Következtetést vonunk le az eredő változó tényleges értékeinek az intervallum előrejelzés határaiba való illeszkedéséről.

5.3. A modell stabilitásának értékelése az NCO teszt segítségével a következőképpen történik:

a) a Microsoft Excel "Adatelemzés / Regresszió" eszközével regressziót építünk, ahol a faktorváltozók összesített (minta és előrejelzett) értékeit veszik X értéknek, az összesített (minta és előrejelzett) értékeket az eredő változóból Y értékeket veszünk. Ezzel a regresszióval határozzuk meg az S maradékok négyzetösszegét;

b) az 5.2. pont Salkever álváltozókkal történő regressziója szerint az Sd maradékok négyzetösszegét határozzuk meg;

c) az F statisztika értékét a következő képlettel számítjuk ki és becsüljük meg:

ahol p a prediktív lépések száma. Ha a kapott érték nagyobb, mint az "= FDISP (0,05; p; nm-1)" képlettel meghatározott F cr kritikus érték, akkor a modell előrejelzési periódusbeli stabilitására vonatkozó hipotézist elvetjük, ellenkező esetben elfogadott.

5.4 A modell prediktív tulajdonságaira vonatkozó ítéletek általánosítása az 5.1-5.3 pontok alapján, ennek eredményeként következtetést vonunk le a modell prediktív minőségéről, és javaslatokat teszünk a modell előrejelzési felhasználására.

Így a kidolgozott információs és módszertani támogatás megfelel a multikollinearitás problémájának ökonometriai vizsgálatának fő célkitűzéseinek többszörös regressziós modellekben.

2.2. Példa egy ökonometriai vizsgálatra

A tanulmány az Orosz Föderáció 2003-2011 közötti időszakra vonatkozó valós makrogazdasági mutatóit tükröző adatok alapján készült. (1. táblázat), a 2.1. pont módszere szerint.

Asztal 1

Házköltségek. gazdaságok (milliárd rubel) [Y]

Népesség (millió fő)

Pénzkészlet (milliárd rubel)

Munkanélküliségi ráta (%)

1. Specifikáció A regressziós egyenletmodell tartalmazza az Y függő változó korrelációs függésének grafikus elemzését (Háztartási költségek az X 1 magyarázó változón (Népesség) (1. ábra), az Y függő változó korrelációs függését (Háztartási költségek a magyarázó változón) X 2 (Pénzkínálat) (2. ábra), az Y függő változó (Háztartási kiadások az X 3 (Munkanélküliségi ráta) magyarázó változótól) korrelációs függése (3. ábra).

Az 1. ábrán bemutatott Y és X 1 közötti korrelációs függés grafikonja Y szignifikáns (R 2 = 0,71) inverz lineáris függését tükrözi X 1-től.

A 2. ábrán bemutatott Y és X 2 közötti korrelációs függés grafikonja Y szignifikáns (R 2 = 0,98) közvetlen lineáris függését tükrözi X 2-től.

A 3. ábrán bemutatott Y és X 3 közötti korrelációs függés grafikonja Y jelentéktelen (R 2 = 0,15) inverz lineáris függését tükrözi X 3-tól.

1. kép

2. kép

3. ábra

Ennek eredményeként egy lineáris többszörös regressziós modell adható meg Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3.

2.Paraméterezés A regressziós egyenleteket a "Regression" eszközzel hajtják végre az MsExcel "Data Analysis" bővítmény részeként (4. ábra).

4. ábra

A becsült regressziós egyenlet a következő:

233983,8-1605,6X 1 + 1,0X 2 + 396,22X 3.

Ebben az esetben a regressziós együtthatók a következőképpen értelmezhetők: a népesség 1 millió fős növekedésével a lakáskiadások. a gazdaságok 1605,6 milliárd rubel csökkennek; a pénzkínálat 1 milliárd rubel növekedésével. házköltségek. a gazdaságok 1,0 milliárd rubelrel növekednek; a munkanélküliségi ráta 1%-os növekedésével a lakáskiadások. a gazdaságok 396,2 milliárd rubelrel fognak növekedni. A faktorváltozók nulla értékével a ház költségei. a gazdaságok 233 983,8 milliárd rubelt tesznek ki, aminek talán nincs közgazdasági értelmezése.

3. Ellenőrzés a regressziós egyenlet az automatizált regresszióanalízis (2. szakasz) eredményei alapján történik.

Tehát az "R-négyzet" egyenlő 0,998-cal, azaz. a regressziós egyenlet 99%-ban írja le a függő változó viselkedését, ami az egyenlet magas szintű leírását jelzi. Az "F jelentősége" a 2.14774253442155E-07, ami azt jelzi, hogy az "R-négyzet" jelentős. A b 0 „P-értéke” 0,002, ami azt jelzi, hogy ez a paraméter szignifikáns. A b 1 „P-értéke” 0,002, ami azt jelzi, hogy ez az együttható szignifikáns. A b 2 „P-értéke” 8,29103190343224E-07, ami azt jelzi, hogy ez az együttható jelentős. A b 3 „P-értéke” 0,084, ami azt jelzi, hogy ez az együttható nem szignifikáns.

A maradékok diagramja alapján az e maradékok véletlenszerű értékek.

Az illesztési diagramok alapján következtetést vonunk le a modell tényleges és előrejelzett értékeinek közelségéről.

Tehát a modell jó minőségű, míg b 3 nem szignifikáns, így feltételezhetjük a multikollinearitás jelenlétét.

4. További kutatások.

4.1. A multikollinearitás első jelének kimutatása. A regresszióanalízis adatai (5. ábra) alapján elmondhatjuk, hogy a multikollinearitás első jele, mivel magas és szignifikáns R 2 detektálásakor kiderül, hogy az egyenletnek magas a determinációs együtthatója, és az egyik együtthatók nem jelentősek. Ez a multikollinearitás jelenlétére utal.

4.2 A multikollinearitás második jelének kimutatása.

A faktorváltozók közötti korrelációs együtthatók számításai alapján az egyes tényezők szignifikáns kapcsolatát határozzuk meg. (2. táblázat). A multikollinearitás jelenlétét a következő esetben feltételezzük, ha legalább két változó között szignifikáns korrelációs együttható van (azaz modulusban nagyobb, mint 0,5).

2. táblázat

[ X2]

[ X3]

[ X2]

[ X3]

Esetünkben X 1 és X 2 között van korrelációs együttható (-0,788), ami az X 1, X 2 változók közötti erős függést jelez, X 1 és X 3 között is van korrelációs együttható (0,54), ami erős függést jelez az X 1, X 3 változók között.

Ennek eredményeként a multikollinearitás megléte feltételezhető.

4.3 A multikollinearitás harmadik jelének kimutatása.

Mivel a 4.2. fejezetben szoros kapcsolatot találtunk az X 1 és X 2 változók között, ezért ezen változók közötti segédregressziót elemezzük (5. ábra).

5. ábra

Mivel az "F szignifikancia" 0,01, ami azt jelzi, hogy az "R-négyzet" és a segédregresszió szignifikáns, feltételezhető, hogy az X 2 regresszor multikollinearitáshoz vezet.

Mivel a 4.2. fejezetben az X 1 és X 3 változók között az átlagos szint feletti összefüggést találtunk, ezért ezen változók közötti segédregressziót elemezzük (6. ábra).

6. ábra

Mivel az "F szignifikancia" 0,13, ami azt jelzi, hogy az "R-négyzet" és a segédregresszió nem szignifikáns, feltételezhető, hogy az X 3 regresszor nem vezet multikollinearitáshoz.

Tehát a harmadik jellemző szerint a multikollinearitás megléte feltételezhető.

4.4 Az ítéletek általánosítása.

A 4.1-4.3. pontok elemzése szerint a multikollinearitás mindhárom jele megtalálható volt, így nagy valószínűséggel feltételezhető. Ugyanakkor a 4.3. fejezetben a multikollinearitáshoz vezető regresszorra vonatkozó feltételezés ellenére is javasolható az X 3 kizárása az eredeti modellből, mivel X 3-nak van a legkisebb korrelációs együtthatója Y-val, és ennek a regresszornak az együtthatója jelentéktelen az eredeti egyenletben. A regressziós analízis eredményeit X 3 kizárása után az ábra mutatja. 7.

7. ábra

Ebben az esetben F - statisztikát fogunk kiszámítani, hogy ellenőrizzük a kizárás megvalósíthatóságát:

F tény = 4,62,

és F tab = F 0,05; 1; 5 = 6,61, mivel F tény< F табл, то исключение допустимо для переменной X 3 .

A lineáris többszörös regressziós modell minőségének értékelése Y = b 0 + b 1 X 1 + b 2 X 2. Az "R-négyzet" 0,996, azaz. a regressziós egyenlet 99%-ban írja le a függő változó viselkedését, ami az egyenlet magas szintű leírását jelzi. Az "F szignifikancia" a 3,02415218982089E-08, ami azt jelzi, hogy az "R-négyzet" jelentős. A b 0 „P-értéke” 0,004, ami azt jelzi, hogy ez a paraméter szignifikáns, a „P-érték” pedig b 1 esetén 0,005, ami azt jelzi, hogy ez az együttható szignifikáns. A b 2 „P-értéke” 3,87838361673427E-07, ami azt jelzi, hogy ez az együttható jelentős. A becsült regressziós egyenlet a következő:

201511,7 -1359,6X 1 + 1,01X 2

Ebben az esetben a regressziós együtthatók a következőképpen értelmezhetők: a népesség 1 millió fős csökkenésével a ház költségei. a gazdaságok 1359,6 milliárd rubel csökkennek; a pénzkínálat, lakáskiadások szintjének emelkedésével. a gazdaságok 1,0-vel fognak növekedni (milliárd rubel). A faktorváltozók nulla értékével a ház költségei. a gazdaságok 2015-11,7 milliárd rubelt tesznek ki, aminek lehet gazdasági értelmezése.

Tehát a = 201511,7 -1359,6X 1 + 1,01X 2 modell jó minőségű, és az eredeti modellel összehasonlítva a "legjobb" előrejelzéshez ajánlott.

5. Előrejelzés.

5.1 Pont előrejelzés. A faktorváltozók tényleges értékeit az előrejelzési időszakban előrejelzettnek tekintjük, az eredő változó előrejelzett értékeit a "legjobb" modell (= 201511,7 -1359,6X 1 + 1,01X 2) előrejelzése szerint határozzuk meg. a faktorváltozókat az előrejelzési időszakban. A Microsoft Excel "Graph" eszközével a kapott változó tényleges és előrejelzett értékeinek grafikonja a megfigyelések szerint ábrázolásra kerül, és következtetést von le a tényleges értékek közelségéről az előrejelzettekhez.

A faktorváltozók előrejelzett értékeit a 3. táblázat tartalmazza.

3. táblázat

Az effektív változó előrejelzett értékeit a "legjobb" modell (= 201511,7 -1359,6X 1 + 1,01X 2) előrejelzése szerint határozzák meg az előrejelzési időszak faktorváltozói alapján. A becsült értékeket a 4. táblázat tartalmazza, a tényleges értékeket összehasonlítás céljából hozzáadjuk.

4. táblázat

[Y] empirikus

A 8. ábra mutatja az eredő változó tényleges és előrejelzett értékeit, valamint az előrejelzés alsó és felső határát.

8. ábra

A 8. ábra szerint az előrejelzés továbbra is növekvő tendenciát mutat, és minden előrejelzési érték közel áll a ténylegeshez.

5.2. Intervallum előrejelzés.

A Microsoft Excel adatelemző/regressziós eszközével regresszió készül a minta és az előrejelzési időszak összesített adatkészletére, de D 1, D 2, ..., D p álváltozók hozzáadásával. Ebben az esetben D i = 1 csak a megfigyelési pillanatra (n + i), az összes többi pillanatra D i = 0. Az adatokat az 5. táblázat, a regresszió eredményét a 9. ábra mutatja be.

5. táblázat

[Y] baglyok

9. ábra

Ekkor az álváltozó együtthatójának standard hibája megegyezik a standard előrejelzési hibával (S i): 2012-ben 738,5 lesz; 2013-ban 897,1 lesz; 2014-ben 1139,4 lesz.

Az intervallum-előrejelzés határait a 6. táblázat számítja ki.

6. táblázat

[Y] empirikus

[Y] baglyok

[S] pr

táblázat szerint. A 6. ábrán a Microsoft Excel "Graph" eszközével egy grafikont építenek fel az eredő változó tényleges és előrejelzett értékei, a megfigyelések előrejelzésének felső és alsó határa szerint (10. ábra).

10. ábra

A grafikon szerint az előrejelzett értékek az intervallum előrejelzés határaiba illeszkednek, ami jó előrejelzési minőséget jelez.

5.3. A modell stabilitásának értékelése NCO teszt segítségével a következőképpen történik:

a) a Microsoft Excel "Adatelemzés / Regresszió" eszközével egy regressziót építenek (11. ábra), ahol a faktorváltozók összesített (minta és előrejelzés) értékeit veszik X értéknek, és az összesített ( minta és előrejelzés) értékeket az eredményváltozó Y értékének tekintjük. Ezzel a regresszióval határozzuk meg az S = 2058232,333 maradékok négyzetösszegét.

11. ábra

b) a 3.2. tétel Salkever dummy változókkal való regressziójával (9. ábra) meghatározzuk az Sd = 1270272,697 maradékok négyzetösszegét.

c) az F statisztika értékét kiszámítjuk és kiértékeljük:

míg F cr = F 0,05; 3; 5 = 5,40, akkor a kapott érték kisebb, mint az F cr kritikus érték, és elfogadjuk a modell előrejelzési periódusbeli stabilitására vonatkozó hipotézist.

5.4. A modell prediktív tulajdonságaira vonatkozó ítéletek általánosítása az 5.1-5.3 pontok alapján ennek eredményeként a modell magas prediktív minőségére (= 201511,7 -1359,6X 1 + 1,01X 2) következtetést vonunk le, és ajánlásokat fogalmazunk meg a modell előrejelzési felhasználására.

A 2.1. pont technikája sikeresen tesztelt, lehetővé teszi a multikollinearitás főbb jeleinek azonosítását, és ilyen vizsgálatokhoz ajánlható.

Következtetés

Multikollinearitás - az ökonometriában (regressziós elemzés) - a regressziós modell magyarázó változói (tényezői) közötti lineáris kapcsolat jelenléte. Megkülönböztetik ugyanakkor a teljes kollinearitást, amely funkcionális (azonos) lineáris kapcsolat meglétét jelenti, és a részleges vagy egyszerűen multikollinearitást, amely a tényezők közötti erős korreláció jelenlétét jelenti.

A multikollinearitás fő következményei: a becslések nagy szórása, az együtthatók t-statisztikájának csökkenése, a legkisebb négyzetek módszerével az együtthatók becslései instabillá válnak, nehéz meghatározni a változók hozzájárulását, és az együttható hibás előjele. kapunk.

A multikollinearitás kimutatásának fő kritériumai a következők: magas R 2 jelentéktelen együtthatókkal; Magas párosított korrelációs együtthatók; a VIF együttható magas értékei.

A multikollinearitás kiküszöbölésének fő módszerei a következők: a változó(k) kizárása a modellből; további adatok vagy új minta beszerzése; a modell specifikációjának megváltoztatása; előzetes információk felhasználása egyes paraméterekkel kapcsolatban.

A kidolgozott információs és módszertani támogatás megfelel a többszörös regressziós modellekben a multikollinearitás problémájának ökonometriai vizsgálatának fő célkitűzéseinek, és ezekhez a vizsgálatokhoz ajánlható.

A felhasznált források listája

  1. Asztakhov, S.N. Ökonometria [Szöveg]: Oktatási-módszertani komplexum. Kazan, 2008 .-- 107s.
  2. Bardasov, S. A. ÖKONOMETRIA [Szöveg]: oktatóanyag. 2. kiadás, Rev. és add hozzá. Tyumen: Tyumen Állami Egyetemi Kiadó, 2010.264 p.
  3. Borodkina, L.I. Előadások tanfolyama [Elektronikus forrás]. Hozzáférési mód - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboinikov, Yu. ÖKONOMETRIA az EXCEL 1. részében [Szöveg]: tanulmányi útmutató, Novoszibirszk 2005,156 p.
  5. Eliseeva, I.I. Workshop az ökonometriáról: tankönyv. közgazdasági útmutató. egyetemek / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [satöbbi.] ; szerk. I.I. Eliseeva - M .: Pénzügy és Statisztika, 2001 .-- 191 p. - (14126-1).
  6. Multikollinearitás [Elektronikus forrás]. Hozzáférési mód - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikov, A.I. Ökonometria [Szöveg]: tankönyv. kézikönyv pl. "Pénzügy és hitel", "Közgazdaságtan" - M .: Dashkov és K, 2013. - 223 p. - (93895-1).
  8. A multikollinearitás problémája [Elektronikus forrás]. Hozzáférési mód - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak V. Alkalmazott ökonometria. 9. számú előadás [Elektronikus forrás]. Hozzáférési mód: http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - enciklopédikus oldal [Elektronikus forrás]. Hozzáférési mód - http://kodcupon.ru/ra17syplinoe97/ Multikollinearitás.

Letöltés: Nincs hozzáférése a fájlok letöltéséhez a szerverünkről.

Az Orosz Föderáció Szövetségi Oktatási és Tudományos Ügynöksége

Kostroma Állami Műszaki Egyetem.

Felsőmatematika Tanszék

az ökonometriáról a témában:

Multikollinearitás

Teljesített

1. éves hallgató

levelező kar

sp-t "Számvitel,

elemzés és audit".

Ellenőrizve

Katezhina S.F.

Kostroma 2008


Multikollinearitás

A multikollinearitás alatt a magyarázó változók magas kölcsönös korrelációját értjük. A multikollinearitás funkcionális (explicit) és sztochasztikus (látens) formában nyilvánulhat meg.

A multikollinearitás funkcionális formájában a magyarázó változók közötti páros kapcsolatok legalább egyike lineáris funkcionális függés. Ebben az esetben az X`X mátrix speciális, hiszen lineárisan függő oszlopvektorokat tartalmaz, determinánsa pedig nulla, azaz. a regresszióanalízis előfeltevése sérül, ez a megfelelő normálegyenletrendszer megoldásának és a regressziós modell paramétereinek becslésének lehetetlenségéhez vezet.

A közgazdasági kutatásokban azonban a multikollinearitás gyakran sztochasztikus formában nyilvánul meg, amikor legalább két magyarázó változó között szoros összefüggés van. Az X`X mátrix ebben az esetben nem szinguláris, de a determinánsa nagyon kicsi.

Ugyanakkor a b becslések vektora és annak ∑ b kovarianciamátrixa arányos az (X`X) -1 inverz mátrixszal, ami azt jelenti, hogy elemeik fordítottan arányosak a |X`X | determináns értékével. Ennek eredményeként a b 0, b 1,…, bp regressziós együtthatók szignifikáns szórásai (standard hibái) keletkeznek, amelyek szignifikanciájának t-kritériummal történő értékelése értelmetlen, bár általában a regressziós modell megfordulhat. szignifikánsnak bizonyul az F-kritérium szerint.

A becslések nagyon érzékenyek a megfigyelésekben és a minta méretében bekövetkezett kis változásokra. A regressziós egyenletek ebben az esetben általában nem bírnak valódi jelentéssel, mivel egyes együtthatóinak lehetnek közgazdaságelméleti szempontból helytelen előjelei és indokolatlanul nagy értékei.

Nincsenek pontos kvantitatív kritériumok a multikollinearitás meglétének vagy hiányának meghatározására. Ennek ellenére van néhány heurisztikus megközelítés az észlelésére.

Az egyik ilyen megközelítés az X 1, X 2, ..., X p magyarázó változók közötti korrelációs mátrix elemzése és a magas korrelációs változókkal (általában 0,8-nál nagyobb) változó párok azonosítása. Ha léteznek ilyen változók, akkor közöttük multikollinearitásról beszélünk. Hasznos az is, ha az egyik magyarázó változó és azok valamelyik csoportja között több determinációs együtthatót találunk. A magas többszörös determinációs együttható jelenléte (általában több mint 0,6) multikollinearitást jelez.

Egy másik megközelítés az X`X mátrix vizsgálata. Ha az X`X mátrix determinánsa vagy minimális sajátértéke λ min nullához közeli (például a felhalmozódó számítási hibákkal azonos nagyságrendű), akkor ez multikollinearitás jelenlétét jelzi. ugyanez igazolható az X`X mátrix λ max maximális sajátértékének jelentős eltérésével a λ min minimális sajátértékétől.

Számos módszert alkalmaznak a multikollinearitás megszüntetésére vagy csökkentésére. Közülük a legegyszerűbb (de korántsem mindig lehetséges) az, hogy két magas (0,8-nál nagyobb) korrelációs együtthatójú magyarázó változó közül egy változót kizárunk a számításból. Ugyanakkor elsősorban közgazdasági megfontolások alapján dől el, hogy melyik változót hagyjuk meg, és melyiket távolítsuk el az elemzésből. Ha közgazdasági szempontból egyik változó sem preferálható, akkor a két változó közül az marad meg, amelyik nagyobb korrelációs együtthatóval rendelkezik a függő változóval.

Egy másik módszer a multikollinearitás kiküszöbölésére vagy csökkentésére az, hogy a legkisebb négyzetek módszerével meghatározott torzítatlan becslésekről a torzított becslésekre térünk át, amelyek azonban kisebb szórással rendelkeznek a becsült paraméterhez képest, azaz. a b j becslés β j vagy M paramétertől való eltérésének négyzetének alacsonyabb matematikai elvárása (b j - β j) 2.

A vektor által meghatározott becslések a Gauss-Markov-tételnek megfelelően minimális szórással rendelkeznek az összes lineáris torzítatlan becslés osztályában, de multikollinearitás esetén ezek a szórások túl nagynak bizonyulhatnak, és a megfelelő értékre fordulva. az elfogult becslések növelhetik a regressziós paraméterek becslésének pontosságát. Az ábra azt az esetet mutatja, amikor a torzított β j ^ becslés, amelynek mintaeloszlását a φ (β j ^) sűrűség adja meg.

Valójában legyen a β j becsült paraméter maximális megengedett konfidencia intervalluma (β j -Δ, β j + Δ). Ekkor az intervallumban (β j -Δ, β j + Δ) az eloszlási görbe alatti terület által meghatározott konfidenciavalószínűség, vagy a becslés megbízhatósága, ahogy az az ábráról is jól látható, ebben az esetben nagyobb β j becsléséhez bj-hez képest (az ábrán ezek a területek árnyékoltak). Ennek megfelelően a becslés becsült paramétertől való eltérésének átlagos négyzete kisebb lesz torzított becslés esetén, azaz:

M (β j ^ - β j) 2< M (b j - β j) 2

Ha ridge regressziót (vagy gerincregressziót) használunk, az elfogulatlan becslések helyett a vektor által adott torzított becslések

β τ ^ = (X`X + τ E p +1) -1 X`Y,

ahol τ – valamilyen pozitív szám, úgynevezett „gerinc” vagy „gerinc”,

E p +1 a (р + 1) -edrendű egységmátrix.

Hozzáadás τ a mátrix átlós elemeire X`X torzítottá teszi a modellparaméterek becsléseit, ugyanakkor a normálegyenletrendszer mátrixának determinánsa növekszik - (X`X) helyett lesz egyenlő

X`X + τ E p +1 |

Így lehetővé válik a multikollinearitás kizárása abban az esetben, ha a | X`X | determináns közel van a nullához.

A multikollinearitás kiküszöbölésére felhasználható az átmenet az eredeti X 1, X 2, ..., X n magyarázó változókról, amelyek szoros korrelációs függéssel kapcsolódnak egymáshoz, az eredeti változók lineáris kombinációit reprezentáló új változókra. Ebben az esetben az új változóknak gyengén vagy általában nem korreláltnak kell lenniük. Ilyen változókként vesszük például a komponensanalízis során vizsgált kezdeti magyarázó változók vektorának úgynevezett főkomponenseit, és a főkomponenseken regressziót vesszük figyelembe, amelyben az utóbbiak általánosított magyarázó változóként működnek, további értelmes ( közgazdasági) értelmezése.

A főkomponensek ortogonalitása megakadályozza a multikollinearitási hatás megnyilvánulását. Ezenkívül az alkalmazott módszer lehetővé teszi, hogy kis számú főkomponensre korlátozzuk magunkat, viszonylag sok kezdeti magyarázó változóval.

Multikollinearitás - ez egy olyan probléma leírására használt kifejezés, ahol a magyarázó változók közötti laza lineáris kapcsolat megbízhatatlan regressziós becslésekhez vezet. Természetesen egy ilyen kapcsolat nem feltétlenül ad nem kielégítő értékelést. Ha minden egyéb feltétel kedvező, vagyis ha a megfigyelések száma és a magyarázó változók mintaszórása nagy, a véletlentag szórása pedig kicsi, akkor ennek eredményeként egészen jó becslések adhatók.

Tehát a multikollinearitást a laza függőség és egy (vagy több) kedvezőtlen körülmény kombinációja okozza, és ez itt a kérdés

a jelenség súlyossága, és nem típusa. Bármely regressziós pontszám bizonyos mértékig szenved tőle, kivéve, ha minden magyarázó változó teljesen korrelál. A probléma mérlegelése csak akkor kezdődik, ha az komolyan befolyásolja a regressziós becslés eredményeit.

Ez a probléma gyakori az idősoros regresszióknál, vagyis amikor az adatok egy adott időszakra vonatkozó megfigyelések sorozatából állnak össze. Ha két vagy több magyarázó változó erős időbeli trenddel rendelkezik, akkor szorosan korrelálnak egymással, és ez multikollinearitáshoz vezethet.


Mit lehet tenni ebben az esetben?

A multikollinearitás mérséklésére használható különféle módszerek két kategóriába sorolhatók: az első kategóriába tartoznak a kísérletek négy olyan feltétel teljesülésének javítására, amelyek biztosítják a regressziós becslések megbízhatóságát; a második kategória a külső információ felhasználása. Ha lehetséges, közvetlenül szerzett adatokat használunk először, akkor nyilvánvalóan hasznos lenne a megfigyelések számát növelni.

Ha idősoros adatokat használ, ezt az egyes időszakok hosszának lerövidítésével teheti meg. Például az 5.3. és 5.6. gyakorlatban szereplő keresleti függvény egyenletek kiértékelésekor átválthat az éves adatok használatáról a negyedéves adatokra.

Ezt követően 25 megfigyelés helyett 100. Ez annyira nyilvánvaló és olyan könnyen kivitelezhető, hogy a legtöbb idősort használó kutató szinte automatikusan negyedéves adatokat használ, ha rendelkezésre állnak, az éves adatok helyett, még akkor is, ha a multikollinearitás problémája. nem érdemes, csak a regressziós együtthatók elméleti varianciáit minimálisra csökkenteni. Ezzel a megközelítéssel azonban problémák merülhetnek fel. Az autokorreláció bevezethető vagy fokozható, de semlegesíthető. Ezenkívül a mérési hibákból adódó torzítás is bevezethető (vagy felerősíthető), ha a negyedéves adatokat kisebb pontossággal mérik, mint a megfelelő éves adatok. Ezt a problémát nem könnyű megoldani, de lehet, hogy nem is jelentős.