Definice multikolinearity. Příčiny a důsledky multikolinearity

Multikolinearita Je lineární vztah mezi dvěma nebo více faktoriálními proměnnými v rovnici vícenásobné regrese. Pokud je taková závislost funkční, pak se mluví o plná multikolinearita... Pokud je to korelace, pak částečná multikolinearita... Je-li plná multikolinearita spíše teoretickou abstrakcí (projevuje se zejména, má-li fiktivní proměnná kúrovně kvality, nahradit za k dichotomické proměnné), pak je částečná multikolinearita velmi reálná a je téměř vždy přítomná. Můžeme mluvit pouze o stupni jeho závažnosti. Pokud například vysvětlující proměnné zahrnují disponibilní důchod a spotřebu, pak obě tyto proměnné budou samozřejmě silně korelovat.

Absence multikolinearity je jedním z žádoucích předpokladů klasického lineárního vícenásobného modelu. Důvodem jsou následující úvahy:

1) V případě úplné multikolinearity je obecně nemožné konstruovat odhady parametrů lineární vícenásobné regrese pomocí OLS.

2) V případě částečné multikolinearity mohou být odhady regresních parametrů nespolehlivé a navíc je obtížné určit

izolovaný příspěvek faktorů k efektivnímu ukazateli.

Hlavním důvodem výskytu multikolinearity je přítomnost ve studovaném objektu procesů, které současně ovlivňují některé vstupní proměnné, ale nejsou v modelu zohledněny. Může to být důsledkem nekvalitního studia předmětné oblasti nebo složitosti vzájemných vztahů parametrů studovaného objektu.

Multikolinearita je podezřelá z:

- velké množství nevýznamných faktorů v modelu;

- velké standardní chyby regresních parametrů;

- nestabilita odhadů (malá změna výchozích údajů vede k výrazné změně).

Jedním přístupem k určení přítomnosti nebo nepřítomnosti multikolinearity je analýza korelační matice

mezi vysvětlujícími proměnnými a identifikujícími dvojicemi faktorů s vysokými párovými korelačními koeficienty (obvykle více než 0,7). Pokud takové faktory existují, pak mezi nimi existuje jasná kolinearita.

Párové korelační koeficienty, uvažované jednotlivě, však nemohou posoudit kumulativní interakci několika faktorů (a nejen dvou).

Pro posouzení přítomnosti multikolinearity v modelu je tedy determinant matice párových korelačních koeficientů mezi faktory ( determinant mezifaktorové korelační matice)

Čím blíže je determinant mezifaktorové korelační matice 0, tím silnější je multikolinearita a naopak, čím blíže je determinant 1, tím menší je multikolinearita.


Statistická významnost multikolinearity faktorů je určena testováním nulové hypotézy v rámci alternativní hypotézy. Pearsonovo rozdělení se stupni volnosti se používá k testování nulové hypotézy. Pozorovanou hodnotu statistiky zjistíme vzorcem, kde n- počet pozorování, m- počet faktorů. Pro danou hladinu významnosti je kritická hodnota určena z tabulky kritických bodů Pearsonova rozdělení. Pokud, pak je hypotéza zamítnuta a má se za to, že v modelu je přítomna multikolinearita faktorů.

Faktory ovlivňující multikolinearitu lze také rozlišit analýzou koeficientů vícenásobného určení, vypočítaných za podmínky, že každý z faktorů je považován za závisle proměnnou dalších faktorů:,,…,. Čím blíže jsou 1, tím silnější je multikolinearita faktorů. To znamená, že faktory s minimální hodnotou koeficientu vícenásobného určení by měly být v rovnici ponechány.

Pokud jde o úplnou multikolinearitu, měl by se s ní vést nejrozhodnější boj: okamžitě odstranit z regresní rovnice proměnné, které jsou lineárními kombinacemi jiných proměnných.

Částečná multikolinearita není tak závažným zlem, aby bylo nutné ji identifikovat a odstranit. Vše závisí na cílech studia. Pokud je hlavním úkolem modelování pouze předpovídat hodnoty závislé proměnné, pak s dostatečně velkým koeficientem determinace () přítomnost multikolinearity neovlivňuje prediktivní vlastnosti modelu. Pokud je cílem modelování také určit příspěvek každého faktoru ke změně závislé proměnné, pak je přítomnost multikolinearity vážným problémem.

Nejjednodušší metodou pro odstranění multikolinearity je vyloučení jedné nebo více korelovaných proměnných z modelu.

Vzhledem k tomu, že multikolinearita přímo závisí na vzorku, je možné, že s jiným vzorkem nebude multikolinearita vůbec existovat, nebo nebude tak závažná. Pro snížení multikolinearity proto v některých případech stačí zvětšit velikost vzorku.

Někdy lze problém multikolinearity vyřešit změnou specifikace modelu: buď se změní tvar modelu, nebo se přidají faktory, které nebyly v původním modelu zohledněny, ale významně ovlivňují závislou proměnnou.

V některých případech lze multikolinearitu minimalizovat nebo zcela eliminovat transformací proměnných faktorů. V tomto případě jsou nejběžnější následující transformace:

1. Lineární kombinace multikolineárních proměnných (například).

2. Nahrazení multikolineární proměnné jejím přírůstkem.

3. Dělení jedné kolineární proměnné druhou.

Předpokládejme, že uvažujeme regresní rovnici a data pro její odhad obsahují pozorování pro objekty různé kvality: pro muže a ženy, pro bílé a černé. otázka, která nás zde může zajímat, je následující - je pravda, že uvažovaný model se shoduje pro dva vzorky související s předměty různé kvality? Na tuto otázku můžete odpovědět pomocí Chow testu.

Zvažte modely:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

V první ukázce N pozorování, ve druhém - M pozorování. Příklad: Y- mzdy, vysvětlující proměnné - věk, odsloužená doba, stupeň vzdělání. Vyplývá z dostupných dat, že model závislosti mezd na vysvětlujících proměnných na pravé straně je stejný pro muže i ženy?

K otestování této hypotézy můžete použít obecné schéma testování hypotéz porovnáním omezené regrese a neomezené regrese. Regrese bez omezení je zde spojením regresí (1) a (2), tzn. ESS UR = ESS 1 + ESS 2, počet stupňů volnosti - N + M - 2k... Omezená regrese (tj. regrese za předpokladu, že je splněna nulová hypotéza) bude regresí pro celý dostupný soubor pozorování:

, i = 1,…, N+M (3).

Odhadem (3) získáme ESS R... K testování nulové hypotézy používáme následující statistiky:

Která, pokud je pravdivá nulová hypotéza, má Fisherovo rozdělení s počtem stupňů volnosti čitatele k a jmenovatel N+ M- 2k.

Pokud je nulová hypotéza pravdivá, můžeme dostupné vzorky spojit do jednoho a model odhadnout N+M pozorování. Pokud zamítneme nulovou hypotézu, pak nemůžeme sloučit dva vzorky do jednoho a budeme muset tyto dva modely hodnotit samostatně.


Studium obecného lineárního modelu, o kterém jsme uvažovali dříve, je velmi zásadní, jak jsme viděli, na základě statistického aparátu. Nicméně, jako ve všech aplikacích mate. statistiky, síla metody závisí na předpokladech, na kterých je založena a nezbytných pro její aplikaci. Chvíli budeme uvažovat o situacích, kdy je porušena jedna nebo více hypotéz, které jsou základem lineárního modelu. V těchto případech zvážíme alternativní metody hodnocení. Uvidíme, že role některých hypotéz je významnější než role jiných. Potřebujeme vidět, k jakým důsledkům může porušení určitých podmínek (předpokladů) vést, umět si ověřit, zda jsou splněny či nikoliv, a vědět, jaké statistické metody lze a mají použít, když klasická metoda nejmenších čtverců nevyhovuje.

1. Vztah mezi proměnnými je lineární a je vyjádřen rovnicí - chyby specifikace modelu (nezahrnutí významných vysvětlujících proměnných do rovnice, zahrnutí zbytečných proměnných do rovnice, špatná volba formy závislosti mezi proměnné);


2. X 1 ,…,X k- deterministické proměnné - stochastické regresory, lineárně nezávislé - plná multikolinearita;

4. - heteroskedasticita;

5.kdy i ¹ k- autokorelace chyb

Před zahájením rozhovoru zvažte následující pojmy: párový korelační koeficient a parciální korelační koeficient.

Předpokládejme, že zkoumáme vliv jedné proměnné na jinou proměnnou ( Y a X). Abychom pochopili, jak spolu tyto proměnné souvisí, vypočítáme párový korelační koeficient pomocí následujícího vzorce:

Pokud se dostaneme na hodnotu korelačního koeficientu blízkou 1, docházíme k závěru, že proměnné spolu poměrně silně souvisí.

Pokud se však korelační koeficient mezi dvěma zájmovými proměnnými blíží 1, nemusí být ve skutečnosti závislé. Případ duševně nemocných a rádia je příkladem toho, čemu se říká „falešná korelace“. Vysoká hodnota korelačního koeficientu může být způsobena i existencí třetí proměnné, která silně působí na první dvě proměnné, což je důvodem jejich vysoké korelace. Proto vyvstává problém s výpočtem „čisté“ korelace mezi proměnnými X a Y, tedy korelace, ve které je vyloučen vliv (lineární) jiných proměnných. K tomu je zaveden koncept parciálního korelačního koeficientu.

Chceme tedy určit koeficient parciální korelace mezi proměnnými X a Y s vyloučením lineárního vlivu proměnné Z... K jeho určení se používá následující postup:

1. Odhadneme regresi,

2. Dostaneme zbytky,

3. Odhadneme regresi,

4. Dostaneme zbytky,

5. - výběrový koeficient parciální korelace, měří míru vztahu mezi proměnnými X a Y, zbaven vlivu proměnné Z.

Přímé výpočty:

Vlastnictví:

Postup konstrukce parciálního korelačního koeficientu je zobecněn v případě, že se chceme zbavit vlivu dvou a více proměnných.


1. Dokonalá multikolinearita.

Jeden z Gauss-Markovových požadavků nám říká, že vysvětlující proměnné by neměly souviset v žádném přesném vztahu. Pokud takový vztah mezi proměnnými existuje, říkáme, že model má dokonalou multikolinearitu. Příklad. Zvažte model s průměrným skóre zkoušky sestávající ze tří vysvětlujících proměnných: - rodičovský příjem, D- průměrný počet hodin strávených tréninkem za den, W- průměrný počet hodin strávených na školení za týden. To je zřejmé W=7D... A tento poměr bude splněn u každého studenta, který spadne do našeho vzorku. Případ úplné multikolinearity lze snadno vysledovat, protože v tomto případě není možné konstruovat odhady pomocí metody nejmenších čtverců.

2. Částečná multikolinearita nebo jednoduše multikolinearita.

Mnohem častější je situace, kdy mezi vysvětlujícími proměnnými neexistuje přesný lineární vztah, ale existuje mezi nimi úzká korelace – tento případ se nazývá reálná nebo částečná multikolinearita (jednoduše multikolinearita) – existence těsných statistických vztahů mezi proměnnými. Je třeba říci, že problematika multikolinearity je spíše záležitostí míry projevu jevu než jeho typu. Jakékoli regresní skóre tím bude trpět v té či oné formě, pokud všechny vysvětlující proměnné nejsou zcela nekorelované. Zvažování tohoto problému začíná teprve tehdy, když začne vážně ovlivňovat výsledky regresního odhadu (přítomnost statistických vztahů mezi regresory nemusí nutně poskytovat neuspokojivé odhady). Multikolinearita je tedy problém, kde těsná korelace mezi regresory vede k nespolehlivému odhadu regrese.

Důsledky multikolinearity:

Formálně, protože ( X"X) Je nedegenerovaný, pak můžeme konstruovat OLS odhady regresních koeficientů. Připomeňme si však, jak se vyjadřují teoretické rozptyly odhadů regresních koeficientů:, kde a ii - i diagonální prvek matice. Protože matice (X "X) je blízko degenerace a det ( X"X) »0, tedy

1) na hlavní diagonále inverzní matice jsou velmi velká čísla, protože prvky inverzní matice jsou nepřímo úměrné det ( X"X). Proto ten teoretický rozptyl i-tý koeficient je dostatečně velký a odhad rozptylu je také velký, proto, t- statistiky jsou malé, což může vést ke statistické nevýznamnosti i koeficientu. To znamená, že proměnná má významný vliv na vysvětlovanou proměnnou a docházíme k závěru, že je nevýznamná.

2) Vzhledem k tomu, že odhady a závisí na ( X"X) -1, jehož prvky jsou nepřímo úměrné det ( X"X), pak pokud přidáme nebo odebereme jedno nebo dvě pozorování, přidáme nebo odebereme tedy jeden nebo dva řádky do matice X"X, pak se hodnoty mohou výrazně měnit, až do změny znaménka - nestabilita výsledků odhadu.

3) Obtížnost při interpretaci regresní rovnice. Řekněme, že máme v rovnici dvě proměnné, které spolu souvisí: X 1 a X 2. Regresní koeficient při X 1 je interpretován jako míra změny Y změnou X 1 ceteris paribus, tzn. hodnoty všech ostatních proměnných zůstávají stejné. Jelikož však proměnné X 1 a X 2 jsou spojeny, pak změny v proměnné X 1 způsobí předvídatelné změny v proměnné X 2 a hodnotu X 2 nezůstane stejný.

Příklad: kde X 1 - celková plocha, X 2 - obytná část. Říkáme: "Pokud se obytná plocha zvětší o 1 m2, pak se za stejných podmínek cena bytu zvýší o USD." V tomto případě se však obytná plocha také zvýší o 1 m2. m. a zvýšení ceny bude. Vymezte vliv na proměnnou Y každá proměnná samostatně již není možná. Východiskem v této situaci s cenou bytu je zahrnout do modelu nikoli celkovou plochu, ale tzv. „dodatečnou“ nebo „dodatečnou“ plochu.

Znaky multikolinearity.

Neexistují žádná přesná kritéria pro stanovení přítomnosti (absence) multikolinearity. Existují však heuristická doporučení pro jeho detekci:

1) Analyzujte matici párových korelačních koeficientů mezi regresory a pokud je hodnota korelačního koeficientu blízká 1, pak je to považováno za známku multikolinearity.

2) Analýza korelační matice je pouze povrchním úsudkem o přítomnosti (nepřítomnosti) multikolinearity. Pečlivějšího studia této problematiky je dosaženo výpočtem koeficientů parciální korelace nebo výpočtem koeficientů determinace pro každou z vysvětlujících proměnných pro všechny ostatní vysvětlující proměnné v regresi.

4) (XX) Je symetrická kladně definitní matice; proto jsou všechna její vlastní čísla nezáporná. Pokud determinant matice ( XX) se rovná nule, pak je minimální vlastní číslo také nulové a kontinuita je zachována. V důsledku toho může být hodnota vlastní hodnoty zvířete také posuzována na základě blízkosti nuly determinantu matice ( XX). Kromě této vlastnosti je důležitá i minimální vlastní hodnota, protože směrodatná chyba koeficientu je nepřímo úměrná.

5) Přítomnost multikolinearity může být posuzována podle vnějších znaků, které jsou důsledky multikolinearity:

a) některé z odhadů mají znaky, které jsou z hlediska ekonomické teorie nesprávné nebo neoprávněně vysoké hodnoty;

b) malá změna výchozích ekonomických údajů vede k významné změně v odhadech modelových koeficientů;

c) většina t- statistika koeficientů se nevýznamně liší od nuly, zároveň je model jako celek významný, o čemž svědčí vysoká hodnota F-statistika.

Jak se zbavit multikolinearity, jak ji odstranit:

1) Použití faktorové analýzy. Přechod z původní množiny regresorů, mezi nimiž jsou statisticky závislí, k novým regresorům Z 1 ,…,Z m metodou hlavních komponent - místo výchozích proměnných místo výchozích proměnných uvažujeme některé jejich lineární kombinace, mezi nimiž je korelace malá nebo zcela chybí. Úkolem je poskytnout smysluplnou interpretaci nových proměnných. Z... Pokud selže, vrátíme se k původním proměnným pomocí inverzních transformací. Získané odhady však budou zkreslené, ale budou mít nižší rozptyl.

2) Ze všech dostupných proměnných vyberte faktory, které nejvýrazněji ovlivňují vysvětlovanou proměnnou. Výběrová řízení budou diskutována níže.

3) Přechod na metody zkresleného odhadu.

Když stojíme před problémem multikolinearity, nezkušený výzkumník má nejprve touhu jednoduše vyloučit zbytečné regresory, které ji mohou způsobovat. Není však vždy jasné, které proměnné jsou v tomto smyslu nadbytečné. Kromě toho, jak bude ukázáno níže, vyřazení tzv. významně ovlivňujících proměnných vede ke zkreslení odhadů OLS.


Všimněte si, že v řadě případů není multikolinearita tak závažným „zlem“, aby bylo vynaloženo značné úsilí na její identifikaci a odstranění. V zásadě vše závisí na cílech studia.
Pokud je hlavním úkolem modelu předpovídat budoucí hodnoty závislé proměnné, pak při dostatečně velkém koeficientu determinace R2 (gt; 0,9) přítomnost multikolinearity obvykle neovlivňuje prediktivní vlastnosti modelu ( pokud v budoucnu korelované proměnné zůstanou stejné jako dříve ).
Je-li nutné určit míru vlivu každé z vysvětlujících proměnných na závisle proměnnou, pak multikolinearita vedoucí ke zvýšení standardních chyb pravděpodobně naruší skutečné vztahy mezi proměnnými. V této situaci je multikolinearita vážným problémem.
Neexistuje žádná jediná metoda pro odstranění multikolinearity, která by byla v každém případě vhodná. To je způsobeno skutečností, že příčiny a důsledky multikolinearity jsou nejednoznačné a do značné míry závisí na výsledcích vzorku.
Vyloučení proměnné (proměnných) z modelu
Nejjednodušší metodou pro odstranění multikolinearity je vyloučení jedné nebo více korelovaných proměnných z modelu. Při použití této metody je nutná určitá opatrnost. V této situaci jsou možné chyby ve specifikaci, proto se v aplikovaných ekonometrických modelech doporučuje nevylučovat vysvětlující proměnné, dokud se multikolinearita nestane vážným problémem.
Získání dalších dat nebo nového vzorku
Protože multikolinearita přímo závisí na vzorku, je možné, že s jiným vzorkem multikolinearita nebude nebo nebude tak závažná. Někdy stačí ke snížení multikolinearity zvětšení velikosti vzorku. Pokud například používáte roční data, můžete přejít na čtvrtletní data. Zvýšení množství dat snižuje rozptyl regresních koeficientů a tím zvyšuje jejich statistickou významnost. Získání nového vzorku nebo rozšíření starého však není vždy možné nebo vyžaduje značné náklady. Navíc tento přístup může zlepšit autokorelaci. Tyto problémy omezují použití této metody.
Úprava specifikace modelu
V některých případech lze problém multikolinearity vyřešit změnou specifikace modelu: buď se změní tvar modelu, nebo se přidají vysvětlující proměnné, které nebyly v původním modelu zohledněny, ale významně ovlivňují závislou proměnnou. Pokud je tato metoda opodstatněná, pak její použití snižuje součet čtverců odchylek, a tím snižuje směrodatnou chybu regrese. To vede ke snížení směrodatných chyb koeficientů.
Použití předběžných informací o některých parametrech
Někdy při vytváření vícenásobného regresního modelu můžete použít předběžné informace, zejména známé hodnoty některých regresních koeficientů.
Je pravděpodobné, že hodnoty koeficientů vypočtené pro jakékoli předběžné (obvykle jednodušší) modely nebo pro podobný model založený na dříve získaném vzorku lze použít pro model, který je v současné době vyvíjen.
Výběr nejvýznamnějších vysvětlujících proměnných. Postup pro sekvenční spojování prvků
Přechod na méně vysvětlujících proměnných může snížit duplikaci informací poskytovaných vysoce vzájemně závislými funkcemi. Právě tomu čelíme v případě multikolineárních vysvětlujících proměnných.
Nechat

Vícenásobný koeficient
korelace mezi závisle proměnnou Y a množinou vysvětlujících proměnných X 1, X 2, ..., Xm. Je definován jako obvyklý párový korelační koeficient mezi Y a lineární funkcí
regrese Y = b0 + KX1 + b2X2 + ... + bmXm. Let amp; = R-1 - matice inverzní k matici R:


Potom lze čtvercový koeficient Ry.X = Rr (xi, x2, .., x) vypočítat podle vzorce:


Odhad R * 2.X opravený o nestrannost koeficientu determinace R2y.X má tvar:

(Pokud vzorcem (6.7) získáme záporné číslo, pak předpokládáme


Spodní mez spolehlivosti pro

odhodlaný
podle vzorce:

V praxi se při rozhodování, které vysvětlující proměnné do modelu zahrnout, často používá postup sekvenčního spojování prvků.
(j = 1, 2, ..., m). V čem

se shoduje se čtvercem obvyklého
párový korelační koeficient

Nechat


pak proměnná xp bude nejvíce informativní. Poté se vypočítá koeficient korigovaný na nestrannost
(pro m = 1) a její spodní mez spolehlivosti R2min (1).


pár jxp, xq bude více informativní). Poté se vypočítá koeficient korigovaný na nestrannost (s m = 2)
a jeho spodní mez spolehlivosti R2min (2).

Postup pokračuje, dokud není v kroku (až +1) splněna podmínka:
Poté model zahrnuje nejvíce informativní proměnné získané v prvních krocích. Všimněte si, že ve výpočtech jsou použity vzorce (6.7) a (6.8), ve kterých se místo m bere odpovídající hodnota čísla kroku k.
Ve skutečnosti tato metoda nezaručuje, že se zbavíme multikolinearity.
Používají se i jiné metody eliminace multikolinearity.
Příklad 6.1. Existují následující podmíněná data (tabulka 6.1):
Tabulka 6.1
Data pro metodu daisy-chaining


X1

X2

X3

Mít

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Uvažujme vliv každé z vysvětlujících proměnných na závisle proměnnou samostatně. Výpočtem párových korelačních koeficientů zjistíme, že koeficient

Pak:


Uvažujme vliv dvojic proměnných (x1, x2) a (x1, x3) na závisle proměnnou. Nejprve zvažte vliv dvojice proměnných (x1, x2).



Icuvum uvjpcuuivi
Při spojování proměnných by měly být do rovnice zahrnuty dvě vysvětlující proměnné. Teoretická rovnice tedy bude mít tvar:
Hřebenová metoda
Zvažte hřebenovou metodu (ridge regrese) pro odstranění multikolinearity. Metoda byla navržena A. E. Hoerlem v roce 1962 a používá se, když je matrice (xtX) blízko degenerace. K diagonálním prvkům matice (xtX) se přidá malé číslo (od 0,1 do 0,4). V tomto případě jsou získány zkreslené odhady parametrů rovnice. Ale standardní chyby takových odhadů v případě multikolinearity jsou nižší než ty, které dává obvyklá metoda nejmenších čtverců.
Příklad 6.2. Výchozí údaje jsou uvedeny v „Tabulce 6 2 Koeficient korelace vysvětlujících proměnných

co
označuje silnou multikolinearitu.
Tabulka 6.2
Data pro studium multikolinearity hřebenovou metodou


x1

x2

Mít

1

1,4

7

2

3,1

12


Pak dostaneme rovnici y = 2,63 + 1,37x1 + 1,95x2. Diagonální prvky inverzní matice se výrazně sníží a budou se rovnat z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, což vede ke snížení směrodatných chyb koeficientů.
souhrn
Mezi hlavní důsledky, ke kterým může multikolinearita vést, lze rozlišit následující:
  1. při testování hlavní hypotézy o nevýznamnosti vícenásobných regresních koeficientů pomocí t-testu je ve většině případů akceptována, samotná regresní rovnice se však při testování pomocí A-testu ukazuje jako významná, což ukazuje na nadhodnocenou hodnotu. vícenásobného korelačního koeficientu;
  2. získané odhady koeficientů vícenásobné regresní rovnice jsou obecně neodůvodněně nadhodnoceny nebo mají nesprávná znaménka;
  3. přidání nebo vyloučení jednoho nebo dvou pozorování z počátečních údajů má silný vliv na odhady modelových koeficientů;
  4. přítomnost multikolinearity v modelu vícenásobné regrese může způsobit, že nebude vhodný pro další použití (například pro vytváření prognóz).
Samotestovací otázky
  1. Co je multikolinearita?
  2. Jaké indikátory naznačují přítomnost multikolinearity?
  3. Jaký je determinant matice XTX v případě dokonalé multikolinearity?
  4. Co lze říci o významu koeficientů vysvětlujících proměnných v případě multikolinearity?
  5. Jaká transformace se u hřebenové metody provádí, k čemu vede?
  6. Jaké je pořadí akcí u metody postupného zvyšování počtu vysvětlujících proměnných?
  7. Co ukazuje korelační koeficient?
  8. Co ukazuje parciální korelační koeficient?
0

Ministerstvo školství a vědy Ruské federace

Federální státní rozpočtová vzdělávací instituce

vysokoškolské vzdělání

STÁTNÍ TECHNICKÁ UNIVERZITA TVER

Katedra "účetnictví a financí"

PROJEKT KURZU
v oboru "ekonometrie"

„Zkoumání multikolinearity v ekonometrických modelech: vyloučení proměnných (proměnných) z modelu“

Vedoucí práce:

Cand. ty. vědy, docent

Konovalová

Vykonavatel:

student skupiny EK-1315 EPO

Tver, 2015

Úvod ………………………………………………………………………………… ... 3

1.Analytická část ………………………………………………………… 4

1.1. Zobecněné znaky multikolinearity v ekonometrických modelech ………………………………………………………………………………… .4

1.2. Hlavní způsoby odstranění multikolinearity v ekonometrických modelech ………… .. ………………………………………………… ..7

2. Návrhová část ……………………………………………………………………… ..11

2.1. Informační a metodická podpora ekonometrického výzkumu ………………………………………………………………………… .11

2.2. Příklad ekonometrické studie …………………………… .17

Závěr ………………………………………………………………… .... 30

Seznam použitých zdrojů ………………………………………… ... 31

Úvod

Relevantnost tématu práce „Vyšetřování multikolinearity v ekonometrických modelech: vyloučení proměnné (proměnných) z modelu“ je dána tím, že v dnešní době se s tímto problémem často setkáváme v aplikovaných ekonometrických modelech.

Předmětem zkoumání je problém multikolinearity. Předmětem výzkumu jsou ekonometrické modely.

Hlavním cílem práce je vyvinout konstrukční řešení pro informační a metodickou podporu ekonometrického výzkumu.

K dosažení cíle byly stanoveny a vyřešeny následující hlavní výzkumné úkoly:

  1. Zobecnění vlastností multikolinearity v ekonometrických modelech.
  2. Identifikace hlavních způsobů eliminace multikolinearity.

3. Rozvoj informační a metodické podpory ekonometrického výzkumu.

  1. Analytická část

1.1. Zobecněné znaky multikolinearity v ekonometrických modelech

Multikolinearita - v ekonometrii (regresní analýza) - přítomnost lineárního vztahu mezi vysvětlujícími proměnnými (faktory) regresního modelu. Zároveň existují úplná kolinearita, což znamená přítomnost funkční (identické) lineární závislosti, a částečný nebo jednoduše multikolinearita- přítomnost silné korelace mezi faktory.

Úplná kolinearita vede k nejistoty parametry v lineárním regresním modelu bez ohledu na metody odhadu. Zvažte to pomocí následujícího lineárního modelu jako příkladu:

Nechť faktory tohoto modelu spolu shodně souvisí následovně:. Pak uvažujme původní lineární model, ve kterém k prvnímu koeficientu přidáme libovolnýčíslo A a odečtěte stejné číslo od ostatních dvou koeficientů. Pak máme (bez náhodné chyby):

I přes relativně libovolnou změnu koeficientů modelu je tedy získán stejný model. Tento model je zásadně neidentifikovatelný. Nejistota existuje již v samotném modelu. Pokud vezmeme v úvahu 3-rozměrný prostor koeficientů, pak v tomto prostoru vektor skutečných koeficientů není v tomto případě jediný, ale je to celá přímka. Jakýkoli bod na této přímce je skutečným vektorem koeficientů.

Pokud úplná kolinearita vede k nejistotě hodnot parametrů, pak částečná multikolinearita vede k jejich nestabilitě. hodnocení... Nestabilita je vyjádřena zvýšením statistické nejistoty – rozptylem odhadů. To znamená, že konkrétní výsledky hodnocení se mohou vzorek od vzorku značně lišit, i když jsou vzorky homogenní.

Jak víte, kovarianční matice odhadů vícenásobných regresních parametrů pomocí metody nejmenších čtverců je rovna. Tedy čím „menší“ je kovarianční matice (její determinant), tím „větší“ je kovarianční matice odhadů parametrů, a zejména čím větší jsou diagonální prvky této matice, tedy rozptyl odhadů parametrů. Pro jasnost zvažte příklad dvoufaktorového modelu:

Potom se rozptyl odhadu parametru, například pro první faktor, rovná:

kde je výběrový korelační koeficient mezi faktory.

Zde je jasně vidět, že čím větší je modul korelace mezi faktory, tím větší je rozptyl odhadů parametrů. Při (plné kolinearitě) má rozptyl sklon k nekonečnu, což odpovídá tomu, co bylo řečeno dříve.

Odhady parametrů jsou tak získány nepřesné, což znamená, že bude obtížné interpretovat vliv určitých faktorů na vysvětlovanou proměnnou. Multikolinearita zároveň neovlivňuje kvalitu modelu jako celku – lze ji uznat jako statisticky významnou, i když Všechno koeficienty jsou nevýznamné (to je jeden ze znaků multikolinearity).

V lineárních modelech mohou být korelační koeficienty mezi parametry kladné a záporné. V prvním případě je zvýšení jednoho parametru doprovázeno zvýšením jiného parametru. V druhém případě, když se jeden parametr zvýší, druhý se sníží.

Na základě toho je možné stanovit přijatelnou a nepřijatelnou multikolinearitu. Nepřijatelná multikolinearita nastane, když existuje významná pozitivní korelace mezi faktory 1 a 2 a vliv každého faktoru na korelaci s funkcí y je jednosměrný, to znamená, že zvýšení obou faktorů 1 a 2 vede ke zvýšení nebo snížení funkce y. Jinými slovy, oba faktory působí na funkci y stejným způsobem a významná pozitivní korelace mezi nimi může umožnit jeden z nich vyloučit.

Přípustná multikolinearita je taková, že faktory ovlivňují funkci y různě. Zde jsou možné dva případy:

a) při výrazné pozitivní korelaci mezi faktory je vliv každého faktoru na korelaci s funkcí y vícesměrný, tzn. zvýšení jednoho faktoru vede ke zvýšení funkce a zvýšení jiného faktoru vede ke snížení funkce y.

b) při výrazné negativní korelaci mezi faktory je nárůst jednoho faktoru doprovázen poklesem jiného faktoru a tím jsou faktory nejednoznačné, proto je možný jakýkoli náznak vlivu faktorů na funkci y.

V praxi se rozlišují některé z nejcharakterističtějších rysů multikolinearity: 1. Malá změna výchozích dat (například přidání nových pozorování) vede k významné změně v odhadech modelových koeficientů. 2. Odhady mají velké směrodatné chyby, nízkou významnost, zatímco model jako celek je významný (vysoká hodnota koeficientu determinace R 2 a odpovídající F-statistika). 3. Odhady koeficientů mají z teoretického hlediska nesprávná znaménka nebo neoprávněně vysoké hodnoty.

Nepřímými znaky multikolinearity jsou vysoké standardní chyby odhadů parametrů modelu, malá t-statistika (tj. nevýznamné koeficienty), nesprávné znaky odhadů, přičemž model jako celek je uznán jako statisticky významný (velká hodnota F-statistiky) . Multikolinearita může být také doložena silnou změnou v odhadech parametrů z přidání (nebo odstranění) dat vzorku (pokud jsou splněny požadavky na dostatečnou homogenitu vzorku).

Pro detekci multikolinearity faktorů lze přímo analyzovat korelační matici faktorů. Již přítomnost velkých absolutních hodnot (nad 0,7-0,8) hodnot párových korelačních koeficientů naznačuje možné problémy s kvalitou získaných odhadů.

Analýza párových korelačních koeficientů je však nedostatečná. Je nutné analyzovat koeficienty stanovení regresí faktorů pro ostatní faktory (). Doporučuje se vypočítat ukazatel. Příliš vysoké hodnoty posledně jmenovaných znamenají přítomnost multikolinearity.

Hlavní kritéria pro detekci multikolinearity jsou tedy následující: vysoké R2 pro všechny nevýznamné koeficienty, vysoké párové korelační koeficienty, vysoké hodnoty koeficientu VIF.

1.2. Hlavní způsoby eliminace multikolinearity v ekonometrických modelech

Před uvedením hlavních metod pro eliminaci multikolinearity poznamenáváme, že v řadě případů multikolinearita nepředstavuje vážný problém, který vyžaduje značné úsilí k její identifikaci a odstranění. V zásadě vše závisí na cílech studia.

Pokud je hlavním úkolem modelu předpovídat budoucí hodnoty regrese, pak při dostatečně velkém determinačním koeficientu R2 (> 0,9) přítomnost multikolinearity obvykle neovlivňuje prediktivní vlastnosti modelu. I když toto tvrzení bude oprávněné pouze v případě, že v budoucnu si korelační regresoři zachovají stejný vztah jako doposud. Pokud je cílem studie určit míru vlivu každého z regresorů na regresor, pak přítomnost multikolinearity vedoucí ke zvýšení standardních chyb pravděpodobně naruší skutečné vztahy mezi regresory. V této situaci je multikolinearita vážným problémem.

Všimněte si, že neexistuje žádná jediná metoda pro eliminaci multikolinearity, která by byla v každém případě vhodná. To je způsobeno skutečností, že příčiny a důsledky multikolinearity jsou nejednoznačné a do značné míry závisí na výsledcích vzorku.

V praxi se rozlišují hlavní metody pro odstranění multikolinearity:

  1. Eliminace regresorů z modelu Nejjednodušší metodou pro eliminaci multikolinearity je vyloučení jednoho nebo více korelovaných regresorů z modelu. Při aplikaci této metody je však zapotřebí určité opatrnosti. V této situaci jsou možné chyby specifikace. Například při studiu poptávky po určitém statku lze jako vysvětlující proměnné použít cenu tohoto statku a ceny substitutů tohoto statku, které spolu často korelují. Vyloučením cen náhražek z modelu s větší pravděpodobností uděláme chybu ve specifikaci. V důsledku toho lze získat zkreslené odhady a vyvozovat nepřiměřené závěry. V aplikovaných ekonometrických modelech je tedy žádoucí nevylučovat regresory, dokud se jejich kolinearita nestane vážným problémem.
  2. Získání dalších dat nebo nového vzorku, protože multikolinearita přímo závisí na vzorku, pak možná s jiným vzorkem nebude žádná multikolinearita vůbec, nebo to nebude tak vážné. Někdy stačí ke snížení multikolinearity zvětšení velikosti vzorku. Pokud například používáte roční data, můžete přejít na čtvrtletní data. Zvýšení množství dat snižuje rozptyl regresních koeficientů a tím zvyšuje jejich statistickou významnost. Získání nového vzorku nebo rozšíření starého však není vždy možné nebo vyžaduje značné náklady. Navíc tento přístup může zlepšit autokorelaci. Tyto problémy omezují použití této metody.

III. Změna specifikace modelu V některých případech lze problém multikolinearity vyřešit změnou specifikace modelu: buď se změní tvar modelu, nebo se přidají nové regresory, které nebyly v původním modelu zohledněny, ale významně ovlivňují závislé variabilní. Pokud je tato metoda opodstatněná, pak její použití snižuje součet čtverců odchylek, a tím snižuje směrodatnou chybu regrese. To vede ke snížení směrodatných chyb koeficientů.

  1. Transformaci proměnných lze v některých případech minimalizovat nebo zcela eliminovat problém multikolinearity pouze pomocí transformace proměnných. Původní data jsou v každém případě dělena hodnotami jednoho ze závislých regresorů v tomto případě. Aplikace metody hlavních komponent na faktory modelu umožňuje transformovat výchozí faktory a získat sadu ortogonálních (nekorelovaných) faktorů. V tomto případě nám přítomnost multikolinearity umožní omezit se na malý počet hlavních komponent. Přesto může nastat problém smysluplné interpretace hlavních složek.

Pokud podle všech indicií existuje multikolinearita, pak mezi ekonometiky existují různé názory na tuto věc. Při konfrontaci s problémem multikolinearity může existovat přirozená touha zbavit se „zbytečných“ nezávislých proměnných, které ji mohou způsobovat. Je však třeba mít na paměti, že při tom mohou nastat nové potíže. Za prvé, zdaleka není vždy jasné, které proměnné jsou v tomto smyslu nadbytečné.

Multikolinearita znamená pouze přibližný lineární vztah mezi faktory, ale ne vždy zvýrazní proměnné „navíc“. Za druhé, v mnoha situacích může odstranění jakýchkoli nezávislých proměnných významně ovlivnit význam modelu. Konečně vyřazení tzv. podstatných proměnných, tzn. nezávislé proměnné, které skutečně ovlivňují studovanou závisle proměnnou, vede ke zkreslení koeficientů modelu. V praxi se obvykle při zjištění multikolinearity odstraní nejméně významný faktor pro analýzu a poté se výpočty opakují.

V praxi se tedy rozlišují hlavní metody eliminace multikolinearity: změna nebo zvětšení vzorku, vyloučení jedné z proměnných, transformace multikolineárních proměnných (použití nelineárních forem, použití agregátů (lineární kombinace více proměnných), použití prvních rozdílů namísto Pokud však multikolinearita není eliminována, můžete ji ignorovat s ohledem na vhodnost vyloučení.

  1. Projektová část

2.1. Informační a metodická podpora ekonometrického výzkumu

Informační podpora ekonometrického výzkumu zahrnuje následující informace:

Vstupní informace:

  • statistické údaje o socioekonomickém ukazateli, definovaném jako závislá proměnná (faktory - výsledky);
  • statistické údaje o socioekonomických ukazatelích, definovaných jako vysvětlující proměnné (faktory - znaky);

Průběžné informace:

  • model regresní rovnice, odhadovaná regresní rovnice, indikátory kvality a závěr o kvalitě regresní rovnice, závěr o přítomnosti (nepřítomnosti) problému multikolinearity, doporučení pro použití modelu;

Efektivní informace:

  • odhadovaná regresní rovnice, závěr o kvalitě regresní rovnice, závěr o přítomnosti (nepřítomnosti) úlohy multikolinearity, doporučení pro aplikaci modelu.

Metodologie ekonometrického výzkumu je následující: specifikace; parametrizace, ověřování, doplňkový výzkum, prognózování.

1. Specifikace modelu regresní rovnice zahrnuje grafickou analýzu korelační závislosti závislé proměnné na každé vysvětlující proměnné. Na základě výsledků grafické analýzy je učiněn závěr o modelu regresní rovnice lineárního nebo nelineárního typu. Pro grafickou analýzu je nejčastěji doporučovaný nástroj MsExcel Scatter Chart. Výsledkem této etapy je stanovení modelu regresní rovnice a v případě nelineární formy i metody její linearizace.

2. Parametrizace regresní rovnice zahrnuje odhad regresních parametrů a jejich socioekonomickou interpretaci. Pro parametrizaci použijte nástroj "Regrese" jako součást doplňků "Analýza dat" MsExcel. Na základě výsledků automatizované regresní analýzy (sloupec "Koeficienty") jsou určeny regresní parametry a jejich interpretace je také dána podle standardního pravidla:

Bj je množství, o které se hodnota proměnné Y v průměru změní, když se nezávislá proměnná Xj zvýší o jedničku, ceteris paribus.

Průsečík regresní rovnice se rovná predikované hodnotě závislé proměnné Y, když jsou všechny nezávislé proměnné nulové.

3. Ověření regresní rovnice se provádí na základě výsledků automatizované regresní analýzy (2. stupeň) podle následujících ukazatelů: „R-kvadrát“, „Významnost F“, „P-hodnota“ (pro každý parametr regrese), stejně jako na grafech výběru a reziduí ...

Stanoví se významnost koeficientů a posoudí se kvalita modelu. K tomu se berou v úvahu „Významnost F“, „Hodnota P“ a „R-kvadrát“. Pokud je „P-hodnota“ menší než rovnice statické významnosti, znamená to významnost koeficientu. Pokud je „R-squared“ větší než 0,6, znamená to, že regresní model dobře popisuje chování závislé proměnné Y na faktorech proměnných.

Pokud je „významnost F“ menší než statická rovnice významnosti, pak je koeficient determinace (R-kvadrát) považován za podmíněně statisticky významný.

Graf zbytků vám umožňuje odhadnout odchylky v chybách. Pokud neexistují žádné zvláštní rozdíly mezi chybami odpovídajícími různým hodnotám Xi, to znamená, že variace chyb pro různé hodnoty Xi jsou přibližně stejné a lze předpokládat, že neexistují žádné problémy. Harmonogram montáže vám umožňuje vytvořit úsudek o výchozích, předpokládaných a faktorových hodnotách.

Na závěr je vytvořen úsudek o kvalitě regresní rovnice.

  1. Další výzkum.

4.1 Detekce prvního znaku multikolinearity. Na základě výsledků regresní analýzy získaných v odstavcích 2-3 je ověřena situace, kdy koeficient determinace má vysokou hodnotu (R 2> 0,7) a staticky významný (Významnost F<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05) Když je taková situace detekována, je učiněn závěr o předpokladu multikolinearity.

4.2 Detekce druhého znaku multikolinearity. Na základě výpočtů korelačních koeficientů mezi faktorovými proměnnými je stanoven významný vztah jednotlivých faktorů. Pro výpočty v MS Excel je vhodné použít nástroj Data Analysis / Correlation. Na základě hodnot korelačního koeficientu se vyvozují závěry: čím blíže (r) k extrémním bodům (± 1), tím větší je stupeň lineárního vztahu, pokud je korelační koeficient menší než 0,5, pak se uvažuje že ten vztah je slabý. Přítomnost multikolinearity se předpokládá v následujícím případě, pokud existuje významný korelační koeficient mezi alespoň dvěma proměnnými (tj. větší než 0,7 v modulu).

4.3 Detekce třetího znaku multikolinearity. Na základě posouzení pomocných regresí mezi faktorovými proměnnými a mezi proměnnými, kde existuje významný korelační koeficient (část 4.2), dochází k závěru, že multikolinearita je přítomna, pokud je alespoň v jedné pomocné regresi významná a významná. Metoda dodatečných regresí koeficientu determinace je následující: 1) jsou sestrojeny regresní rovnice, které spojují každý z regresorů se všemi zbývajícími; 2) koeficienty determinace R2 jsou vypočteny pro každou regresní rovnici; 3) pokud jsou rovnice a koeficient determinace považovány za statisticky významné, pak tento regresor vede k multikolinearitě.

4.4 Zobecnění rozsudků.

Na základě odstavců 4.1-4.3 je vytvořen úsudek o přítomnosti/nepřítomnosti multikolinearity a regresorů vedoucích k multikolinearitě.

Dále jsou tvořeny směry použití modelu (v případě ignorování nebo absence problému multikolinearity) nebo doporučení pro odstranění multikolinearity (v praxi vyloučení proměnné).

Při vyloučení proměnné je vhodné použít pravidlo:

Koeficient determinace je určen pro regresní rovnici původně vytvořenou z n pozorování (R 2 1);

Vyloučením posledních proměnných z uvažování (k) se na základě počátečních n pozorování vytvoří rovnice pro zbývající faktory a určí se pro ni determinační koeficient (R 2 2);

Vypočítá se F-statistika: kde (R 1 2 -R 2 2) je ztráta rovnice v důsledku poklesu na proměnné, (K) je počet dalších stupňů volnosti, které se objevily, (1- R 1 2) / (nml) je nevysvětlený rozptyl počátečních rovnic;

Kritická hodnota F a, k, n-m -1 se stanoví podle tabulek kritických bodů Fisherova rozdělení na dané hladině významnosti a a stupních volnosti v 1 = k, v 2 = n-m-l;

O účelnosti výjimky se tvoří soudy podle pravidla: (současné) vyloučení k proměnných z rovnice se považuje za nevhodné pro F> F a, k, n-m - 1, jinak je taková výjimka přípustná.

Když je proměnná eliminována, výsledný model je analyzován v souladu s články 3-4; a je porovnán s původním modelem, ve výsledku je vybrán ten "nejlepší". V praxi, protože multikolinearita neovlivňuje prediktivní vlastnosti modelu, lze tento problém ignorovat.

5. Předpovídání se provádí podle výchozího / „nejlepšího“ modelu zvoleného v odstavci 4.4, podle schématu zpětného předpovídání, ve kterém se pro předpovídání používá poslední 1/3 pozorování.

5.1. Bodová předpověď. Skutečné hodnoty faktorových proměnných v období prognózy jsou považovány za předpověděné, předpokládané hodnoty výsledné proměnné jsou určeny tak, jak je předpovídá původní / „nejlepší“ model na základě faktorových proměnných v období prognózy. Pomocí nástroje Microsoft Excel "Graph" je vykreslen graf skutečných a předpokládaných hodnot výsledné proměnné podle pozorování a je učiněn závěr o blízkosti skutečných hodnot k předpovídaným.

5.2. Intervalové předpovídání zahrnuje výpočet standardních chyb predikce (pomocí Salkeverových fiktivních proměnných) a horní a dolní meze předpovídaných hodnot.

Pomocí nástroje Microsoft Excel Data Analysis / Regrese je vytvořena regrese pro souhrnný soubor dat vzorku a období prognózy, ale s přidáním fiktivních proměnných D 1, D 2, ..., D p. V tomto případě D i = 1 pouze pro okamžik pozorování (n + i), pro všechny ostatní momenty D i = 0. Potom je koeficient fiktivní proměnné Di roven predikční chybě v čase (n + i) a standardní chyba koeficientu je rovna predikční směrodatné chybě (Si). Provádí se tedy automatizovaná regresní analýza modelu, kde se jako hodnoty X použijí agregované (vzorkové a predikované) hodnoty faktorových proměnných a hodnoty fiktivních proměnných Salkever, a agregovaný (vzorový a predikované) hodnoty výsledné proměnné jsou použity jako hodnoty Y.

Získané standardní chyby koeficientů pro fiktivní proměnné Salkever se rovnají standardním chybám predikce. Poté se hranice intervalové předpovědi vypočítají pomocí následujících vzorců: Ymin n + i = Yemp n + i -S i * t cr, Ymax n + i = Yemp n + i + S i * t cr, kde t cr je kritická hodnota Studentova rozdělení, určená vzorcem „= STYURASPOBR (0,05; nm-1)“, m je počet vysvětlujících faktorů v modelu (Y * t), Yemp n + i jsou predikované hodnoty výsledné proměnné (bod 5.1).

Pomocí nástroje Microsoft Excel "Graph" je sestaven graf podle skutečných a předpokládaných hodnot výsledné proměnné, horní a dolní hranice předpovědi pro pozorování. Je učiněn závěr o přizpůsobení skutečných hodnot výsledné proměnné do hranic intervalové předpovědi.

5.3. Posouzení stability modelu pomocí NCO testu se provádí následovně:

a) pomocí nástroje Microsoft Excel "Data Analysis / Regression" je vytvořena regrese, kde jsou agregované (vzorkové a predikované) hodnoty faktorových proměnných brány jako hodnoty X a agregované (vzorkové a predikované) hodnoty výsledné proměnné jsou brány jako hodnoty Y. Tato regrese se používá k určení součtu čtverců reziduí S;

b) podle regrese článku 5.2 s fiktivními proměnnými Salkever je určen součet druhých mocnin reziduí Sd;

c) hodnota F statistiky se vypočítá a odhadne podle vzorce:

kde p je počet prediktivních kroků. Pokud je získaná hodnota větší než kritická hodnota F cr, určená vzorcem "= FDISP (0,05; p; nm-1)", pak je hypotéza o stabilitě modelu v prognózovaném období zamítnuta, jinak je přijato.

5.4 Zobecnění úsudků o prediktivních kvalitách modelu na základě odstavců 5.1-5.3, výsledkem je závěr o prediktivní kvalitě modelu a doporučení pro použití modelu pro prognózování.

Vyvinutá informační a metodická podpora tak odpovídá hlavním cílům ekonometrické studie problému multikolinearity ve více regresních modelech.

2.2. Příklad ekonometrické studie

Studie je provedena na základě údajů odrážejících reálné makroekonomické ukazatele Ruské federace za období 2003-2011. (tab. 1), způsobem podle bodu 2.1.

stůl 1

Náklady na dům. farmy (miliardy rublů) [Y]

Populace (milion lidí)

Nabídka peněz (miliardy rublů)

Míra nezaměstnanosti (%)

1. Specifikace Model regresní rovnice obsahuje grafický rozbor korelační závislosti závislé proměnné Y (Výdaje domácnosti na vysvětlující proměnné X 1 (Obyvatelstvo) (obr. 1), korelační závislosti závislé proměnné Y (Výdaje domácnosti na vysvětlující proměnné X 2 (Peněžní nabídka) (obr. 2), korelační závislost závislé proměnné Y (Výdaje domácnosti na vysvětlující proměnné X 3 (míra nezaměstnanosti) (obr. 3).

Graf korelační závislosti mezi Y a X 1 uvedený na obrázku 1 odráží významnou (R 2 = 0,71) inverzní lineární závislost Y na X 1.

Graf korelační závislosti mezi Y a X 2 uvedený na obrázku 2 odráží významnou (R 2 = 0,98) přímou lineární závislost Y na X 2.

Graf korelační závislosti mezi Y a X 3 uvedený na obrázku 3 odráží nevýznamnou (R 2 = 0,15) inverzní lineární závislost Y na X 3.

Obrázek 1

Obrázek 2

Obrázek 3

V důsledku toho lze specifikovat lineární vícenásobný regresní model Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3.

2.Parametrizace regresní rovnice se provádějí pomocí nástroje "Regrese" jako součást doplňků "Data Analysis" MsExcel (obr. 4).

Obrázek 4

Odhadovaná regresní rovnice je:

233983,8-1605,6X 1 + 1,0X 2 + 396,22X 3.

V tomto případě jsou regresní koeficienty interpretovány následovně: s nárůstem populace o 1 milion lidí náklady na dům. farmy se snižují o 1605,6 miliardy rublů; se zvýšením peněžní zásoby o 1 miliardu rublů. náklady na dům. farmy se zvýší o 1,0 miliardy rublů; s nárůstem míry nezaměstnanosti o 1 %, výdaje na dům. farmy se zvýší o 396,2 miliardy rublů. Při nulových hodnotách faktorových proměnných jsou náklady na dům. farmy budou činit 233 983,8 miliard rublů, což možná nemá žádný ekonomický výklad.

3.Ověření regresní rovnice se provádí na základě výsledků automatizované regresní analýzy (fáze 2).

Takže "R-čtverec" se rovná 0,998, tj. regresní rovnice popisuje chování závislé proměnné z 99 %, což ukazuje na vysokou úroveň popisu rovnice. "Významnost F" je 2,14774253442155E-07, což znamená, že "R-čtverec" je významný. „P-Value“ pro b 0 je 0,002, což znamená, že tento parametr je významný. „P-hodnota“ pro b 1 je 0,002, což znamená, že tento koeficient je významný. „Hodnota P“ pro b 2 je 8,29103190343224E-07, což znamená, že tento koeficient je významný. „P-hodnota“ pro b 3 je 0,084, což znamená, že tento koeficient není významný.

Na základě grafů reziduí jsou rezidua e náhodné hodnoty.

Na základě propojovacích grafů je učiněn závěr o blízkosti skutečných a předpokládaných hodnot pro model.

Model je tedy kvalitní, zatímco b 3 není významné, takže můžeme předpokládat přítomnost multikolinearity.

4. Další výzkum.

4.1. Detekce prvního příznaku multikolinearity. Podle údajů z regresní analýzy (obrázek 5) můžeme říci, že existuje první známka multikolinearity, protože je detekován vysoký a významný R 2, ukazuje se, že rovnice má vysoký koeficient determinace, stejně jako jeden koeficientů není významný. To naznačuje přítomnost multikolinearity.

4.2 Detekce druhého znaku multikolinearity.

Na základě výpočtů korelačních koeficientů mezi faktorovými proměnnými je stanoven významný vztah jednotlivých faktorů. (Tabulka 2). Přítomnost multikolinearity se předpokládá v následujícím případě, pokud existuje významný korelační koeficient mezi alespoň dvěma proměnnými (tj. větší než 0,5 modulu).

tabulka 2

[ X2]

[ X3]

[ X2]

[ X3]

V našem případě existuje korelační koeficient mezi X 1 a X 2 (-0,788), který ukazuje na silnou závislost mezi proměnnými X 1, X 2, existuje také korelační koeficient mezi X 1 a X 3 (0,54), což ukazuje na silnou závislost mezi proměnnými X 1, X 3.

V důsledku toho lze předpokládat přítomnost multikolinearity.

4.3 Detekce třetího znaku multikolinearity.

Protože v části 4.2 byl nalezen silný vztah mezi proměnnými X 1 a X 2, je analyzována pomocná regrese mezi těmito proměnnými (obr. 5).

Obrázek 5

Protože "významnost F" je 0,01, což znamená, že "R-kvadrát" a pomocná regrese jsou významné, lze předpokládat, že regresor X 2 vede k multikolinearitě.

Protože v části 4.2 byl zjištěn vztah mezi proměnnými X 1 a X 3 nad průměrnou úrovní, je analyzována pomocná regrese mezi těmito proměnnými (obr. 6).

Obrázek 6

Protože "významnost F" je 0,13, což znamená, že "R-kvadrát" a pomocná regrese nejsou významné, lze předpokládat, že regresor X 3 nevede k multikolinearitě.

Takže podle třetího znaku lze předpokládat přítomnost multikolinearity.

4.4 Zobecnění rozsudků.

Podle rozboru odstavců 4.1-4.3 byly nalezeny všechny tři znaky multikolinearity, lze ji tedy s vysokou pravděpodobností předpokládat. Zároveň, navzdory předpokladu v části 4.3 ohledně regresoru vedoucího k multikolinearitě, lze doporučit vyloučení X 3 z původního modelu, protože X 3 má nejmenší korelační koeficient s Y a koeficient tohoto regresoru je v původní rovnici nevýznamný. Výsledky regresní analýzy po vyloučení X 3 jsou uvedeny na Obr. 7.

Obrázek 7

V tomto případě vypočítáme F - statistiku pro kontrolu proveditelnosti vyloučení:

F fakt = 4,62,

a F tab = F 0,05, 1, 5 = 6,61, protože F fakt< F табл, то исключение допустимо для переменной X 3 .

Posouzení kvality lineárního vícenásobného regresního modelu Y = b 0 + b 1 X 1 + b 2 X 2. "R-squared" je 0,996, tj. regresní rovnice popisuje chování závislé proměnné z 99 %, což ukazuje na vysokou úroveň popisu rovnice. "Významnost F" je 3,02415218982089E-08, což znamená, že "R-čtverec" je významný. „P-hodnota“ pro b 0 je 0,004, což znamená, že tento parametr je významný. „P-hodnota“ pro b 1 je 0,005, což znamená, že tento koeficient je významný. „Hodnota P“ pro b 2 je 3,87838361673427E-07, což znamená, že tento koeficient je významný. Odhadovaná regresní rovnice je:

201511,7 –1359,6X 1 + 1,01X 2

V tomto případě jsou regresní koeficienty interpretovány následovně: s poklesem populace o 1 milion lidí náklady na dům. farmy se snižují o 1 359,6 miliardy rublů; se zvýšením úrovně peněžní zásoby, výdaje na dům. farmy se zvýší o 1,0) (miliardy rublů). Při nulových hodnotách faktorových proměnných jsou náklady na dům. farmy budou činit 201511,7 miliardy rublů, což může mít ekonomický výklad.

Takže model = 201511,7 -1359,6X 1 + 1,01X 2 je kvalitní a je doporučen pro předpověď jako "nejlepší" ve srovnání s původním modelem.

5. Předvídání.

5.1 Bodová předpověď. Skutečné hodnoty faktorových proměnných v prognózovaném období jsou považovány za predikované, predikované hodnoty výsledné proměnné jsou určeny podle předpovědi „nejlepšího“ modelu (= 201511,7 -1359,6X 1 + 1,01X 2) na základě faktorových proměnných v prognózovaném období. Pomocí nástroje Microsoft Excel "Graph" je vykreslen graf skutečných a předpokládaných hodnot výsledné proměnné podle pozorování a je učiněn závěr o blízkosti skutečných hodnot k předpovídaným.

Předpokládané hodnoty faktorových proměnných jsou uvedeny v tabulce 3.

Tabulka 3

Predikované hodnoty efektivní proměnné jsou určeny podle předpovědi „nejlepšího“ modelu (= 201511,7 -1359,6X 1 + 1,01X 2) na základě faktorových proměnných v období prognózy. Předpokládané hodnoty jsou uvedeny v tabulce 4; skutečné hodnoty jsou přidány pro srovnání.

Tabulka 4

[Y] empirický

Obrázek 8 ukazuje skutečné a prognózované hodnoty výsledné proměnné a také dolní a horní hranice prognózy.

Postavení 8

Podle obr. 8 si předpověď zachovává rostoucí trend a všechny hodnoty prognózy se blíží skutečným.

5.2. Intervalová předpověď.

Pomocí nástroje Microsoft Excel Data Analysis / Regrese je vytvořena regrese pro souhrnný soubor dat vzorku a období prognózy, ale s přidáním fiktivních proměnných D 1, D 2, ..., D p. V tomto případě D i = 1 pouze pro okamžik pozorování (n + i), pro všechny ostatní momenty D i = 0. Data jsou uvedena v tabulce 5, výsledek regrese na obr. 9.

Tabulka 5

[Y] sovy

Obrázek 9

Pak se standardní chyba koeficientu pro fiktivní proměnnou rovná standardní chybě predikce (S i): pro rok 2012 to bude 738,5; pro rok 2013 bude 897,1; pro rok 2014 bude 1139,4.

Hranice intervalové předpovědi jsou vypočítány v tabulce 6.

Tabulka 6

[Y] empirický

[Y] sovy

[S] pr

Podle tabulky. 6 pomocí nástroje Microsoft Excel "Graph" se sestaví graf podle skutečných a predikovaných hodnot výsledné proměnné, horní a dolní hranice předpovědi pro pozorování (obr. 10).

Obrázek 10

Podle grafu se predikované hodnoty vejdou do hranic intervalové předpovědi, což ukazuje na dobrou kvalitu předpovědi.

5.3. Hodnocení stability modelu pomocí NCO testu se provádí následovně:

a) pomocí nástroje Microsoft Excel "Analýza / regrese" se sestaví regrese (obr. 11), kde se agregované (vzorové a prognózované) hodnoty faktorových proměnných berou jako hodnoty X a agregované ( vzorek a předpověď) hodnoty jsou brány jako hodnoty Y výsledné proměnné. Tato regrese se používá k určení součtu čtverců reziduí S = 2058232,333.

Obrázek 11

b) regresí bodu 3.2 s fiktivními proměnnými Salkever (obr. 9) se určí součet druhých mocnin reziduí Sd = 1270272,697.

c) je vypočtena a vyhodnocena hodnota F statistiky:

zatímco F cr = F 0,05, 3, 5 = 5,40, pak je získaná hodnota menší než kritická hodnota F cr a je akceptována hypotéza o stabilitě modelu v prognózovaném období.

5.4 Zobecnění úsudků o prediktivních kvalitách modelu na základě článků 5.1-5.3 je v důsledku toho vytvořen závěr o vysoké prediktivní kvalitě modelu (= 201511.7 -1359.6X 1 + 1.01X 2) a jsou uvedena doporučení pro použití modelu pro prognózování.

Technika z článku 2.1 byla úspěšně testována, umožňuje nám identifikovat hlavní znaky multikolinearity a lze ji pro takové studie doporučit.

Závěr

Multikolinearita - v ekonometrii (regresní analýza) - přítomnost lineárního vztahu mezi vysvětlujícími proměnnými (faktory) regresního modelu. Zároveň se rozlišuje úplná kolinearita, která znamená přítomnost funkčního (shodného) lineárního vztahu, a částečná nebo jednoduše multikolinearita, která znamená přítomnost silné korelace mezi faktory.

Hlavní důsledky multikolinearity jsou: velké rozptyly odhadů, pokles t-statistiky koeficientů, odhady koeficientů metodou nejmenších čtverců se stávají nestabilními, je obtížné určit příspěvek proměnných a nesprávné znaménko koeficientu. se získá.

Hlavní kritéria pro detekci multikolinearity jsou následující: vysoký R2 s nevýznamnými koeficienty; Vysoké párové korelační koeficienty; vysoké hodnoty koeficientu VIF.

Hlavní metody pro eliminaci multikolinearity jsou: vyloučení proměnné (proměnných) z modelu; získání dalších dat nebo nového vzorku; změna specifikace modelu; použití předběžných informací o některých parametrech.

Vyvinutá informační a metodická podpora odpovídá hlavním cílům ekonometrické studie problému multikolinearity ve více regresních modelech a lze ji pro takové studie doporučit.

Seznam použitých zdrojů

  1. Astakhov, S.N. Ekonometrie [Text]: Výchovně-metodický komplex. Kazaň, 2008 .-- 107s.
  2. Bardasov, S. A. ECONOMETRICS [Text]: návod. 2. vydání, Rev. a přidat. Tyumen: Tyumen State University Publishing House, 2010,264 s.
  3. Borodkina, L.I. Kurz přednášek [Elektronický zdroj]. Režim přístupu – http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboinikov, Yu. EKONOMETRIE v EXCELu 1. část [Text]: studijní příručka, Novosibirsk 2005, 156 s.
  5. Eliseeva, I.I. Workshop z ekonometrie: učebnice. průvodce pro ekonomiku. univerzity / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [atd.] ; vyd. I.I. Eliseeva - M .: Finance a statistika, 2001 .-- 191 s. - (14126-1).
  6. Multikolinearita [Elektronický zdroj]. Režim přístupu – https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikov, A.I. Ekonometrie [Text]: učebnice. manuál např. "Finance a úvěr", "Ekonomika" - M.: Dashkov a K, 2013. - 223 s. - (93895-1).
  8. Problém multikolinearity [Elektronický zdroj]. Režim přístupu - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak V. Aplikovaná ekonometrie. Přednáška č. 9 [Elektronický zdroj]. Režim přístupu http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - encyklopedické stránky [Elektronický zdroj]. Režim přístupu - http://kodcupon.ru/ra17syplinoe97/ Multikolinearita.

Stažení: Nemáte přístup ke stahování souborů z našeho serveru.

Federální agentura pro vzdělávání a vědu Ruské federace

Státní technologická univerzita Kostroma.

Katedra vyšší matematiky

o ekonometrii na téma:

Multikolinearita

Provedeno

student 1. ročníku

korespondenční fakulta

sp-t "Účetnictví,

analýza a audit“.

Kontrolovány

Katezhina S.F.

Kostroma 2008


Multikolinearita

Multikolinearita je chápána jako vysoká vzájemná korelace vysvětlujících proměnných. Multikolinearita se může projevovat ve funkční (explicitní) a stochastické (latentní) formě.

Ve funkční formě multikolinearity je alespoň jeden z párových vztahů mezi vysvětlujícími proměnnými lineární funkční závislost. V tomto případě je matice X`X speciální, protože obsahuje lineárně závislé sloupcové vektory a její determinant je roven nule, tzn. je porušena premisa regresní analýzy, což vede k nemožnosti řešit odpovídající systém normálních rovnic a získat odhady parametrů regresního modelu.

V ekonomickém výzkumu se však multikolinearita často projevuje ve stochastické podobě, kdy existuje úzká korelace mezi alespoň dvěma vysvětlujícími proměnnými. Matice X`X je v tomto případě nesingulární, ale její determinant je velmi malý.

Vektor odhadů b a jeho kovarianční matice ∑ b jsou přitom úměrné inverzní matici (X`X) -1, což znamená, že jejich prvky jsou nepřímo úměrné hodnotě determinantu | X`X |. Výsledkem jsou významné směrodatné odchylky (směrodatné chyby) regresních koeficientů b 0, b 1,…, bp a hodnocení jejich významnosti t-kriteriem nedává smysl, i když obecně se regresní model může obrátit být podle F-kritéria významné.

Odhady se stávají velmi citlivými na malé změny v pozorování a velikosti vzorku. Regresní rovnice v tomto případě zpravidla nemají skutečný význam, protože některé jejich koeficienty mohou mít znaménka, která jsou z hlediska ekonomické teorie nesprávná a neodůvodněně velké hodnoty.

Neexistují žádná přesná kvantitativní kritéria pro stanovení přítomnosti nebo nepřítomnosti multikolinearity. Přesto existují některé heuristické přístupy k jeho detekci.

Jedním z takových přístupů je analýza korelační matice mezi vysvětlujícími proměnnými X 1, X 2, ..., X p a identifikace párů proměnných s vysokou korelací proměnných (obvykle větší než 0,8). Pokud takové proměnné existují, mluví se o multikolinearitě mezi nimi. Je také užitečné najít více koeficientů determinace mezi jednou z vysvětlujících proměnných a některou z nich. Přítomnost vysokého vícenásobného koeficientu determinace (obvykle více než 0,6) ukazuje na multikolinearitu.

Dalším přístupem je zkoumání matice X`X. Pokud se determinant matice X`X nebo její minimální vlastní hodnota λ min blíží nule (například řádově stejné velikosti s kumulujícími se výpočetními chybami), pak to ukazuje na přítomnost multikolinearity. totéž lze doložit výraznou odchylkou maximálního vlastního čísla λ max matice X`X od jeho minimálního vlastního čísla λ min.

K odstranění nebo snížení multikolinearity se používá řada metod. Nejjednodušší z nich (ale zdaleka ne vždy možná) je ta, že ze dvou vysvětlujících proměnných s vysokým korelačním koeficientem (větším než 0,8) je jedna proměnná vyloučena z úvahy. O tom, kterou proměnnou opustit a kterou z analýzy odstranit, se přitom rozhoduje především na základě ekonomických úvah. Pokud z ekonomického hlediska nelze preferovat žádnou z proměnných, pak je ponechána ta ze dvou proměnných, která má větší korelační koeficient se závisle proměnnou.

Další metodou eliminace nebo snížení multikolinearity je přechod od nezkreslených odhadů určených metodou nejmenších čtverců k odhadům zkresleným, které však mají menší rozptyl vzhledem k odhadovanému parametru, tzn. nižší matematické očekávání druhé mocniny odchylky odhadu b j od parametru β j nebo M (b j - β j) 2.

Odhady určené vektorem v souladu s Gauss-Markovovou větou mají minimální odchylky ve třídě všech lineárních nezaujatých odhadů, ale v přítomnosti multikolinearity se tyto odchylky mohou ukázat jako příliš velké a přejít na odpovídající zkreslené odhady mohou zvýšit přesnost odhadu regresních parametrů. Obrázek ukazuje případ, kdy je vychýlen odhad β j ^, jehož výběrové rozdělení je dáno hustotou φ (β j ^).

Nechť je skutečně maximální přípustný interval spolehlivosti pro odhadovaný parametr β j (β j -Δ, β j + Δ). Potom pravděpodobnost spolehlivosti neboli spolehlivost odhadu, určená plochou pod distribuční křivkou v intervalu (β j -Δ, β j + Δ), jak je dobře patrné z obrázku, bude v tomto případě větší pro odhad β j ve srovnání s bj (na obrázku jsou tyto oblasti stínované). V souladu s tím bude střední čtverec odchylky odhadu od odhadovaného parametru menší pro zkreslený odhad, tj.:

M (pj^-pj) 2< M (b j - β j) 2

Při použití hřebenové regrese (nebo hřebenové regrese) se namísto nezkreslených odhadů použijí vychýlené odhady dané vektorem

β τ ^ = (X`X + τ E p +1) -1 X`Y,

kde τ – nějaké kladné číslo, nazývané „hřeben“ nebo „hřeben“,

E p +1 je (р + 1) matice jednotek -tého řádu.

Přidávání τ k diagonálním prvkům matice X`X činí odhady parametrů modelu vychýlené, ale zároveň se zvětšuje determinant matice soustavy normálních rovnic - místo (X`X) od se bude rovnat

X`X + τ E p +1 |

Je tedy možné vyloučit multikolinearitu v případě, kdy determinant | X`X | se blíží nule.

K odstranění multikolinearity lze využít přechod z původních vysvětlujících proměnných X 1, X 2, ..., X n, propojených poměrně úzkou korelační závislostí, k novým proměnným reprezentujícím lineární kombinace původních. V tomto případě by nové proměnné měly být slabě korelované nebo obecně nekorelované. Jako takové proměnné bereme například takzvané hlavní složky vektoru počátečních vysvětlujících proměnných studovaných v analýze složek a uvažujeme o regresi hlavních složek, ve kterých tyto hlavní složky fungují jako zobecněné vysvětlující proměnné podléhající dalším smysluplným ( ekonomický) výklad.

Ortogonalita hlavních komponent zabraňuje projevu efektu multikolinearity. Použitá metoda navíc umožňuje omezit se na malý počet hlavních komponent s relativně velkým počtem počátečních vysvětlujících proměnných.

multikolinearita - je to termín používaný k popisu problému, kdy volný lineární vztah mezi vysvětlujícími proměnnými vede k nespolehlivým regresním odhadům. Takový vztah samozřejmě nemusí nutně dávat neuspokojivé hodnocení. Jsou-li všechny ostatní podmínky příznivé, to znamená, jsou-li počet pozorování a výběrové rozptyly vysvětlujících proměnných velké a rozptyl náhodného členu malý, lze ve výsledku získat celkem dobré odhady.

Takže multikolinearita by měla být způsobena kombinací volné závislosti a jedné (nebo více) nepříznivých podmínek, a to je otázka

závažnost jevu, nikoli jeho typ. Jakékoli regresní skóre tím bude do určité míry trpět, pokud nejsou všechny vysvětlující proměnné zcela nekorelované. Zvažování tohoto problému začíná teprve tehdy, když vážně ovlivní výsledky regresního odhadu.

Tento problém je běžný u regresí časových řad, to znamená, když se data skládají z řady pozorování za určité časové období. Pokud mají dvě nebo více vysvětlujících proměnných silný časový trend, pak budou úzce korelovat, což může vést k multikolinearitě.


Co lze v tomto případě dělat?

Různé metody, které lze použít ke zmírnění multikolinearity, spadají do dvou kategorií: první kategorií jsou pokusy zlepšit míru, do jaké jsou splněny čtyři podmínky, které zajišťují spolehlivost regresních odhadů; druhou kategorií je využití externích informací. Pokud je to možné, použijí se nejprve přímo získaná data, pak by samozřejmě bylo užitečné zvýšit počet pozorování.

Pokud používáte data časových řad, můžete to provést zkrácením délky každého časového období. Například při vyhodnocování rovnic poptávkové funkce ve cvičeních 5.3 a 5.6 můžete přejít z používání ročních údajů na čtvrtletní údaje.

Poté jich místo 25 pozorování bude 100. To je tak zřejmé a tak snadné, že většina výzkumníků používajících časové řady téměř automaticky používá čtvrtletní data, pokud jsou k dispozici, namísto ročních dat, i když problém multikolinearity nemá cenu, jen snížit na minimum teoretické rozptyly regresních koeficientů. S tímto přístupem však existují potenciální problémy. Autokorelaci lze zavést nebo posílit, ale lze ji neutralizovat. Kromě toho může být zavedeno (nebo zesíleno) zkreslení způsobené chybami měření, pokud jsou čtvrtletní údaje měřeny s menší přesností než odpovídající roční údaje. Tento problém není snadné vyřešit, ale nemusí být významný.