Definicija multikolinearnosti. Uzroci i posljedice multikolinearnosti

Multikolinearnost je linearni odnos između dvije ili više faktorskih varijabli u jednadžbi višestruke regresije. Ako je takva zavisnost funkcionalna, onda se govori o njoj puna multikolinearnost. Ako je to u korelaciji, onda parcijalna multikolinearnost. Ako je potpuna multikolinearnost više teorijska apstrakcija (pojavljuje se, posebno, ako lažna varijabla ima k nivoa kvaliteta, zamijenite sa k dihotomne varijable), onda je parcijalna multikolinearnost vrlo stvarna i gotovo uvijek prisutna. Možemo govoriti samo o stepenu njegove ozbiljnosti. Na primjer, ako varijable koje objašnjavaju uključuju raspoloživi prihod i potrošnju, tada će obje ove varijable, naravno, biti u visokoj korelaciji.

Odsustvo multikolinearnosti jedan je od poželjnih preduslova za klasični linearni višestruki model. To je zbog sljedećih razmatranja:

1) U slučaju potpune multikolinearnosti, općenito je nemoguće izgraditi procjene parametara linearne višestruke regresije korištenjem metode najmanjih kvadrata.

2) U slučaju parcijalne multikolinearnosti, procjene parametara regresije mogu biti nepouzdane i, osim toga, teško ih je odrediti

izolovani doprinos faktora pokazatelju učinka.

Glavni razlog za pojavu multikolinearnosti je prisustvo u objektu koji se proučava procesima koji istovremeno utiču na neke ulazne varijable, ali se ne uzimaju u obzir u modelu. Ovo može biti rezultat nekvalitetne studije predmetne oblasti ili složenosti odnosa između parametara objekta koji se proučava.

Sumnja se na prisustvo multikolinearnosti:

– veliki broj beznačajnih faktora u modelu;

– velike standardne greške parametara regresije;

- nestabilnost procjena (mala promjena u početnim podacima dovodi do njihove značajne promjene).

Jedan pristup za određivanje prisutnosti ili odsustva multikolinearnosti je analiza korelacijske matrice

između eksplanatornih varijabli i identifikujućih parova faktora sa visokim koeficijentima korelacije parova (obično većim od 0,7). Ako takvi faktori postoje, onda se govori o jasnoj kolinearnosti između njih.

Međutim, koeficijenti parne korelacije, posmatrani pojedinačno, ne mogu procijeniti kombinovanu interakciju nekoliko faktora (a ne samo dva).

Stoga, da bi se procijenilo prisustvo multikolinearnosti u modelu, determinanta matrice parnih koeficijenata korelacije između faktora ( determinanta interfaktorske korelacione matrice)

Što je determinanta interfaktorske korelacione matrice bliža 0, to je jača multikolinearnost, i obrnuto, što je determinanta bliža 1, to je manja multikolinearnost.


Statistička značajnost faktora multikolinearnosti utvrđuje se testiranjem nulte hipoteze pod alternativnom hipotezom. Za testiranje nulte hipoteze koristi se Pirsonova raspodjela sa stupnjevima slobode. Uočena vrijednost statistike nalazi se po formuli , gdje je n je broj zapažanja, m je broj faktora. Za dati nivo značajnosti, kritična vrijednost se određuje iz tabele kritičnih tačaka Pirsonove distribucije. Ako je , tada se hipoteza odbacuje i smatra se da model ima multikolinearnost faktora.

Faktori koji utiču na multikolinearnost mogu se razlikovati i analizom koeficijenata višestruke determinacije, izračunatih pod uslovom da se svaki od faktora posmatra kao zavisna varijabla o drugim faktorima: , , …, . Što su bliže 1, to je jača multikolinearnost faktora. To znači da faktore sa minimalnom vrijednošću koeficijenta višestruke determinacije treba ostaviti u jednačini.

Što se tiče pune multikolinearnosti, onda se protiv nje treba boriti najodlučnijom borbom: odmah ukloniti varijable iz jednadžbe regresije koje su linearne kombinacije drugih varijabli.

Djelomična multikolinearnost nije tako ozbiljno zlo da bi se otkrilo i eliminisalo. Sve zavisi od ciljeva studija. Ako je glavni zadatak modeliranja samo predviđanje vrijednosti zavisne varijable, tada s dovoljno velikim koeficijentom determinacije (), prisutnost multikolinearnosti ne utječe na prediktivne kvalitete modela. Ako je cilj modeliranja da se utvrdi doprinos svakog faktora promjeni zavisne varijable, tada je prisustvo multikolinearnosti ozbiljan problem.

Najjednostavniji metod za eliminaciju multikolinearnosti je izuzimanje jedne ili skupa koreliranih varijabli iz modela.

Pošto multikolinearnost direktno zavisi od uzorka, moguće je da sa drugim uzorkom neće biti uopšte multikolinearnosti ili neće biti toliko ozbiljna. Stoga je u nekim slučajevima, da bi se smanjila multikolinearnost, dovoljno povećati veličinu uzorka.

Ponekad se problem multikolinearnosti može riješiti promjenom specifikacije modela: ili se mijenja oblik modela, ili se dodaju faktori koji nisu uzeti u obzir u originalnom modelu, ali značajno utiču na zavisnu varijablu.

U nekim slučajevima moguće je minimizirati ili potpuno eliminirati multikolinearnost transformacijom faktorskih varijabli. Najčešće transformacije su:

1. Linearna kombinacija multikolinearnih varijabli (na primjer, ).

2. Zamjena multikolinearne varijable s njenim prirastom.

3. Podjela jedne kolinearne varijable drugom.

Pretpostavimo da razmatramo jednačinu regresije i da podaci za njenu evaluaciju sadrže zapažanja za objekte različitog kvaliteta: za muškarce i žene, za belce i crnce. Pitanje koje bi nas ovdje moglo zanimati je sljedeće - da li je tačno da je model koji se razmatra isti za dva uzorka koji pripadaju objektima različitog kvaliteta? Na ovo pitanje se može odgovoriti pomoću Chow testa.

Razmotrite modele:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

U prvom uzorku N zapažanja, u drugom - M zapažanja. primjer: Y- plata, eksplanatorne varijable - starost, radni staž, stepen stručne spreme. Da li iz dostupnih podataka proizilazi da je obrazac zavisnosti plata od eksplanatornih varijabli sa desne strane isti za muškarce i žene?

Da biste testirali ovu hipotezu, možete koristiti opću shemu testiranja hipoteza upoređujući regresiju s ograničenjima i regresiju bez ograničenja. Neograničena regresija ovdje je unija regresija (1) i (2), tj. ESSUR = ESS 1 + ESS 2, broj stepeni slobode - N + M - 2k. Ograničena regresija (tj. regresija pod pretpostavkom da je ispunjena nulta hipoteza) bila bi regresija za cijeli skup dostupnih zapažanja:

, i = 1,…, N+M (3).

Procjenom (3) dobijamo ESS R. Za testiranje nulte hipoteze koristimo sljedeću statistiku:

Koja, u slučaju valjanosti nulte hipoteze, ima Fisherovu raspodjelu s brojem stupnjeva slobode brojioca k i imenilac N+ M- 2k.

Ako je nulta hipoteza tačna, možemo kombinirati dostupne uzorke u jedan i procijeniti model za N+M zapažanja. Ako odbacimo nultu hipotezu, tada ne možemo spojiti dva uzorka u jedan, već ćemo ova dva modela morati zasebno procijeniti.


Proučavanje opšteg linearnog modela, koje smo ranije razmatrali, veoma je bitno, kao što smo videli, zasnovano na statističkom aparatu. Međutim, kao iu svim aplikacijama, mat. statistike, snaga metode zavisi od pretpostavki koje su u njenoj osnovi i koje su neophodne za njenu primenu. Neko vrijeme ćemo razmatrati situacije u kojima je prekršena jedna ili više hipoteza koje su u osnovi linearnog modela. U ovim slučajevima ćemo razmotriti alternativne metode procjene. Vidjet ćemo da je uloga nekih hipoteza značajnija od uloge drugih. Moramo vidjeti do kakvih posljedica može dovesti kršenje određenih uslova (pretpostavki), moći provjeriti da li su oni zadovoljeni ili ne i znati koje statističke metode se mogu i trebaju primijeniti kada se klasična metoda najmanjih kvadrata ne uklapa.

1. Odnos između varijabli je linearan i izražava se jednadžbom - greške specifikacije modela (neuključivanje značajnih eksplanatornih varijabli u jednačinu, uključivanje nepotrebnih varijabli u jednačinu, nepravilan izbor oblika zavisnosti između varijabli);


2. X 1 ,…,X k- determinističke varijable - stohastički regresori, linearno nezavisni - potpuna multikolinearnost;

4. - heteroskedastičnost;

5. at i ¹ k– autokorelacija greške

Prije nego započnemo razgovor, razmotrimo sljedeće koncepte: koeficijent parne korelacije i parcijalni koeficijent korelacije.

Pretpostavimo da ispitujemo uticaj jedne varijable na drugu varijablu ( Y i X). Da bismo razumjeli kako su ove varijable povezane jedna s drugom, izračunavamo koeficijent parne korelacije koristeći sljedeću formulu:

Ako smo dobili vrijednost koeficijenta korelacije blizu 1, zaključujemo da su varijable međusobno prilično snažno povezane.

Međutim, ako je koeficijent korelacije između dvije proučavane varijable blizu 1, one možda zapravo nisu zavisne. Primjer mentalno oboljelih i radio prijemnika primjer je takozvane "lažne korelacije". Visoka vrijednost koeficijenta korelacije može biti i zbog postojanja treće varijable, koja ima snažan uticaj na prve dvije varijable, što je razlog njihove visoke korelacije. Stoga nastaje problem izračunavanja "čiste" korelacije između varijabli X i Y, odnosno korelacije u kojima je isključen uticaj (linearni) drugih varijabli. Za to se uvodi koncept parcijalnog koeficijenta korelacije.

Dakle, želimo da odredimo koeficijent parcijalne korelacije između varijabli X i Y, isključujući linearni uticaj varijable Z. Za određivanje se koristi sljedeća procedura:

1. Procjenjujemo regresiju,

2. Dobijamo bilanse,

3. Procjenjujemo regresiju,

4. Dobijamo bilanse,

5. - uzorak koeficijenta parcijalne korelacije, mjeri stepen povezanosti varijabli X i Y, očišćen od uticaja varijable Z.

Direktne kalkulacije:

Nekretnina:

Procedura za konstruisanje parcijalnog koeficijenta korelacije generalizovana je na slučaj kada želimo da se oslobodimo uticaja dve ili više varijabli.


1. Savršena multikolinearnost.

Jedan od Gauss-Markovljevih zahtjeva nam govori da eksplanatorne varijable ne bi trebale biti povezane nikakvim egzaktnim odnosom. Ako takav odnos između varijabli postoji, kažemo da model ima savršenu multikolinearnost. Primjer. Razmotrite model sa prosječnim rezultatom testa, koji se sastoji od tri varijable koje objašnjavaju: I- prihod roditelja D- prosječan broj sati provedenih na obuci dnevno, W- prosječan broj sati utrošenih na obuku sedmično. Očigledno je da W=7D. I ovaj omjer će biti ispunjen za svakog učenika koji uđe u naš uzorak. Slučaj potpune multikolinearnosti je lako ući u trag, jer je u ovom slučaju nemoguće konstruisati procjene koristeći metodu najmanjih kvadrata.

2. Djelomična multikolinearnost ili jednostavno multikolinearnost.

Mnogo češća situacija je kada ne postoji tačan linearni odnos između eksplanatornih varijabli, ali postoji bliska korelacija između njih - ovaj slučaj se naziva realna ili parcijalna multikolinearnost (jednostavno multikolinearnost) - postojanje bliskih statističkih veza između varijabli. Mora se reći da je pitanje multikolinearnosti pre pitanje stepena ispoljavanja fenomena, a ne njegovog tipa. Svaka regresijska procjena će patiti od toga na ovaj ili onaj način, osim ako sve varijable koje objašnjavaju nisu potpuno nekorelirane. Razmatranje ovog problema počinje tek kada počne ozbiljno da utiče na rezultate procene regresije (prisustvo statističkih odnosa između regresora ne daje nužno nezadovoljavajuće procene). Dakle, multikolinearnost je problem kada jaka korelacija između regresora dovodi do nepouzdanih procjena regresije.

Posljedice multikolinearnosti:

Formalno, pošto ( X"X) nije degenerisan, onda možemo konstruisati OLS procjene za koeficijente regresije. Međutim, podsjetimo se kako se izražavaju teorijske varijanse procjena koeficijenata regresije: , gdje je a ii - i-ti dijagonalni element matrice . Pošto je matrica (X"X) blizu degenerisane i det( X"X) » 0, onda

1) postoje veoma veliki brojevi na glavnoj dijagonali inverzne matrice, jer su elementi inverzne matrice obrnuto proporcionalni det( X"X). Dakle, teorijska varijansa i koeficijent je dovoljno velik i procjena varijanse je također velika, stoga, t- statistika je mala, što može dovesti do statističke beznačajnosti i-th koeficijent. Odnosno, varijabla ima značajan uticaj na varijablu koja se objašnjava, a mi zaključujemo da je beznačajan.

2) Budući da procjene i zavise od ( X"X) -1 , čiji su elementi obrnuto proporcionalni det( X"X), onda ako dodamo ili uklonimo jedno ili dva zapažanja, dodajući ili uklanjajući na taj način jedan ili dva reda u matricu X"X, tada se vrijednosti i mogu značajno promijeniti, sve do promjene predznaka - nestabilnost rezultata procjene.

3) Poteškoće u tumačenju jednačine regresije. Recimo da imamo dvije varijable u jednadžbi koje su međusobno povezane: X 1 i X 2. Koeficijent regresije pri X 1 se tumači kao mjera promjene Y mijenjanjem X 1 ceteris paribus, tj. vrijednosti svih ostalih varijabli ostaju iste. Međutim, budući da su varijable X 1 i X 2 su povezane, zatim promjene u varijabli X 1 će rezultirati predvidljivim promjenama u varijabli X 2 i vrijednost X 2 neće ostati isti.

Primjer: gdje X 1 - ukupna površina, X 2 - dnevni boravak. Kažemo: "Ako se stambena površina poveća za 1 m2, onda će, pod jednakim uvjetima, cijena stana porasti za dolare." Međutim, u ovom slučaju, stambena površina će se povećati za 1 kvadrat. m. a poskupljenje će biti . Ograničite utjecaj na varijablu Y svaka varijabla zasebno više nije moguća. Izlaz u ovoj situaciji sa cijenom stana je da se u model ne uključi ukupna površina, već tzv. "dodatna" ili "dodatna" površina.

Znakovi multikolinearnosti.

Ne postoje tačni kriterijumi za određivanje prisustva (odsustva) multikolinearnosti. Međutim, postoje heurističke preporuke za njegovu identifikaciju:

1) Analizirajte matricu uparenih koeficijenata korelacije između regresora i ako je vrijednost koeficijenta korelacije blizu 1, to se smatra znakom multikolinearnosti.

2) Analiza korelacione matrice je samo površan sud o prisustvu (odsustvu) multikolinearnosti. Pažljivije proučavanje ovog pitanja postiže se izračunavanjem parcijalnih koeficijenata korelacije ili izračunavanjem koeficijenata determinacije svake od eksplanatornih varijabli za sve druge eksplanatorne varijable u regresiji.

4) (XX) je simetrična pozitivno-definirana matrica; prema tome, sve njene vlastite vrijednosti nisu negativne. Ako je determinanta matrice ( XX) jednak nuli, tada je minimalna vlastita vrijednost također nula i kontinuitet je očuvan. Stoga, prema vrijednosti čovjekove vlastite vrijednosti, može se suditi i o blizini nule determinante matrice ( XX). Pored ovog svojstva, važna je i minimalna svojstvena vrijednost jer je standardna greška koeficijenta obrnuto proporcionalna .

5) O prisutnosti multikolinearnosti može se suditi po vanjskim znakovima koji su posljedica multikolinearnosti:

a) neke od procjena imaju netačne predznake sa stanovišta ekonomske teorije ili nerazumno velike vrijednosti;

b) mala promjena početnih ekonomskih podataka dovodi do značajne promjene u procjenama koeficijenata modela;

c) većina t-statistika koeficijenata se ne razlikuje značajno od nule, istovremeno je model u cjelini značajan, o čemu svjedoči visoka vrijednost F- statistika.

Kako se riješiti multikolinearnosti, kako je eliminirati:

1) Upotreba faktorske analize. Prelazak sa originalnog skupa regresora, među kojima ima statistički zavisnih, na nove regresore Z 1 ,…,Z m koristeći metodu glavnih komponenti - umjesto originalnih varijabli, umjesto originalnih varijabli, razmatramo neke njihove linearne kombinacije, među kojima je korelacija mala ili uopće izostaje. Ovdje je zadatak dati smisleno tumačenje novih varijabli Z. Ako ne uspije, vraćamo se na originalne varijable koristeći inverzne transformacije. Dobijene procjene će, međutim, biti pristrasne, ali će imati manju varijaciju.

2) Među svim dostupnim varijablama odaberite faktore koji najznačajnije utiču na varijablu koja se objašnjava. Procedure odabira će biti razmotrene u nastavku.

3) Prelazak na pristrasne metode procjene.

Kada se suoči s problemom multikolinearnosti, neiskusni istraživač u početku želi jednostavno eliminirati dodatne regresore koji bi ga mogli uzrokovati. Međutim, nije uvijek jasno koje su varijable suvišne u tom smislu. Osim toga, kao što će biti pokazano u nastavku, odbacivanje takozvanih varijabli značajnog utjecaja dovodi do pristrasnosti u procjenama OLS-a.


Imajte na umu da u nekim slučajevima multikolinearnost nije toliko ozbiljno „zlo“ da bi trebalo uložiti značajne napore da se ona identifikuje i eliminiše. U osnovi, sve ovisi o svrsi studije.
Ako je glavni zadatak modela predviđanje budućih vrijednosti zavisne varijable, onda s dovoljno velikim koeficijentom determinacije R2(gt; 0,9), prisustvo multikolinearnosti obično ne utiče na prediktivne kvalitete modela ( ako u budućnosti ostanu isti odnosi između koreliranih varijabli kao i prije ).
Ako je potrebno utvrditi stepen uticaja svake od varijabli koje objašnjavaju zavisnu varijablu, tada će multikolinearnost, koja dovodi do povećanja standardnih grešaka, vjerovatno iskriviti prave odnose između varijabli. U ovoj situaciji, multikolinearnost je veliki problem.
Ne postoji jedinstvena metoda za eliminaciju multikolinearnosti koja funkcionira u svakom slučaju. To je zbog činjenice da su uzroci i posljedice multikolinearnosti dvosmisleni i u velikoj mjeri zavise od rezultata uzorka.
Isključite varijable(e) iz modela
Najjednostavniji metod za eliminaciju multikolinearnosti je izuzimanje jedne ili skupa koreliranih varijabli iz modela. Potreban je određeni oprez prilikom primjene ove metode. U ovoj situaciji moguće su greške specifikacije, pa je u primijenjenim ekonometrijskim modelima poželjno ne isključivati ​​eksplanatorne varijable sve dok multikolinearnost ne postane ozbiljan problem.
Dobivanje više podataka ili novog uzorka
Pošto multikolinearnost direktno zavisi od uzorka, moguće je da sa drugačijim uzorkom multikolinearnost neće biti ili neće biti toliko ozbiljna. Ponekad, da bi se smanjila multikolinearnost, dovoljno je povećati veličinu uzorka. Na primjer, ako koristite godišnje podatke, možete promijeniti na kvartalne podatke. Povećanje količine podataka smanjuje varijanse koeficijenata regresije i time povećava njihov statistički značaj. Međutim, dobivanje novog uzorka ili proširenje starog nije uvijek moguće ili je povezano s ozbiljnim troškovima. Osim toga, ovaj pristup može poboljšati autokorelaciju. Ovi problemi ograničavaju primenljivost ove metode.
Promjena specifikacije modela
U nekim slučajevima, problem multikolinearnosti se može riješiti promjenom specifikacije modela: ili se mijenja oblik modela, ili se dodaju objašnjavajuće varijable koje nisu uzete u obzir u originalnom modelu, ali značajno utiču na zavisnu varijablu. . Ako je ova metoda opravdana, tada se njenom upotrebom smanjuje zbir kvadrata odstupanja, čime se smanjuje standardna greška regresije. Ovo dovodi do smanjenja standardnih grešaka koeficijenata.
Koristeći preliminarne informacije o nekim parametrima
Ponekad, kada gradite model višestruke regresije, možete koristiti preliminarne informacije, posebno poznate vrijednosti nekih koeficijenata regresije.
Vjerovatno je da se vrijednosti koeficijenata izračunate za neke preliminarne (obično jednostavnije) modele ili za sličan model na osnovu prethodno dobijenog uzorka mogu koristiti za model koji se trenutno razvija.
Izbor najznačajnijih eksplanatornih varijabli. Postupak serijskog povezivanja elemenata
Prelazak na manje varijabli koje objašnjavaju može smanjiti dupliciranje informacija koje isporučuju visoko međuzavisne karakteristike. Upravo to je ono sa čim se suočavamo u slučaju multikolinearnosti eksplanatornih varijabli.
Neka

Višestruki koeficijent
korelacije između zavisne varijable Y i skupa eksplanatornih varijabli X 1,X 2,...,Xm. Definira se kao uobičajeni koeficijent parne korelacije između Y i linearne funkcije
regresija Y = b0 + KX1 + b2X2+... + bmXm. Neka & = R-1 - matrica inverzna matrici R:


Tada se kvadrat koeficijenta Ry.X = Rr(xi,x2,..,x) može izračunati po formuli:


Ispravljena radi nepristrasnosti, procjena R*2.X koeficijenta determinacije R2y.X ima oblik:

(Ako formula (6.7) daje negativan broj, onda pretpostavljamo


Donja granica povjerenja za

odlučan
prema formuli:

U praksi, kada se odlučuje koje eksplanatorne varijable treba uključiti u model, često se koristi postupak sukcesivnog spajanja elemenata.
(j = 1, 2,..., m) . Gde

poklapa se sa kvadratom uobičajenog
koeficijent parne korelacije

Neka


tada će varijabla xp biti najinformativnija. Zatim se izračunava nepristrasno ispravljen koeficijent
(za m = 1) i njegovu donju granicu pouzdanosti R2min (1) .


par jxp,xq će biti informativniji). Zatim se izračunava koeficijent ispravljen za nepristrasnost (za m = 2)
i njegova donja granica pouzdanosti R2min (2) .

Postupak se nastavlja sve dok se na koraku (do +1) ne zadovolji sljedeći uvjet:
Tada su najinformativnije varijable dobijene na prvih k koraka uključene u model. Imajte na umu da se u proračunima koriste formule (6.7) i (6.8), u kojima umjesto m uzimamo odgovarajuću vrijednost koraka k.
Zapravo, ova metoda ne garantuje da ćemo se riješiti multikolinearnosti.
Koriste se i druge metode za eliminaciju multikolinearnosti.
Primjer 6.1. Dostupni su sljedeći uvjetni podaci (tabela 6.1):
Tabela 6.1
Podaci za serijski način povezivanja


X1

x2

X3

At

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Razmotrite efekte na zavisnu varijablu svake od eksplanatornih varijabli posebno. Izračunavanjem koeficijenata parne korelacije dobijamo da koeficijent ima najveću vrijednost

onda:


Razmotrimo uticaj parova varijabli (x1, x2) i (x1, x3) na zavisnu varijablu. Prvo, razmotrite uticaj para varijabli (x1, x2).



icuvum uvjpcuuivi, ykhsdul rsymsldsítsshím msíida ííi^ísdísíí̈slpi-
Prilikom pristupanja varijabli, u jednačinu treba uključiti dvije varijable koje objašnjavaju. Prema tome, teorijska jednačina će imati oblik:
metodom češlja
Razmotrite „metod grebena“ („regresija grebena“) da eliminišete multikolinearnost. Metodu je predložio A. E. Hoerl 1962. godine i koristi se kada je matrica (xtX) blizu degeneracije. Neki mali broj (od 0,1 do 0,4) se dodaje dijagonalnim elementima matrice (xtX). U ovom slučaju se dobijaju pristrasne procjene parametara jednačine. Ali standardne greške takvih procjena u slučaju multikolinearnosti su niže od onih datih običnom metodom najmanjih kvadrata.
Primjer 6.2. Početni podaci prikazani su u tabeli 6. 2 Koeficijent korelacije eksplanatornih varijabli

šta
ukazuje na jaku multikolinearnost.
Tabela 6.2
Podaci za proučavanje multikolinearnosti metodom grebena


x1

x2

At

1

1,4

7

2

3,1

12


Tada dobijamo jednačinu y = 2,63 + 1,37x1 + 1,95x2. Dijagonalni elementi inverzne matrice će se značajno smanjiti i biće jednaki z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, što dovodi do smanjenja standardnih grešaka koeficijenata.
Sažetak
Među glavnim posljedicama do kojih multikolinearnost može dovesti su sljedeće:
  1. kada se testira glavna hipoteza o beznačajnosti koeficijenata višestruke regresije pomoću t-testa, u većini slučajeva je prihvaćena, međutim, sama jednačina regresije, kada se testira pomoću A-testa, pokazuje se značajnom, što ukazuje na precijenjena vrijednost koeficijenta višestruke korelacije;
  2. dobijene procjene koeficijenata jednačine višestruke regresije su uglavnom neopravdano visoke ili imaju netačne predznake;
  3. dodavanje ili isključivanje jednog ili dva zapažanja iz originalnih podataka ima snažan uticaj na procene koeficijenata modela;
  4. prisustvo multikolinearnosti u modelu višestruke regresije može ga učiniti neprikladnim za dalju upotrebu (na primjer, za izradu prognoza).
Pitanja za samoispitivanje
  1. Šta je multikolinearnost?
  2. Koji pokazatelji ukazuju na prisustvo multikolinearnosti?
  3. Koja je determinanta XTX matrice u slučaju savršene multikolinearnosti?
  4. Šta se može reći o značenju koeficijenata na eksplanatornim varijablama u slučaju multikolinearnosti?
  5. Koja se transformacija izvodi u metodi grebena, čemu to dovodi?
  6. Koji je redoslijed operacija u metodi sekvencijalnog povećanja broja eksplanatornih varijabli?
  7. Šta pokazuje koeficijent korelacije?
  8. Šta pokazuje koeficijent parcijalne korelacije?
0

Ministarstvo obrazovanja i nauke Ruske Federacije

Federalna državna budžetska obrazovna ustanova

više obrazovanje

DRŽAVNI TEHNIČKI UNIVERZITET TVER

Katedra za "Računovodstvo i finansije"

PROJEKAT KURSA
u disciplini "Ekonometrija"

“Istraživanje multikolinearnosti u ekonometrijskim modelima: isključivanje varijable(a) iz modela”

Rukovodilac posla:

cand. one. nauka, vanredni profesor

Konovalova

Izvršilac:

student grupe EK-1315 EPO

Tver, 2015

Uvod………………………………………………………………………………………...3

1.Analitički dio……………………………………………………………………………4

1.1. Generalizirani znaci multikolinearnosti u ekonometrijskim modelima…………………………………………………………………………………….4

1.2. Glavni načini eliminacije multikolinearnosti u ekonometrijskim modelima…………………………………………………………..7

2. Dio dizajna………………………………………………………………………………..11

2.1. Informaciono-metodološka podrška ekonometrijskom istraživanju……………………………………………………………………….11

2.2. Primjer ekonometrijske studije……………………………….17

Zaključak …………………………………………………………………………………..30

Spisak korištenih izvora…………………………………………………………31

Uvod

Relevantnost teme rada „Istraživanje multikolinearnosti u ekonometrijskim modelima: isključenje varijable(a) iz modela“ proizilazi iz činjenice da se u naše vrijeme ovaj problem često susreće u primijenjenim ekonometrijskim modelima.

Predmet istraživanja je problem multikolinearnosti. Predmet istraživanja su ekonometrijski modeli.

Osnovni cilj rada je razvoj projektnih rješenja informaciono-metodološke podrške ekonometrijskih istraživanja.

Za postizanje cilja postavljeni su i riješeni sljedeći glavni zadaci studije:

  1. Generalizacija znakova multikolinearnosti u ekonometrijskim modelima.
  2. Identifikacija glavnih načina za eliminaciju multikolinearnosti.

3. Razvoj informacione i metodološke podrške ekonometrijskom istraživanju.

  1. Analitički dio

1.1. Generalizirani znaci multikolinearnosti u ekonometrijskim modelima

Multikolinearnost – u ekonometriji (regresiona analiza) – prisustvo linearne veze između eksplanatornih varijabli (faktora) regresionog modela. Istovremeno razlikuju puna kolinearnost, što znači prisustvo funkcionalne (identične) linearne zavisnosti, i djelomično ili jednostavno multikolinearnost— prisustvo jake korelacije između faktora.

Potpuna kolinearnost dovodi do neizvjesnost parametri u modelu linearne regresije, bez obzira na metode procjene. Razmotrite ovo koristeći sljedeći linearni model kao primjer:

Neka su faktori ovog modela identično povezani na sljedeći način: . Zatim razmotrite originalni linearni model, u kojem dodajemo prvi koeficijent proizvoljno broj a, i oduzmite isti broj od druga dva koeficijenta. Tada imamo (bez slučajne greške):

Dakle, uprkos relativno proizvoljnoj promeni koeficijenata modela, dobija se isti model. Takav model se u osnovi ne može identificirati. Nesigurnost već postoji u samom modelu. Ako uzmemo u obzir trodimenzionalni prostor koeficijenata, onda u ovom prostoru vektor pravih koeficijenata u ovom slučaju nije jedini, već je cijela prava linija. Bilo koja tačka na ovoj pravoj je pravi vektor koeficijenata.

Ako potpuna kolinearnost dovodi do nesigurnosti u vrijednostima parametara, onda djelomična multikolinearnost dovodi do njihove nestabilnosti. ocjene. Nestabilnost se izražava povećanjem statističke nesigurnosti – varijanse procjena. To znači da specifični rezultati evaluacije mogu značajno varirati od uzorka do uzorka iako su uzorci homogeni.

Kao što je poznato, matrica kovarijanse procjena parametara višestruke regresije metodom najmanjih kvadrata jednaka je. Dakle, što je “manja” matrica kovarijanse (njena determinanta), to je “veća” matrica kovarijanse procjena parametara, a posebno su veći dijagonalni elementi ove matrice, odnosno varijansa procjena parametara. Radi veće jasnoće, razmotrite primjer dvofaktorskog modela:

Tada je varijansa procjene parametra, na primjer, s prvim faktorom:

gdje je koeficijent korelacije uzorka između faktora.

Ovdje se jasno vidi da što je veća apsolutna vrijednost korelacije između faktora, to je veća disperzija procjena parametara. Na (potpuna kolinearnost), disperzija teži beskonačnosti, što odgovara onome što je ranije rečeno.

Stoga su procjene parametara netačne, što znači da će biti teško protumačiti uticaj određenih faktora na varijablu koja se objašnjava. Istovremeno, multikolinearnost ne utiče na kvalitet modela u celini – može se prepoznati kao statistički značajna, čak i kada sve koeficijenti su beznačajni (ovo je jedan od znakova multikolinearnosti).

U linearnim modelima, koeficijenti korelacije između parametara mogu biti pozitivni ili negativni. U prvom slučaju, povećanje jednog parametra je praćeno povećanjem drugog parametra. U drugom slučaju, kada se jedan parametar povećava, drugi se smanjuje.

Polazeći od toga, moguće je utvrditi dopuštenu i nedopustivu multikolinearnost. Nedopustiva multikolinearnost će biti kada postoji značajna pozitivna korelacija između faktora 1 i 2, a istovremeno je uticaj svakog faktora na korelaciju sa funkcijom y jednosmjeran, odnosno povećanje oba faktora 1 i 2 vodi na povećanje ili smanjenje funkcije y. Drugim riječima, oba faktora djeluju na y funkciju na isti način, a značajna pozitivna korelacija između njih može omogućiti da se jedan od njih isključi.

Dozvoljena multikolinearnost je takva da faktori različito djeluju na funkciju y. Ovdje postoje dva moguća slučaja:

a) sa značajnom pozitivnom korelacijom između faktora, uticaj svakog faktora na korelaciju sa funkcijom y je višesmjeran, tj. povećanje jednog faktora dovodi do povećanja funkcije, a povećanje drugog faktora dovodi do smanjenja funkcije y.

b) uz značajnu negativnu korelaciju između faktora, povećanje jednog faktora je praćeno smanjenjem drugog faktora, što čini faktore različitim, pa je moguć svaki znak uticaja faktora na funkciju y.

U praksi se razlikuju neki od najkarakterističnijih znakova multikolinearnosti: 1. Mala promjena u početnim podacima (na primjer, dodavanje novih zapažanja) dovodi do značajne promjene u procjenama koeficijenata modela. 2. Procjene imaju velike standardne greške, malu značajnost, dok je model u cjelini značajan (visoka vrijednost koeficijenta determinacije R 2 i odgovarajuća F-statistika). 3. Procjene koeficijenata imaju netačne predznake sa stanovišta teorije ili nerazumno velike vrijednosti.

Indirektni znaci multikolinearnosti su visoke standardne greške procjena parametara modela, mala t-statistika (tj. beznačajnost koeficijenata), netačni znaci procjena, uprkos činjenici da je model u cjelini prepoznat kao statistički značajan (velika vrijednost F -statistika). Multikolinearnost se takođe može označiti snažnom promjenom u procjenama parametara dodavanjem (ili uklanjanjem) podataka uzorka (ako su ispunjeni zahtjevi za dovoljnu homogenost uzorka).

Da bi se otkrila multikolinearnost faktora, može se direktno analizirati korelaciona matrica faktora. Već prisustvo velikih modulo (iznad 0,7-0,8) vrijednosti koeficijenata korelacije para ukazuje na moguće probleme sa kvalitetom dobijenih procjena.

Međutim, analiza koeficijenata parne korelacije je nedovoljna. Potrebno je analizirati koeficijente determinacije regresija faktora na preostale faktore (). Preporučljivo je izračunati indikator. Previsoke vrijednosti potonjeg znače prisustvo multikolinearnosti.

Dakle, glavni kriteriji za otkrivanje multikolinearnosti su sljedeći: visok R 2 za sve beznačajne koeficijente, visoki koeficijenti parne korelacije, visoke vrijednosti VIF koeficijenta.

1.2. Glavni načini eliminacije multikolinearnosti u ekonometrijskim modelima

Prije nego što ukažemo na glavne metode za eliminaciju multikolinearnosti, napominjemo da u nekim slučajevima multikolinearnost nije ozbiljan problem koji zahtijeva značajne napore da se ista identifikuje i otkloni. U osnovi, sve ovisi o svrsi studije.

Ako je glavni zadatak modela predviđanje budućih vrijednosti regresanda, onda s dovoljno velikim koeficijentom determinacije R2 (> 0,9), prisustvo multikolinearnosti obično ne utječe na prediktivne kvalitete modela. Iako će ova izjava biti opravdana samo u slučaju da se i ubuduće održavaju isti odnosi između koreliranih regresora kao i do sada. Ako je cilj studije da se utvrdi stepen uticaja svakog od regresora na regresand, tada će prisustvo multikolinearnosti, što dovodi do povećanja standardnih grešaka, verovatno iskriviti prave odnose između regresora. U ovoj situaciji, multikolinearnost je veliki problem.

Imajte na umu da ne postoji jedinstvena metoda za eliminaciju multikolinearnosti koja je prikladna u svakom slučaju. To je zato što su uzroci i posljedice multikolinearnosti dvosmisleni i u velikoj mjeri zavise od ishoda uzorkovanja.

U praksi se razlikuju glavne metode za eliminaciju multikolinearnosti:

  1. Isključivanje regresora iz modela Najjednostavniji metod za eliminaciju multikolinearnosti je isključivanje jednog ili skupa koreliranih regresora iz modela. Međutim, potreban je određeni oprez prilikom primjene ove metode. U ovoj situaciji moguće su greške u specifikacijama. Na primjer, kada se proučava potražnja za određenim dobrima, cijena tog dobra i cijene zamjena za ovo dobro, koje često koreliraju jedna s drugom, mogu se koristiti kao varijable za objašnjenje. Ako isključimo zamjenske cijene iz modela, veća je vjerovatnoća da ćemo napraviti grešku u specifikaciji. Kao rezultat, mogu se dobiti pristrasne procjene i izvući nerazumni zaključci. Stoga je u primijenjenim ekonometrijskim modelima poželjno ne eliminirati regresore sve dok njihova kolinearnost ne postane ozbiljan problem.
  2. Dobijanje dodatnih podataka ili novog uzorka Pošto multikolinearnost direktno zavisi od uzorka, moguće je da kod drugog uzorka uopšte neće biti multikolinearnosti ili neće biti toliko ozbiljna. Ponekad, da bi se smanjila multikolinearnost, dovoljno je povećati veličinu uzorka. Na primjer, ako koristite godišnje podatke, možete promijeniti na kvartalne podatke. Povećanje količine podataka smanjuje varijanse koeficijenata regresije i time povećava njihov statistički značaj. Međutim, dobivanje novog uzorka ili proširenje starog nije uvijek moguće ili je povezano s ozbiljnim troškovima. Osim toga, ovaj pristup može poboljšati autokorelaciju. Ovi problemi ograničavaju primenljivost ove metode.

III. Promjena specifikacije modela U nekim slučajevima, problem multikolinearnosti se može riješiti promjenom specifikacije modela: ili se mijenja oblik modela, ili se dodaju novi regresori koji nisu uzeti u obzir u originalnom modelu, ali značajno utiču na zavisnu varijablu. Ako je ova metoda opravdana, tada se njenom upotrebom smanjuje zbir kvadrata odstupanja, čime se smanjuje standardna greška regresije. Ovo dovodi do smanjenja standardnih grešaka koeficijenata.

  1. Transformacijom varijabli u velikom broju slučajeva moguće je minimizirati ili potpuno eliminirati problem multikolinearnosti samo uz pomoć transformacije varijabli. Ulazni podaci u svakoj opservaciji podijeljeni su vrijednostima jednog od zavisnih regresora u toj opservaciji. Primjena metode glavnih komponenti na faktore modela omogućava transformaciju početnih faktora i dobijanje skupa ortogonalnih (nekoreliranih) faktora. Istovremeno, prisustvo multikolinearnosti će nam omogućiti da se ograničimo na mali broj glavnih komponenti. Međutim, može postojati problem smislenog tumačenja glavnih komponenti.

Ako po svemu sudeći postoji multikolinearnost, onda među ekonometričarima postoje različita mišljenja o ovom pitanju. Kada se suočimo s problemom multikolinearnosti, može se prirodno poželjeti odbaciti "dodatne" nezavisne varijable koje ga mogu uzrokovati. Međutim, treba imati na umu da u ovom slučaju mogu nastati nove poteškoće. Prvo, daleko od toga da je uvijek jasno koje su varijable suvišne u navedenom smislu.

Multikolinearnost znači samo približan linearni odnos između faktora, ali to ne ističe uvijek "dodatne" varijable. Drugo, u mnogim situacijama, uklanjanje bilo koje nezavisne varijable može značajno uticati na smisleno značenje modela. Konačno, odbacivanje tzv. esencijalnih varijabli, tj. nezavisne varijable koje stvarno utiču na zavisnu varijablu koja se proučava dovodi do pristrasnosti u koeficijentima modela. U praksi, obično kada se otkrije multikolinearnost, najmanje značajan faktor za analizu se uklanja, a zatim se proračuni ponavljaju.

Dakle, u praksi se razlikuju glavne metode za eliminaciju multikolinearnosti: promjena ili povećanje uzorka, isključivanje jedne od varijabli, transformacija multikolinearnih varijabli (koristite nelinearne forme, koristite agregate (linearne kombinacije više varijabli), umjesto toga koristite prve razlike Međutim, ako multikolinearnost nije eliminisana, možete je zanemariti, uzimajući u obzir svrsishodnost izuzetka.

  1. Dizajnerski dio

2.1. Informaciono-metodološka podrška ekonometrijskom istraživanju

Informaciona podrška ekonometrijskom istraživanju uključuje sljedeće informacije:

Unesite informacije:

  • statistički podaci o socio-ekonomskom pokazatelju, definisanom kao zavisna varijabla (faktori - rezultati);
  • statistički podaci o socio-ekonomskim pokazateljima, definisani kao eksplanatorne varijable (faktori - znaci);

Međuinformacije:

  • model regresione jednadžbe, procijenjena jednačina regresije, indikatori kvaliteta i zaključak o kvalitetu regresione jednačine, zaključak o prisustvu (odsustvu) problema multikolinearnosti, preporuke za korištenje modela;

Efikasne informacije:

  • procijenjena jednačina regresije, zaključak o kvalitetu regresione jednačine, zaključak o prisustvu (odsustvu) problema multikolinearnosti, preporuke za korištenje modela.

Metodologija ekonometrijskog istraživanja je sljedeća: specifikacija; parametrizacija, verifikacija, dodatna istraživanja, predviđanje.

1. Specifikacija modela regresione jednačine uključuje grafičku analizu korelacijske zavisnosti zavisne varijable za svaku eksplanatornu varijablu. Na osnovu rezultata grafičke analize donosi se zaključak o modelu regresione jednadžbe linearnog ili nelinearnog tipa. Za grafičku analizu najčešće se preporučuje korištenje alata MsExcel Scatter Plot. Kao rezultat ove faze utvrđuje se model jednadžbe regresije, a u slučaju nelinearne forme određuju se i metode njene linearizacije.

2. Parametarizacija jednadžbe regresije uključuje evaluaciju regresijskih parametara i njihovu socio-ekonomsku interpretaciju. Za parametrizaciju, alat "Regresija" se koristi kao dio MsExcel dodataka "Analiza podataka". Na osnovu rezultata automatizovane regresione analize (kolona „Koeficijenti“) određuju se regresijski parametri, a njihova interpretacija je takođe data po standardnom pravilu:

Bj predstavlja iznos za koji se vrijednost varijable Y mijenja u prosjeku kada se nezavisna varijabla Xj poveća za jedan, pod uslovom da su sve ostale jednake.

Slobodni član regresione jednadžbe jednak je predviđenoj vrijednosti zavisne varijable Y u slučaju kada su sve nezavisne varijable jednake nuli.

3. Provjera jednačine regresije vrši se na osnovu rezultata automatske regresione analize (faza 2) za sljedeće indikatore: "R-kvadrat", "Značaj F", "P-vrijednost" (za svaki parametar regresije ), kao i prema grafovima uklapanja i reziduala .

Utvrđuje se značajnost koeficijenata i ocjenjuje se kvalitet modela. Za ovo se uzimaju u obzir “F značaj”, “P-vrijednost” i “R-kvadrat”. Ako je “P-vrijednost” manja od jednadžbe statičke značajnosti, onda to ukazuje na značajnost koeficijenta. Ako je “R-kvadrat” veći od 0,6, to znači da regresijski model dobro opisuje ponašanje zavisne varijable Y na faktore varijabli.

Ako je “Značaj F” manji od jednačine statičke značajnosti, tada se koeficijent determinacije (R-kvadrat) priznaje kao uslovno statistički značajan.

Grafikon reziduala vam omogućava da procenite varijacije u greškama. Ako nema značajnih razlika između grešaka koje odgovaraju različitim vrijednostima Xi, odnosno varijacije greške za različite vrijednosti Xi su približno iste i može se pretpostaviti da nema problema. Dijagram uklapanja vam omogućava da formirate sudove o osnovnim, predviđenim i faktorskim vrijednostima.

U zaključku, donosi se sud o kvalitetu jednadžbe regresije.

  1. Dodatna istraživanja.

4.1 Otkriće prvog znaka multikolinearnosti. Na osnovu rezultata regresione analize dobijenih u paragrafima 2-3, provjeravaju se situacije u kojima koeficijent determinacije ima visoku vrijednost (R 2 > 0,7) i statički je značajan (Značajnost F<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05).Kada se otkrije takva situacija, donosi se zaključak o pretpostavci multikolinearnosti.

4.2 Detekcija drugog znaka multikolinearnosti. Na osnovu izračunavanja koeficijenata korelacije između faktorskih varijabli utvrđuje se značajna povezanost pojedinih faktora. Za proračune u MS Excel-u preporučljivo je koristiti alat „Analiza podataka / korelacija“. Prema vrijednostima koeficijenta korelacije izvode se zaključci: što je bliže (r) ekstremnim tačkama (±1), to je veći stepen linearne veze, ako je koeficijent korelacije manji od 0,5, onda se smatra da je veza slaba. Prisustvo multikolinearnosti se pretpostavlja u sljedećem slučaju, ako postoji značajan koeficijent korelacije između najmanje dvije varijable (tj. više od 0,7 u apsolutnoj vrijednosti).

4.3 Detekcija trećeg znaka multikolinearnosti. Na osnovu procjene pomoćnih regresija između faktorskih varijabli, te između varijabli kod kojih postoji značajan koeficijent korelacije (odjeljak 4.2), donosi se zaključak o prisutnosti multikolinearnosti, ako je barem jedna pomoćna regresija značajna i značajna. Metoda dodatnih regresija koeficijenta determinacije je sledeća: 1) konstruišu se regresione jednačine koje povezuju svaki od regresora sa svim preostalim; 2) za svaku regresionu jednačinu izračunavaju se koeficijenti determinacije R 2; 3) ako se jednačina i koeficijent determinacije prepoznaju kao statistički značajni, onda ovaj regresor dovodi do multikolinearnosti.

4.4 Generalizacija presuda.

Na osnovu paragrafa 4.1-4.3, formira se sud o prisustvu/odsustvu multikolinearnosti i regresora koji dovode do multikolinearnosti.

Zatim se formiraju smjernice za korištenje modela (u slučaju ignorisanja ili odsustva problema multikolinearnosti) ili preporuke za otklanjanje multikolinearnosti (u praksi eliminacija varijable).

Prilikom izuzimanja varijable, preporučljivo je koristiti pravilo:

Koeficijent determinacije je određen za jednadžbu regresije inicijalno konstruisanu iz n opservacija (R 2 1);

Isključujući iz razmatranja (k) posljednje varijable, formira se jednačina za preostale faktore prema početnim n opservacijama i za nju se određuje koeficijent determinacije (R 2 2);

F-statistika se izračunava: gdje je (R 1 2 -R 2 2) gubitak jednadžbe kao rezultat spuštanja na varijable, (K) je broj dodatno nastalih stupnjeva slobode, (1- R 1 2 ) / (nml) je neobjašnjiva varijansa početnih jednačina;

Kritična vrijednost F a ,k ,n- m -1 određena je prema tabelama kritičnih tačaka Fisherove distribucije na datom nivou značajnosti a i stepenima slobode v 1 =k, v 2 =n-m-l;

O svrsishodnosti isključenja se formiraju sudovi po pravilu: isključenje (istovremeno) iz jednačine k varijabli smatra se neprikladnim za F > F a , k , n- m - 1, inače je takvo isključenje dozvoljeno.

Kada se varijabla eliminiše, rezultirajući model se analizira prema paragrafima 3-4; i u poređenju sa originalnim modelom, kao rezultat, odabran je „najbolji“. U praksi, pošto multikolinearnost ne utiče na prediktivne performanse modela, ovaj problem se može zanemariti.

5. Predviđanje se vrši prema početnom / „najboljem“ modelu odabranom u paragrafu 4.4, prema šemi retrospektivnog predviđanja, u kojoj se za prognozu koristi posljednja 1/3 opservacija.

5.1. Tačka prognoza. Stvarne vrijednosti faktorskih varijabli u periodu prognoze smatraju se predviđenim, a predviđene vrijednosti rezultirajuće varijable se određuju kako je predviđeno originalnim / „najboljim“ modelom na osnovu faktorskih varijabli u periodu prognoze. Uz pomoć Microsoft Excel alata „Graf“, na osnovu zapažanja iscrtava se grafikon stvarnih i predviđenih vrijednosti rezultirajuće varijable i zaključuje se o bliskosti stvarnih vrijednosti sa predviđenim.

5.2. Intervalno predviđanje uključuje izračunavanje standardnih grešaka predviđanja (koristeći Salkeverove lažne varijable) i gornje i donje granice vrijednosti prognoze.

Koristeći Microsoft Excel alat "Analiza podataka/Regresija", regresija je napravljena za ukupan skup podataka uzorka i period predviđanja, ali uz dodatak lažnih varijabli D 1 , D 2 , ..., D p . U ovom slučaju, D i = 1 samo za trenutak posmatranja (n + i), za sve ostale momente D i =0. Tada je koeficijent lažne varijable D i jednak grešci predviđanja u trenutku (n + i), a standardna greška koeficijenta je jednaka standardnoj grešci predviđanja (S i). Tako se vrši automatska regresiona analiza modela, pri čemu se kao X vrijednosti koriste agregatne (uzorak i prediktivne) vrijednosti faktorskih varijabli i vrijednosti Salkeverovih lažnih varijabli, a agregat (uzorak i prediktivne) vrijednosti rezultirajuće varijable se koriste kao Y vrijednosti.

Rezultirajuće standardne greške koeficijenata za Salkeverove lažne varijable jednake su standardnim greškama predviđanja. Zatim se granice intervalne prognoze izračunavaju prema sljedećim formulama: Ymin n + i = Yemp n + i -S i *t cr, Ymax n + i = Yemp n + i +S i *t cr, gdje je t cr je kritična vrijednost Studentove distribucije, određena formulom “=STYURASV(0,05; nm-1)”, m je broj faktora objašnjenja u modelu (Y * t), Yemp n + i su prediktivne vrijednosti rezultirajuće varijable (klauzula 5.1).

Uz pomoć Microsoft Excel alata "Graf", graf se gradi prema stvarnim i predviđenim vrijednostima rezultirajuće varijable, gornje i donje granice prognoze promatranjem. Zaključuje se da se stvarne vrijednosti rezultirajuće varijable uklapaju u granice intervalne prognoze.

5.3. Procjena stabilnosti modela korištenjem CHS testa provodi se na sljedeći način:

a) pomoću Microsoft Excel alata "Analiza podataka/Regresija" pravi se regresija, gdje se vrijednosti X uzimaju kao ukupne (uzorkove i predviđene) vrijednosti faktorskih varijabli, a Y vrijednosti su zbirne (uzorak i predviđene) vrijednosti rezultirajuće varijable. Ova regresija određuje zbir kvadrata reziduala S;

b) regresijom tačke 5.2 sa lažnim Salkeverovim varijablama, određuje se zbir reziduala Sd na kvadrat;

c) vrijednost F statistike se izračunava i procjenjuje prema formuli:

gdje je p broj prediktivnih koraka. Ako je dobijena vrijednost veća od kritične vrijednosti Fcr, određene formulom "=FINV(0,05; p; n-m-1)", tada se hipoteza stabilnosti modela u prognoziranom periodu odbacuje, u suprotnom se prihvata.

5.4 Generalizacija sudova o prediktivnim kvalitetima modela na osnovu klauzula 5.1-5.3, kao rezultat toga, formira se zaključak o prediktivnom kvalitetu modela i preporuke za korištenje modela za predviđanje.

Dakle, razvijena informatička i metodološka podrška odgovara glavnim zadacima ekonometrijske studije problema multikolinearnosti u višestrukim regresijskim modelima.

2.2. Primjer ekonometrijske studije

Studija je zasnovana na podacima koji odražavaju realne makroekonomske pokazatelje Ruske Federacije za period 2003-2011. (Tabela 1), prema metodi iz p.2.1.

Tabela 1

Kućni troškovi. domaćinstva (milijarde rubalja)[Y]

Stanovništvo (milioni ljudi)

Ponuda novca (milijarde rubalja)

Stopa nezaposlenosti (%)

1.Specifikacija Model regresijske jednadžbe uključuje grafičku analizu korelacione zavisnosti zavisne varijable Y (Izdaci domaćinstva na eksplanatornu varijablu X 1 (Stanovništvo) (Sl. 1), korelacione zavisnosti zavisne varijable Y (Izdaci domaćinstva na eksplanatornu varijablu). X 2 (Ponuda novca) (Sl. 2), korelaciona zavisnost zavisne varijable Y (Izdaci domaćinstva od eksplanatorne varijable X 3 (Stopa nezaposlenosti) (Sl. 3).

Grafikon korelacione zavisnosti između Y i X 1 prikazan na slici 1 odražava značajnu (R 2 =0,71) inverznu linearnu zavisnost Y od X 1 .

Grafikon korelacije između Y i X 2 prikazan na slici 2 odražava značajnu (R 2 =0,98) direktnu linearnu zavisnost Y od X 2 .

Grafikon korelacije između Y i X 3 prikazan na slici 3 odražava beznačajnu (R 2 =0,15) inverznu linearnu zavisnost Y od X 3 .

Slika 1

Slika 2

Slika 3

Kao rezultat, može se specificirati model linearne višestruke regresije Y=b 0 +b 1 X 1 +b 2 X 2 + b 3 X 3 .

2. Parameterizacija jednačina regresije se izvodi pomoću alata "Regresija" kao dio MsExcel dodataka "Analiza podataka" (slika 4).

Slika 4

Procijenjena jednačina regresije je:

233983.8- 1605.6X 1 + 1.0X 2 + 396.22X 3.

Istovremeno, koeficijenti regresije se tumače na sljedeći način: s povećanjem stanovništva za 1 milion ljudi, troškovi kuće. farme se smanjuju za 1.605,6 milijardi rubalja; uz povećanje ponude novca za 1 milijardu rubalja. kućni troškovi. farme će se povećati za 1,0 milijardi rubalja; kada se stopa nezaposlenosti poveća za 1%, troškovi kuće. farme će se povećati za 396,2 milijarde rubalja. Pri nultim vrijednostima faktorskih varijabli kućni troškovi. farmi će iznositi 233.983,8 milijardi rubalja, što, možda, nema ekonomsku interpretaciju.

3. Verifikacija jednačina regresije se izvodi na osnovu rezultata automatske regresione analize (faza 2).

Dakle, "R-kvadrat" je jednak 0,998, tj. jednačina regresije opisuje ponašanje zavisne varijable za 99%, što ukazuje na visok nivo opisa jednačine. "F značaj" je 2,14774253442155E-07, što znači da je "R-kvadrat" značajan. "P-vrijednost" za b 0 je 0,002, što ukazuje da je ovaj parametar značajan. "P-vrijednost" za b 1 je 0,002, što ukazuje da je ovaj koeficijent značajan. "P-vrijednost" za b 2 je 8,29103190343224E-07, što ukazuje da je ovaj koeficijent značajan. "P-vrijednost" za b 3 je 0,084, što ukazuje da ovaj koeficijent nije značajan.

Na osnovu dijagrama reziduala, reziduali e su slučajne varijable.

Na osnovu grafova odabira donosi se zaključak o bliskosti stvarnih i predviđenih vrijednosti za model.

Dakle, model ima dobar kvalitet, dok b 3 nije značajan, pa se može pretpostaviti prisustvo multikolinearnosti.

4. Dodatna istraživanja.

4.1. Detekcija prvog znaka multikolinearnosti. Prema regresionoj analizi (slika 5) možemo reći da postoji prvi znak multikolinearnosti, budući da je otkriven visok i značajan R 2, utvrđeno je da jednačina ima visok koeficijent determinacije, a jedan od koeficijenata nije značajno. Ovo ukazuje na prisustvo multikolinearnosti.

4.2 Detekcija drugog znaka multikolinearnosti.

Na osnovu izračunavanja koeficijenata korelacije između faktorskih varijabli utvrđuje se značajna povezanost pojedinih faktora. (Tabela 2). Prisustvo multikolinearnosti se pretpostavlja u sljedećem slučaju, ako postoji značajan koeficijent korelacije između najmanje dvije varijable (tj. više od 0,5 u apsolutnoj vrijednosti).

tabela 2

[ x2]

[ X3]

[ x2]

[ X3]

U našem slučaju postoji koeficijent korelacije između X 1 i X 2 (-0,788), što ukazuje na jaku vezu između varijabli X 1, X 2, postoji i koeficijent korelacije između X 1 i X 3 (0,54), što ukazuje na jaku zavisnost između varijabli X 1, X 3.

Kao rezultat, možemo pretpostaviti prisustvo multikolinearnosti.

4.3 Detekcija trećeg znaka multikolinearnosti.

Budući da je jaka veza između varijabli X 1 i X 2 pronađena u paragrafu 4.2, dodatno se analizira pomoćna regresija između ovih varijabli (slika 5).

Slika 5

Budući da je "Značajnost F" 0,01, što znači da su "R-kvadrat" i pomoćna regresija značajne, može se pretpostaviti da X 2 regresor dovodi do multikolinearnosti.

Budući da je u paragrafu 4.2 korelacija između varijabli X 1 i X 3 pronađena iznad prosječnog nivoa, pomoćna regresija između ovih varijabli se dalje analizira (slika 6).

Slika 6

Budući da je "značajnost F" 0,13, što znači da "R-kvadrat" i pomoćna regresija nisu značajni, može se pretpostaviti da X 3 regresor ne dovodi do multikolinearnosti.

Dakle, prema trećem znaku možemo pretpostaviti prisustvo multikolinearnosti.

4.4 Generalizacija presuda.

Prema analizi paragrafa 4.1-4.3, pronađena su sva tri znaka multikolinearnosti, tako da se može pretpostaviti sa velikom vjerovatnoćom. U isto vrijeme, uprkos pretpostavci u Odjeljku 4.3 u vezi sa regresorom koji vodi do multikolinearnosti, možemo preporučiti isključenje X 3 iz originalnog modela, jer X 3 ima najmanji koeficijent korelacije sa Y i koeficijent u ovom regresoru je beznačajan u originalnoj jednačini. Rezultati regresione analize nakon isključenja X 3 prikazani su na sl. 7.

Slika 7

Istovremeno izračunavamo F - statistiku kako bismo provjerili svrsishodnost isključenja:

F činjenica = 4,62,

i F tabela = F 0,05; 1; 5 = 6,61, pošto je F činjenica< F табл, то исключение допустимо для переменной X 3 .

Procjena kvaliteta linearnog modela višestruke regresije Y=b 0 +b 1 X 1 +b 2 X 2 . "R-kvadrat" je jednak 0,996, tj. jednačina regresije opisuje ponašanje zavisne varijable za 99%, što ukazuje na visok nivo opisa jednačine. "F značaj" je 3,02415218982089E-08, što znači da je "R-kvadrat" značajan. "P-vrijednost" za b 0 je 0,004, što ukazuje da je ovaj parametar značajan. "P-vrijednost" za b 1 je 0,005, što ukazuje da je ovaj koeficijent značajan. "P-vrijednost" za b 2 je 3,87838361673427E-07, što ukazuje da je ovaj koeficijent značajan. Procijenjena jednačina regresije je:

201511.7 -1359.6X 1 + 1.01X 2

Istovremeno, koeficijenti regresije se tumače na sljedeći način: sa smanjenjem stanovništva za 1 milion ljudi, troškovi kuće. farme se smanjuju za 1359,6 milijardi rubalja; sa povećanjem nivoa ponude novca, kućna potrošnja. farme će se povećati za 1,0) (milijardu rubalja). Pri nultim vrijednostima faktorskih varijabli kućni troškovi. farme će iznositi 201511,7 milijardi rubalja, što može imati ekonomsku interpretaciju.

Dakle, model = 201511.7 -1359.6X 1 + 1.01X 2 je dobrog kvaliteta i preporučuje se za predviđanje kao „najbolji“ u poređenju sa originalnim modelom.

5. Predviđanje.

5.1 Tačka prognoza. Stvarne vrijednosti faktorskih varijabli u periodu prognoze smatraju se predviđenim, a prognozirane vrijednosti rezultirajuće varijable se određuju kako je predviđeno "najboljim" modelom (= 201511,7 -1359,6X 1 + 1,01X 2) na osnovu faktora varijable u periodu prognoze. Uz pomoć Microsoft Excel alata „Graf“, na osnovu zapažanja iscrtava se grafikon stvarnih i predviđenih vrijednosti rezultirajuće varijable i zaključuje se o bliskosti stvarnih vrijednosti sa predviđenim.

Prediktivne vrijednosti faktorskih varijabli prikazane su u tabeli 3.

Tabela 3

Predviđene vrijednosti rezultirajuće varijable određene su kako je predviđeno „najboljim“ modelom (= 201511,7 -1359,6X 1 + 1,01X 2) na osnovu faktorskih varijabli u prognoziranom periodu. Predviđene vrijednosti su prikazane u tabeli 4; stvarne vrijednosti su dodane radi poređenja.

Tabela 4

[Y] empirijski

Na slici 8 prikazane su stvarne i predviđene vrijednosti rezultirajuće varijable, kao i donja i gornja granica prognoze.

Slika 8

Prema slici 8, prognoza održava trend rasta, a sve prognozne vrijednosti su bliske stvarnim.

5.2. Intervalna prognoza.

Koristeći Microsoft Excel alat "Analiza podataka/Regresija", regresija je napravljena za ukupan skup podataka uzorka i period predviđanja, ali uz dodatak lažnih varijabli D 1 , D 2 , ..., D p . U ovom slučaju, D i = 1 samo za trenutak posmatranja (n + i), za sve ostale momente D i =0. Podaci su prikazani u tabeli 5, a rezultat regresije na slici 9.

Tabela 5

[Y]owls

Slika 9

Tada je standardna greška koeficijenta za lažnu varijablu jednaka standardnoj grešci predviđanja (S i): za 2012. biće 738,5; za 2013. biće 897,1; za 2014. biće 1139,4.

Granice intervalne prognoze izračunate su u tabeli 6.

Tabela 6

[Y] empirijski

[Y]owls

[S]pr

Prema tabeli. 6, koristeći Microsoft Excel alat "Graf", graf se gradi prema stvarnim i predviđenim vrijednostima rezultirajuće varijable, gornje i donje granice prognoze na osnovu zapažanja (slika 10).

Slika 10

Prema grafikonu, vrijednosti prognoze se uklapaju u granice intervalne prognoze, što ukazuje na dobar kvalitet prognoze.

5.3. Procjena stabilnosti modela korištenjem CHS testa provodi se na sljedeći način:

a) pomoću Microsoft Excel alata "Analiza podataka/Regresija" pravi se regresija (slika 11), gdje se vrijednosti X uzimaju kao ukupne (uzorkove i prediktivne) vrijednosti faktorskih varijabli, a Y vrijednosti su ukupne (uzorak i prognoza) varijabla rezultata. Na osnovu ove regresije, određen je zbir kvadrata reziduala S=2058232,333.

Slika 11

b) regresijom p.3.2 sa Salkeverovim lažnim varijablama (sl. 9), određen je zbir reziduala na kvadrat Sd=1270272,697.

c) vrijednost F statistike se izračunava i procjenjuje:

istovremeno, F cr = F 0,05;3;5 = 5,40, tada je dobijena vrijednost manja od kritične vrijednosti F cr i prihvata se hipoteza stabilnosti modela u prognoziranom periodu.

5.4 Generalizacija sudova o prediktivnim kvalitetima modela na osnovu klauzula 5.1-5.3, kao rezultat toga, dolazi do zaključka o visokom prediktivnom kvalitetu modela (= 201511.7 -1359.6X 1 + 1.01X 2) i daju se preporuke za korištenje modela za predviđanje.

Tehnika iz p.2.1 je uspješno testirana, omogućava identifikaciju glavnih znakova multikolinearnosti i može se preporučiti za takve studije.

Zaključak

Multikolinearnost – u ekonometriji (regresiona analiza) – prisustvo linearne veze između eksplanatornih varijabli (faktora) regresionog modela. Istovremeno, razlikuje se puna kolinearnost, što znači prisustvo funkcionalne (identične) linearne zavisnosti, i delimična ili jednostavno multikolinearnost - prisustvo jake korelacije između faktora.

Glavne posljedice multikolinearnosti su: velike varijanse procjena, smanjenje t-statistike koeficijenata, procjene koeficijenata po najmanjim kvadratima postaju nestabilne, poteškoće u određivanju doprinosa varijabli, dobijanje pogrešnog predznaka za koeficijent.

Glavni kriterijumi za otkrivanje multikolinearnosti su: visok R 2 sa beznačajnim koeficijentima; Visoki koeficijenti parne korelacije; visoke VIF vrijednosti.

Glavne metode za eliminaciju multikolinearnosti su: isključivanje varijable(e) iz modela; dobijanje dodatnih podataka ili novog uzorka; promjena specifikacije modela; korištenje preliminarnih informacija o nekim parametrima.

Razvijena informatička i metodološka podrška odgovara glavnim zadacima ekonometrijske studije problema multikolinearnosti u višestrukim regresijskim modelima i može se preporučiti za takva istraživanja.

Spisak korištenih izvora

  1. Astahov, S.N. Ekonometrija [Tekst]: Nastavni i metodički kompleks. Kazan, 2008. - 107 str.
  2. Bardasov, S. A. ECONOMETRICA [Tekst]: udžbenik. 2. izdanje, revidirano. i dodatne Tyumen: Tyumen State University Press, 2010. 264 str.
  3. Borodkina, L.I. Tok predavanja [Elektronski izvor]. Način pristupa - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskobojnikov, Yu.E. ECONOMETRICA u EXCEL-u, 1. deo [Tekst]: udžbenik, Novosibirsk 2005, 156 str.
  5. Eliseeva, I.I. Radionica o ekonometriji: udžbenik. dodatak za ekonom. univerziteti / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [i itd.] ; ed. I.I. Eliseeva - M.: Finansije i statistika, 2001. - 191 str. - (14126-1).
  6. Multicollinearity [Elektronski izvor]. Način pristupa - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikov, A.I. Ekonometrija [Tekst]: udžbenik. dodatak za npr. "Finansije i kredit", "Ekonomija" - M.: Dashkov i K, 2013. - 223 str. - (93895-1).
  8. Problem multikolinearnosti [Elektronski izvor]. Način pristupa - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf .
  9. Chernyak, V. Applied Econometrics. Predavanje br. 9 [Elektronski izvor]. Način pristupa http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - enciklopedijski sajt [Elektronski izvor]. Način pristupa - http://kodcupon.ru/ra17syplinoe97/Multicollinearity.

Skinuti: Nemate pristup preuzimanju datoteka sa našeg servera.

Federalna agencija za obrazovanje i nauku Ruske Federacije

Kostroma državni tehnološki univerzitet.

Odsjek za višu matematiku

o ekonometriji na temu:

Multikolinearnost

Izvedeno

Student 1. godine

dopisni fakultet

razred „Računovodstvo,

analiza i revizija”.

Provjereno

Katerzhina S.F.

Kostroma 2008


Multikolinearnost

Multikolinearnost se shvata kao visoka međusobna korelacija eksplanatornih varijabli. Multikolinearnost se može manifestirati u funkcionalnim (eksplicitnim) i stohastičkim (skrivenim) oblicima.

U funkcionalnom obliku multikolinearnosti, barem jedan od parnih odnosa između eksplanatornih varijabli je linearni funkcionalni odnos. U ovom slučaju, matrica X`X je posebna, jer sadrži linearno zavisne vektore stupaca, a njena determinanta je jednaka nuli, tj. narušena je premisa regresione analize, što dovodi do nemogućnosti rješavanja odgovarajućeg sistema normalnih jednačina i dobijanja procjena parametara regresionog modela.

Međutim, u ekonomskim istraživanjima, multikolinearnost se često manifestira u stohastičkom obliku, kada postoji bliska korelacija između najmanje dvije eksplanatorne varijable. Matrica X`X u ovom slučaju nije singularna, ali je njena determinanta vrlo mala.

Istovremeno, vektor rejtinga b i njegova matrica kovarijanse ∑ b proporcionalni su inverznoj matrici (X`X) -1, te su stoga njihovi elementi obrnuto proporcionalni vrijednosti determinante |X`X|. Kao rezultat, dobijaju se značajne standardne devijacije (standardne greške) koeficijenata regresije b 0 , b 1 ,…,bp i procena njihovog značaja po t-kriterijumu nema smisla, iako se generalno regresioni model može okrenuti. biti značajan prema F-kriterijumu.

Procjene postaju vrlo osjetljive na male promjene u opservacijskim podacima i veličini uzorka. Jednačine regresije u ovom slučaju, po pravilu, nemaju pravo značenje, jer neki njeni koeficijenti mogu imati pogrešne predznake sa stanovišta ekonomske teorije i nerazumno velike vrijednosti.

Ne postoje tačni kvantitativni kriterijumi za određivanje prisustva ili odsustva multikolinearnosti. Međutim, postoje neki heuristički pristupi da se to identificira.

Jedan takav pristup je analiza matrice korelacije između eksplanatornih varijabli X 1 ,X 2 ,…,X p i identifikacija parova varijabli koje imaju visoke varijable korelacije (obično veće od 0,8). Ako takve varijable postoje, govori se o multikolinearnosti između njih. Takođe je korisno pronaći više koeficijenata determinacije između jedne od eksplanatornih varijabli i neke od njih. Prisustvo visokog višestrukog koeficijenta determinacije (obično većeg od 0,6) ukazuje na multikolinearnost.

Drugi pristup je proučavanje X`X matrice. Ako su determinanta matrice X`X ili njena minimalna svojstvena vrijednost λ min blizu nule (na primjer, istog reda sa kumulativnim greškama u proračunu), onda to ukazuje na prisustvo multikolinearnosti. isto se može dokazati značajnim odstupanjem maksimalne svojstvene vrijednosti λmax matrice X`X od njene minimalne svojstvene vrijednosti λmin .

Brojne tehnike se koriste za uklanjanje ili smanjenje multikolinearnosti. Najjednostavniji od njih (ali nikako uvijek moguć) je onaj od dvije eksplanatorne varijable sa visokim koeficijentom korelacije (većim od 0,8), jedna varijabla je isključena iz razmatranja. Istovremeno, koju varijablu zadržati, a koju ukloniti iz analize odlučuje se prvenstveno na osnovu ekonomskih razmatranja. Ako, sa ekonomske tačke gledišta, nijedna od varijabli ne može biti poželjna, onda se ostavlja ona od dvije varijable koja ima veći koeficijent korelacije sa zavisnom varijablom.

Drugi metod za eliminaciju ili smanjenje multikolinearnosti je prelazak sa nepristrasnih procjena najmanjih kvadrata na pristrasne procjene, koje, međutim, imaju manju disperziju u odnosu na procijenjeni parametar, tj. manje matematičko očekivanje kvadrata odstupanja procjene b j od parametra β j ili M (b j - β j) 2 .

Procjene određene vektorom, prema Gauss-Markovovoj teoremi, imaju minimalne varijanse u klasi svih linearnih nepristrasnih procjena, ali u prisustvu multikolinearnosti, ove varijanse se mogu pokazati prevelikim, te se odnose na odgovarajuće pristrasne procjene. procjene mogu povećati tačnost procjene parametara regresije. Na slici je prikazan slučaj kada je pristrasna procjena β j ^ , čija je distribucija uzorkovanja data gustoćom φ (β j ^).

Zaista, neka maksimalni dozvoljeni interval pouzdanosti za procijenjeni parametar β j bude (β j -Δ, β j +Δ). Tada će vjerovatnoća povjerenja, odnosno pouzdanost procjene, određena površinom ispod krivulje raspodjele na intervalu (β j -Δ, β j +Δ), kao što je lako vidjeti sa slike, u ovom slučaju biti veća za procjenu β j u poređenju sa bj (na slici su ove oblasti zasjenjene). Shodno tome, prosječni kvadrat odstupanja procjene od procijenjenog parametra će biti manji za pristrasnu procjenu, tj.

M (β j ^ - β j) 2< M (b j - β j) 2

Kada se koristi "regresija grebena" (ili "regresija grebena"), umjesto nepristrasnih procjena, pristrasne procjene date vektorom

β τ ^ =(X`X+τ E p +1) -1 X`Y,

gdje τ – neki pozitivan broj koji se zove "greben" ili "greben"

E p +1 je matrica identiteta (r+1) reda.

Dodatak τ na dijagonalne elemente matrice X`X čini procjene parametara modela pomaknute, ali u isto vrijeme raste determinanta matrice sistema normalnih jednačina - umjesto (X`X) od će biti jednaka

|X`X+τ E p +1 |

Tako postaje moguće isključiti multikolinearnost u slučaju kada je determinanta |X`X| blizu nule.

Da bi se eliminisala multikolinearnost, može se koristiti prelazak sa originalnih eksplanatornih varijabli X 1 ,X 2 ,…,X n , međusobno povezanih prilično bliskom korelacijom, na nove varijable koje predstavljaju linearne kombinacije originalnih. U ovom slučaju, nove varijable treba da budu u slaboj korelaciji ili da uopšte ne budu povezane. Kao takve varijable, na primjer, uzimaju se tzv. glavne komponente vektora početnih eksplanatornih varijabli, koje se proučavaju u komponentnoj analizi, i razmatra se regresija na glavne komponente, u kojoj ove posljednje djeluju kao generalizirane eksplanatorne varijable, podložne dalje smisleno (ekonomsko) tumačenje.

Ortogonalnost glavnih komponenti onemogućava ispoljavanje efekta multikolinearnosti. Osim toga, korištena metoda nam omogućava da se ograničimo na mali broj glavnih komponenti sa relativno velikim brojem početnih objašnjavajućih varijabli.

multikolinearnost - je koncept koji se koristi za opisivanje problema gdje nestrogi linearni odnos između varijabli koje objašnjavaju rezultira nepouzdanim procjenama regresije. Naravno, takva zavisnost ne mora nužno dati nezadovoljavajuće procjene. Ako su svi ostali uslovi povoljni, odnosno ako su broj opservacija i varijanse uzorka eksplanatornih varijabli veliki, a varijansa slučajnog člana mala, onda se mogu dobiti prilično dobre procjene.

Dakle, multikolinearnost mora biti uzrokovana kombinacijom nestriktne zavisnosti i jednog (ili više) nepovoljnih uslova, a ovo je pitanje

stepen manifestacije fenomena, a ne njegov tip. Svaka regresijska procjena će u određenoj mjeri pati od toga, osim ako sve varijable koje objašnjavaju nisu potpuno nekorelirane. Razmatranje ovog problema počinje tek kada on ozbiljno utiče na rezultate procene regresije.

Ovaj problem je uobičajen kod regresija vremenskih serija, tj. kada se podaci sastoje od niza opservacija tokom određenog vremenskog perioda. Ako dvije ili više nezavisnih varijabli imaju jak vremenski trend, onda će biti u visokoj korelaciji i to može dovesti do multikolinearnosti.


Šta se može učiniti u ovom slučaju?

Različite metode koje se mogu koristiti za ublažavanje multikolinearnosti spadaju u dvije kategorije: prva kategorija uključuje pokušaje povećanja stepena do kojeg su zadovoljena četiri uslova koji čine procjenu regresije pouzdanim; druga kategorija je korištenje vanjskih informacija. Ako prvo koristimo moguće direktno dobijene podatke, onda bi očito bilo korisno povećati broj opservacija.

Ako koristite podatke vremenske serije, to se može učiniti skraćivanjem dužine svakog vremenskog perioda. Na primjer, kada se procjenjuju jednačine funkcije potražnje u vježbama 5.3 i 5.6, moglo bi se prebaciti s korištenja godišnjih podataka na tromjesečne podatke.

Nakon toga, umjesto 25 opservacija, bit će 100. Ovo je toliko očigledno i lako izvodljivo da većina istraživača koji koriste vremenske serije gotovo automatski primjenjuju kvartalne podatke, ako su dostupni, umjesto godišnjih podataka, čak i ako je problem multikolinearnosti nije u pitanju, samo da bi se smanjile minimalne teorijske disperzije regresijskih koeficijenata. Međutim, postoje potencijalni problemi s ovim pristupom. Možete uvesti ili poboljšati autokorelaciju, ali se ona može neutralizirati. Osim toga, može se uvesti (ili pojačati) pristrasnost uzrokovana greškama mjerenja ako se tromjesečni podaci mjere sa manjom preciznošću od odgovarajućih godišnjih podataka. Ovaj problem nije tako lako riješiti, ali može se pokazati i beznačajnim.