Definiţia multicolinearity. Cauzele și consecințele multicoliniarității

Multicoliniaritate Este o relație liniară între două sau mai multe variabile factoriale din ecuația de regresie multiplă. Dacă o astfel de dependență este funcțională, atunci se vorbește despre multicoliniaritate deplină... Dacă este o corelație, atunci multicoliniaritate parțială... Dacă multicoliniaritatea completă este mai degrabă o abstractizare teoretică (se manifestă, în special, dacă o variabilă inactivă având k niveluri de calitate, înlocuiți cu k variabile dihotomice), atunci multicoliniaritatea parțială este foarte reală și este aproape întotdeauna prezentă. Putem vorbi doar despre gradul de severitate al acestuia. De exemplu, dacă variabilele explicative includ venitul disponibil și consumul, atunci ambele variabile vor fi, desigur, foarte corelate.

Absența multicoliniarității este una dintre premisele dezirabile ale modelului multiplu liniar clasic. Acest lucru se datorează următoarelor considerații:

1) În cazul multicoliniarității complete, este în general imposibil să se construiască estimări ale parametrilor regresiei multiplă liniare folosind MCO.

2) În cazul multicolinearității parțiale, estimările parametrilor de regresie pot fi nesigure și, în plus, este dificil de determinat

contribuția izolată a factorilor la indicatorul efectiv.

Motivul principal pentru apariția multicolinearității este prezența în obiectul studiat a unor procese care afectează simultan unele variabile de intrare, dar nu sunt luate în considerare în model. Acesta poate fi rezultatul unui studiu de proastă calitate a domeniului subiectului sau al complexității interrelațiilor dintre parametrii obiectului studiat.

Multicoliniaritatea este suspectată a fi:

- un număr mare de factori nesemnificativi în model;

- erori standard mari ale parametrilor de regresie;

- instabilitatea estimărilor (o mică modificare a datelor inițiale duce la o schimbare semnificativă).

O abordare pentru a determina prezența sau absența multicolinearității este analizarea matricei de corelație

între variabilele explicative și identificarea perechilor de factori cu coeficienți de corelație de perechi mari (de obicei mai mari de 0,7). Dacă astfel de factori există, atunci există o coliniaritate clară între ei.

Cu toate acestea, coeficienții de corelație perechi, luați în considerare individual, nu pot evalua interacțiunea cumulativă a mai multor factori (și nu doar doi).

Prin urmare, pentru a evalua prezența multicoliniarității în model, determinantul matricei coeficienților de corelație perechi între factori ( determinant al matricei de corelație interfactorială)

Cu cât determinantul matricei de corelație interfactorială este mai aproape de 0, cu atât multicoliniaritatea este mai puternică și invers, cu atât determinantul este mai aproape de 1, cu atât multicoliniaritatea este mai mică.


Semnificația statistică a multicoliniarității factorilor este determinată prin testarea ipotezei nule sub o ipoteză alternativă. Distribuția Pearson cu grade de libertate este utilizată pentru a testa ipoteza nulă. Valoarea observată a statisticilor se găsește prin formula, unde n- numărul de observații, m- numărul de factori. Pentru un nivel de semnificație dat, valoarea critică este determinată din tabelul punctelor critice ale distribuției Pearson. Dacă, atunci ipoteza este respinsă și se consideră că multicoliniaritatea factorilor este prezentă în model.

Factorii care influențează multicoliniaritatea pot fi distinși și prin analiza coeficienților de determinare multiplă, calculați cu condiția ca fiecare dintre factori să fie considerat ca o variabilă dependentă a altor factori:,,…,. Cu cât sunt mai aproape de 1, cu atât multicoliniaritatea factorilor este mai puternică. Aceasta înseamnă că factorii cu o valoare minimă a coeficientului de determinare multiplă ar trebui lăsați în ecuație.

În ceea ce privește multicoliniaritatea completă, cea mai decisivă luptă ar trebui dusă cu aceasta: eliminați imediat din ecuația de regresie variabilele care sunt combinații liniare ale altor variabile.

Multicolinearitatea parțială nu este un rău atât de grav încât ar trebui identificat și eliminat. Totul depinde de obiectivele studiului. Dacă sarcina principală a modelării este doar de a prezice valorile variabilei dependente, atunci cu un coeficient de determinare suficient de mare () prezența multicolinearității nu afectează calitățile predictive ale modelului. Dacă scopul modelării este și de a determina contribuția fiecărui factor la modificarea variabilei dependente, atunci prezența multicolinearității este o problemă serioasă.

Cea mai simplă metodă de eliminare a multicolinearității este excluderea uneia sau a mai multor variabile corelate din model.

Deoarece multicoliniaritatea depinde direct de eșantion, este posibil ca, cu un eșantion diferit, să nu existe deloc multicoliniaritate sau să nu fie atât de gravă. Prin urmare, pentru a reduce multicolinearitatea, în unele cazuri, este suficientă creșterea dimensiunii eșantionului.

Uneori problema multicolinearității poate fi rezolvată prin modificarea specificației modelului: fie se modifică forma modelului, fie se adaugă factori care nu au fost luați în considerare în modelul original, dar afectează semnificativ variabila dependentă.

În unele cazuri, multicoliniaritatea poate fi minimizată sau complet eliminată prin transformarea variabilelor factor. În acest caz, următoarele transformări sunt cele mai frecvente:

1. Combinație liniară de variabile multicoliniare (de exemplu,).

2. Înlocuirea variabilei multicoliniare cu incrementul acesteia.

3. Împărțirea unei variabile coliniare cu alta.

Să presupunem că luăm în considerare o ecuație de regresie și datele pentru estimarea acesteia conțin observații pentru obiecte de diferite calități: pentru bărbați și femei, pentru albi și negri. întrebarea care ne poate interesa aici este următoarea - este adevărat că modelul luat în considerare coincide pentru două mostre legate de obiecte de calitate diferită? Puteți răspunde la această întrebare folosind testul Chow.

Luați în considerare modelele:

, i=1,…,N (1);

, i=N+1,…,N+M (2).

În prima probă N observatii, in a doua - M observatii. Exemplu: Y- salariile, explicarea variabilelor - vârsta, vechimea în muncă, nivelul de studii. Din datele disponibile rezultă că modelul dependenței salariilor de variabilele explicative din partea dreaptă este același pentru bărbați și femei?

Pentru a testa această ipoteză, puteți utiliza schema generală de testare a ipotezelor comparând regresia constrânsă și regresia neconstrânsă. Regresia fără constrângeri este aici uniunea regresiilor (1) și (2), adică. ESS UR = ESS 1 + ESS 2, numărul de grade de libertate - N + M - 2k... Regresia constrânsă (adică regresia sub ipoteza că ipoteza nulă este îndeplinită) va fi regresie pentru întregul set disponibil de observații:

, i = 1,…, N+M (3).

Estimând (3), obținem ESS R... Pentru a testa ipoteza nulă, folosim următoarele statistici:

Care, dacă ipoteza nulă este adevărată, are distribuția Fisher cu numărul de grade de libertate al numărătorului kși numitorul N+ M- 2k.

Dacă ipoteza nulă este adevărată, putem combina eșantioanele disponibile într-una singură și putem estima modelul pentru N+M observatii. Dacă respingem ipoteza nulă, atunci nu putem îmbina cele două eșantioane într-una singură și va trebui să evaluăm aceste două modele separat.


Studiul modelului liniar general, pe care l-am considerat mai devreme, este foarte esențial, după cum am văzut, pe baza aparatului statistic. Totuși, ca în toate aplicațiile prietene. statistici, puterea unei metode depinde de ipotezele care stau la baza acesteia și necesare pentru aplicarea ei. Pentru o vreme, vom lua în considerare situațiile în care una sau mai multe dintre ipotezele care stau la baza modelului liniar sunt încălcate. Vom lua în considerare metode alternative de evaluare în aceste cazuri. Vom vedea că rolul unor ipoteze este mai semnificativ decât rolul altora. Trebuie să vedem la ce consecințe poate duce încălcarea anumitor condiții (ipoteze), să putem verifica dacă acestea sunt îndeplinite sau nu și să știm ce metode statistice pot și trebuie aplicate atunci când metoda clasică a celor mai mici pătrate nu este potrivită.

1. Relația dintre variabile este liniară și se exprimă prin ecuație - erori de specificare a modelului (neincluderea variabilelor explicative semnificative în ecuație, includerea variabilelor inutile în ecuație, alegerea greșită a formei de dependență între variabile);


2. X 1 ,…,X k- variabile deterministe - regresori stocastici, liniar independente - multicoliniaritate deplina;

4. - heteroscedasticitate;

5.când i ¹ k- autocorelarea erorilor

Înainte de a începe conversația, luați în considerare următoarele concepte: coeficient de corelație de pereche și coeficient de corelație parțială.

Să presupunem că investigăm influența unei variabile asupra altei variabile ( Yși X). Pentru a înțelege modul în care aceste variabile sunt legate între ele, calculăm coeficientul de corelație a perechii folosind următoarea formulă:

Dacă obținem valoarea coeficientului de corelație aproape de 1, ajungem la concluzia că variabilele sunt destul de strâns legate între ele.

Cu toate acestea, dacă coeficientul de corelație dintre cele două variabile de interes este aproape de 1, este posibil ca acestea să nu fie de fapt dependente. Cazul bolnavului mintal și al radioului este un exemplu de ceea ce se numește „corelație falsă”. Valoarea mare a coeficientului de corelație se poate datora și existenței unei a treia variabile, care are un efect puternic asupra primelor două variabile, motiv pentru care se realizează corelarea ridicată a acestora. Așadar, se pune problema calculării corelației „pure” dintre variabile Xși Y, adică o corelație în care influența (liniară) a altor variabile este exclusă. Pentru aceasta se introduce conceptul de coeficient de corelație parțială.

Deci, dorim să determinăm coeficientul de corelație parțială dintre variabile Xși Y, excluzând influența liniară a variabilei Z... Pentru a-l determina, se utilizează următoarea procedură:

1. Estimăm regresia,

2. Primim resturile,

3. Estimăm regresia,

4. Primim resturile,

5. - coeficientul eșantionului de corelație parțială, măsoară gradul de relație dintre variabile Xși Y, curățat de influența variabilei Z.

Calcule directe:

Proprietate:

Procedura de construire a coeficientului de corelație parțială este generalizată în cazul în care dorim să scăpăm de influența a două sau mai multe variabile.


1. Multicoliniaritate perfectă.

Una dintre cerințele Gauss-Markov ne spune că variabilele explicative nu ar trebui să fie legate într-o relație exactă. Dacă o astfel de relație există între variabile, spunem că modelul are multicoliniaritate perfectă. Exemplu. Luați în considerare un model cu un scor mediu la examen format din trei variabile explicative: eu- venitul parintilor, D- numărul mediu de ore petrecute la antrenament pe zi, W- numărul mediu de ore petrecute la antrenament pe săptămână. Este evident că W=7D... Și acest raport va fi îndeplinit pentru fiecare elev care se încadrează în eșantionul nostru. Cazul multicolinearității complete este ușor de urmărit, deoarece în acest caz este imposibil să se construiască estimări folosind metoda celor mai mici pătrate.

2. Multicoliniaritate parțială sau pur și simplu multicoliniaritate.

O situație mult mai des întâlnită este atunci când nu există o relație liniară exactă între variabilele explicative, dar există o corelație strânsă între ele - acest caz se numește multicoliniaritate reală sau parțială (pur și simplu multicoliniaritate) - existența unor relații statistice strânse între variabile. Trebuie spus că problema multicolinearității ține mai mult de gradul de manifestare a fenomenului, decât de tipul acestuia. Orice scor de regresie va avea de suferit într-o formă sau alta, cu excepția cazului în care toate variabilele explicative sunt complet necorelate. Luarea în considerare a acestei probleme începe doar atunci când începe să afecteze serios rezultatele estimării regresiei (prezența relațiilor statistice între regresori nu dă neapărat estimări nesatisfăcătoare). Deci multicolinearitatea este o problemă în care corelația strânsă dintre regresori duce la estimări de regresie nesigure.

Consecințele multicoliniarității:

Formal, din moment ce ( X"X) Este nedegenerată, atunci putem construi estimări MCO ale coeficienților de regresie. Totuși, să ne amintim cum sunt exprimate variațiile teoretice ale estimărilor coeficienților de regresie:, unde a ii - i al-lea element diagonal al matricei. Deoarece matricea (X "X) este aproape de degenerare și det ( X"X) »0, atunci

1) există numere foarte mari pe diagonala principală a matricei inverse, deoarece elementele matricei inverse sunt invers proporționale cu det ( X"X). Prin urmare, varianța teoretică i-al doilea coeficient este suficient de mare și estimarea varianței este, de asemenea, mare, prin urmare, t- statisticile sunt mici, ceea ce poate duce la nesemnificativitate statistică i coeficientul. Adică variabila are un efect semnificativ asupra variabilei explicate și concluzionăm că este nesemnificativă.

2) Deoarece estimările și depind de ( X"X) -1, ale cărui elemente sunt invers proporționale cu det ( X"X), atunci dacă adăugăm sau eliminăm una sau două observații, adăugând sau eliminând, astfel, unul sau două rânduri la matrice X"X, apoi valorile și se pot modifica semnificativ, până la o modificare a semnului - instabilitate a rezultatelor estimării.

3) Dificultate în interpretarea ecuației de regresie. Să presupunem că avem două variabile în ecuație care sunt legate între ele: X 1 și X 2. Coeficientul de regresie la X 1 este interpretat ca o măsură a schimbării Y prin schimbare X 1 ceteris paribus, i.e. valorile tuturor celorlalte variabile rămân aceleași. Cu toate acestea, din moment ce variabilele NS 1 și NS 2 sunt conectate, apoi modificările variabilei NS 1 va provoca modificări previzibile ale variabilei NS 2 și valoare NS 2 nu va rămâne același.

Exemplu: unde NS 1 - suprafata totala, NS 2 - living. Spunem: „Dacă suprafața de locuit crește cu 1 mp, atunci, toate celelalte lucruri fiind egale, prețul unui apartament va crește cu USD”. Cu toate acestea, în acest caz, suprafața de locuit va crește și cu 1 mp. m. iar cresterea pretului va fi. Delimitați influența asupra variabilei Y fiecare variabilă separat nu mai este posibilă. Ieșirea în această situație cu prețul unui apartament este să includeți în model nu suprafața totală, ci așa-numita suprafață „suplimentară” sau „suplimentară”.

Semne de multicoliniaritate.

Nu există criterii precise pentru determinarea prezenței (absenței) multicoliniarității. Cu toate acestea, există recomandări euristice pentru detectarea acestuia:

1) Analizați matricea coeficienților de corelație perechi între regresori și dacă valoarea coeficientului de corelație este apropiată de 1, atunci acesta este considerat un semn de multicoliniaritate.

2) Analiza matricei de corelație este doar o judecată superficială cu privire la prezența (absența) multicolinearității. Un studiu mai atent al acestei probleme se realizează prin calcularea coeficienților de corelație parțială sau calcularea coeficienților de determinare pentru fiecare dintre variabilele explicative pentru toate celelalte variabile explicative din regresie.

4) (NSX) Este o matrice definită pozitivă simetrică; prin urmare, toate valorile sale proprii sunt nenegative. Dacă determinantul matricei ( NSX) este egal cu zero, atunci valoarea proprie minimă este, de asemenea, zero și continuitatea este păstrată. În consecință, valoarea valorii proprii manimal poate fi judecată și în funcție de apropierea de zero a determinantului matricei ( NSX). Pe lângă această proprietate, valoarea proprie minimă este de asemenea importantă deoarece eroarea standard a coeficientului este invers proporțională.

5) Prezența multicoliniarității poate fi judecată prin semne externe care sunt consecințe ale multicoliniarității:

a) unele dintre estimări au semne incorecte din punct de vedere al teoriei economice sau valori nejustificat de mari;

b) o mică modificare a datelor economice inițiale duce la o modificare semnificativă a estimărilor coeficienților modelului;

c) majoritatea t- statisticile coeficienților diferă nesemnificativ de zero, în același timp, modelul în ansamblu este semnificativ, fapt dovedit de valoarea mare F-statistici.

Cum să scapi de multicoliniaritate, cum să o elimini:

1) Utilizarea analizei factoriale. Trecerea de la setul original de regresori, printre care se numără și cei dependenți statistic, la noi regresori Z 1 ,…,Z m folosind metoda componentelor principale - în locul variabilelor inițiale, în locul variabilelor inițiale, luăm în considerare unele dintre combinațiile lor liniare, a căror corelație este mică sau absentă cu totul. Provocarea aici este de a oferi o interpretare semnificativă noilor variabile. Z... Dacă eșuează, ne întoarcem la variabilele originale folosind transformările inverse. Estimările obținute vor fi totuși părtinitoare, dar vor avea o variație mai mică.

2) Dintre toate variabilele disponibile, selectați factorii care influențează cel mai semnificativ variabila explicată. Procedurile de selecție vor fi discutate mai jos.

3) Trecerea la metode de estimare părtinitoare.

Când ne confruntăm cu problema multicoliniarității, cercetătorul neexperimentat are la început dorința de a exclude pur și simplu regresorii inutile care ar putea fi cauza. Cu toate acestea, nu este întotdeauna clar care variabile sunt redundante în acest sens. În plus, așa cum se va arăta mai jos, eliminarea așa-numitelor variabile care influențează semnificativ duce la o părtinire a estimărilor MCO.


Rețineți că într-un număr de cazuri multicolinearitatea nu este un „rău” atât de grav încât să depună eforturi semnificative pentru a o identifica și elimina. Practic, totul depinde de obiectivele studiului.
Dacă sarcina principală a modelului este de a prezice valorile viitoare ale variabilei dependente, atunci cu un coeficient de determinare suficient de mare R2 (gt; 0,9), prezența multicolinearității nu afectează de obicei calitățile predictive ale modelului ( dacă în viitor variabilele corelate rămân aceleași ca înainte ).
Dacă este necesar să se determine gradul de influență a fiecăreia dintre variabilele explicative asupra variabilei dependente, atunci multicoliniaritatea, care duce la o creștere a erorilor standard, este de natură să distorsioneze adevăratele relații dintre variabile. În această situație, multicoliniaritatea este o problemă serioasă.
Nu există o metodă unică de eliminare a multicolinearității care să fie potrivită în orice caz. Acest lucru se datorează faptului că cauzele și consecințele multicoliniarității sunt ambigue și depind în mare măsură de rezultatele eșantionului.
Excluderea variabilelor din model
Cea mai simplă metodă de eliminare a multicolinearității este excluderea uneia sau a mai multor variabile corelate din model. Este necesară o anumită prudență atunci când se aplică această metodă. În această situație sunt posibile erori de specificare, prin urmare, în modelele econometrice aplicate, este indicat să nu se excludă variabilele explicative până când multicolinearitatea devine o problemă serioasă.
Preluarea datelor suplimentare sau a unui eșantion nou
Deoarece multicoliniaritatea depinde direct de eșantion, este posibil ca, cu un eșantion diferit, multicolinearitatea să nu fie sau să nu fie atât de gravă. Uneori, creșterea dimensiunii eșantionului este suficientă pentru a reduce multicoliniaritatea. De exemplu, dacă utilizați date anuale, puteți accesa datele trimestriale. Creșterea cantității de date reduce varianța coeficienților de regresie și, prin urmare, crește semnificația lor statistică. Cu toate acestea, obținerea unei noi mostre sau extinderea unuia vechi nu este întotdeauna posibilă sau implică costuri serioase. În plus, această abordare poate îmbunătăți autocorelația. Aceste probleme limitează utilizarea acestei metode.
Modificarea specificației modelului
În unele cazuri, problema multicolinearității poate fi rezolvată prin modificarea specificației modelului: fie se modifică forma modelului, fie se adaugă variabile explicative care nu au fost luate în considerare în modelul original, dar afectează semnificativ variabila dependentă. Dacă această metodă este justificată, atunci utilizarea ei reduce suma pătratelor abaterilor, reducând astfel eroarea standard a regresiei. Aceasta duce la o reducere a erorilor standard ale coeficienților.
Utilizarea informațiilor preliminare despre unii parametri
Uneori, atunci când construiți un model de regresie multiplă, puteți utiliza informații preliminare, în special, valorile cunoscute ale unor coeficienți de regresie.
Este probabil ca valorile coeficienților calculați pentru orice modele preliminare (de obicei mai simple) sau pentru un model similar bazat pe un eșantion obținut anterior să poată fi utilizate pentru modelul aflat în curs de dezvoltare.
Selectarea celor mai semnificative variabile explicative. Procedura de conectare secvențială a elementelor
Trecerea la mai puține variabile explicative poate reduce duplicarea informațiilor furnizate de caracteristici foarte interdependente. Este exact cu ce ne confruntăm în cazul variabilelor explicative multicoliniare.
Lasa

Coeficient multiplu
corelații între variabila dependentă Y și mulțimea variabilelor explicative X 1, X 2, ..., Xm. Este definit ca coeficientul de corelație obișnuit între Y și o funcție liniară
regresie Y = b0 + KX1 + b2X2 + ... + bmXm. Lasă amp; = R-1 - matricea inversă matricei R:


Atunci coeficientul pătrat Ry.X = Rr (xi, x2, .., x) poate fi calculat prin formula:


Estimarea R * 2.X corectată pentru imparțialitatea coeficientului de determinare R2y.X are forma:

(Dacă se obține un număr negativ prin formula (6.7), atunci presupunem


Limita inferioară de încredere pentru

determinat
dupa formula:

În practică, atunci când se decide ce variabile explicative ar trebui incluse în model, este adesea folosită procedura de îmbinare secvențială a elementelor.
(j = 1, 2, ..., m). în care

coincide cu pătratul obișnuitului
coeficient de corelație de pereche

Lasa


atunci variabila xp va fi cea mai informativă. Apoi se calculează coeficientul corectat pentru imparțialitate
(pentru m = 1) și limita sa inferioară de încredere R2min (1).


perechea jxp, xq va fi mai informativă). Apoi se calculează coeficientul corectat pentru imparțialitate (cu m = 2)
și limita sa inferioară de încredere R2min (2).

Procedura continuă până când la pasul (la +1) condiția este îndeplinită:
Apoi modelul include cele mai informative variabile obținute în primii pași. Rețineți că în calcule se folosesc formulele (6.7) și (6.8), în care, în loc de m, se ia valoarea corespunzătoare a numărului pasului k.
De fapt, această metodă nu garantează că vom scăpa de multicoliniaritate.
Sunt utilizate și alte metode de eliminare a multicolinearității.
Exemplul 6.1. Există următoarele date condiționate (Tabelul 6.1):
Tabelul 6.1
Date pentru metoda daisy-chaining


X1

X2

X3

Avea

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Să luăm în considerare separat efectul asupra variabilei dependente al fiecăreia dintre variabilele explicative. Calculând coeficienții de corelație perechi, constatăm că coeficientul

Atunci:


Luați în considerare efectul perechilor de variabile (x1, x2) și (x1, x3) asupra variabilei dependente. În primul rând, luați în considerare influența unei perechi de variabile (x1, x2).



Icuvum uvjpcuuivi
Când se unesc variabile, două variabile explicative ar trebui incluse în ecuație. Prin urmare, ecuația teoretică va lua forma:
Metoda crestei
Luați în considerare metoda crestelor (regresia crestei) pentru eliminarea multicolinearității. Metoda a fost propusă de A.E. Hoerl în 1962 și se aplică atunci când matricea (xtX) este aproape de degenerare. Un număr mic (de la 0,1 la 0,4) este adăugat elementelor diagonale ale matricei (xtX). În acest caz, se obțin estimări părtinitoare ale parametrilor ecuației. Dar erorile standard ale unor astfel de estimări în cazul multicoliniarității sunt mai mici decât cele date prin metoda uzuală a celor mai mici pătrate.
Exemplul 6.2. Datele inițiale sunt prezentate „Tabelul 6 2 Coeficientul de corelare a variabilelor explicative

ce
indică o multicoliniaritate puternică.
Tabelul 6.2
Date pentru studiul multicolinearității prin metoda crestelor


x1

x2

Avea

1

1,4

7

2

3,1

12


Apoi obținem ecuația y = 2,63 + 1,37x1 + 1,95x2. Elementele diagonale ale matricei inverse vor scădea semnificativ și vor fi egale cu z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, ceea ce duce la scăderea erorilor standard ale coeficienților.
rezumat
Printre principalele consecințe la care poate duce multicolinearitatea, se pot distinge următoarele:
  1. la testarea ipotezei principale despre nesemnificația coeficienților de regresie multiplă folosind testul t, în majoritatea cazurilor este acceptată, totuși, ecuația de regresie în sine atunci când este testată folosind testul A se dovedește a fi semnificativă, ceea ce indică o valoare supraestimată. a coeficientului de corelație multiplă;
  2. estimările obținute ale coeficienților ecuației de regresie multiplă sunt în general supraevaluate în mod nejustificat sau au semne incorecte;
  3. adăugarea sau excluderea uneia sau a două observații din datele inițiale are o influență puternică asupra estimărilor coeficienților modelului;
  4. prezența multicoliniarității într-un model de regresie multiplă îl poate face inadecvat pentru utilizare ulterioară (de exemplu, pentru realizarea de prognoze).
Întrebări de autotest
  1. Ce este multicoliniaritatea?
  2. Ce indicatori indică prezența multicoliniarității?
  3. Care este determinantul matricei XTX în cazul multicoliniarității perfecte?
  4. Ce se poate spune despre semnificația coeficienților variabilelor explicative în cazul multicoliniarității?
  5. Ce transformare se realizează în metoda pieptenelor, la ce duce?
  6. Care este ordinea acțiunilor în metoda creșterii succesive a numărului de variabile explicative?
  7. Ce arată coeficientul de corelație?
  8. Ce arată coeficientul de corelație parțială?
0

Ministerul Educației și Științei al Federației Ruse

Instituția de învățământ bugetară de stat federală

educatie inalta

UNIVERSITATEA TEHNICĂ DE STAT TVER

Departamentul „Contabilitate și Finanțe”

PROIECT DE CURS
la disciplina „Econometrie”

„Investigarea multicolinearității în modelele econometrice: excluderea variabilelor (variabilelor) din model”

supervizor de lucru:

Cand. acestea. Științe, conferențiar

Konovalova

Executor testamentar:

elev al grupei EK-1315 EPO

Tver, 2015

Introducere ………………………………………………………………………………… ... 3

1. Partea analitică …………………………………………………………………… 4

1.1. Semne generalizate de multicolinearitate în modelele econometrice ………………………………………………………………………………… .4

1.2. Principalele modalități de eliminare a multicolinearității în modelele econometrice ………… .. ………………………………………… ..7

2. Partea de proiectare …………………………………………………………………… ..11

2.1. Informarea și suportul metodologic al cercetării econometrice ………………………………………………………………… .11

2.2. Un exemplu de studiu econometric …………………………… .17

Concluzie ………………………………………………………………… .... 30

Lista surselor utilizate ………………………………………… ... 31

Introducere

Relevanța temei lucrării „Investigarea multicolinearității în modelele econometrice: excluderea variabilei(e) din model” se datorează faptului că în zilele noastre această problemă este adesea întâlnită în modelele econometrice aplicate.

Subiectul cercetării este problema multicolinearității. Obiectul cercetării îl constituie modelele econometrice.

Scopul principal al lucrării este de a dezvolta soluții de proiectare pentru informarea și sprijinirea metodologică a cercetării econometrice.

Pentru atingerea scopului, au fost stabilite și rezolvate următoarele sarcini principale de cercetare:

  1. Generalizarea caracteristicilor de multicoliniaritate în modelele econometrice.
  2. Identificarea principalelor modalități de eliminare a multicolinearității.

3. Dezvoltarea informaţiei şi a suportului metodologic pentru cercetarea econometrică.

  1. Partea analitica

1.1. Semne generalizate de multicoliniaritate în modelele econometrice

Multicolinearitate - în econometrie (analiza de regresie) - prezența unei relații liniare între variabilele (factorii) explicative ale modelului de regresie. În același timp, există coliniaritate completă, ceea ce înseamnă prezența unei dependențe liniare funcționale (identice) și parțial sau pur și simplu multicoliniaritate- prezenţa unei puternice corelaţii între factori.

Coliniaritatea completă duce la incertitudini parametrii într-un model de regresie liniară, indiferent de metodele de estimare. Luați în considerare acest lucru folosind următorul model liniar ca exemplu:

Fie ca factorii acestui model să fie relaționați identic, după cum urmează:. Apoi luați în considerare modelul liniar original, în care adăugăm la primul coeficient arbitrar număr A, și scădeți același număr din ceilalți doi coeficienți. Atunci avem (fără o eroare aleatorie):

Astfel, în ciuda modificării relativ arbitrare a coeficienților modelului, se obține același model. Acest model este fundamental neidentificabil. Incertitudinea există deja în modelul în sine. Dacă luăm în considerare spațiul tridimensional al coeficienților, atunci în acest spațiu vectorul coeficienților adevărați în acest caz nu este singurul, ci este o întreagă dreaptă. Orice punct de pe această dreaptă este un adevărat vector de coeficienți.

Dacă coliniaritatea completă duce la incertitudinea valorilor parametrilor, atunci multicoliniaritatea parțială duce la instabilitatea acestora. evaluări... Instabilitatea este exprimată printr-o creștere a incertitudinii statistice - varianța estimărilor. Aceasta înseamnă că rezultatele evaluării specifice pot varia foarte mult de la un eșantion la altul, chiar dacă eșantioanele sunt omogene.

După cum știți, matricea de covarianță a estimărilor parametrilor de regresie multipli folosind metoda celor mai mici pătrate este egală cu. Astfel, cu cât este mai „mică” matricea de covarianță (determinantul ei), cu atât este „mai mare” matricea de covarianță a estimărilor parametrilor și, în special, cu atât elementele diagonale ale acestei matrice sunt mai mari, adică varianța estimărilor parametrilor. Pentru claritate, luați în considerare exemplul unui model cu doi factori:

Apoi, varianța estimării parametrului, de exemplu, pentru primul factor este egală cu:

unde este coeficientul de corelație al eșantionului între factori.

Se vede clar aici că cu cât modulul de corelație dintre factori este mai mare, cu atât varianța estimărilor parametrilor este mai mare. La (coliniaritate deplină), varianța tinde spre infinit, ceea ce corespunde celor spuse mai devreme.

Astfel, estimările parametrilor sunt obținute inexacte, ceea ce înseamnă că va fi dificil de interpretat influența anumitor factori asupra variabilei explicate. În același timp, multicolinearitatea nu afectează calitatea modelului în ansamblu - poate fi recunoscută ca fiind semnificativă statistic, chiar și atunci când toate coeficienții sunt nesemnificativi (acesta este unul dintre semnele multicoliniarității).

În modelele liniare, coeficienții de corelație între parametri pot fi pozitivi și negativi. În primul caz, o creștere a unui parametru este însoțită de o creștere a altui parametru. În al doilea caz, când un parametru crește, celălalt scade.

Pe baza acesteia, este posibilă stabilirea multicoliniarității acceptabile și inacceptabile. O multicoliniaritate inacceptabilă va apărea atunci când există o corelație pozitivă semnificativă între factorii 1 și 2, iar influența fiecărui factor asupra corelației cu funcția lui y este unidirecțională, adică o creștere a ambilor factori 1 și 2 duce la o creștere. sau scăderea funcției lui y. Cu alte cuvinte, ambii factori acționează asupra funcției y în același mod, iar o corelație pozitivă semnificativă între ei poate permite excluderea unuia dintre ei.

Multicolinearitatea admisibilă este astfel încât factorii afectează diferit funcția y. Două cazuri sunt posibile aici:

a) cu o corelație pozitivă semnificativă între factori, influența fiecărui factor asupra corelației cu funcția y este multidirecțională, i.e. o creștere a unui factor duce la o creștere a funcției, iar o creștere a altui factor duce la o scădere a funcției lui y.

b) cu o corelație negativă semnificativă între factori, o creștere a unui factor este însoțită de o scădere a altui factor și acest lucru face factorii ambigui, prin urmare, orice semn al influenței factorilor asupra funcției lui y este posibil.

În practică, se disting unele dintre cele mai caracteristice trăsături ale multicolinearității: 1. O mică modificare a datelor inițiale (de exemplu, adăugarea de noi observații) duce la o schimbare semnificativă a estimărilor coeficienților modelului. 2. Estimările au erori standard mari, semnificație scăzută, în timp ce modelul în ansamblu este semnificativ (valoarea ridicată a coeficientului de determinare R 2 și a statisticilor F corespunzătoare). 3. Estimările coeficienților au semne incorecte din punct de vedere teoretic sau valori nejustificat de mari.

Semnele indirecte de multicoliniaritate sunt erori standard ridicate ale estimărilor parametrilor modelului, statistici t mici (adică coeficienți nesemnificativi), semne incorecte ale estimărilor, în timp ce modelul în ansamblu este recunoscut ca fiind semnificativ statistic (valoarea mare a statisticilor F) . Multicolinearitatea poate fi evidențiată și de o schimbare puternică a estimărilor parametrilor din adăugarea (sau eliminarea) datelor eșantionului (dacă sunt îndeplinite cerințele pentru o omogenitate suficientă a eșantionului).

Pentru a detecta multicoliniaritatea factorilor, matricea de corelație a factorilor poate fi analizată direct. Deja prezența unor valori mari în valoare absolută (peste 0,7-0,8) ale coeficienților de corelație perechi indică posibile probleme cu calitatea estimărilor obținute.

Cu toate acestea, analiza coeficienților de corelație pereche este insuficientă. Este necesar să se analizeze coeficienții de determinare a regresiilor factorilor pentru alți factori (). Se recomandă calcularea indicatorului. Valorile prea mari ale acestora din urmă înseamnă prezența multicoliniarității.

Astfel, principalele criterii de detectare a multicolinearității sunt următoarele: R 2 ridicat pentru toți coeficienții nesemnificativi, coeficienți de corelație perechi mari, valori mari ale coeficientului VIF.

1.2. Principalele modalități de eliminare a multicolinearității în modelele econometrice

Înainte de a indica principalele metode de eliminare a multicolinearității, observăm că într-o serie de cazuri multicolinearitatea nu este o problemă serioasă care necesită eforturi semnificative pentru identificarea și eliminarea acesteia. Practic, totul depinde de obiectivele studiului.

Dacă sarcina principală a modelului este de a prezice valorile viitoare ale regresiei, atunci cu un coeficient de determinare suficient de mare R2 (> 0,9), prezența multicolinearității nu afectează de obicei calitățile predictive ale modelului. Deși această afirmație va fi justificată doar în cazul în care pe viitor regresorii corelați vor păstra aceeași relație ca și până acum. Dacă scopul studiului este de a determina gradul de influență al fiecăruia dintre regresori asupra regresandului, atunci prezența multicolinearității, care duce la o creștere a erorilor standard, este de natură să distorsioneze adevăratele relații dintre regresori. În această situație, multicoliniaritatea este o problemă serioasă.

Rețineți că nu există o metodă unică de eliminare a multicolinearității care să fie potrivită în orice caz. Acest lucru se datorează faptului că cauzele și consecințele multicoliniarității sunt ambigue și depind în mare măsură de rezultatele eșantionului.

În practică, se disting principalele metode de eliminare a multicolinearității:

  1. Eliminarea regresorilor din model Cea mai simplă metodă de eliminare a multicolinearității este excluderea unuia sau a mai multor regresori corelați din model. Cu toate acestea, este necesară o anumită prudență atunci când se aplică această metodă. În această situație, sunt posibile erori de specificație. De exemplu, atunci când se studiază cererea pentru un anumit bun, prețul acestui bun și prețurile înlocuitorilor acestui bun, care sunt adesea corelate între ele, pot fi folosite ca variabile explicative. Excluzând prețurile înlocuitorilor din model, este mai probabil să facem o eroare de specificație. Ca rezultat, se pot obține estimări părtinitoare și se pot trage concluzii nerezonabile. Astfel, în modelele econometrice aplicate, este de dorit să nu se excludă regresori până când coliniaritatea lor devine o problemă serioasă.
  2. Obținerea de date suplimentare sau un eșantion nou, deoarece multicoliniaritatea depinde direct de eșantion, atunci, poate, cu un eșantion diferit, nu va exista deloc multicoliniaritate sau nu va fi atât de grav. Uneori, creșterea dimensiunii eșantionului este suficientă pentru a reduce multicoliniaritatea. De exemplu, dacă utilizați date anuale, puteți accesa datele trimestriale. Creșterea cantității de date reduce varianța coeficienților de regresie și, prin urmare, crește semnificația lor statistică. Cu toate acestea, obținerea unei noi mostre sau extinderea unuia vechi nu este întotdeauna posibilă sau implică costuri serioase. În plus, această abordare poate îmbunătăți autocorelația. Aceste probleme limitează utilizarea acestei metode.

III. Modificarea specificației modelului În unele cazuri, problema multicolinearității poate fi rezolvată prin modificarea specificației modelului: fie se modifică forma modelului, fie se adaugă noi regresori care nu au fost luați în considerare în modelul original, dar afectează semnificativ dependența. variabil. Dacă această metodă este justificată, atunci utilizarea ei reduce suma pătratelor abaterilor, reducând astfel eroarea standard a regresiei. Aceasta duce la o reducere a erorilor standard ale coeficienților.

  1. Transformarea variabilelor în unele cazuri poate fi minimizată sau eliminată cu totul problema multicolinearității doar cu ajutorul transformării variabilelor. Datele originale în fiecare caz sunt împărțite la valorile unuia dintre regresorii dependenți în acest caz. Aplicarea metodei componentelor principale la factorii modelului vă permite să transformați factorii inițiali și să obțineți un set de factori ortogonali (necorelați). În acest caz, prezența multicolinearității ne va permite să ne restrângem la un număr mic de componente principale. Cu toate acestea, poate apărea problema interpretării semnificative a componentelor principale.

Dacă după toate indicațiile există multicoliniaritate, atunci în rândul econometrienilor există opinii diferite în acest sens. Când se confruntă cu problema multicolinearității, poate exista o dorință naturală de a elimina variabilele independente „inutile” care ar putea cauza aceasta. Cu toate acestea, trebuie amintit că pot apărea noi dificultăți în acest sens. În primul rând, este departe de a fi întotdeauna clar care variabile sunt redundante în acest sens.

Multicolinearitatea înseamnă doar o relație liniară aproximativă între factori, dar aceasta nu evidențiază întotdeauna variabilele „extra”. În al doilea rând, în multe situații, eliminarea oricăror variabile independente poate afecta în mod semnificativ sensul modelului. În cele din urmă, eliminând așa-numitele variabile esențiale, i.e. variabile independente care afectează efectiv variabila dependentă studiată, duce la o prejudecată a coeficienților modelului. În practică, de obicei, atunci când este detectată multicolinearitatea, factorul cel mai puțin semnificativ pentru analiză este eliminat, iar apoi calculele sunt repetate.

Astfel, în practică, se disting principalele metode de eliminare a multicoliniarității: schimbarea sau creșterea eșantionului, excluderea uneia dintre variabile, transformarea variabilelor multicoliniare (utilizați forme neliniare, utilizați agregate (combinații liniare de mai multe variabile), folosiți primele diferențe în loc de variabilele în sine.Cu toate acestea, dacă multicolinearitatea nu este eliminată, o puteți ignora, ținând cont de oportunitatea excluderii.

  1. Partea de proiect

2.1. Informare și suport metodologic al cercetării econometrice

Suportul informațional al cercetării econometrice include următoarele informații:

Informații de intrare:

  • date statistice privind indicatorul socio-economic, definit ca variabilă dependentă (factori – rezultate);
  • date statistice privind indicatorii socio-economici, definiți ca variabile explicative (factori – semne);

Informatii intermediare:

  • un model al ecuației de regresie, ecuația de regresie estimată, indicatori de calitate și o concluzie despre calitatea ecuației de regresie, o concluzie despre prezența (absența) unei probleme de multicoliniaritate, recomandări de utilizare a modelului;

Informații eficiente:

  • ecuația de regresie estimată, concluzia despre calitatea ecuației de regresie, concluzia despre prezența (absența) problemei multicolinearității, recomandări pentru aplicarea modelului.

Metodologia cercetării econometrice este următoarea: caietul de sarcini; parametrizare, verificare, cercetare suplimentară, prognoză.

1. Specificarea modelului de ecuație de regresie include o analiză grafică a dependenței de corelație a variabilei dependente de fiecare variabilă explicativă. Pe baza rezultatelor analizei grafice se face o concluzie despre modelul ecuației de regresie de tipuri liniare sau neliniare. Pentru analiza grafică, cel mai frecvent recomandat instrument MsExcel Scatter Chart. În urma acestei etape se determină un model al ecuației de regresie, iar în cazul unei forme neliniare se determină și metode de liniarizare a acesteia.

2. Parametrizarea ecuației de regresie include estimarea parametrilor de regresie și interpretarea lor socio-economică. Pentru parametrizare utilizați instrumentul „Regresie” ca parte a programului de completare „Analiza datelor” MsExcel. Pe baza rezultatelor analizei de regresie automată (coloana „Coeficienți”), se determină parametrii de regresie, iar interpretarea lor este dată și conform regulii standard:

Bj este valoarea cu care valoarea variabilei Y se modifică în medie pe măsură ce variabila independentă Xj crește cu unu, ceteris paribus.

Interceptarea ecuației de regresie este egală cu valoarea prezisă a variabilei dependente Y atunci când toate variabilele independente sunt zero.

3. Verificarea ecuației de regresie se realizează pe baza rezultatelor analizei de regresie automată (etapa 2) în funcție de următorii indicatori: „R-pătrat”, „Semnificație F”, „P-valoare” (pentru fiecare parametru a regresiei), precum și pe graficele de selecție și reziduuri ...

Se determină semnificația coeficienților și se evaluează calitatea modelului. Pentru aceasta, sunt luate în considerare „Semnificația F”, „Valoarea P” și „Pătratul R”. Dacă „valoarea P” este mai mică decât ecuația de semnificație statică, atunci aceasta indică semnificația coeficientului. Dacă „R-pătratul” este mai mare de 0,6, înseamnă că modelul de regresie descrie bine comportamentul variabilei dependente Y asupra factorilor variabilelor.

Dacă „semnificația F” este mai mică decât ecuația statică a semnificației, atunci coeficientul de determinare (R-pătrat) este considerat semnificativ statistic condiționat.

Graficul rezidual vă permite să estimați variația erorilor. Dacă nu există diferențe speciale între erorile corespunzătoare diferitelor valori ale lui Xi, adică variațiile erorilor pentru diferite valori ale lui Xi sunt aproximativ aceleași și se poate presupune că nu există probleme. Programul de potrivire vă permite să formați judecăți cu privire la valorile de bază, prognozate și factori.

În concluzie, se formează o judecată cu privire la calitatea ecuației de regresie.

  1. Cercetare suplimentară.

4.1 Detectarea primului semn de multicoliniaritate. Pe baza rezultatelor analizei de regresie obținute în clauzele 2-3, se verifică situația în care coeficientul de determinare are o valoare mare (R 2> 0,7) și semnificativ static (semnificație F).<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05) .Când se detectează o astfel de situație se face o concluzie despre presupunerea multicoliniarității.

4.2 Detectarea celui de-al doilea semn de multicoliniaritate. Pe baza calculelor coeficienților de corelație dintre variabilele factorilor se determină o relație semnificativă a factorilor individuali. Pentru calcule în MS Excel, este recomandabil să utilizați instrumentul Analiză/Corelare a datelor. Pe baza valorilor coeficientului de corelație se trag concluzii: cu cât mai aproape (r) de punctele extreme (± 1), cu atât este mai mare gradul de relație liniară, dacă coeficientul de corelație este mai mic de 0,5, atunci se consideră că relația este slabă. Prezența multicolinearității este presupusă în cazul următor dacă există un coeficient de corelație semnificativ între cel puțin două variabile (adică mai mare de 0,7 în modul).

4.3 Detectarea celui de-al treilea semn de multicoliniaritate. Pe baza evaluării regresiilor auxiliare între variabilele factoriale și între variabilele unde există un coeficient de corelație semnificativ (Secțiunea 4.2), se concluzionează că multicolinearitatea este prezentă dacă cel puțin într-o regresie auxiliară este semnificativă și semnificativă. Metoda regresiilor suplimentare ale coeficientului de determinare este următoarea: 1) se construiesc ecuații de regresie care leagă fiecare dintre regresori cu toți cei rămași; 2) se calculează coeficienţii de determinare R2 pentru fiecare ecuaţie de regresie; 3) dacă ecuația și coeficientul de determinare sunt considerate semnificative statistic, atunci acest regresor duce la multicoliniaritate.

4.4 Generalizarea judecăților.

Pe baza clauzelor 4.1-4.3, se formează o judecată cu privire la prezența/absența multicoliniarității și a regresorilor care conduc la multicoliniaritate.

În continuare, se formează direcțiile de utilizare a modelului (în cazul ignorării sau absenței problemei multicoliniarității) sau recomandări pentru eliminarea multicoliniarității (în practică, excluderea unei variabile).

Când excludeți o variabilă, este recomandabil să folosiți regula:

Coeficientul de determinare este determinat pentru ecuația de regresie construită inițial din n observații (R 2 1);

Prin excluderea ultimelor variabile din considerația (k), se formează o ecuație pentru factorii rămași pe baza n observații inițiale și pentru aceasta se determină coeficientul de determinare (R 2 2);

Se calculează statisticile F: unde (R 1 2 -R 2 2) este pierderea ecuației ca urmare a căderii la variabile, (K) este numărul de grade de libertate suplimentare care au apărut, (1- R 1 2) / (nml) este varianța inexplicabilă a ecuațiilor inițiale;

Valoarea critică a lui F a, k, n-m -1 se determină conform tabelelor punctelor critice ale distribuției Fisher la un nivel dat de semnificație a și grade de libertate v 1 = k, v 2 = n-m-l;

Se formează judecăți despre oportunitatea unei excepții conform regulii: excluderea (simultană) a k variabilelor din ecuație este considerată inadecvată pentru F> F a, k, n-m - 1, în caz contrar o astfel de excepție este admisibilă.

Când variabila este eliminată, modelul rezultat este analizat în conformitate cu clauzele 3-4; și este comparat cu modelul original, drept urmare, este selectat „cel mai bun”. În practică, deoarece multicoliniaritatea nu afectează calitățile predictive ale modelului, această problemă poate fi ignorată.

5. Prognoza se realizează după modelul inițial/„cel mai bun” selectat la paragraful 4.4, conform schemei de prognoză retrospectivă, în care se utilizează pentru prognoză ultima 1/3 din observații.

5.1. Prognoza punctului. Valorile reale ale variabilelor factor în perioada de prognoză sunt considerate prezise, ​​valorile prezise ale variabilei rezultante sunt determinate așa cum este prezis de modelul original / „cel mai bun” pe baza variabilelor factorilor din perioada de prognoză. Folosind instrumentul Microsoft Excel „Graph”, se trasează un grafic al valorilor reale și prezise ale variabilei rezultante în funcție de observații și se face o concluzie despre apropierea valorilor reale de cele prezise.

5.2. Prognoza pe intervale implică calcularea erorilor standard de predicție (folosind variabile fictive Salkever) și a limitelor superioare și inferioare ale valorilor prezise.

Folosind instrumentul de analiză/regresie a datelor Microsoft Excel, se construiește o regresie pentru setul de date agregat al eșantionului și perioada de prognoză, dar cu adăugarea variabilelor fictive D 1, D 2, ..., D p. În acest caz, D i = 1 numai pentru momentul observației (n + i), pentru toate celelalte momente D i = 0. Atunci coeficientul variabilei fictive D i este egal cu eroarea de predicție în timp (n + i), iar eroarea standard a coeficientului este egală cu eroarea standard de predicție (S i). Astfel, se efectuează o analiză de regresie automată a modelului, în care valorile agregate (eșantion și previzionate) ale variabilelor factorilor și valorile variabilelor fictive Salkever sunt utilizate ca valori X, iar agregatul (eșantion și prezis) valorile variabilei rezultante sunt folosite ca valori Y.

Erorile standard obținute ale coeficienților pentru variabilele fictive Salkever sunt egale cu erorile standard de predicție. Apoi limitele prognozei intervalului sunt calculate folosind următoarele formule: Ymin n + i = Yemp n + i -S i * t cr, Ymax n + i = Yemp n + i + S i * t cr, unde t cr este valoarea critică a distribuției Student, determinată de formula „= STYURASPOBR (0,05; nm-1)”, m este numărul de factori explicativi din model (Y * t), Yemp n + i sunt valorile prezise a variabilei rezultante (clauza 5.1).

Folosind instrumentul Microsoft Excel „Graph”, un grafic este construit în funcție de valorile reale și prezise ale variabilei rezultante, limitele superioare și inferioare ale prognozei pentru observații. Se face o concluzie despre potrivirea valorilor reale ale variabilei rezultante în limitele prognozei intervalului.

5.3. Evaluarea stabilității modelului folosind testul NCO se realizează după cum urmează:

a) folosind instrumentul Microsoft Excel „Analiză / Regresie a datelor”, se construiește o regresie, în care valorile agregate (eșantion și prezis) ale variabilelor factorilor sunt luate ca valori X, iar valorile agregate (eșantion și prezis) ale variabilei rezultante sunt luate ca valori Y. Această regresie este folosită pentru a determina suma pătratelor reziduurilor S;

b) conform regresiei clauzei 5.2 cu variabile fictive Salkever se determină suma pătratelor reziduurilor Sd;

c) valoarea statisticii F se calculează și se estimează prin formula:

unde p este numărul de pași predictivi. Dacă valoarea obţinută este mai mare decât valoarea critică F cr, determinată de formula „= FDISP (0,05; p; nm-1)”, atunci ipoteza privind stabilitatea modelului în perioada de prognoză este respinsă, în caz contrar este respinsă. admis.

5.4.Generalizarea judecăților despre calitățile predictive ale modelului pe baza clauzelor 5.1-5.3, ca urmare, se formează o concluzie asupra calității predictive a modelului și recomandări de utilizare a modelului pentru prognoză.

Astfel, informația și suportul metodologic dezvoltat corespunde obiectivelor principale ale studiului econometric al problemei multicolinearității în modelele de regresie multiplă.

2.2. Un exemplu de studiu econometric

Studiul este realizat pe baza datelor care reflectă indicatorii macroeconomici reali ai Federației Ruse pentru perioada 2003-2011. (tabel. 1), conform metodei clauzei 2.1.

tabelul 1

Cheltuielile casei. ferme (miliard de ruble) [Y]

Populație (milioane de oameni)

Masa de bani (miliard de ruble)

Rată de șomaj (%)

1.Specificație Modelul ecuației de regresie include o analiză grafică a dependenței de corelație a variabilei dependente Y (Cheltuielile gospodăriei pe variabila explicativă X 1 (Populație) (Fig. 1), dependența de corelație a variabilei dependente Y (Cheltuielile gospodăriei pe variabila explicativă). X 2 (Ofertă monetară) (Fig. 2), dependența de corelație a variabilei dependente Y (Cheltuielile gospodăriei de variabila explicativă X 3 (Rata șomajului) (Fig. 3).

Graficul dependenței de corelație dintre Y și X 1, prezentat în Figura 1, reflectă o dependență liniară inversă semnificativă (R 2 = 0,71) a lui Y față de X 1.

Graficul dependenței de corelație dintre Y și X 2, prezentat în Figura 2, reflectă o dependență liniară directă semnificativă (R 2 = 0,98) a lui Y față de X 2.

Graficul dependenței de corelație dintre Y și X 3, prezentat în Figura 3, reflectă o dependență liniară inversă nesemnificativă (R 2 = 0,15) a lui Y față de X 3.

Poza 1

Poza 2

Figura 3

Ca rezultat, un model de regresie multiplă liniară poate fi specificat Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3.

2.Parametrizare Ecuațiile de regresie sunt efectuate folosind instrumentul „Regresie” ca parte a suplimentelor „Analiza datelor” MsExcel (Fig. 4).

Figura 4

Ecuația de regresie estimată este:

233983.8-1605.6X 1 + 1.0X 2 + 396.22X 3.

În acest caz, coeficienții de regresie sunt interpretați astfel: cu o creștere a populației cu 1 milion de persoane, cheltuieli cu locuința. fermele scad cu 1605,6 miliarde de ruble; cu o creștere a masei monetare cu 1 miliard de ruble. cheltuielile casei. fermele vor crește cu 1,0 miliarde de ruble; cu o creștere a ratei șomajului cu 1%, cheltuielile casei. fermele vor crește cu 396,2 miliarde de ruble. Cu valori zero ale variabilelor factorilor, costurile casei. fermele se vor ridica la 233.983,8 miliarde de ruble, ceea ce, probabil, nu are nicio interpretare economică.

3.Verificare ecuația de regresie se realizează pe baza rezultatelor analizei de regresie automată (etapa 2).

Deci, „R-pătrat” este egal cu 0,998, adică ecuația de regresie descrie comportamentul variabilei dependente cu 99%, ceea ce indică un nivel ridicat de descriere a ecuației. „Semnificația lui F” este 2,14774253442155E-07, ceea ce indică faptul că „pătratul R” este semnificativ. „Valoarea P” pentru b 0 este 0,002, ceea ce indică faptul că acest parametru este semnificativ. „Valoarea P” pentru b 1 este 0,002, ceea ce indică faptul că acest coeficient este semnificativ. „Valoarea P” pentru b 2 este 8,29103190343224E-07, ceea ce indică faptul că acest coeficient este semnificativ. „Valoarea P” pentru b 3 este 0,084, ceea ce indică faptul că acest coeficient nu este semnificativ.

Pe baza graficelor reziduurilor, reziduurile e sunt valori aleatorii.

Pe baza graficelor de potrivire, se face o concluzie despre apropierea valorilor reale și prezise pentru model.

Deci, modelul este de bună calitate, în timp ce b 3 nu este semnificativ, deci putem presupune prezența multicolinearității.

4. Cercetare suplimentară.

4.1. Detectarea primului semn de multicoliniaritate. Conform datelor analizei de regresie (Figura 5), ​​putem spune că există primul semn de multicolinearitate, deoarece este detectat un R 2 mare și semnificativ, se relevă că ecuația are un coeficient de determinare ridicat, iar unul dintre coeficienții nu este semnificativ. Aceasta sugerează prezența multicoliniarității.

4.2 Detectarea celui de-al doilea semn de multicoliniaritate.

Pe baza calculelor coeficienților de corelație dintre variabilele factorilor se determină o relație semnificativă a factorilor individuali. (Masa 2). Prezența multicoliniarității este presupusă în cazul următor dacă există un coeficient de corelație semnificativ între cel puțin două variabile (adică mai mare de 0,5 în modul).

masa 2

[ X2]

[ X3]

[ X2]

[ X3]

În cazul nostru, există un coeficient de corelație între X 1 și X 2 (-0,788), ceea ce indică o dependență puternică între variabilele X 1, X 2, există și un coeficient de corelație între X 1 și X 3 (0,54), ceea ce indică o dependență puternică între variabilele X 1, X 3.

Ca urmare, se poate presupune prezența multicolinearității.

4.3 Detectarea celui de-al treilea semn de multicoliniaritate.

Deoarece în Secțiunea 4.2 a fost găsită o relație puternică între variabilele X 1 și X 2, atunci este analizată regresia auxiliară între aceste variabile (Fig. 5).

Figura 5

Deoarece „semnificația F” este 0,01, ceea ce indică faptul că „R-pătratul” și regresia auxiliară sunt semnificative, se poate presupune că regresorul X 2 duce la multicoliniaritate.

Deoarece în Secțiunea 4.2 a fost găsită o relație între variabilele X 1 și X 3 peste nivelul mediu, atunci este analizată regresia auxiliară între aceste variabile (Fig. 6).

Figura 6

Deoarece „semnificația F” este 0,13, ceea ce indică faptul că „R-pătratul” și regresia auxiliară nu sunt semnificative, se poate presupune că regresorul X 3 nu duce la multicoliniaritate.

Deci, conform celei de-a treia caracteristici, se poate presupune prezența multicoliniarității.

4.4 Generalizarea judecăților.

Conform analizei paragrafelor 4.1-4.3, s-au găsit toate cele trei semne de multicolinearitate, deci se poate presupune cu o mare probabilitate. În același timp, în ciuda ipotezei din Secțiunea 4.3 privind regresorul care duce la multicoliniaritate, este posibil să se recomande excluderea lui X 3 din modelul original, deoarece X 3 are cel mai mic coeficient de corelație cu Y și coeficientul acestui regresor este nesemnificativ în ecuația originală. Rezultatele analizei de regresie după excluderea X 3 sunt prezentate în Fig. 7.

Figura 7

În acest caz, vom calcula F - statistici pentru a verifica fezabilitatea excluderii:

Fapt F = 4,62,

și F tab = F 0,05, 1, 5 = 6,61, deoarece F fapt< F табл, то исключение допустимо для переменной X 3 .

Evaluarea calității modelului de regresie multiplă liniară Y = b 0 + b 1 X 1 + b 2 X 2. „R-pătratul” este 0,996, adică ecuația de regresie descrie comportamentul variabilei dependente cu 99%, ceea ce indică un nivel ridicat de descriere a ecuației. „Semnificația F” este 3,02415218982089E-08, ceea ce indică faptul că „pătratul R” este semnificativ. „Valoarea P” pentru b 0 este 0,004, ceea ce indică faptul că acest parametru este semnificativ. „Valoarea P” pentru b 1 este 0,005, ceea ce indică faptul că acest coeficient este semnificativ. „Valoarea P” pentru b 2 este 3,87838361673427E-07, ceea ce indică faptul că acest coeficient este semnificativ. Ecuația de regresie estimată este:

201511,7 -1359,6X 1 + 1,01X 2

În acest caz, coeficienții de regresie sunt interpretați astfel: cu o scădere a populației cu 1 milion de persoane, costurile casei. fermele scad cu 1.359,6 miliarde de ruble; cu o creștere a nivelului masei monetare, cheltuielile casei. fermele vor crește cu 1,0) (miliard de ruble). Cu valori zero ale variabilelor factorilor, costurile casei. fermele se vor ridica la 201511,7 miliarde de ruble, ceea ce poate avea o interpretare economică.

Deci, modelul = 201511.7 -1359.6X 1 + 1.01X 2 este de bună calitate și este recomandat pentru prognoză ca fiind „cel mai bun” în comparație cu modelul original.

5. Prognoza.

5.1 Predicția punctului. Valorile reale ale variabilelor factor în perioada de prognoză sunt considerate prezise, ​​valorile prezise ale variabilei rezultante sunt determinate așa cum este prezis de modelul „cel mai bun” (= 201511.7 -1359.6X 1 + 1.01X 2) pe baza variabilele factorilor din perioada de prognoză. Folosind instrumentul Microsoft Excel „Graph”, se trasează un grafic al valorilor reale și prezise ale variabilei rezultante în funcție de observații și se face o concluzie despre apropierea valorilor reale de cele prezise.

Valorile prezise ale variabilelor factoriale sunt prezentate în Tabelul 3.

Tabelul 3

Valorile prezise ale variabilei efective sunt determinate așa cum este prezis de modelul „cel mai bun” (= 201511.7 -1359.6X 1 + 1.01X 2) pe baza variabilelor factorilor din perioada de prognoză. Valorile prezise sunt prezentate în Tabelul 4; valorile reale sunt adăugate pentru comparație.

Tabelul 4

[Y] empiric

Figura 8 prezintă valorile reale și prognozate ale variabilei rezultate, precum și limitele inferioare și superioare ale prognozei.

Figura 8

Conform Fig. 8, prognoza păstrează o tendință de creștere, iar toate valorile prognozate sunt apropiate de cele reale.

5.2. Prognoza intervalului.

Folosind instrumentul de analiză/regresie a datelor Microsoft Excel, se construiește o regresie pentru setul de date agregat al eșantionului și perioada de prognoză, dar cu adăugarea variabilelor fictive D 1, D 2, ..., D p. În acest caz, D i = 1 numai pentru momentul observației (n + i), pentru toate celelalte momente D i = 0. Datele sunt prezentate în Tabelul 5, rezultatul regresiei în Fig. 9.

Tabelul 5

[Y] bufnițe

Figura 9

Atunci eroarea standard a coeficientului pentru variabila dummy este egală cu eroarea standard de predicție (S i): pentru 2012 va fi 738,5; pentru 2013 va fi 897,1; pentru 2014 va fi 1139,4.

Limitele intervalului de prognoză sunt calculate în Tabelul 6.

Tabelul 6

[Y] empiric

[Y] bufnițe

[S] pr

Conform tabelului. 6, folosind instrumentul Microsoft Excel „Graph”, se construiește un grafic în funcție de valorile reale și prezise ale variabilei rezultante, limitele superioare și inferioare ale prognozei pentru observații (Fig. 10).

Figura 10

Conform graficului, valorile prezise se încadrează în limitele prognozei interval, ceea ce indică o bună calitate a prognozei.

5.3. Evaluarea stabilității modelului folosind testul NCO se efectuează după cum urmează:

a) folosind instrumentul Microsoft Excel „Analiză / Regresie a datelor”, se construiește o regresie (Fig. 11), unde valorile agregate (eșantion și prognoză) ale variabilelor factor sunt luate ca valori X, iar agregatul ( eșantion și prognoză) valorile sunt luate ca valori Y variabila rezultat. Această regresie este utilizată pentru a determina suma pătratelor reziduurilor S = 2058232,333.

Figura 11

b) prin regresia itemului 3.2 cu variabile fictive Salkever (Fig. 9) se determină suma pătratelor reziduurilor Sd = 1270272,697.

c) se calculează și se evaluează valoarea statisticii F:

în timp ce F cr = F 0,05; 3; 5 = 5,40, atunci valoarea obţinută este mai mică decât valoarea critică F cr şi se acceptă ipoteza privind stabilitatea modelului în perioada de prognoză.

5.4 Generalizarea judecăților despre calitățile predictive ale modelului pe baza clauzelor 5.1-5.3, ca urmare, se formează o concluzie asupra calității predictive ridicate a modelului (= 201511.7 -1359.6X 1 + 1.01X 2) și se dau recomandări privind utilizarea modelului pentru prognoză.

Tehnica clauzei 2.1 a fost testată cu succes, ne permite să identificăm principalele semne de multicolinearitate și poate fi recomandată pentru astfel de studii.

Concluzie

Multicolinearitate - în econometrie (analiza de regresie) - prezența unei relații liniare între variabilele (factorii) explicative ale modelului de regresie. În același timp, se face distincția între coliniaritatea completă, ceea ce înseamnă prezența unei relații liniare funcționale (identice) și coliniaritatea parțială sau pur și simplu, ceea ce înseamnă prezența unei corelații puternice între factori.

Principalele consecințe ale multicolinearității sunt: ​​variații mari ale estimărilor, o scădere a statisticii t a coeficienților, estimările coeficienților folosind metoda celor mai mici pătrate devin instabile, este dificil să se determine contribuția variabilelor și un semn incorect al coeficientului este obținut.

Principalele criterii de detectare a multicolinearității sunt următoarele: R 2 ridicat cu coeficienți nesemnificativi; Coeficienți de corelație perechi mari; valori mari ale coeficientului VIF.

Principalele metode de eliminare a multicolinearității sunt: ​​excluderea variabilei (variabilelor) din model; obținerea de date suplimentare sau un eșantion nou; modificarea specificațiilor modelului; utilizarea informaţiilor preliminare despre unii parametri.

Informațiile și suportul metodologic elaborat corespund obiectivelor principale ale studiului econometric al problemei multicolinearității în modelele de regresie multiplă și pot fi recomandate pentru astfel de studii.

Lista surselor utilizate

  1. Astahov, S.N. Econometrie [Text]: Complex educativ-metodic. Kazan, 2008 .-- 107s.
  2. Bardasov, S. A. ECONOMETRIE [Text]: un tutorial. Ed. a II-a, Rev. si adauga. Tyumen: Editura Universității de Stat Tyumen, 2010.264 p.
  3. Borodkina, L.I. Un curs de prelegeri [Resurse electronice]. Mod de acces - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboinikov, Yu. ECONOMETRICĂ în EXCEL Partea 1 [Text]: ghid de studiu, Novosibirsk 2005,156 p.
  5. Eliseeva, I.I. Atelier de econometrie: manual. ghid pentru economie. universități / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [si etc.] ; ed. I.I. Eliseeva - M .: Finanțe și Statistică, 2001 .-- 191 p. - (14126-1).
  6. Multicolinearitate [Resursă electronică]. Mod de acces - https://ru.wikipedia.org/wiki/Multicolinearity.
  7. Novikov, A.I. Econometrie [Text]: manual. manual de ex. „Finanțe și credit”, „Economie” - M .: Dashkov și K, 2013. - 223 p. - (93895-1).
  8. Problema multicolinearității [Resursa electronică]. Mod de acces - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak V. Econometrie aplicată. Prelegerea nr. 9 [Resursa electronica]. Mod de acces http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - site enciclopedic [Resursă electronică]. Mod de acces - http://kodcupon.ru/ra17syplinoe97/ Multicolinearitate.

Descarca: Nu aveți acces pentru a descărca fișiere de pe serverul nostru.

Agenția Federală pentru Educație și Știință a Federației Ruse

Universitatea Tehnologică de Stat Kostroma.

Catedra de Matematică Superioară

pe econometrie pe tema:

Multicoliniaritate

Efectuat

student anul 1

facultatea de corespondenta

sp-t „Contabilitate,

analiză și audit”.

Verificat

Katejna S.F.

Kostroma 2008


Multicoliniaritate

Multicolinearitatea este înțeleasă ca o corelație reciprocă ridicată a variabilelor explicative. Multicoliniaritatea se poate manifesta în forme funcționale (explicite) și stocastice (latente).

În forma funcțională a multicolinearității, cel puțin una dintre relațiile de pereche dintre variabilele explicative este o dependență funcțională liniară. În acest caz, matricea X`X este specială, deoarece conține vectori coloană dependenți liniar, iar determinantul său este egal cu zero, adică. se încalcă premisa analizei de regresie, ceea ce duce la imposibilitatea rezolvării sistemului corespunzător de ecuații normale și a obținerii de estimări ale parametrilor modelului de regresie.

Totuși, în cercetarea economică, multicolinearitatea se manifestă adesea într-o formă stocastică, când există o strânsă corelație între cel puțin două variabile explicative. Matricea X`X în acest caz este nesingulară, dar determinantul său este foarte mic.

În același timp, vectorul estimărilor b și matricea sa de covarianță ∑ b sunt proporționale cu matricea inversă (X`X) -1, ceea ce înseamnă că elementele lor sunt invers proporționale cu valoarea determinantului | X`X |. Ca urmare, se obțin abateri standard semnificative (erori standard) ale coeficienților de regresie b 0, b 1,…, bp și evaluarea semnificației acestora prin criteriul t nu are sens, deși în general modelul de regresie poate fi întors. a fost semnificativă după criteriul F.

Estimările devin foarte sensibile la mici modificări ale observațiilor și ale dimensiunii eșantionului. Ecuațiile de regresie în acest caz, de regulă, nu au o semnificație reală, deoarece unii dintre coeficienții săi pot avea semne care sunt incorecte din punctul de vedere al teoriei economice și valori nejustificat de mari.

Nu există criterii cantitative precise pentru a determina prezența sau absența multicoliniarității. Cu toate acestea, există câteva abordări euristice pentru detectarea acestuia.

O astfel de abordare este analizarea matricei de corelație dintre variabilele explicative X 1, X 2, ..., X p și identificarea perechilor de variabile cu variabile de corelație ridicate (de obicei mai mari de 0,8). Dacă astfel de variabile există, se vorbește de multicoliniaritate între ele. De asemenea, este util să se găsească mai mulți coeficienți de determinare între una dintre variabilele explicative și un grup dintre acestea. Prezența unui coeficient de determinare multiplu mare (de obicei mai mare de 0,6) indică multicoliniaritate.

O altă abordare este examinarea matricei X`X. Dacă determinantul matricei X`X sau valoarea sa proprie minimă λ min sunt aproape de zero (de exemplu, de același ordin de mărime cu erorile de calcul acumulate), atunci aceasta indică prezența multicolinearității. acelaşi lucru poate fi evidenţiat printr-o abatere semnificativă a valorii proprii maxime λ max a matricei X`X de la valoarea sa proprie minimă λ min.

O serie de metode sunt utilizate pentru a elimina sau reduce multicoliniaritatea. Cea mai simplă dintre ele (dar departe de a fi întotdeauna posibilă) este aceea a două variabile explicative cu un coeficient de corelație ridicat (mai mare de 0,8), o variabilă fiind exclusă din luare în considerare. În același timp, ce variabilă să părăsească și pe care să o elimine din analiză se decide în primul rând pe baza considerentelor economice. Daca, din punct de vedere economic, nici una dintre variabile nu poate fi preferata, atunci se lasa cea dintre cele doua variabile care are un coeficient de corelatie mai mare cu variabila dependenta.

O altă metodă de eliminare sau de reducere a multicoliniarității este trecerea de la estimări nepărtinitoare determinate prin metoda celor mai mici pătrate la estimări părtinitoare care au, totuși, mai puțină împrăștiere în raport cu parametrul estimat, de exemplu. așteptarea matematică mai mică a pătratului abaterii estimării b j de la parametrul β j sau M (b j - β j) 2.

Estimările determinate de vector, în conformitate cu teorema Gauss-Markov, au varianțe minime în clasa tuturor estimărilor liniare nepărtinitoare, dar în prezența multicolinearității, aceste variații se pot dovedi prea mari și, îndreptându-se către valorile corespunzătoare estimările părtinitoare pot crește acuratețea estimării parametrilor de regresie. Figura prezintă cazul în care estimarea părtinitoare β j ^, a cărei distribuție a eșantionului este dată de densitatea φ (β j ^).

Într-adevăr, să fie intervalul de încredere maxim admisibil pentru parametrul estimat β j (β j -Δ, β j + Δ). Atunci probabilitatea de încredere, sau fiabilitatea estimării, determinată de aria de sub curba de distribuție în intervalul (β j -Δ, β j + Δ), așa cum este ușor de observat din figură, va fi în acest caz mai mare pentru estimarea β j comparativ cu bj (în figură, aceste zone sunt umbrite). În consecință, pătratul mediu al abaterii estimării de la parametrul estimat va fi mai mic pentru o estimare părtinitoare, adică:

M (β j ^ - β j) 2< M (b j - β j) 2

Când se utilizează regresia crestei (sau regresia crestei), în loc de estimări nepărtinitoare, estimări părtinitoare date de vector

β τ ^ = (X`X + τ E p +1) -1 X`Y,

Unde τ – un număr pozitiv, numit „crestă” sau „crestă”,

E p +1 este (р + 1) matricea unității de ordinul --lea.

Adăugând τ la elementele diagonale ale matricei X`X face ca estimările parametrilor modelului să fie părtinite, dar în același timp determinantul matricei sistemului de ecuații normale crește - în loc de (X`X) din va fi egal cu

| X`X + τ E p +1 |

Astfel, devine posibilă excluderea multicolinearității în cazul în care determinantul | X`X | este aproape de zero.

Pentru a elimina multicoliniaritatea, se poate folosi trecerea de la variabilele explicative originale X 1, X 2, ..., X n, interconectate printr-o dependență de corelație destul de strânsă, la variabile noi reprezentând combinații liniare ale celor inițiale. În acest caz, noile variabile ar trebui să fie slab corelate sau, în general, necorelate. Ca astfel de variabile, luăm, de exemplu, așa-numitele componente principale ale vectorului variabilelor explicative inițiale studiate în analiza componentelor și luăm în considerare regresia asupra componentelor principale, în care acestea din urmă acționează ca variabile explicative generalizate supuse unor semnificații suplimentare ( economic) interpretare.

Ortogonalitatea componentelor principale previne manifestarea efectului de multicoliniaritate. În plus, metoda aplicată permite să se limiteze la un număr mic de componente principale cu un număr relativ mare de variabile explicative inițiale.

Multicoliniaritate - este un termen folosit pentru a descrie o problemă în care o relație liniară slabă între variabilele explicative duce la estimări de regresie nesigure. Desigur, o astfel de relație nu oferă neapărat evaluări nesatisfăcătoare. Dacă toate celelalte condiții sunt favorabile, adică dacă numărul de observații și variațiile eșantionului ale variabilelor explicative sunt mari, iar varianța termenului aleatoriu este mică, atunci, ca urmare, se pot obține estimări destul de bune.

Deci, multicoliniaritatea ar trebui să fie cauzată de o combinație între o dependență slabă și una (sau mai multe) condiții nefavorabile și aceasta este întrebarea

gravitatea fenomenului și nu tipul acestuia. Orice scor de regresie va avea de suferit într-o oarecare măsură, cu excepția cazului în care toate variabilele explicative sunt complet necorelate. Luarea în considerare a acestei probleme începe numai atunci când afectează serios rezultatele estimării regresiei.

Această problemă este comună în regresiile seriilor de timp, adică atunci când datele sunt compuse dintr-o serie de observații pe o perioadă de timp. Dacă două sau mai multe variabile explicative au o tendință temporală puternică, atunci ele vor fi strâns corelate, iar acest lucru poate duce la multicoliniaritate.


Ce se poate face în acest caz?

Diferitele metode care pot fi utilizate pentru atenuarea multicolinearității se împart în două categorii: prima categorie include încercări de îmbunătățire a gradului în care sunt îndeplinite patru condiții care asigură fiabilitatea estimărilor de regresie; a doua categorie este utilizarea informațiilor externe. Dacă este posibil, datele obținute direct sunt utilizate mai întâi, atunci ar fi evident util să creștem numărul de observații.

Dacă utilizați date din seria temporală, puteți face acest lucru prin scurtarea duratei fiecărei perioade de timp. De exemplu, atunci când evaluați ecuațiile funcției cererii din exercițiile 5.3 și 5.6, puteți trece de la utilizarea datelor anuale la datele trimestriale.

După aceea, în loc de 25 de observații, vor fi 100. Acest lucru este atât de evident și atât de ușor de făcut încât majoritatea cercetătorilor care folosesc serii de timp folosesc aproape automat date trimestriale, dacă sunt disponibile, în locul datelor anuale, chiar dacă problema multicolinearității. nu merită, doar pentru a reduce la minim variațiile teoretice ale coeficienților de regresie. Există, totuși, potențiale probleme cu această abordare. Autocorelația poate fi introdusă sau îmbunătățită, dar poate fi neutralizată. În plus, părtinirea datorată erorilor de măsurare poate fi introdusă (sau amplificată) dacă datele trimestriale sunt măsurate cu mai puțină precizie decât datele anuale corespunzătoare. Această problemă nu este ușor de rezolvat, dar poate să nu fie semnificativă.