Definisi multikolinearitas. Penyebab dan Akibat Multikolinearitas

Multikolinearitas Merupakan hubungan linier antara dua atau lebih variabel faktorial dalam persamaan regresi berganda. Jika ketergantungan seperti itu berfungsi, maka seseorang berbicara tentang multikolinearitas penuh... Jika berkorelasi, maka multikolinearitas parsial... Jika multikolinearitas penuh lebih merupakan abstraksi teoretis (ia memanifestasikan dirinya, khususnya, jika variabel dummy memiliki k tingkat kualitas, ganti dengan k variabel dikotomis), maka multikolinearitas parsial sangat nyata dan hampir selalu ada. Kita hanya bisa berbicara tentang tingkat keparahannya. Misalnya, jika variabel penjelas mencakup pendapatan dan konsumsi yang dapat dibelanjakan, maka kedua variabel ini tentu saja akan sangat berkorelasi.

Tidak adanya multikolinearitas merupakan salah satu prasyarat yang diinginkan dari model linier berganda klasik. Hal ini karena pertimbangan sebagai berikut:

1) Dalam kasus multikolinearitas lengkap, umumnya tidak mungkin untuk membuat estimasi parameter regresi berganda linier menggunakan OLS.

2) Dalam kasus multikolinearitas parsial, estimasi parameter regresi mungkin tidak dapat diandalkan dan, sebagai tambahan, sulit untuk menentukan

kontribusi terisolasi faktor untuk indikator yang efektif.

Alasan utama terjadinya multikolinearitas adalah adanya proses pada objek yang diteliti yang secara simultan mempengaruhi beberapa variabel input, tetapi tidak diperhitungkan dalam model. Ini mungkin hasil dari studi berkualitas rendah dari area subjek atau kompleksitas keterkaitan parameter objek yang dipelajari.

Multikolinearitas diduga sebagai:

- sejumlah besar faktor tidak signifikan dalam model;

- kesalahan standar yang besar dari parameter regresi;

- ketidakstabilan perkiraan (perubahan kecil pada data awal menyebabkan perubahan signifikan).

Salah satu pendekatan untuk menentukan ada tidaknya multikolinearitas adalah dengan menganalisis matriks korelasi

antara variabel penjelas dan mengidentifikasi pasangan faktor dengan koefisien korelasi pasangan yang tinggi (biasanya lebih dari 0,7). Jika faktor-faktor tersebut ada, maka ada kolinearitas yang jelas di antara mereka.

Namun, koefisien korelasi berpasangan, yang dipertimbangkan secara individual, tidak dapat menilai interaksi kumulatif dari beberapa faktor (dan bukan hanya dua).

Oleh karena itu, untuk menilai adanya multikolinearitas dalam model, determinan matriks koefisien korelasi berpasangan antar faktor ( determinan matriks korelasi antar faktor)

Semakin dekat determinan matriks korelasi antar faktor ke 0, semakin kuat multikolinearitas, dan sebaliknya, semakin dekat determinan ke 1, semakin sedikit multikolinearitas.


Signifikansi statistik dari multikolinearitas faktor ditentukan dengan menguji hipotesis nol di bawah hipotesis alternatif. Distribusi Pearson dengan derajat kebebasan digunakan untuk menguji hipotesis nol. Nilai statistik yang diamati ditemukan dengan rumus, di mana n- jumlah pengamatan, M- jumlah faktor. Untuk tingkat signifikansi tertentu, nilai kritis ditentukan dari tabel titik kritis distribusi Pearson. Jika, maka hipotesis ditolak dan dianggap terdapat multikolinearitas faktor dalam model.

Faktor-faktor yang mempengaruhi multikolinearitas juga dapat dibedakan dengan menganalisis koefisien determinasi berganda, yang dihitung dengan syarat bahwa masing-masing faktor dianggap sebagai variabel terikat dari faktor lain:,,…,. Semakin dekat ke 1, semakin kuat multikolinearitas faktor. Ini berarti bahwa faktor-faktor dengan nilai minimum dari koefisien determinasi berganda harus dibiarkan dalam persamaan.

Adapun multikolinearitas lengkap, perjuangan yang paling menentukan harus dilancarkan dengan itu: segera menghapus variabel persamaan regresi yang merupakan kombinasi linier dari variabel lain.

Multikolinearitas parsial bukanlah kejahatan yang serius sehingga harus diidentifikasi dan dihilangkan. Itu semua tergantung pada tujuan penelitian. Jika tugas utama pemodelan hanya untuk memprediksi nilai variabel dependen, maka dengan koefisien determinasi yang cukup besar () keberadaan multikolinearitas tidak mempengaruhi kualitas prediksi model. Jika tujuan pemodelan juga untuk menentukan kontribusi masing-masing faktor terhadap perubahan variabel dependen, maka adanya multikolinearitas merupakan masalah serius.

Metode paling sederhana untuk menghilangkan multikolinearitas adalah dengan mengecualikan satu atau beberapa variabel yang berkorelasi dari model.

Karena multikolinearitas secara langsung tergantung pada sampel, ada kemungkinan bahwa dengan sampel yang berbeda, tidak akan ada multikolinearitas sama sekali, atau tidak akan begitu serius. Oleh karena itu, untuk mengurangi multikolinearitas, dalam beberapa kasus, cukup dengan menambah ukuran sampel.

Kadang-kadang masalah multikolinearitas dapat diselesaikan dengan mengubah spesifikasi model: baik bentuk model berubah, atau faktor ditambahkan yang tidak diperhitungkan dalam model asli, tetapi secara signifikan mempengaruhi variabel dependen.

Dalam beberapa kasus, multikolinearitas dapat diminimalkan atau dihilangkan sama sekali dengan mentransformasikan variabel faktor. Dalam hal ini, transformasi berikut paling umum:

1. Kombinasi linier variabel multikolinear (misalnya,).

2. Mengganti variabel multikolinear dengan kenaikannya.

3. Pembagian satu variabel collinear dengan yang lain.

Misalkan kita sedang mempertimbangkan persamaan regresi dan data untuk estimasinya berisi pengamatan untuk objek dengan kualitas berbeda: untuk pria dan wanita, untuk kulit putih dan kulit hitam. pertanyaan yang mungkin menarik bagi kita di sini adalah sebagai berikut - benarkah model yang dipertimbangkan bertepatan untuk dua sampel yang terkait dengan objek dengan kualitas berbeda? Anda dapat menjawab pertanyaan ini dengan menggunakan tes Chow.

Pertimbangkan modelnya:

, Saya=1,…,n (1);

, Saya=n+1,…,n+M (2).

Pada sampel pertama n pengamatan, di kedua - M pengamatan. Contoh: kamu- upah, menjelaskan variabel - usia, masa kerja, tingkat pendidikan. Apakah mengikuti dari data yang ada bahwa model ketergantungan upah pada variabel penjelas di sebelah kanan adalah sama untuk laki-laki dan perempuan?

Untuk menguji hipotesis ini, Anda dapat menggunakan skema pengujian hipotesis umum dengan membandingkan regresi terbatas dan regresi tidak terbatas. Regresi tanpa kendala di sini adalah gabungan dari regresi (1) dan (2), yaitu. ESS UR = ESS 1 + ESS 2, jumlah derajat kebebasan - n + M - 2k... Regresi terbatas (yaitu, regresi dengan asumsi bahwa hipotesis nol terpenuhi) akan menjadi regresi untuk seluruh rangkaian pengamatan yang tersedia:

, Saya = 1,…, n+M (3).

Menaksir (3), kita peroleh ESS R... Untuk menguji hipotesis nol, kami menggunakan statistik berikut:

Yang mana, jika hipotesis nol benar, memiliki distribusi Fisher dengan jumlah derajat kebebasan pembilang k dan penyebut n+ M- 2k.

Jika hipotesis nol benar, kita dapat menggabungkan sampel yang tersedia menjadi satu dan memperkirakan model untuk n+M pengamatan. Jika kita menolak hipotesis nol, maka kita tidak dapat menggabungkan dua sampel menjadi satu, dan kita harus mengevaluasi kedua model ini secara terpisah.


Studi tentang model linier umum, yang telah kita bahas sebelumnya, sangat penting, seperti yang telah kita lihat, berdasarkan peralatan statistik. Namun seperti pada semua aplikasi sobat. statistik, kekuatan suatu metode tergantung pada asumsi yang mendasarinya dan yang diperlukan untuk penerapannya. Untuk sementara, kami akan mempertimbangkan situasi di mana satu atau lebih hipotesis yang mendasari model linier dilanggar. Kami akan mempertimbangkan metode penilaian alternatif dalam kasus ini. Kita akan melihat bahwa peran beberapa hipotesis lebih signifikan daripada peran yang lain. Kita perlu melihat apa konsekuensi pelanggaran kondisi (asumsi) tertentu dapat menyebabkan, dapat memeriksa apakah mereka puas atau tidak, dan mengetahui metode statistik apa yang dapat dan harus diterapkan ketika metode kuadrat terkecil klasik tidak cocok.

1. Hubungan antar variabel adalah linier dan dinyatakan dengan persamaan - kesalahan spesifikasi model (tidak dimasukkannya variabel penjelas yang signifikan dalam persamaan, dimasukkannya variabel yang tidak perlu dalam persamaan, pilihan bentuk ketergantungan yang salah antara variabel variabel);


2. x 1 ,…,X k- variabel deterministik - regresi stokastik, bebas linier - multikolinearitas penuh;

4. - heteroskedastisitas;

5.kapan Saya ¹ k- autokorelasi kesalahan

Sebelum memulai percakapan, perhatikan konsep berikut: koefisien korelasi pasangan dan koefisien korelasi parsial.

Misalkan kita sedang menyelidiki pengaruh satu variabel pada variabel lain ( kamu dan x). Untuk memahami bagaimana variabel-variabel ini terkait satu sama lain, kami menghitung koefisien korelasi pasangan menggunakan rumus berikut:

Jika kita mendapatkan nilai koefisien korelasi yang mendekati 1, kita menyimpulkan bahwa variabel-variabel tersebut berhubungan cukup kuat satu sama lain.

Namun, jika koefisien korelasi antara dua variabel yang diminati mendekati 1, mereka mungkin tidak benar-benar bergantung. Kasus orang sakit jiwa dan radio adalah contoh dari apa yang disebut "korelasi palsu". Nilai koefisien korelasi yang tinggi juga dapat disebabkan oleh adanya variabel ketiga yang berpengaruh kuat pada dua variabel pertama, yang menjadi alasan tingginya korelasi tersebut. Oleh karena itu, muncul masalah dalam menghitung korelasi "murni" antara variabel x dan kamu, yaitu, korelasi di mana pengaruh (linier) variabel lain dikecualikan. Untuk ini, konsep koefisien korelasi parsial diperkenalkan.

Jadi, kami ingin menentukan koefisien korelasi parsial antara variabel x dan kamu, tidak termasuk pengaruh linier variabel Z... Untuk menentukannya, prosedur berikut digunakan:

1. Kami memperkirakan regresi,

2. Kami mendapatkan sisa,

3. Kami memperkirakan regresi,

4. Kami mendapatkan sisa makanan,

5. - koefisien sampel korelasi parsial, mengukur tingkat hubungan antar variabel x dan kamu, dibersihkan dari pengaruh variabel Z.

Perhitungan langsung:

Properti:

Prosedur untuk membangun koefisien korelasi parsial digeneralisasikan jika kita ingin menghilangkan pengaruh dua variabel atau lebih.


1. Multikolinearitas sempurna.

Salah satu persyaratan Gauss-Markov memberitahu kita bahwa variabel penjelas tidak boleh berhubungan dalam hubungan yang tepat. Jika ada hubungan seperti itu antara variabel, kita mengatakan bahwa model memiliki multikolinearitas sempurna. Contoh. Pertimbangkan model dengan skor ujian rata-rata yang terdiri dari tiga variabel penjelas: Saya- pendapatan orang tua, D- rata-rata jumlah jam yang dihabiskan untuk pelatihan per hari, W- jumlah rata-rata jam yang dihabiskan untuk pelatihan per minggu. Jelas bahwa W=7D... Dan rasio ini akan terpenuhi untuk setiap siswa yang termasuk dalam sampel kami. Kasus multikolinearitas lengkap mudah dilacak, karena dalam kasus ini tidak mungkin untuk membuat estimasi menggunakan metode kuadrat terkecil.

2. Multikolinearitas parsial atau multikolinieritas sederhana.

Situasi yang jauh lebih umum adalah ketika tidak ada hubungan linier yang tepat antara variabel penjelas, tetapi ada korelasi yang erat di antara mereka - kasus ini disebut multikolinearitas nyata atau parsial (hanya multikolinearitas) - adanya hubungan statistik yang erat antara variabel. Harus dikatakan bahwa masalah multikolinearitas lebih merupakan masalah derajat manifestasi fenomena, daripada jenisnya. Skor regresi apa pun akan menderita karenanya dalam satu atau lain bentuk, kecuali semua variabel penjelas sama sekali tidak berkorelasi. Pertimbangan masalah ini dimulai hanya ketika masalah itu mulai berdampak serius pada hasil estimasi regresi (adanya hubungan statistik antara regressor tidak selalu memberikan estimasi yang tidak memuaskan). Jadi multikolinearitas adalah masalah di mana korelasi yang erat antara regressor mengarah pada estimasi regresi yang tidak dapat diandalkan.

Konsekuensi dari multikolinearitas:

Secara formal, sejak ( x"x) Apakah non-degenerate, maka kita dapat membuat estimasi OLS dari koefisien regresi. Namun, mari kita ingat bagaimana varians teoretis dari estimasi koefisien regresi dinyatakan:, di mana sebuah ii - Saya elemen diagonal matriks. Karena matriks (X "X) mendekati degenerasi dan det ( x"x) »0, maka

1) ada bilangan yang sangat besar pada diagonal utama dari matriks invers, karena elemen-elemen dari matriks invers berbanding terbalik dengan det ( x"x). Oleh karena itu, varians teoritis Saya koefisien -th cukup besar dan estimasi varians juga besar, oleh karena itu, T- statistik kecil, yang dapat menyebabkan statistik tidak signifikan Saya koefisien th. Artinya, variabel memiliki pengaruh yang signifikan terhadap variabel yang dijelaskan, dan kami menyimpulkan bahwa itu tidak signifikan.

2) Karena perkiraan dan bergantung pada ( x"x) -1, yang elemen-elemennya berbanding terbalik dengan det ( x"x), maka jika kita menambahkan atau menghapus satu atau dua pengamatan, menambah atau menghapus, dengan demikian, satu atau dua baris ke matriks x"x, maka nilai dan dapat berubah secara signifikan, hingga perubahan tanda - ketidakstabilan hasil estimasi.

3) Kesulitan dalam menginterpretasikan persamaan regresi. Katakanlah kita memiliki dua variabel dalam persamaan yang terkait satu sama lain: x 1 dan x 2. Koefisien regresi pada x 1 diartikan sebagai ukuran perubahan kamu dengan mengganti x 1 ceteris paribus, yaitu nilai semua variabel lainnya tetap sama. Namun, karena variabel NS 1 dan NS 2 terhubung, maka perubahan variabel NS 1 akan menyebabkan perubahan variabel yang dapat diprediksi NS 2 dan nilai NS 2 tidak akan tetap sama.

Contoh: dimana NS 1 - luas total, NS 2 - ruang tamu. Kami mengatakan: "Jika ruang tamu bertambah 1 sq. M., Kemudian, semua hal lain dianggap sama, harga apartemen akan naik USD." Namun, dalam hal ini, ruang tamu juga akan bertambah 1 sq. m. dan kenaikan harga akan. Menggambarkan Pengaruh pada Variabel kamu setiap variabel secara terpisah tidak mungkin lagi. Jalan keluar dalam situasi ini dengan harga apartemen adalah memasukkan dalam model bukan luas total, tetapi apa yang disebut luas "tambahan" atau "tambahan".

Tanda-tanda multikolinearitas.

Tidak ada kriteria yang tepat untuk menentukan ada (tidak adanya) multikolinearitas. Namun, ada rekomendasi heuristik untuk mendeteksinya:

1) Menganalisis matriks koefisien korelasi berpasangan antara regressor dan jika nilai koefisien korelasi mendekati 1, maka ini dianggap sebagai tanda multikolinearitas.

2) Analisis matriks korelasi hanya merupakan penilaian dangkal tentang ada (tidak adanya) multikolinearitas. Sebuah studi yang lebih hati-hati tentang masalah ini dicapai dengan menghitung koefisien korelasi parsial atau menghitung koefisien determinasi untuk masing-masing variabel penjelas untuk semua variabel penjelas lainnya dalam regresi.

4) (NSx) Merupakan matriks definit positif simetris; oleh karena itu, semua nilai eigennya nonnegatif. Jika determinan matriks ( NSx) sama dengan nol, maka nilai eigen minimum juga nol dan kontinuitas dipertahankan. Akibatnya, nilai manimal eigenvalue juga dapat dinilai dari kedekatannya dengan nol dari determinan matriks ( NSx). Selain sifat ini, nilai eigen minimum juga penting karena kesalahan standar koefisien berbanding terbalik.

5) Adanya multikolinearitas dapat dinilai dari tanda-tanda eksternal yang merupakan konsekuensi dari multikolinearitas:

a) beberapa perkiraan memiliki tanda-tanda yang tidak benar dari sudut pandang teori ekonomi atau nilai tinggi yang tidak dapat dibenarkan;

b) perubahan kecil pada data ekonomi awal menyebabkan perubahan signifikan dalam estimasi koefisien model;

c) mayoritas T- statistik koefisien berbeda tidak signifikan dari nol, pada saat yang sama, model secara keseluruhan signifikan, sebagaimana dibuktikan oleh nilai tinggi F-statistik.

Cara menghilangkan multikolinearitas, cara menghilangkannya:

1) Menggunakan analisis faktor. Transisi dari set regressor asli, di antaranya ada yang bergantung secara statistik, ke regressor baru Z 1 ,…,Z m menggunakan metode komponen utama - alih-alih variabel awal, alih-alih variabel awal, kami mempertimbangkan beberapa kombinasi liniernya, korelasi di antaranya kecil atau tidak ada sama sekali. Tantangannya di sini adalah memberikan interpretasi yang berarti terhadap variabel baru. Z... Jika gagal, kami kembali ke variabel asli menggunakan transformasi terbalik. Perkiraan yang diperoleh akan, bagaimanapun, menjadi bias, tetapi akan memiliki varians yang lebih rendah.

2) Di antara semua variabel yang tersedia, pilih faktor yang paling signifikan mempengaruhi variabel yang dijelaskan. Prosedur seleksi akan dibahas di bawah ini.

3) Transisi ke metode estimasi bias.

Ketika kita dihadapkan dengan masalah multikolinearitas, peneliti yang tidak berpengalaman pada awalnya memiliki keinginan untuk mengecualikan regresi yang tidak perlu yang mungkin menyebabkannya. Namun, tidak selalu jelas variabel mana yang berlebihan dalam pengertian ini. Selain itu, seperti yang akan ditunjukkan di bawah ini, membuang apa yang disebut variabel yang mempengaruhi secara signifikan menyebabkan bias estimasi OLS.


Perhatikan bahwa dalam sejumlah kasus, multikolinearitas bukanlah "kejahatan" yang serius sehingga membuat upaya yang signifikan untuk mengidentifikasi dan menghilangkannya. Pada dasarnya, itu semua tergantung pada tujuan penelitian.
Jika tugas utama model adalah memprediksi nilai masa depan dari variabel dependen, maka dengan koefisien determinasi R2 yang cukup besar (gt; 0.9), keberadaan multikolinearitas biasanya tidak mempengaruhi kualitas prediksi model ( jika di masa depan variabel yang berkorelasi tetap sama seperti sebelumnya).
Jika perlu untuk menentukan tingkat pengaruh masing-masing variabel penjelas pada variabel dependen, maka multikolinearitas, yang menyebabkan peningkatan kesalahan standar, kemungkinan akan mendistorsi hubungan yang sebenarnya antara variabel. Dalam situasi ini, multikolinearitas adalah masalah serius.
Tidak ada metode tunggal untuk menghilangkan multikolinearitas yang cocok dalam kasus apapun. Hal ini disebabkan oleh fakta bahwa penyebab dan akibat dari multikolinearitas adalah ambigu dan sangat bergantung pada hasil sampel.
Tidak termasuk variabel (s) dari model
Metode paling sederhana untuk menghilangkan multikolinearitas adalah dengan mengecualikan satu atau beberapa variabel yang berkorelasi dari model. Diperlukan kehati-hatian saat menerapkan metode ini. Dalam situasi ini, kesalahan spesifikasi mungkin terjadi, oleh karena itu, dalam model ekonometrik yang diterapkan, disarankan untuk tidak mengecualikan variabel penjelas sampai multikolinearitas menjadi masalah serius.
Mengambil data tambahan atau sampel baru
Karena multikolinearitas secara langsung tergantung pada sampel, ada kemungkinan bahwa dengan sampel yang berbeda, multikolinearitas tidak akan atau tidak akan begitu serius. Terkadang, meningkatkan ukuran sampel sudah cukup untuk mengurangi multikolinearitas. Misalnya, jika Anda menggunakan data tahunan, Anda dapat membuka data triwulanan. Meningkatkan jumlah data mengurangi varians dari koefisien regresi dan dengan demikian meningkatkan signifikansi statistiknya. Namun, memperoleh sampel baru atau memperluas yang lama tidak selalu memungkinkan atau melibatkan biaya yang serius. Selain itu, pendekatan ini dapat meningkatkan autokorelasi. Masalah-masalah ini membatasi penggunaan metode ini.
Memodifikasi spesifikasi model
Dalam beberapa kasus, masalah multikolinearitas dapat diselesaikan dengan mengubah spesifikasi model: baik bentuk perubahan model, atau penambahan variabel penjelas yang tidak diperhitungkan dalam model asli, tetapi secara signifikan mempengaruhi variabel dependen. Jika metode ini dibenarkan, maka penggunaannya mengurangi jumlah kuadrat deviasi, sehingga mengurangi kesalahan standar regresi. Ini mengarah pada pengurangan kesalahan standar koefisien.
Menggunakan informasi awal tentang beberapa parameter
Terkadang, saat membangun model regresi berganda, Anda dapat menggunakan informasi awal, khususnya, nilai yang diketahui dari beberapa koefisien regresi.
Kemungkinan nilai koefisien yang dihitung untuk model awal (biasanya lebih sederhana) atau untuk model serupa berdasarkan sampel yang diperoleh sebelumnya dapat digunakan untuk model yang sedang dikembangkan saat ini.
Pemilihan variabel penjelas yang paling signifikan. Prosedur untuk koneksi berurutan elemen
Pindah ke variabel penjelas yang lebih sedikit dapat mengurangi duplikasi informasi yang disampaikan oleh fitur yang sangat saling bergantung. Inilah yang kita hadapi dalam kasus variabel penjelas multikolinear.
Biarlah

Beberapa faktor
korelasi antara variabel dependen Y dan himpunan variabel penjelas X 1, X 2, ..., Xm. Ini didefinisikan sebagai koefisien korelasi berpasangan biasa antara Y dan fungsi linier
regresi Y = b0 + KX1 + b2X2 + ... + bmXm. Biarkan amp; = R-1 - invers matriks ke matriks R:


Maka koefisien kuadrat Ry.X = Rr (xi, x2, .., x) dapat dihitung dengan rumus:


Estimasi R * 2.X dikoreksi untuk ketidakberpihakan dari koefisien determinasi R2y.X memiliki bentuk:

(Jika angka negatif diperoleh dengan rumus (6.7), maka kita asumsikan


Batas kepercayaan bawah untuk

ditentukan
menurut rumus:

Dalam praktiknya, ketika memutuskan variabel penjelas mana yang harus dimasukkan dalam model, prosedur penggabungan elemen secara berurutan sering digunakan.
(j = 1, 2, ..., m). Di mana

bertepatan dengan kuadrat biasa
koefisien korelasi pasangan

Biarlah


maka variabel xp akan menjadi yang paling informatif. Kemudian koefisien yang dikoreksi untuk ketidakberpihakan dihitung
(untuk m = 1) dan batas kepercayaan bawahnya R2min (1).


pasangan jxp, xq akan lebih informatif). Kemudian koefisien dikoreksi untuk ketidakberpihakan dihitung (dengan m = 2)
dan batas kepercayaan bawahnya R2min (2).

Prosedur berlanjut sampai pada langkah (ke +1) kondisi terpenuhi:
Kemudian model menyertakan variabel paling informatif yang diperoleh pada langkah pertama. Perhatikan bahwa dalam perhitungan, rumus (6,7) dan (6,8) digunakan, di mana, alih-alih m, nilai yang sesuai dari nomor langkah k diambil.
Faktanya, metode ini tidak menjamin bahwa kita akan menghilangkan multikolinearitas.
Metode lain untuk menghilangkan multikolinearitas juga digunakan.
Contoh 6.1. Berikut adalah data kondisional (Tabel 6.1):
Tabel 6.1
Data untuk metode daisy-chaining


X1

X2

X3

Memiliki

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

Mari kita perhatikan pengaruhnya terhadap variabel terikat dari masing-masing variabel penjelas secara terpisah. Menghitung koefisien korelasi berpasangan, kami menemukan bahwa koefisien

Kemudian:


Perhatikan pengaruh pasangan variabel (x1, x2) dan (x1, x3) terhadap variabel terikat. Pertama, perhatikan pengaruh sepasang variabel (x1, x2).



Icuvum uvjpcuuivi
Saat menggabungkan variabel, dua variabel penjelas harus dimasukkan dalam persamaan. Oleh karena itu, persamaan teoritis akan berbentuk:
Metode punggungan
Pertimbangkan metode ridge (regresi ridge) untuk menghilangkan multikolinearitas. Metode ini diusulkan oleh A.E. Hoerl pada tahun 1962 dan diterapkan ketika matriks (xtX) mendekati degenerasi. Beberapa angka kecil (dari 0,1 hingga 0,4) ditambahkan ke elemen diagonal matriks (xtX). Dalam hal ini, estimasi bias dari parameter persamaan diperoleh. Tetapi kesalahan standar dari perkiraan seperti itu dalam kasus multikolinearitas lebih rendah daripada yang diberikan oleh metode kuadrat terkecil yang biasa.
Contoh 6.2. Data awal disajikan pada “Tabel 6 2 Koefisien korelasi variabel penjelas

Apa
menunjukkan multikolinearitas yang kuat.
Tabel 6.2
Data untuk studi multikolinearitas dengan metode ridge


x1

x2

Memiliki

1

1,4

7

2

3,1

12


Maka kita mendapatkan persamaan y = 2,63 + 1,37x1 + 1,95x2. Elemen diagonal dari matriks invers akan berkurang secara signifikan dan akan sama dengan z00 = 0,45264, z11 = 1,57796, z00 = 0,70842, yang mengarah pada penurunan kesalahan standar koefisien.
Ringkasan
Di antara konsekuensi utama yang dapat ditimbulkan oleh multikolinearitas, berikut ini dapat dibedakan:
  1. ketika menguji hipotesis utama tentang tidak signifikannya koefisien regresi berganda menggunakan uji-t, dalam banyak kasus diterima, namun, persamaan regresi itu sendiri ketika diuji menggunakan uji-A ternyata signifikan, yang menunjukkan nilai yang terlalu tinggi dari koefisien korelasi ganda;
  2. perkiraan yang diperoleh dari koefisien persamaan regresi berganda umumnya ditaksir terlalu tinggi secara tidak dapat dibenarkan atau memiliki tanda yang salah;
  3. menambahkan atau mengecualikan satu atau dua pengamatan dari data awal memiliki pengaruh yang kuat pada estimasi koefisien model;
  4. adanya multikolinearitas dalam model regresi berganda dapat membuatnya tidak sesuai untuk digunakan lebih lanjut (misalnya untuk membuat peramalan).
Pertanyaan tes mandiri
  1. Apa itu multikolinearitas?
  2. Indikator apa yang menunjukkan adanya multikolinearitas?
  3. Apa determinan matriks XTX pada kasus multikolinearitas sempurna?
  4. Apa yang bisa dikatakan tentang arti koefisien variabel penjelas dalam kasus multikolinearitas?
  5. Transformasi apa yang dilakukan dalam metode sisir, apa yang menyebabkannya?
  6. Bagaimana urutan tindakan dalam metode peningkatan jumlah variabel penjelas secara berurutan?
  7. Apa yang ditunjukkan oleh koefisien korelasi?
  8. Apa yang ditunjukkan oleh koefisien korelasi parsial?
0

Kementerian Pendidikan dan Ilmu Pengetahuan Federasi Rusia

Lembaga Pendidikan Anggaran Negara Federal

pendidikan yang lebih tinggi

UNIVERSITAS TEKNIK NEGARA TVER

Departemen "Akuntansi dan Keuangan"

PROYEK KURSUS
dalam disiplin "Ekonometrika"

"Menyelidiki multikolinearitas dalam model ekonometrik: mengecualikan variabel dari model"

Pengawas kerja:

Cand. itu. Ilmu Pengetahuan, Associate Professor

Konovalova

Pelaksana:

siswa kelompok EK-1315 EPO

Tver, 2015

Pendahuluan ………………………………………………………………………… ... 3

1.Bagian analitis ………………………………………………………… 4

1.1. Tanda-tanda umum multikolinearitas dalam model ekonometrik ………………………………………………………………………… .4

1.2. Cara utama untuk menghilangkan multikolinearitas dalam model ekonometrik ………… .. ………………………………………… ..7

2. Bagian desain ……………………………………………………………… ..11

2.1. Informasi dan dukungan metodologis penelitian ekonometrika ………………………………………………………………… .11

2.2. Contoh studi ekonometrika …………………………… .17

Kesimpulan ………………………………………………………………… .... 30

Daftar sumber yang digunakan ………………………………………… ... 31

pengantar

Relevansi topik dari karya "Investigasi multikolinearitas dalam model ekonometrik: pengecualian variabel (s) dari model" disebabkan oleh kenyataan bahwa saat ini masalah ini sering ditemui dalam model ekonometrik terapan.

Subyek penelitian adalah masalah multikolinearitas. Objek penelitian adalah model ekonometrika.

Tujuan utama dari pekerjaan ini adalah untuk mengembangkan solusi desain untuk informasi dan dukungan metodologis penelitian ekonometrik.

Untuk mencapai tujuan, tugas penelitian utama berikut ditetapkan dan diselesaikan:

  1. Generalisasi fitur multikolinearitas dalam model ekonometrika.
  2. Identifikasi cara utama untuk menghilangkan multikolinearitas.

3. Pengembangan informasi dan dukungan metodologis untuk penelitian ekonometrika.

  1. Bagian analitis

1.1. Tanda-tanda umum multikolinearitas dalam model ekonometrik

Multikolinearitas - dalam ekonometrika (analisis regresi) - adanya hubungan linier antara variabel penjelas (faktor) dari model regresi. Pada saat yang sama, ada kolinearitas lengkap, yang berarti adanya ketergantungan linier fungsional (identik), dan sebagian atau hanya multikolinearitas- adanya korelasi yang kuat antara faktor-faktor tersebut.

Kolinearitas lengkap mengarah ke ketidakpastian parameter dalam model regresi linier terlepas dari metode estimasi. Pertimbangkan ini menggunakan model linier berikut sebagai contoh:

Biarkan faktor-faktor dari model ini berhubungan identik sebagai berikut:. Kemudian pertimbangkan model linier asli, di mana kita tambahkan ke koefisien pertama sewenang-wenang nomor A, dan kurangi angka yang sama dari dua koefisien lainnya. Maka kita memiliki (tanpa kesalahan acak):

Jadi, meskipun ada perubahan yang relatif arbitrer dalam koefisien model, model yang sama diperoleh. Model ini pada dasarnya tidak dapat diidentifikasi. Ketidakpastian sudah ada dalam model itu sendiri. Jika kita mempertimbangkan ruang koefisien 3 dimensi, maka dalam ruang ini vektor koefisien sejati dalam hal ini bukan satu-satunya, tetapi merupakan keseluruhan garis lurus. Setiap titik pada garis ini adalah vektor koefisien yang sebenarnya.

Jika kolinearitas lengkap menyebabkan ketidakpastian dalam nilai parameter, maka multikolinieritas parsial menyebabkan ketidakstabilan mereka. evaluasi... Ketidakstabilan dinyatakan dalam peningkatan ketidakpastian statistik - varians perkiraan. Ini berarti bahwa hasil penilaian khusus dapat sangat bervariasi dari sampel ke sampel, meskipun sampelnya homogen.

Seperti yang Anda ketahui, matriks kovarians pendugaan parameter regresi berganda menggunakan metode kuadrat terkecil adalah sama dengan. Jadi, semakin "kecil" matriks kovarians (determinannya), semakin "besar" matriks kovarians dari estimasi parameter, dan, khususnya, semakin besar elemen diagonal dari matriks ini, yaitu varians dari estimasi parameter. Untuk kejelasan, pertimbangkan contoh model dua faktor:

Maka varians dari penduga parameter, misalnya untuk faktor pertama sama dengan:

dimana adalah koefisien korelasi sampel antar faktor.

Jelas terlihat di sini bahwa semakin besar modulus korelasi antara faktor-faktor, semakin besar varians dari estimasi parameter. Pada (kolinearitas penuh), varians cenderung tak terhingga, yang sesuai dengan apa yang dikatakan sebelumnya.

Dengan demikian, estimasi parameter yang diperoleh tidak akurat, yang berarti akan sulit untuk menginterpretasikan pengaruh faktor-faktor tertentu terhadap variabel yang dijelaskan. Pada saat yang sama, multikolinearitas tidak mempengaruhi kualitas model secara keseluruhan - dapat diakui sebagai signifikan secara statistik, bahkan ketika semua koefisiennya tidak signifikan (ini adalah salah satu tanda multikolinearitas).

Dalam model linier, koefisien korelasi antar parameter bisa positif dan negatif. Dalam kasus pertama, peningkatan satu parameter disertai dengan peningkatan parameter lain. Dalam kasus kedua, ketika satu parameter meningkat, yang lain berkurang.

Berdasarkan hal tersebut, dimungkinkan untuk menetapkan multikolinearitas yang dapat diterima dan tidak dapat diterima. Multikolinearitas yang tidak dapat diterima akan terjadi apabila terdapat korelasi positif yang signifikan antara faktor 1 dan 2, dan pengaruh masing-masing faktor terhadap korelasi dengan fungsi y bersifat searah, yaitu peningkatan kedua faktor 1 dan 2 menyebabkan peningkatan atau penurunan fungsi y. Dengan kata lain, kedua faktor tersebut bekerja pada fungsi y dengan cara yang sama, dan korelasi positif yang signifikan di antara keduanya memungkinkan salah satu dari faktor tersebut dikecualikan.

Multikolinearitas yang diizinkan adalah sedemikian rupa sehingga faktor-faktor mempengaruhi fungsi y secara berbeda. Dua kasus dimungkinkan di sini:

a) dengan korelasi positif yang signifikan antar faktor, pengaruh masing-masing faktor terhadap korelasi dengan fungsi y bersifat multi arah, yaitu. peningkatan satu faktor menyebabkan peningkatan fungsi, dan peningkatan faktor lain menyebabkan penurunan fungsi y.

b) dengan korelasi negatif yang signifikan antara faktor-faktor, peningkatan satu faktor disertai dengan penurunan faktor lain dan ini membuat faktor menjadi ambigu, oleh karena itu, setiap tanda pengaruh faktor pada fungsi y adalah mungkin.

Dalam prakteknya, beberapa ciri yang paling khas dari multikolinearitas dibedakan: 1. Perubahan kecil pada data awal (misalnya, menambahkan pengamatan baru) menyebabkan perubahan signifikan dalam estimasi koefisien model. 2. Estimasi memiliki standard error yang besar, signifikansi rendah, sedangkan model secara keseluruhan signifikan (nilai koefisien determinasi R 2 yang tinggi dan F-statistik yang sesuai). 3. Estimasi koefisien memiliki tanda yang salah dari sudut pandang teoretis atau nilai besar yang tidak dapat dibenarkan.

Tanda-tanda tidak langsung multikolinearitas adalah kesalahan standar yang tinggi dari perkiraan parameter model, t-statistik kecil (yaitu, koefisien tidak signifikan), tanda-tanda perkiraan yang salah, sedangkan model secara keseluruhan diakui sebagai signifikan secara statistik (nilai F-statistik besar) . Multikolinearitas juga dapat dibuktikan dengan perubahan yang kuat dalam estimasi parameter dari penambahan (atau penghapusan) data sampel (jika persyaratan untuk homogenitas sampel yang cukup terpenuhi).

Untuk mendeteksi multikolinearitas faktor, matriks korelasi faktor dapat dianalisis secara langsung. Sudah adanya nilai absolut besar (di atas 0,7-0,8) nilai koefisien korelasi pasangan menunjukkan kemungkinan masalah dengan kualitas perkiraan yang diperoleh.

Namun, analisis koefisien korelasi berpasangan tidak cukup. Perlu dilakukan analisis koefisien determinasi regresi faktor untuk faktor lain (). Disarankan untuk menghitung indikator. Nilai yang terlalu tinggi dari yang terakhir berarti adanya multikolinearitas.

Dengan demikian, kriteria utama untuk mendeteksi multikolinearitas adalah sebagai berikut: R 2 tinggi untuk semua koefisien tidak signifikan, koefisien korelasi pasangan tinggi, nilai koefisien VIF tinggi.

1.2. Cara utama untuk menghilangkan multikolinearitas dalam model ekonometrik

Sebelum menunjukkan metode utama untuk menghilangkan multikolinearitas, kami mencatat bahwa dalam beberapa kasus multikolinearitas bukanlah masalah serius yang memerlukan upaya signifikan untuk mengidentifikasi dan menghilangkannya. Pada dasarnya, itu semua tergantung pada tujuan penelitian.

Jika tugas utama model adalah memprediksi nilai masa depan dari regresidan, maka dengan koefisien determinasi yang cukup besar R2 (> 0,9), keberadaan multikolinearitas biasanya tidak mempengaruhi kualitas prediksi model. Meskipun pernyataan ini akan dibenarkan hanya dalam kasus bahwa di masa depan regressor yang berkorelasi akan mempertahankan hubungan yang sama seperti sebelumnya. Jika tujuan dari penelitian ini adalah untuk menentukan tingkat pengaruh masing-masing regressor pada regressor dan, maka adanya multikolinearitas, yang mengarah pada peningkatan kesalahan standar, kemungkinan akan mendistorsi hubungan yang sebenarnya antara regressor. Dalam situasi ini, multikolinearitas adalah masalah serius.

Perhatikan bahwa tidak ada metode tunggal untuk menghilangkan multikolinearitas yang cocok dalam kasus apapun. Hal ini disebabkan oleh fakta bahwa penyebab dan akibat dari multikolinearitas adalah ambigu dan sangat bergantung pada hasil sampel.

Dalam praktiknya, metode utama untuk menghilangkan multikolinearitas dibedakan:

  1. Menghilangkan regressor dari model Metode paling sederhana untuk menghilangkan multikolinearitas adalah dengan mengecualikan satu atau beberapa regressor yang berkorelasi dari model. Namun, beberapa kehati-hatian diperlukan saat menerapkan metode ini. Dalam situasi ini, kesalahan spesifikasi mungkin terjadi. Misalnya, ketika mempelajari permintaan suatu barang tertentu, harga barang ini dan harga barang substitusinya, yang sering kali berkorelasi satu sama lain, dapat digunakan sebagai variabel penjelas. Dengan mengecualikan harga substitusi dari model, kita cenderung membuat kesalahan spesifikasi. Akibatnya, perkiraan bias dapat diperoleh dan kesimpulan yang tidak masuk akal dapat ditarik. Jadi, dalam model ekonometrik yang diterapkan, diinginkan untuk tidak mengecualikan regressor sampai kolinearitasnya menjadi masalah serius.
  2. Memperoleh data tambahan atau sampel baru, karena multikolinearitas secara langsung tergantung pada sampel, maka, mungkin, dengan sampel yang berbeda, tidak akan ada multikolinearitas sama sekali, atau tidak akan begitu serius. Terkadang, meningkatkan ukuran sampel sudah cukup untuk mengurangi multikolinearitas. Misalnya, jika Anda menggunakan data tahunan, Anda dapat membuka data triwulanan. Meningkatkan jumlah data mengurangi varians dari koefisien regresi dan dengan demikian meningkatkan signifikansi statistiknya. Namun, memperoleh sampel baru atau memperluas yang lama tidak selalu memungkinkan atau melibatkan biaya yang serius. Selain itu, pendekatan ini dapat meningkatkan autokorelasi. Masalah-masalah ini membatasi penggunaan metode ini.

AKU AKU AKU. Mengubah spesifikasi model Dalam beberapa kasus, masalah multikolinearitas dapat diselesaikan dengan mengubah spesifikasi model: baik bentuk model diubah, atau ditambahkan regressor baru yang tidak diperhitungkan dalam model asli, tetapi secara signifikan mempengaruhi dependen variabel. Jika metode ini dibenarkan, maka penggunaannya mengurangi jumlah kuadrat deviasi, sehingga mengurangi kesalahan standar regresi. Ini mengarah pada pengurangan kesalahan standar koefisien.

  1. Transformasi variabel dalam beberapa kasus dapat diminimalkan atau dihilangkan sama sekali masalah multikolinearitas hanya dengan bantuan transformasi variabel. Data asli dalam setiap kasus dibagi dengan nilai salah satu regressor dependen dalam kasus ini. Penerapan metode komponen utama ke faktor model memungkinkan Anda untuk mengubah faktor awal dan mendapatkan satu set faktor ortogonal (tidak berkorelasi). Dalam hal ini, adanya multikolinearitas akan memungkinkan kita untuk membatasi diri pada sejumlah kecil komponen utama. Namun demikian, masalah interpretasi yang berarti dari komponen utama mungkin muncul.

Jika semua indikasi terjadi multikolinearitas, maka di antara para ekonometrika terdapat perbedaan pendapat mengenai hal ini. Ketika dihadapkan dengan masalah multikolinearitas, mungkin ada keinginan alami untuk membuang variabel independen yang "tidak perlu" yang mungkin menyebabkannya. Namun, harus diingat bahwa kesulitan baru mungkin timbul dalam melakukannya. Pertama, jauh dari selalu jelas variabel mana yang berlebihan dalam pengertian ini.

Multikolinearitas hanya berarti perkiraan hubungan linier antara faktor-faktor, tetapi ini tidak selalu menyoroti variabel "ekstra". Kedua, dalam banyak situasi, penghilangan variabel independen dapat mempengaruhi arti model secara signifikan. Akhirnya, membuang apa yang disebut variabel esensial, mis. variabel independen yang benar-benar mempengaruhi variabel dependen yang diteliti, menyebabkan bias dalam koefisien model. Dalam prakteknya, biasanya ketika multikolinearitas terdeteksi, faktor yang paling tidak signifikan untuk analisis dihilangkan, dan kemudian perhitungan diulang.

Jadi, dalam praktiknya, metode utama untuk menghilangkan multikolinearitas dibedakan: mengubah atau menambah sampel, mengecualikan salah satu variabel, mengubah variabel multikolinear (menggunakan bentuk nonlinier, menggunakan agregat (kombinasi linier beberapa variabel), menggunakan perbedaan pertama alih-alih variabel itu sendiri Namun, jika multikolinearitas tidak dihilangkan , Anda dapat mengabaikannya, dengan mempertimbangkan kelayakan pengecualian.

  1. Bagian proyek

2.1. Informasi dan dukungan metodologis penelitian ekonometrik

Informasi pendukung penelitian ekonometrika meliputi informasi sebagai berikut:

Informasi masukan:

  • data statistik pada indikator sosial ekonomi, didefinisikan sebagai variabel dependen (faktor - hasil);
  • data statistik indikator sosial ekonomi, yang didefinisikan sebagai variabel penjelas (faktor - tanda);

Informasi menengah:

  • model persamaan regresi, estimasi persamaan regresi, indikator kualitas dan kesimpulan tentang kualitas persamaan regresi, kesimpulan tentang ada (tidak adanya) masalah multikolinearitas, rekomendasi penggunaan model;

Informasi yang efektif:

  • estimasi persamaan regresi, kesimpulan tentang kualitas persamaan regresi, kesimpulan tentang ada (tidak adanya) masalah multikolinearitas, rekomendasi penerapan model.

Metodologi penelitian ekonometrika adalah sebagai berikut: spesifikasi; parameterisasi, verifikasi, penelitian tambahan, peramalan.

1. Spesifikasi model persamaan regresi meliputi analisis grafis dari korelasi ketergantungan variabel dependen pada setiap variabel penjelas. Berdasarkan hasil analisis grafik tersebut, diperoleh kesimpulan tentang model persamaan regresi tipe linier atau nonlinier. Untuk analisis grafis, alat Bagan Sebar MsExcel yang paling sering direkomendasikan. Sebagai hasil dari tahap ini, model persamaan regresi ditentukan, dan dalam kasus bentuk nonlinier, metode linierisasinya juga ditentukan.

2. Parametrisasi persamaan regresi meliputi estimasi parameter regresi dan interpretasi sosial ekonominya. Untuk parameterisasi gunakan alat "Regresi" sebagai bagian dari add-in "Analisis Data" MsExcel. Berdasarkan hasil analisis regresi otomatis (kolom "Koefisien"), parameter regresi ditentukan, dan interpretasinya juga diberikan sesuai dengan aturan standar:

Bj adalah jumlah di mana nilai variabel Y berubah rata-rata ketika variabel independen Xj meningkat satu, ceteris paribus.

Intersep dari persamaan regresi sama dengan nilai prediksi variabel dependen Y ketika semua variabel independen adalah nol.

3. Verifikasi persamaan regresi dilakukan berdasarkan hasil analisis regresi otomatis (tahap 2) sesuai dengan indikator berikut: "R-kuadrat", "Signifikan F", "nilai-P" (untuk setiap parameter regresi), serta pada grafik seleksi dan residual ...

Signifikansi koefisien ditentukan dan kualitas model dinilai. Untuk ini, "Significance F", "P-Value" dan "R-square" dipertimbangkan. Jika “P-value” lebih kecil dari persamaan signifikansi statis, maka ini menunjukkan signifikansi koefisien. Jika “R-squared” lebih besar dari 0,6, berarti model regresi menggambarkan dengan baik perilaku variabel dependen Y terhadap faktor-faktor variabel.

Jika “Signifikan F” lebih kecil dari persamaan signifikansi statis, maka koefisien determinasi (R-square) dianggap signifikan secara statistik kondisional.

Plot residual memungkinkan Anda untuk memperkirakan variasi kesalahan. Jika tidak ada perbedaan khusus antara kesalahan yang sesuai dengan nilai Xi yang berbeda, yaitu variasi kesalahan untuk nilai Xi yang berbeda kira-kira sama dan dapat diasumsikan bahwa tidak ada masalah. Jadwal yang pas memungkinkan Anda untuk membuat penilaian tentang nilai dasar, prediksi, dan faktor.

Kesimpulannya, penilaian terbentuk tentang kualitas persamaan regresi.

  1. Penelitian tambahan.

4.1 Deteksi tanda pertama multikolinearitas. Berdasarkan hasil analisis regresi yang diperoleh pada klausa 2-3, keadaan diperiksa dimana koefisien determinasi bernilai tinggi (R 2 > 0,7) dan signifikan secara statis (Signifikan F<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0,05) .Ketika situasi seperti itu terdeteksi, kesimpulan dibuat tentang asumsi multikolinearitas.

4.2 Deteksi tanda kedua multikolinearitas. Berdasarkan perhitungan koefisien korelasi antar variabel faktor, ditentukan hubungan yang signifikan dari faktor individu. Untuk perhitungan di MS Excel, disarankan untuk menggunakan alat Analisis Data / Korelasi. Berdasarkan nilai koefisien korelasi ditarik kesimpulan: semakin dekat (r) ke titik ekstrim (± 1), semakin besar derajat hubungan linier, jika koefisien korelasi kurang dari 0,5, maka dianggap bahwa hubungan itu lemah. Kehadiran multikolinearitas diasumsikan dalam kasus berikut jika ada koefisien korelasi yang signifikan antara setidaknya dua variabel (yaitu, lebih besar dari 0,7 dalam modulus).

4.3 Deteksi tanda ketiga multikolinearitas. Berdasarkan penilaian regresi bantu antar variabel faktor, dan antar variabel yang memiliki koefisien korelasi yang signifikan (Bagian 4.2), disimpulkan bahwa multikolinearitas ada jika setidaknya dalam satu regresi bantu signifikan dan signifikan. Metode regresi tambahan dari koefisien determinasi adalah sebagai berikut: 1) dibangun persamaan regresi yang menghubungkan masing-masing regresi dengan semua yang tersisa; 2) koefisien determinasi R2 dihitung untuk setiap persamaan regresi; 3) jika persamaan dan koefisien determinasi dianggap signifikan secara statistik, maka regressor ini mengarah pada multikolinearitas.

4.4 Generalisasi penilaian.

Atas dasar klausa 4.1-4.3, penilaian dibentuk tentang ada / tidaknya multikolinearitas dan regressor yang mengarah ke multikolinearitas.

Selanjutnya, arah penggunaan model dibentuk (dalam kasus pengabaian atau tidak adanya masalah multikolinearitas) atau rekomendasi untuk menghilangkan multikolinearitas (dalam praktiknya, tidak termasuk variabel).

Saat mengecualikan variabel, disarankan untuk menggunakan aturan:

Koefisien determinasi ditentukan untuk persamaan regresi yang awalnya dibangun dari n pengamatan (R 2 1);

Dengan mengecualikan variabel terakhir dari pertimbangan (k), sebuah persamaan dibentuk untuk faktor-faktor yang tersisa berdasarkan pengamatan n awal dan koefisien determinasi (R 2 2) ditentukan untuk itu;

F-statistik dihitung: di mana (R 1 2 -R 2 2) adalah hilangnya persamaan akibat penurunan ke variabel, (K) adalah jumlah derajat kebebasan tambahan yang muncul, (1- R 1 2) / (nml) adalah varians yang tidak dapat dijelaskan dari persamaan awal;

Nilai kritis F a, k, n-m -1 ditentukan menurut tabel titik kritis distribusi Fisher pada tingkat signifikansi a dan derajat kebebasan tertentu v 1 = k, v 2 = n-m-l;

Penilaian dibentuk tentang kelayakan pengecualian sesuai dengan aturan: pengecualian (simultan) variabel k dari persamaan dianggap tidak pantas untuk F> F a, k, n-m - 1, jika tidak, pengecualian seperti itu diizinkan.

Ketika variabel dihilangkan, model yang dihasilkan dianalisis sesuai dengan klausa 3-4; dan dibandingkan dengan model aslinya, sebagai hasilnya, yang "terbaik" dipilih. Dalam prakteknya, karena multikolinearitas tidak mempengaruhi kualitas prediksi model, masalah ini dapat diabaikan.

5. Peramalan dilakukan menurut model awal / "terbaik" yang dipilih pada paragraf 4.4, sesuai dengan skema peramalan retrospektif, di mana 1/3 pengamatan terakhir digunakan untuk peramalan.

5.1. Perkiraan titik. Nilai sebenarnya dari variabel faktor dalam periode perkiraan dianggap diprediksi, nilai prediksi variabel yang dihasilkan ditentukan seperti yang diprediksi oleh model asli / "terbaik" berdasarkan variabel faktor dalam periode perkiraan. Menggunakan alat "Grafik" Microsoft Excel, grafik nilai aktual dan prediksi dari variabel yang dihasilkan diplot sesuai dengan pengamatan dan kesimpulan dibuat tentang kedekatan nilai aktual dengan yang diprediksi.

5.2. Peramalan interval melibatkan penghitungan kesalahan standar prediksi (menggunakan variabel dummy Salkever) dan batas atas dan bawah dari nilai prediksi.

Menggunakan alat Analisis / Regresi Data Microsoft Excel, regresi dibangun untuk kumpulan data agregat sampel dan periode perkiraan, tetapi dengan penambahan variabel dummy D 1, D 2, ..., D p. Dalam hal ini, D i = 1 hanya untuk momen pengamatan (n + i), untuk semua momen lainnya D i = 0. Kemudian koefisien dari variabel dummy D i sama dengan kesalahan prediksi pada saat itu (n + i), dan kesalahan standar dari koefisien sama dengan kesalahan standar prediksi (S i). Dengan demikian, analisis regresi otomatis model dilakukan, di mana nilai agregat (sampel dan prediksi) dari variabel faktor dan nilai variabel dummy Salkever digunakan sebagai nilai X, dan nilai agregat (sampel dan diprediksi) nilai variabel yang dihasilkan digunakan sebagai nilai Y.

Kesalahan standar yang diperoleh dari koefisien untuk variabel dummy Salkever sama dengan kesalahan standar prediksi. Kemudian batas-batas ramalan interval dihitung dengan menggunakan rumus sebagai berikut: Ymin n + i = Yemp n + i -S i * t cr, Ymax n + i = Yemp n + i + S i * t cr, dimana t cr adalah nilai kritis dari distribusi Student, ditentukan dengan rumus "= STYURASPOBR (0,05; nm-1)", m adalah jumlah faktor penjelas dalam model (Y * t), Yemp n + i adalah nilai prediksi dari variabel yang dihasilkan (klausul 5.1).

Menggunakan alat "Grafik" Microsoft Excel, grafik dibangun sesuai dengan nilai aktual dan prediksi dari variabel yang dihasilkan, batas atas dan bawah perkiraan untuk pengamatan. Sebuah kesimpulan dibuat tentang kecocokan nilai aktual dari variabel yang dihasilkan ke dalam batas-batas peramalan interval.

5.3. Penilaian stabilitas model menggunakan uji NCO dilakukan sebagai berikut:

a) menggunakan alat Microsoft Excel "Analisis / Regresi Data", sebuah regresi dibangun, di mana nilai agregat (sampel dan prediksi) dari variabel faktor diambil sebagai nilai X, dan nilai agregat (sampel dan prediksi) dari variabel yang dihasilkan diambil sebagai nilai Y. Regresi ini digunakan untuk menentukan jumlah kuadrat dari residual S;

b) menurut regresi klausa 5.2 dengan variabel dummy Salkever, jumlah kuadrat dari residual Sd ditentukan;

c) nilai F statistik dihitung dan diestimasi dengan rumus:

di mana p adalah jumlah langkah prediksi. Jika nilai yang diperoleh lebih besar dari nilai kritis F cr yang ditentukan dengan rumus “= FDISP (0,05; p; nm-1)”, maka hipotesis tentang kestabilan model pada periode prakiraan ditolak, sebaliknya dinyatakan diterima.

5.4 Generalisasi penilaian tentang kualitas prediksi model berdasarkan klausa 5.1-5.3, sebagai hasilnya, kesimpulan terbentuk pada kualitas prediksi model dan rekomendasi untuk menggunakan model untuk peramalan.

Dengan demikian, informasi yang dikembangkan dan dukungan metodologis sesuai dengan tujuan utama studi ekonometrika masalah multikolinearitas dalam model regresi berganda.

2.2. Contoh studi ekonometrika

Studi ini dilakukan berdasarkan data yang mencerminkan indikator ekonomi makro riil Federasi Rusia untuk periode 2003-2011. (tabel. 1), menurut metode klausa 2.1.

Tabel 1

Biaya rumah. pertanian (miliar rubel) [Y]

Populasi (juta orang)

Uang beredar (miliar rubel)

Tingkat pengangguran (%)

1.Spesifikasi Model persamaan regresi mencakup analisis grafis dari korelasi ketergantungan variabel dependen Y (Pengeluaran rumah tangga pada variabel penjelas X 1 (Populasi) (Gbr. 1), korelasi ketergantungan variabel dependen Y (Pengeluaran rumah tangga pada variabel penjelas X 2 (Uang beredar) (Gbr. 2), korelasi ketergantungan variabel dependen Y (Pengeluaran rumah tangga pada variabel penjelas X 3 (Tingkat pengangguran) (Gbr. 3).

Grafik ketergantungan korelasi antara Y dan X 1, yang disajikan pada Gambar 1, mencerminkan ketergantungan linier terbalik yang signifikan (R 2 = 0,71) dari Y terhadap X 1.

Grafik ketergantungan korelasi antara Y dan X 2, yang disajikan pada Gambar 2, mencerminkan ketergantungan linier langsung Y yang signifikan (R 2 = 0,98) terhadap X 2.

Grafik ketergantungan korelasi antara Y dan X 3, yang disajikan pada Gambar 3, mencerminkan ketergantungan linier terbalik yang tidak signifikan (R 2 = 0,15) dari Y terhadap X 3.

Gambar 1

Gambar 2

Gambar 3

Akibatnya, model regresi linier berganda dapat ditentukan Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3.

2.Parametrisasi persamaan regresi dilakukan menggunakan alat "Regresi" sebagai bagian dari add-on "Analisis Data" MsExcel (Gbr. 4).

Gambar 4

Persamaan regresi yang diestimasi adalah:

233983.8-1605.6X 1 + 1.0X 2 + 396.22X 3.

Dalam hal ini, koefisien regresi ditafsirkan sebagai berikut: dengan peningkatan populasi sebesar 1 juta orang, biaya rumah. pertanian berkurang 1605,6 miliar rubel; dengan peningkatan jumlah uang beredar sebesar 1 miliar rubel. biaya rumah. pertanian akan meningkat 1,0 miliar rubel; dengan peningkatan tingkat pengangguran 1%, biaya rumah. pertanian akan meningkat 396,2 miliar rubel. Dengan nilai nol dari variabel faktor, biaya rumah. pertanian akan berjumlah 233.983,8 miliar rubel, yang, mungkin, tidak memiliki interpretasi ekonomi.

3.Verifikasi persamaan regresi dilakukan berdasarkan hasil analisis regresi otomatis (tahap 2).

Jadi, "R-kuadrat" sama dengan 0,998, mis. persamaan regresi menggambarkan perilaku variabel dependen sebesar 99%, yang menunjukkan tingkat deskripsi persamaan yang tinggi. Nilai "signifikansi F" adalah 2.14774253442155E-07, yang menunjukkan bahwa "R-kuadrat" signifikan. “P-Value” untuk b 0 adalah 0,002, yang menunjukkan bahwa parameter ini signifikan. “P-Value” untuk b 1 adalah 0,002, yang menunjukkan bahwa koefisien ini signifikan. “P-Value” untuk b 2 adalah 8.29103190343224E-07, yang menunjukkan bahwa koefisien ini signifikan. Nilai “P-Value” untuk b 3 adalah 0,084, yang menunjukkan bahwa koefisien ini tidak signifikan.

Berdasarkan plot residual, residual e adalah nilai acak.

Berdasarkan plot pas, kesimpulan dibuat tentang kedekatan nilai aktual dan prediksi untuk model.

Jadi, model tersebut berkualitas baik, sedangkan b3 tidak signifikan, sehingga dapat diasumsikan adanya multikolinearitas.

4. Penelitian tambahan.

4.1. Deteksi tanda pertama multikolinearitas. Menurut data analisis regresi (Gambar 5), kita dapat mengatakan bahwa ada tanda pertama multikolinearitas, karena R 2 yang tinggi dan signifikan terdeteksi, terungkap bahwa persamaan tersebut memiliki koefisien determinasi yang tinggi, serta satu dari koefisien tidak signifikan. Hal ini menunjukkan adanya multikolinearitas.

4.2 Deteksi tanda kedua multikolinearitas.

Berdasarkan perhitungan koefisien korelasi antar variabel faktor, ditentukan hubungan yang signifikan dari faktor individu. (Meja 2). Kehadiran multikolinearitas diasumsikan dalam kasus berikut jika ada koefisien korelasi yang signifikan antara setidaknya dua variabel (yaitu, lebih besar dari 0,5 dalam modulus).

Meja 2

[ X2]

[ X3]

[ X2]

[ X3]

Dalam kasus kami, ada koefisien korelasi antara X 1 dan X 2 (-0,788), yang menunjukkan ketergantungan yang kuat antara variabel X 1, X 2, ada juga koefisien korelasi antara X 1 dan X 3 (0,54), yang menunjukkan ketergantungan yang kuat antara variabel X 1, X 3.

Akibatnya, kehadiran multikolinearitas dapat diasumsikan.

4.3 Deteksi tanda ketiga multikolinearitas.

Karena dalam Bagian 4.2 ditemukan hubungan yang kuat antara variabel X 1 dan X 2, maka regresi bantu antara variabel-variabel ini dianalisis (Gbr. 5).

Gambar 5

Karena "F signifikansi" adalah 0,01, yang menunjukkan bahwa "R-kuadrat" dan regresi bantu adalah signifikan, dapat diasumsikan bahwa regresor X 2 mengarah ke multikolinearitas.

Karena dalam Bagian 4.2 hubungan antara variabel X 1 dan X 3 ditemukan di atas tingkat rata-rata, maka regresi tambahan antara variabel-variabel ini dianalisis (Gbr. 6).

Gambar 6

Karena "Signifikan F" adalah 0,13, yang menunjukkan bahwa "R-kuadrat" dan regresi bantu tidak signifikan, dapat diasumsikan bahwa regresor X 3 tidak menyebabkan multikolinearitas.

Jadi, menurut fitur ketiga, adanya multikolinearitas dapat diasumsikan.

4.4 Generalisasi penilaian.

Berdasarkan analisis paragraf 4.1-4.3, ketiga tanda multikolinearitas ditemukan, sehingga dapat diasumsikan dengan probabilitas tinggi. Pada saat yang sama, meskipun asumsi dalam Bagian 4.3 mengenai regressor yang mengarah ke multikolinearitas, dimungkinkan untuk merekomendasikan pengecualian X 3 dari model asli, karena X 3 memiliki koefisien korelasi terkecil dengan Y dan koefisien regresi ini tidak signifikan dalam persamaan aslinya. Hasil analisis regresi setelah mengeluarkan X3 ditunjukkan pada Gambar. 7.

Gambar 7

Dalam hal ini, kami akan menghitung F - statistik untuk memeriksa kelayakan pengecualian:

F fakta = 4,62,

dan F tab = F 0,05; 1; 5 = 6,61, karena F fakta< F табл, то исключение допустимо для переменной X 3 .

Penilaian kualitas model regresi linier berganda Y = b 0 + b 1 X 1 + b 2 X 2. "R-kuadrat" adalah 0,996, mis. persamaan regresi menggambarkan perilaku variabel dependen sebesar 99%, yang menunjukkan tingkat deskripsi persamaan yang tinggi. "F signifikansi" adalah 3.02415218982089E-08, yang menunjukkan bahwa "R-kuadrat" signifikan. “P-Value” untuk b 0 adalah 0,004, yang menunjukkan bahwa parameter ini signifikan, “P-Value” untuk b 1 adalah 0,005, yang menunjukkan bahwa koefisien ini signifikan. “P-Value” untuk b 2 adalah 3,87838361673427E-07, yang menunjukkan bahwa koefisien ini signifikan. Persamaan regresi yang diestimasi adalah:

201511.7 -1359.6X 1 + 1,01X 2

Dalam hal ini, koefisien regresi ditafsirkan sebagai berikut: dengan penurunan populasi sebesar 1 juta orang, biaya rumah. pertanian berkurang 1.359,6 miliar rubel; dengan peningkatan jumlah uang beredar, biaya rumah. pertanian akan meningkat 1,0) (miliar rubel). Dengan nilai nol dari variabel faktor, biaya rumah. pertanian akan berjumlah 201511,7 miliar rubel, yang mungkin memiliki interpretasi ekonomi.

Jadi, model = 201511.7 -1359.6X 1 + 1.01X 2 berkualitas baik dan direkomendasikan untuk peramalan sebagai "terbaik" dibandingkan dengan model aslinya.

5. Peramalan.

5.1 Prediksi poin. Nilai sebenarnya dari variabel faktor dalam periode perkiraan dianggap diprediksi, nilai prediksi variabel yang dihasilkan ditentukan seperti yang diprediksi oleh model "terbaik" (= 201511.7 -1359.6X 1 + 1.01X 2) berdasarkan variabel faktor dalam periode perkiraan. Menggunakan alat "Grafik" Microsoft Excel, grafik nilai aktual dan prediksi dari variabel yang dihasilkan diplot sesuai dengan pengamatan dan kesimpulan dibuat tentang kedekatan nilai aktual dengan yang diprediksi.

Nilai prediksi variabel faktor disajikan pada Tabel 3.

Tabel 3

Nilai prediksi variabel efektif ditentukan seperti yang diprediksi oleh model "terbaik" (= 201511.7 -1359.6X 1 + 1.01X 2) berdasarkan variabel faktor pada periode perkiraan. Nilai prediksi disajikan pada Tabel 4; nilai aktual ditambahkan untuk perbandingan.

Tabel 4

[Y] empiris

Gambar 8 menunjukkan nilai aktual dan prakiraan dari variabel yang dihasilkan, serta batas bawah dan atas prakiraan.

Angka 8

Menurut Gambar. 8, perkiraan mempertahankan tren yang meningkat, dan semua nilai perkiraan mendekati yang sebenarnya.

5.2. Perkiraan interval.

Menggunakan alat Analisis / Regresi Data Microsoft Excel, regresi dibangun untuk kumpulan data agregat sampel dan periode perkiraan, tetapi dengan penambahan variabel dummy D 1, D 2, ..., D p. Dalam hal ini, D i = 1 hanya untuk momen pengamatan (n + i), untuk semua momen lainnya D i = 0. Data disajikan pada Tabel 5, hasil regresi pada Gambar 9.

Tabel 5

[Y] burung hantu

Gambar 9

Maka standar error koefisien untuk variabel dummy sama dengan standar error prediksi (S i): untuk tahun 2012 sebesar 738.5; untuk tahun 2013 akan menjadi 897.1; untuk tahun 2014 akan menjadi 1139,4.

Batas-batas peramalan interval dihitung pada Tabel 6.

Tabel 6

[Y] empiris

[Y] burung hantu

[S] sebelum

Menurut tabel. 6, menggunakan alat "Grafik" Microsoft Excel, grafik dibangun sesuai dengan nilai aktual dan prediksi dari variabel yang dihasilkan, batas atas dan bawah perkiraan untuk pengamatan (Gbr. 10).

Gambar 10

Menurut grafik, nilai prediksi masuk ke dalam batas interval prakiraan, yang menunjukkan kualitas prakiraan yang baik.

5.3. Mengevaluasi stabilitas model menggunakan uji NCO dilakukan sebagai berikut:

a) menggunakan alat Microsoft Excel "Analisis / Regresi Data", regresi dibangun (Gbr. 11), di mana nilai agregat (sampel dan ramalan) dari variabel faktor diambil sebagai nilai X, dan agregat ( sampel dan perkiraan) nilai diambil sebagai nilai Y variabel hasil. Regresi ini digunakan untuk menentukan jumlah kuadrat dari residual S = 2058232.333.

Gambar 11

b) dengan regresi item 3.2 dengan variabel dummy Salkever (Gbr. 9), jumlah kuadrat dari residual Sd = 1270272.697 ditentukan.

c) nilai F statistik dihitung dan dievaluasi:

sedangkan F cr = F 0,05;3;5 = 5,40, maka nilai yang diperoleh lebih kecil dari nilai kritis F cr dan hipotesis tentang kestabilan model pada periode prakiraan diterima.

5.4 Generalisasi penilaian tentang kualitas prediksi model berdasarkan klausa 5.1-5.3, sebagai hasilnya, sebuah kesimpulan terbentuk pada kualitas prediksi yang tinggi dari model (= 201511.7 -1359.6X 1 + 1.01X 2) dan rekomendasi diberikan tentang penggunaan model untuk peramalan.

Teknik klausa 2.1 telah berhasil diuji, memungkinkan kita untuk mengidentifikasi tanda-tanda utama multikolinearitas dan dapat direkomendasikan untuk studi semacam itu.

Kesimpulan

Multikolinearitas - dalam ekonometrika (analisis regresi) - adanya hubungan linier antara variabel penjelas (faktor) dari model regresi. Pada saat yang sama, perbedaan dibuat antara collinearity lengkap, yang berarti adanya hubungan linier fungsional (identik), dan parsial atau multikolinieritas sederhana, yang berarti adanya korelasi yang kuat antara faktor-faktor.

Akibat utama dari multikolinearitas adalah: varians penduga yang besar, penurunan t-statistik dari koefisien, pendugaan koefisien dengan metode kuadrat terkecil menjadi tidak stabil, sulit untuk menentukan kontribusi variabel, dan koefisien memiliki tanda yang salah.

Kriteria utama untuk mendeteksi multikolinearitas adalah sebagai berikut: R2 tinggi dengan koefisien yang tidak signifikan; Koefisien korelasi berpasangan tinggi; nilai tinggi dari koefisien VIF.

Metode utama untuk menghilangkan multikolinearitas adalah: pengecualian variabel (s) dari model; memperoleh data tambahan atau sampel baru; mengubah spesifikasi model; penggunaan informasi awal tentang beberapa parameter.

Informasi yang dikembangkan dan dukungan metodologis sesuai dengan tujuan utama studi ekonometrika masalah multikolinearitas dalam model regresi berganda dan dapat direkomendasikan untuk studi tersebut.

Daftar sumber yang digunakan

  1. Astakhov, S.N. Ekonometrika [Teks]: Kompleks pendidikan-metodis. Kazan, 2008 .-- 107s.
  2. Bardasov, S.A. EKONOMETRI [Teks]: sebuah tutorial. edisi ke-2, Pdt. dan tambahkan. Tyumen: Rumah Penerbitan Universitas Negeri Tyumen, 2010.264 hal.
  3. Borodkina, L.I. Kursus kuliah [Sumber daya elektronik]. Mode akses - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. Voskoboinikov, Yu. EKONOMETRI dalam EXCEL Bagian 1 [Teks]: panduan belajar, Novosibirsk 2005,156 hal.
  5. Eliseeva, I.I. Lokakarya ekonometrika: buku teks. panduan untuk ekonomi. universitas / Eliseeva, I.I., Kurysheva, S.V., Gordeenko, N.M. , [dan sebagainya.] ; ed. I.I. Eliseeva - M.: Keuangan dan Statistik, 2001 .-- 191 hal. - (14126-1).
  6. Multikolinearitas [Sumber daya elektronik]. Mode akses - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. Novikov, A.I. Ekonometrika [Teks]: buku teks. manual untuk eks. "Keuangan dan Kredit", "Ekonomi" - M .: Dashkov dan K, 2013. - 223 hal. - (93895-1).
  8. Masalah multikolinearitas [Sumber daya elektronik]. Mode akses - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak V. Ekonometrika Terapan. Kuliah No. 9 [Sumber daya elektronik]. Mode akses http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - situs ensiklopedis [Sumber daya elektronik]. Mode akses - http://kodcupon.ru/ra17syplinoe97/ Multikolinearitas.

Unduh: Anda tidak memiliki akses untuk mengunduh file dari server kami.

Badan Federal untuk Pendidikan dan Ilmu Pengetahuan Federasi Rusia

Universitas Teknologi Negeri Kostroma.

Departemen Matematika Tinggi

ekonometrika dengan topik:

Multikolinearitas

dilakukan

mahasiswa tahun pertama

fakultas korespondensi

sp-t "Akuntansi,

analisis dan audit”.

Diperiksa

Katezhina S.F.

Kostroma 2008


Multikolinearitas

Multikolinearitas dipahami sebagai korelasi timbal balik yang tinggi dari variabel penjelas. Multikolinearitas dapat memanifestasikan dirinya dalam bentuk fungsional (eksplisit) dan stokastik (laten).

Dalam bentuk fungsional multikolinearitas, setidaknya salah satu hubungan berpasangan antara variabel penjelas adalah ketergantungan fungsional linier. Dalam hal ini, matriks X`X adalah khusus, karena mengandung vektor-vektor kolom yang bergantung secara linier, dan determinannya sama dengan nol, yaitu. premis analisis regresi dilanggar, ini mengarah pada ketidakmungkinan menyelesaikan sistem persamaan normal yang sesuai dan memperoleh perkiraan parameter model regresi.

Namun, dalam penelitian ekonomi, multikolinearitas sering memanifestasikan dirinya dalam bentuk stokastik, ketika ada korelasi yang erat antara setidaknya dua variabel penjelas. Matriks X`X dalam hal ini adalah nonsingular, tetapi determinannya sangat kecil.

Pada saat yang sama, vektor penduga b dan matriks kovariansnya b sebanding dengan matriks invers (X`X) -1, yang berarti elemen-elemennya berbanding terbalik dengan nilai determinan | X`X |. Akibatnya, deviasi standar yang signifikan (kesalahan standar) dari koefisien regresi b 0, b 1,…, bp diperoleh dan penilaian signifikansinya dengan kriteria-t tidak masuk akal, meskipun secara umum model regresi dapat berubah menjadi signifikan dengan kriteria-F.

Estimasi menjadi sangat sensitif terhadap perubahan kecil dalam pengamatan dan ukuran sampel. Persamaan regresi dalam hal ini, sebagai suatu peraturan, tidak memiliki arti sebenarnya, karena beberapa koefisiennya mungkin memiliki tanda-tanda yang salah dari sudut pandang teori ekonomi dan nilai-nilai besar yang tidak dapat dibenarkan.

Tidak ada kriteria kuantitatif yang tepat untuk menentukan ada tidaknya multikolinearitas. Namun demikian, ada beberapa pendekatan heuristik untuk pendeteksiannya.

Salah satu pendekatan tersebut adalah menganalisis matriks korelasi antara variabel penjelas X 1, X 2, ..., X p dan mengidentifikasi pasangan variabel dengan variabel korelasi tinggi (biasanya lebih besar dari 0,8). Jika ada variabel seperti itu, seseorang berbicara tentang multikolinearitas di antara mereka. Hal ini juga berguna untuk menemukan beberapa koefisien determinasi antara salah satu variabel penjelas dan beberapa kelompok dari mereka. Adanya koefisien determinasi berganda yang tinggi (biasanya lebih dari 0,6) menunjukkan multikolinearitas.

Pendekatan lain adalah dengan memeriksa matriks X`X. Jika determinan matriks X`X atau nilai eigen minimumnya min mendekati nol (misalnya, dengan orde magnitudo yang sama dengan akumulasi kesalahan komputasi), maka ini menunjukkan adanya multikolinearitas. hal yang sama dapat dibuktikan dengan penyimpangan yang signifikan dari nilai eigen maksimum max matriks X`X dari nilai eigen minimumnya min.

Sejumlah metode digunakan untuk menghilangkan atau mengurangi multikolinearitas. Yang paling sederhana (tetapi jauh dari selalu mungkin) adalah bahwa dari dua variabel penjelas dengan koefisien korelasi tinggi (lebih besar dari 0,8), satu variabel dikeluarkan dari pertimbangan. Pada saat yang sama, variabel mana yang harus ditinggalkan dan mana yang dihilangkan dari analisis diputuskan terutama berdasarkan pertimbangan ekonomi. Jika dari segi ekonomi tidak ada variabel yang lebih disukai, maka salah satu dari dua variabel yang memiliki koefisien korelasi lebih besar dengan variabel dependen dibiarkan.

Metode lain untuk menghilangkan atau mengurangi multikolinearitas adalah berpindah dari estimasi tak bias yang ditentukan oleh metode kuadrat terkecil ke estimasi bias yang memiliki hamburan lebih sedikit relatif terhadap parameter yang diestimasi, yaitu. ekspektasi matematis yang lebih rendah dari kuadrat deviasi estimasi b j dari parameter j atau M (b j - j) 2.

Estimasi yang ditentukan oleh vektor, sesuai dengan teorema Gauss-Markov, memiliki varians minimum di kelas semua estimasi tak bias linier, tetapi dengan adanya multikolinearitas, varians ini mungkin menjadi terlalu besar, dan beralih ke yang sesuai. estimasi bias dapat meningkatkan akurasi estimasi parameter regresi. Gambar tersebut menunjukkan kasus ketika estimasi bias j ^, distribusi sampel yang diberikan oleh kepadatan φ (β j ^).

Memang, biarkan interval kepercayaan maksimum yang dapat diterima untuk parameter yang diperkirakan j menjadi (β j -Δ, j + ). Maka probabilitas kepercayaan, atau keandalan penduga, yang ditentukan oleh luas di bawah kurva distribusi dalam interval (β j -Δ, j + ), seperti yang mudah dilihat dari gambar, dalam hal ini akan menjadi lebih besar untuk memperkirakan j dibandingkan dengan bj (pada gambar, area ini diarsir). Dengan demikian, kuadrat rata-rata deviasi estimasi dari parameter yang diestimasi akan lebih kecil untuk estimasi yang bias, yaitu:

M (β j ^ - j) 2< M (b j - β j) 2

Saat menggunakan regresi punggungan (atau regresi punggungan), alih-alih perkiraan yang tidak bias, perkiraan bias yang diberikan oleh vektor

τ ^ = (X`X + E p +1) -1 X`Y,

di mana τ – beberapa angka positif, yang disebut "punggungan" atau "punggungan",

E p +1 adalah matriks satuan orde ke-(р + 1).

Menambahkan τ ke elemen diagonal matriks X`X membuat estimasi parameter model menjadi bias, tetapi pada saat yang sama determinan matriks sistem persamaan normal meningkat - alih-alih (X`X) dari akan sama dengan

| X`X + E p +1 |

Dengan demikian, menjadi mungkin untuk mengecualikan multikolinearitas dalam kasus ketika determinan | X`X | mendekati nol.

Untuk menghilangkan multikolinearitas, transisi dari variabel penjelas asli X 1, X 2, ..., X n, yang saling berhubungan dengan ketergantungan korelasi yang cukup dekat, ke variabel baru yang mewakili kombinasi linier dari yang asli dapat digunakan. Dalam hal ini, variabel baru harus berkorelasi lemah atau umumnya tidak berkorelasi. Sebagai variabel seperti itu, kami mengambil, misalnya, apa yang disebut komponen utama dari vektor variabel penjelas awal yang dipelajari dalam analisis komponen, dan mempertimbangkan regresi pada komponen utama, di mana yang terakhir bertindak sebagai variabel penjelas umum yang tunduk pada makna lebih lanjut ( ekonomi) interpretasi.

Ortogonalitas komponen utama mencegah manifestasi efek multikolinearitas. Selain itu, metode yang diterapkan memungkinkan seseorang untuk membatasi diri pada sejumlah kecil komponen utama dengan jumlah variabel penjelas awal yang relatif besar.

Multikolinearitas - itu adalah istilah yang digunakan untuk menggambarkan masalah di mana hubungan linier yang longgar antara variabel penjelas mengarah ke estimasi regresi yang tidak dapat diandalkan. Tentu saja, hubungan seperti itu tidak serta merta memberikan peringkat yang tidak memuaskan. Jika semua kondisi lain menguntungkan, yaitu jika jumlah pengamatan dan varians sampel dari variabel penjelas besar, dan varians dari suku acak kecil, maka, sebagai hasilnya, estimasi yang cukup baik dapat diperoleh.

Jadi, multikolinearitas harus disebabkan oleh kombinasi ketergantungan yang longgar dan satu (atau lebih) kondisi yang tidak menguntungkan, dan inilah pertanyaannya

tingkat keparahan fenomena, dan bukan jenisnya. Setiap skor regresi akan menderita sampai batas tertentu, kecuali semua variabel penjelas sama sekali tidak berkorelasi. Pertimbangan masalah ini dimulai hanya ketika masalah itu secara serius mempengaruhi hasil estimasi regresi.

Masalah ini umum dalam regresi deret waktu, yaitu ketika data terdiri dari serangkaian pengamatan selama periode waktu tertentu. Jika dua atau lebih variabel penjelas memiliki tren temporal yang kuat, maka mereka akan berkorelasi erat, dan ini dapat menyebabkan multikolinearitas.


Apa yang bisa dilakukan dalam kasus ini?

Berbagai metode yang dapat digunakan untuk mengurangi multikolinearitas terbagi dalam dua kategori: kategori pertama mencakup upaya untuk meningkatkan sejauh mana empat kondisi terpenuhi yang menjamin keandalan estimasi regresi; kategori kedua adalah penggunaan informasi eksternal. Jika memungkinkan data yang diperoleh langsung digunakan terlebih dahulu, maka jelas akan berguna untuk menambah jumlah pengamatan.

Jika Anda menggunakan data deret waktu, Anda dapat melakukannya dengan memperpendek panjang setiap periode waktu. Misalnya, saat mengevaluasi persamaan fungsi permintaan di Latihan 5.3 dan 5.6, Anda dapat beralih dari menggunakan data tahunan ke data triwulanan.

Setelah itu, alih-alih 25 pengamatan, akan ada 100. Ini sangat jelas dan sangat mudah dilakukan sehingga sebagian besar peneliti yang menggunakan deret waktu hampir secara otomatis menggunakan data triwulanan, jika tersedia, alih-alih data tahunan, bahkan jika masalah multikolinearitas tidak layak, hanya untuk mengurangi varians teoritis minimum dari koefisien regresi. Namun, ada potensi masalah dengan pendekatan ini. Autokorelasi dapat diperkenalkan atau ditingkatkan, tetapi dapat dinetralkan. Selain itu, bias karena kesalahan pengukuran dapat terjadi (atau diperkuat) jika data triwulanan diukur dengan presisi yang lebih rendah daripada data tahunan terkait. Masalah ini tidak mudah dipecahkan, tetapi mungkin tidak signifikan.