تعریف چند خطی علل و پیامدهای چند خطی

چند خطییک رابطه خطی بین دو یا چند متغیر عاملی در معادله رگرسیون چندگانه است. اگر چنین وابستگی کاربردی باشد، در آن صورت صحبت می شود چند خطی بودن کامل... اگر همبستگی است، پس چند خطی جزئی... اگر چند خطی کامل یک انتزاع نظری باشد (به ویژه اگر یک متغیر ساختگی دارای کسطوح کیفیت، جایگزین کنید کمتغیرهای دوگانه)، پس چند خطی جزئی بسیار واقعی است و تقریباً همیشه وجود دارد. ما فقط می توانیم در مورد درجه شدت آن صحبت کنیم. به عنوان مثال، اگر متغیرهای توضیحی شامل درآمد و مصرف قابل تصرف باشد، البته هر دوی این متغیرها همبستگی بالایی خواهند داشت.

عدم وجود چند خطی یکی از پیش نیازهای مطلوب مدل چندگانه خطی کلاسیک است. این به دلیل ملاحظات زیر است:

1) در مورد چند خطی کامل، به طور کلی غیرممکن است که تخمینی از پارامترهای رگرسیون چندگانه خطی با استفاده از OLS ایجاد کنیم.

2) در مورد چند خطی جزئی، تخمین پارامترهای رگرسیون ممکن است غیرقابل اعتماد باشد و علاوه بر این، تعیین آن دشوار است.

سهم مجزای عوامل در شاخص مؤثر.

دلیل اصلی وقوع چند خطی بودن، وجود فرآیندهایی در شی مورد مطالعه است که به طور همزمان بر برخی از متغیرهای ورودی تأثیر می‌گذارند، اما در مدل لحاظ نمی‌شوند. این ممکن است نتیجه مطالعه بی کیفیت حوزه موضوعی یا پیچیدگی روابط متقابل پارامترهای شی مورد مطالعه باشد.

چند خطی بودن مشکوک است که:

- تعداد زیادی از عوامل بی اهمیت در مدل؛

- خطاهای استاندارد بزرگ پارامترهای رگرسیون؛

- بی ثباتی برآوردها (تغییر کوچک در داده های اولیه منجر به تغییر قابل توجهی می شود).

یک رویکرد برای تعیین وجود یا عدم وجود چند خطی، تجزیه و تحلیل ماتریس همبستگی است

بین متغیرهای توضیحی و شناسایی جفت عوامل با ضرایب همبستگی جفت بالا (معمولاً بیش از 0.7). اگر چنین عواملی وجود داشته باشند، یک خط خطی واضح بین آنها وجود دارد.

با این حال، ضرایب همبستگی زوجی، که به صورت جداگانه در نظر گرفته می شوند، نمی توانند تعامل تجمعی چندین عامل (و نه فقط دو) را ارزیابی کنند.

بنابراین، برای ارزیابی وجود چند خطی در مدل، تعیین کننده ماتریس ضرایب همبستگی زوجی بین عوامل ( تعیین کننده ماتریس همبستگی فاکتورها)

هر چه تعیین کننده ماتریس همبستگی فاکتور به 0 نزدیک تر باشد، چند خطی قوی تر است و بالعکس، هر چه تعیین کننده به 1 نزدیک تر باشد، چند خطی بودن کمتر می شود.


اهمیت آماری چند خطی عوامل با آزمایش فرضیه صفر تحت یک فرضیه جایگزین تعیین می شود. برای آزمون فرضیه صفر از توزیع پیرسون با درجه آزادی استفاده می شود. مقدار مشاهده شده از آمار با فرمول، جایی که n- تعداد مشاهدات، متر- تعداد عوامل برای یک سطح اهمیت معین، مقدار بحرانی از جدول نقاط بحرانی توزیع پیرسون تعیین می شود. اگر فرضیه رد شود و چند خطی بودن عوامل در مدل در نظر گرفته شود.

عوامل مؤثر بر چند خطی بودن را نیز می توان با تجزیه و تحلیل ضرایب تعیین چندگانه، به شرطی محاسبه کرد که هر یک از عوامل به عنوان متغیر وابسته سایر عوامل در نظر گرفته شوند:،،…،. هر چه آنها به 1 نزدیکتر باشند، چند خطی بودن فاکتورها قوی تر است. این بدان معنی است که عواملی با حداقل مقدار ضریب تعیین چندگانه باید در معادله رها شوند.

در مورد چند خطی بودن کامل، قاطع ترین مبارزه را باید با آن انجام داد: بلافاصله متغیرهایی را که ترکیب خطی متغیرهای دیگر هستند، از معادله رگرسیون حذف کنید.

چند خطی جزئی آنقدر بد جدی نیست که بتوان آن را شناسایی و از بین برد. همه چیز به اهداف مطالعه بستگی دارد. اگر وظیفه اصلی مدل سازی فقط پیش بینی مقادیر متغیر وابسته باشد، با ضریب تعیین به اندازه کافی بزرگ () وجود چند خطی بر کیفیت های پیش بینی مدل تأثیر نمی گذارد. اگر هدف از مدل‌سازی نیز تعیین سهم هر عامل در تغییر متغیر وابسته باشد، وجود چند خطی یک مشکل جدی است.

ساده ترین روش برای حذف چند خطی، حذف یک یا تعدادی از متغیرهای همبسته از مدل است.

از آنجایی که چند خطی مستقیماً به نمونه بستگی دارد، ممکن است با یک نمونه متفاوت، اصلاً چند خطی وجود نداشته باشد یا آنقدر جدی نباشد. بنابراین، برای کاهش چند خطی، در برخی موارد، افزایش حجم نمونه کافی است.

گاهی اوقات مشکل چند خطی را می توان با تغییر مشخصات مدل حل کرد: یا شکل مدل تغییر می کند یا عواملی اضافه می شوند که در مدل اصلی در نظر گرفته نشده اند، اما به طور قابل توجهی بر متغیر وابسته تأثیر می گذارند.

در برخی موارد، چند خطی را می توان با تبدیل متغیرهای عامل به حداقل رساند یا به طور کامل حذف کرد. در این مورد، تبدیل های زیر رایج ترین هستند:

1. ترکیب خطی متغیرهای چند خطی (به عنوان مثال).

2. جایگزینی متغیر چند خطی با افزایش آن.

3. تقسیم یک متغیر خطی به دیگری.

فرض کنید ما یک معادله رگرسیون را در نظر می گیریم و داده های تخمین آن شامل مشاهداتی برای اشیاء با کیفیت های مختلف است: برای مردان و زنان، برای سفید پوستان و سیاه پوستان. سوالی که در اینجا ممکن است برای ما جالب باشد این است - آیا درست است که مدل مورد بررسی برای دو نمونه مرتبط با اشیاء با کیفیت متفاوت مطابقت دارد؟ با استفاده از آزمون چاو می توانید به این سوال پاسخ دهید.

مدل ها را در نظر بگیرید:

, من=1,…,ن (1);

, من=ن+1,…,ن+م (2).

در نمونه اول نمشاهدات، در دوم - ممشاهدات مثال: Y- دستمزد، متغیرهای توضیحی - سن، سابقه خدمت، سطح تحصیلات. آیا از داده های موجود برمی آید که مدل وابستگی دستمزد به متغیرهای توضیحی سمت راست برای مردان و زنان یکسان است؟

برای آزمون این فرضیه می توانید از طرح آزمون فرضیه عمومی با مقایسه رگرسیون محدود و رگرسیون غیرمحدود استفاده کنید. رگرسیون بدون محدودیت در اینجا اتحاد رگرسیون های (1) و (2) است، یعنی. ESS UR = ESS 1 + ESS 2، تعداد درجات آزادی - ن + م - 2ک... رگرسیون محدود (یعنی رگرسیون با این فرض که فرضیه صفر برآورده شده است) رگرسیون برای کل مجموعه مشاهدات موجود خواهد بود:

, من = 1,…, ن+م (3).

با برآورد (3)، به دست می آوریم ESS R... برای آزمون فرضیه صفر از آمار زیر استفاده می کنیم:

که اگر فرضیه صفر درست باشد، توزیع فیشر با تعداد درجات آزادی صورتگر دارد. کو مخرج ن+ م- 2ک.

اگر فرضیه صفر درست باشد، می‌توانیم نمونه‌های موجود را با هم ترکیب کرده و مدل را برای آن تخمین بزنیم ن+ممشاهدات اگر فرضیه صفر را رد کنیم، نمی‌توانیم دو نمونه را در یک نمونه ادغام کنیم و باید این دو مدل را جداگانه ارزیابی کنیم.


مطالعه مدل خطی کلی، که قبلا در نظر گرفتیم، بسیار ضروری است، همانطور که دیدیم، بر اساس دستگاه آماری. با این حال، مانند همه برنامه های کاربردی همسر. آمار، قدرت یک روش بستگی به مفروضات زیربنایی آن و برای کاربرد آن ضروری است. برای مدتی، شرایطی را در نظر خواهیم گرفت که در آن یک یا چند فرضیه زیربنای مدل خطی نقض شده است. در این موارد روش‌های ارزیابی جایگزین را در نظر خواهیم گرفت. خواهیم دید که نقش برخی از فرضیه ها بیشتر از نقش برخی دیگر است. باید ببینیم که نقض برخی شرایط (فرض‌ها) چه عواقبی می‌تواند داشته باشد، بتوانیم بررسی کنیم که آیا آنها راضی هستند یا نه، و بدانیم که وقتی روش حداقل مربعات کلاسیک مناسب نیست، چه روش‌های آماری را می‌توان و باید به کار برد.

1. رابطه بین متغیرها خطی است و با معادله - خطاهای مشخصات مدل بیان می شود (عدم درج متغیرهای توضیحی قابل توجه در معادله، گنجاندن متغیرهای غیر ضروری در معادله، انتخاب اشتباه شکل وابستگی بین متغیرها)؛


2. ایکس 1 ,…,X k- متغیرهای قطعی - رگرسیون های تصادفی، مستقل خطی - چند خطی کامل.

4. - ناهمسانی;

5-وقتی من ¹ ک- همبستگی خودکار خطاها

قبل از شروع گفتگو، مفاهیم زیر را در نظر بگیرید: ضریب همبستگی زوجی و ضریب همبستگی جزئی.

فرض کنید در حال بررسی تأثیر یک متغیر بر متغیر دیگر هستیم ( Yو ایکس). برای اینکه بفهمیم این متغیرها چگونه به یکدیگر مرتبط هستند، ضریب همبستگی جفت را با استفاده از فرمول زیر محاسبه می کنیم:

اگر مقدار ضریب همبستگی را نزدیک به 1 بدست آوریم، نتیجه می گیریم که متغیرها کاملاً به یکدیگر مرتبط هستند.

با این حال، اگر ضریب همبستگی بین دو متغیر مورد علاقه نزدیک به 1 باشد، ممکن است در واقع وابسته نباشند. پرونده بیماران روانی و صداوسیما مصداق آن چیزی است که «همبستگی کاذب» نامیده می شود. بالا بودن مقدار ضریب همبستگی ممکن است به دلیل وجود متغیر سوم نیز باشد که بر دو متغیر اول تأثیر قوی دارد که دلیل همبستگی بالای آنهاست. بنابراین، مشکل محاسبه همبستگی «خالص» بین متغیرها به وجود می آید ایکسو Y، یعنی همبستگی که در آن تأثیر (خطی) سایر متغیرها حذف می شود. برای این منظور، مفهوم ضریب همبستگی جزئی معرفی شده است.

بنابراین، می خواهیم ضریب همبستگی جزئی بین متغیرها را تعیین کنیم ایکسو Y، به استثنای تأثیر خطی متغیر ز... برای تعیین آن از روش زیر استفاده می شود:

1. ما رگرسیون را تخمین می زنیم،

2. باقی مانده ها را می گیریم،

3. ما رگرسیون را تخمین می زنیم،

4. ما مانده ها را می گیریم،

5. - ضریب نمونه همبستگی جزئی، میزان ارتباط بین متغیرها را می سنجد ایکسو Y، از تأثیر متغیر پاک شد ز.

محاسبات مستقیم:

ویژگی:

در صورتی که بخواهیم از تأثیر دو یا چند متغیر خلاص شویم، روش ساخت ضریب همبستگی جزئی تعمیم می یابد.


1. چند خطی کامل.

یکی از الزامات گاوس-مارکوف به ما می گوید که متغیرهای توضیحی نباید در هیچ رابطه دقیقی با هم مرتبط باشند. اگر چنین رابطه ای بین متغیرها وجود داشته باشد، می گوییم که مدل دارای چند خطی کامل است. مثال. مدلی را در نظر بگیرید که دارای میانگین نمره امتحان شامل سه متغیر توضیحی است: من- درآمد والدین دی- میانگین تعداد ساعات صرف شده برای تمرین در روز، دبلیو- میانگین تعداد ساعات صرف شده برای تمرین در هفته. بدیهی است که دبلیو=7دی... و این نسبت برای هر دانش آموزی که در نمونه ما قرار می گیرد برآورده می شود. ردیابی حالت چند خطی کامل آسان است، زیرا در این مورد نمی‌توان تخمین‌ها را با استفاده از روش حداقل مربعات ساخت.

2. چند خطی جزئی یا به سادگی چند خطی.

وضعیت بسیار رایج تر زمانی است که هیچ رابطه خطی دقیقی بین متغیرهای توضیحی وجود ندارد، اما یک همبستگی نزدیک بین آنها وجود دارد - به این حالت چند خطی واقعی یا جزئی می گویند (به سادگی چند خطی) - وجود روابط آماری نزدیک بین متغیرها. باید گفت که موضوع چند خطی بودن بیشتر به میزان تجلی پدیده مربوط می شود تا نوع آن. هر نمره رگرسیون به یک شکل از آن رنج می برد، مگر اینکه همه متغیرهای توضیحی کاملاً همبسته نباشند. در نظر گرفتن این مشکل تنها زمانی شروع می شود که شروع به تأثیر جدی بر نتایج برآورد رگرسیون کند (وجود روابط آماری بین رگرسیون ها لزوماً برآوردهای رضایت بخشی را ارائه نمی دهد). بنابراین چند خطی بودن مشکلی است که در آن همبستگی تنگاتنگ بین رگرسیون ها منجر به تخمین های رگرسیون غیرقابل اعتماد می شود.

پیامدهای چند خطی:

به طور رسمی، از زمانی که ( ایکس"ایکس) غیر منحط است، سپس می توانیم تخمین OLS ضرایب رگرسیون را بسازیم. با این حال، به یاد بیاوریم که چگونه واریانس های نظری برآورد ضرایب رگرسیون بیان می شود: a II - منعنصر قطری ام ماتریس. از آنجایی که ماتریس (X "X) نزدیک به انحطاط و det ( ایکس"ایکس) » 0، سپس

1) اعداد بسیار زیادی در مورب اصلی ماتریس معکوس وجود دارد، زیرا عناصر ماتریس معکوس با det نسبت معکوس دارند ( ایکس"ایکس). بنابراین، واریانس نظری منضریب -ام به اندازه کافی بزرگ است و برآورد واریانس نیز بزرگ است، بنابراین، تی- آمار کوچک است که می تواند منجر به بی اهمیتی آماری شود منضریب ام یعنی متغیر تاثیر معنی داری بر متغیر توضیح داده شده دارد و نتیجه می گیریم که ناچیز است.

2) از آنجایی که برآوردها و بستگی به ( ایکس"ایکس) -1 که عناصر آن با det نسبت معکوس دارند ( ایکس"ایکس، سپس اگر یک یا دو مشاهده را اضافه یا حذف کنیم، یک یا دو ردیف به ماتریس اضافه یا حذف می کنیم. ایکس"ایکس، سپس مقادیر و می تواند به طور قابل توجهی تغییر کند، تا تغییر علامت - ناپایداری نتایج برآورد.

3) مشکل در تفسیر معادله رگرسیون. فرض کنید دو متغیر در معادله داریم که به هم مرتبط هستند: ایکس 1 و ایکس 2. ضریب رگرسیون در ایکس 1 به عنوان معیار تغییر تفسیر می شود Yبا تغییر ایکس 1 ceteris paribus، یعنی. مقادیر سایر متغیرها ثابت می ماند. با این حال، از آنجایی که متغیرها NS 1 و NS 2 متصل می شوند، سپس تغییرات در متغیر NS 1 باعث تغییرات قابل پیش بینی در متغیر می شود NS 2 و ارزش NS 2 ثابت نمی ماند.

مثال: کجا NS 1 - مساحت کل NS 2 - منطقه نشیمن ما می گوییم: "اگر مساحت نشیمن 1 متر مربع افزایش یابد، در آن صورت، همه چیز برابر باشد، قیمت یک آپارتمان دلار آمریکا افزایش می یابد." با این حال، در این مورد، مساحت نشیمن نیز 1 متر مربع افزایش می یابد. متر و افزایش قیمت خواهد بود. تعیین تأثیر بر متغیر Yهر متغیر به طور جداگانه دیگر امکان پذیر نیست. راه خروج در این شرایط با قیمت یک آپارتمان این است که در مدل نه مساحت کل، بلکه به اصطلاح مساحت "اضافی" یا "اضافی" را در مدل لحاظ کنید.

علائم چند خطی

هیچ معیار دقیقی برای تعیین وجود (عدم) چند خطی وجود ندارد. با این حال، توصیه های اکتشافی برای تشخیص آن وجود دارد:

1) ماتریس ضرایب همبستگی زوجی را بین رگرسیون ها تجزیه و تحلیل کنید و اگر مقدار ضریب همبستگی نزدیک به 1 باشد، آن را نشانه ای از چند خطی در نظر می گیرند.

2) تجزیه و تحلیل ماتریس همبستگی فقط یک قضاوت سطحی در مورد وجود (عدم) چند خطی بودن است. مطالعه دقیق‌تر این موضوع با محاسبه ضرایب همبستگی جزئی یا محاسبه ضرایب تعیین برای هر یک از متغیرهای توضیحی برای همه متغیرهای توضیحی دیگر در رگرسیون حاصل می‌شود.

4) (NSایکس) یک ماتریس قطعی مثبت متقارن است، بنابراین همه مقادیر ویژه آن غیر منفی هستند. اگر تعیین کننده ماتریس ( NSایکس) برابر با صفر است، سپس حداقل مقدار ویژه نیز صفر می شود و پیوستگی حفظ می شود. در نتیجه، مقدار ارزش ویژه انسانی را می توان بر اساس نزدیکی به صفر تعیین کننده ماتریس نیز قضاوت کرد. NSایکس). علاوه بر این ویژگی، حداقل مقدار ویژه نیز مهم است زیرا خطای استاندارد ضریب نسبت معکوس دارد.

5) وجود چند خطی را می توان با علائم بیرونی که پیامدهای چند خطی هستند قضاوت کرد:

الف) برخی از برآوردها دارای نشانه هایی هستند که از نظر تئوری اقتصادی نادرست هستند یا مقادیر غیرقابل توجیه بالایی دارند.

ب) یک تغییر کوچک در داده های اقتصادی اولیه منجر به تغییر قابل توجهی در برآورد ضرایب مدل می شود.

ج) اکثریت تی- آمار ضرایب به طور ناچیز از صفر متفاوت است، در عین حال، مدل به عنوان یک کل قابل توجه است، همانطور که توسط ارزش بالا نشان داده می شود. اف-آمار.

چگونه از شر چند خطی خلاص شویم، چگونه آن را از بین ببریم:

1) استفاده از تحلیل عاملی انتقال از مجموعه اصلی رگرسیون ها، که در میان آنها وابستگی های آماری وجود دارد، به رگرسیون های جدید ز 1 ,…,Z mبا استفاده از روش مولفه های اصلی - به جای متغیرهای اولیه، به جای متغیرهای اولیه، برخی از ترکیبات خطی آنها را در نظر می گیریم که همبستگی بین آنها کم است یا اصلاً وجود ندارد. چالش در اینجا ارائه تفسیر معنادار به متغیرهای جدید است. ز... اگر شکست خورد، با استفاده از تبدیل‌های معکوس به متغیرهای اصلی باز می‌گردیم. با این حال، تخمین‌های به‌دست‌آمده، مغرضانه هستند، اما واریانس کمتری خواهند داشت.

2) از بین همه متغیرهای موجود، عواملی را که بیشترین تأثیر را بر متغیر توضیح داده شده دارند، انتخاب کنید. مراحل انتخاب در زیر مورد بحث قرار خواهد گرفت.

3) انتقال به روش های برآورد مغرضانه.

هنگامی که ما با مشکل چند همخطی مواجه می شویم، محقق بی تجربه در ابتدا تمایل دارد که پسرفت های غیرضروری را که ممکن است باعث آن شوند را حذف کند. با این حال، همیشه مشخص نیست که کدام متغیرها از این نظر زائد هستند. علاوه بر این، همانطور که در زیر نشان داده خواهد شد، نادیده گرفتن متغیرهای به اصطلاح تأثیرگذار به طور قابل توجهی منجر به سوگیری تخمین OLS می شود.


توجه داشته باشید که در تعدادی از موارد چند خطی بودن آنقدر "شر" جدی نیست که تلاش های قابل توجهی برای شناسایی و حذف آن انجام دهد. اساساً همه چیز به اهداف مطالعه بستگی دارد.
اگر وظیفه اصلی مدل پیش بینی مقادیر آینده متغیر وابسته باشد، با ضریب تعیین R2 به اندازه کافی بزرگ (gt؛ 0.9)، وجود چند خطی معمولاً بر کیفیت های پیش بینی مدل تأثیر نمی گذارد. اگر در آینده متغیرهای همبسته مانند قبل باقی بمانند).
اگر تعیین میزان تأثیر هر یک از متغیرهای توضیحی بر متغیر وابسته ضروری باشد، در آن صورت چند خطی بودن که منجر به افزایش خطاهای استاندارد می شود، احتمالاً روابط واقعی بین متغیرها را مخدوش می کند. در این شرایط، چند خطی بودن یک مشکل جدی است.
هیچ روش واحدی برای حذف چند خطی وجود ندارد که در هر صورت مناسب باشد. این به دلیل این واقعیت است که علل و پیامدهای چند خطی مبهم است و تا حد زیادی به نتایج نمونه بستگی دارد.
حذف متغیر (ها) از مدل
ساده ترین روش برای حذف چند خطی، حذف یک یا تعدادی از متغیرهای همبسته از مدل است. هنگام استفاده از این روش کمی احتیاط لازم است. در این شرایط، خطاهای مشخصات ممکن است، بنابراین، در مدل‌های اقتصادسنجی کاربردی، توصیه می‌شود تا زمانی که چند خطی بودن به یک مشکل جدی تبدیل نشود، متغیرهای توضیحی حذف نشوند.
بازیابی داده های اضافی یا نمونه جدید
از آنجایی که چند خطی مستقیماً به نمونه بستگی دارد، ممکن است با یک نمونه متفاوت، چند خطی بودن چندان جدی نباشد یا نباشد. گاهی اوقات افزایش حجم نمونه برای کاهش چند خطی بودن کافی است. به عنوان مثال، اگر از داده های سالانه استفاده می کنید، می توانید به داده های فصلی بروید. افزایش حجم داده ها باعث کاهش واریانس ضرایب رگرسیون و در نتیجه افزایش معناداری آماری آنها می شود. با این حال، به دست آوردن یک نمونه جدید یا گسترش نمونه قدیمی همیشه امکان پذیر نیست یا هزینه های جدی را به همراه دارد. علاوه بر این، این رویکرد می تواند همبستگی خودکار را افزایش دهد. این مشکلات استفاده از این روش را محدود می کند.
اصلاح مشخصات مدل
در برخی موارد، مشکل چند خطی را می توان با تغییر مشخصات مدل حل کرد: یا شکل مدل تغییر می کند، یا متغیرهای توضیحی اضافه می شوند که در مدل اصلی در نظر گرفته نشده اند، اما به طور قابل توجهی بر متغیر وابسته تأثیر می گذارند. اگر این روش موجه باشد، استفاده از آن مجموع مربعات انحرافات را کاهش می دهد و در نتیجه خطای استاندارد رگرسیون را کاهش می دهد. این امر منجر به کاهش خطاهای استاندارد ضرایب می شود.
استفاده از اطلاعات اولیه در مورد برخی از پارامترها
گاهی اوقات، هنگام ساخت یک مدل رگرسیون چندگانه، می توانید از اطلاعات اولیه، به ویژه مقادیر شناخته شده برخی از ضرایب رگرسیون استفاده کنید.
این احتمال وجود دارد که مقادیر ضرایب محاسبه‌شده برای هر مدل اولیه (معمولا ساده‌تر) یا برای یک مدل مشابه بر اساس نمونه‌ای که قبلاً به دست آمده است، می‌تواند برای مدل در حال توسعه در حال حاضر استفاده شود.
انتخاب مهم ترین متغیرهای توضیحی. روش اتصال متوالی عناصر
حرکت به سمت متغیرهای توضیحی کمتر می تواند تکرار اطلاعات ارائه شده توسط ویژگی های بسیار وابسته به یکدیگر را کاهش دهد. این دقیقاً همان چیزی است که در مورد متغیرهای توضیحی چند خطی با آن روبرو هستیم.
بگذار باشد

ضریب چندگانه
همبستگی بین متغیر وابسته Y و مجموعه متغیرهای توضیحی X 1, X 2, ..., Xm. به عنوان ضریب همبستگی زوجی معمول بین Y و یک تابع خطی تعریف می شود
رگرسیون Y = b0 + KX1 + b2X2 + ... + bmXm. Let amp; = R-1 - ماتریس معکوس به ماتریس R:


سپس ضریب مجذور Ry.X = Rr (xi, x2, .., x) را می توان با فرمول محاسبه کرد:


تخمین R * 2.X اصلاح شده برای بی طرفی ضریب تعیین R2y.X به شکل زیر است:

(اگر با فرمول (6.7) عدد منفی به دست آید، فرض می کنیم


حد اطمینان پایین تر برای

مشخص
طبق فرمول:

در عمل، هنگام تصمیم‌گیری اینکه کدام متغیرهای توضیحی باید در مدل گنجانده شوند، اغلب از روش اتصال متوالی عناصر استفاده می‌شود.
(j = 1، 2، ...، m). که در آن

منطبق با مربع معمول است
ضریب همبستگی جفتی

بگذار باشد


سپس متغیر xp آموزنده ترین خواهد بود. سپس ضریب اصلاح شده برای بی طرفی محاسبه می شود
(برای m = 1) و حد اطمینان پایین آن R2min (1).


جفت jxp، xq آموزنده تر خواهد بود). سپس ضریب اصلاح شده برای بی طرفی محاسبه می شود (با m = 2)
و حد اطمینان پایین آن R2min (2).

این روش تا زمانی ادامه می یابد که در مرحله (تا 1+) شرط انجام شود:
سپس مدل شامل آموزنده ترین متغیرهای به دست آمده در مراحل اول می باشد. توجه داشته باشید که در محاسبات از فرمول های (6.7) و (6.8) استفاده می شود که در آن به جای m مقدار مربوطه از گام شماره k گرفته می شود.
در واقع، این روش تضمین نمی کند که ما از چند خطی خلاص شویم.
روش های دیگر برای حذف چند خطی نیز استفاده می شود.
مثال 6.1. داده های مشروط زیر وجود دارد (جدول 6.1):
جدول 6.1
داده ها برای روش زنجیر دیزی


X1

X2

X3

دارند

1

1,5

0,7

12

2

2,5

1,2

20

3

1

1,4

15

4

5,5

1,9

41

5

3

2,5

33

6

3

3,1

35

7

2,8

3,5

38

8

0,5

4

28

9

4

3,8

47

10

2

5,3

40

اجازه دهید تأثیر متغیر وابسته هر یک از متغیرهای توضیحی را جداگانه در نظر بگیریم. با محاسبه ضرایب همبستگی زوجی، متوجه می شویم که ضریب

سپس:


تأثیر جفت متغیر (x1, x2) و (x1, x3) را بر روی متغیر وابسته در نظر بگیرید. ابتدا تأثیر یک جفت متغیر (x1, x2) را در نظر بگیرید.



Icuvum uvjpcuuivi
هنگام اتصال متغیرها، دو متغیر توضیحی باید در معادله گنجانده شود. بنابراین، معادله نظری به شکل زیر خواهد بود:
روش ریج
روش رج (رگرسیون رج) را برای حذف چند خطی در نظر بگیرید. این روش توسط A.E. Hoerl در سال 1962 پیشنهاد شد و زمانی که ماتریس (xtX) نزدیک به انحطاط است، استفاده می شود. مقدار کمی (از 0.1 تا 0.4) به عناصر مورب ماتریس (xtX) اضافه می شود. در این حالت، تخمین های مغرضانه ای از پارامترهای معادله به دست می آید. اما خطاهای استاندارد چنین برآوردهایی در مورد چند خطی بودن کمتر از خطاهای ارائه شده توسط روش حداقل مربعات معمول است.
مثال 6.2. داده های اولیه ارائه شده است «جدول 6 2 ضریب همبستگی متغیرهای توضیحی

چی
چند خطی قوی را نشان می دهد.
جدول 6.2
داده ها برای مطالعه چند خطی به روش رج


x1

x2

دارند

1

1,4

7

2

3,1

12


سپس معادله y = 2.63 + 1.37x1 + 1.95x2 را بدست می آوریم. عناصر قطری ماتریس معکوس به میزان قابل توجهی کاهش می یابد و برابر با z00 = 0.45264، z11 = 1.57796، z00 = 0.70842 خواهد بود که منجر به کاهش خطاهای استاندارد ضرایب می شود.
خلاصه
از جمله پیامدهای اصلی که چند خطی می تواند منجر شود، می توان موارد زیر را متمایز کرد:
  1. هنگام آزمایش فرضیه اصلی در مورد بی اهمیت بودن ضرایب رگرسیون چندگانه با استفاده از آزمون t، در اکثر موارد پذیرفته می شود، با این حال، خود معادله رگرسیون در هنگام آزمایش با استفاده از آزمون A معنادار می شود، که نشان دهنده یک مقدار بیش از حد برآورد شده است. از ضریب همبستگی چندگانه;
  2. تخمین‌های به‌دست‌آمده از ضرایب معادله رگرسیون چندگانه معمولاً به‌طور غیرقابل توجیهی بیش‌ازحد برآورد شده‌اند یا علائم نادرستی دارند.
  3. افزودن یا حذف یک یا دو مشاهده از داده های اولیه تأثیر زیادی بر تخمین ضرایب مدل دارد.
  4. وجود چند خطی در یک مدل رگرسیون چندگانه می‌تواند آن را برای استفاده بیشتر (مثلاً برای پیش‌بینی) نامناسب کند.
سوالات خودآزمایی
  1. چند خطی چیست؟
  2. چه شاخص هایی وجود چند خطی را نشان می دهد؟
  3. تعیین کننده ماتریس XTX در حالت چند خطی کامل چیست؟
  4. منظور از ضرایب متغیرهای توضیحی در مورد چند خطی بودن چیست؟
  5. چه تحولی در روش شانه انجام می شود، به چه چیزی منجر می شود؟
  6. ترتیب اقدامات در روش افزایش متوالی تعداد متغیرهای توضیحی چگونه است؟
  7. ضریب همبستگی چه چیزی را نشان می دهد؟
  8. ضریب همبستگی جزئی چه چیزی را نشان می دهد؟
0

وزارت آموزش و پرورش و علوم فدراسیون روسیه

موسسه آموزشی بودجه ایالتی فدرال

آموزش عالی

دانشگاه فنی TVER State

گروه "حسابداری و مالی"

پروژه دوره
در رشته "اقتصاد سنجی"

"بررسی چند خطی در مدل های اقتصادسنجی: حذف متغیر (ها) از مدل"

سرپرست کار:

Cand. آن ها علوم، دانشیار

کونوالوا

مجری:

دانشجوی گروه EK-1315 EPO

Tver، 2015

مقدمه………………………………………………………………………………………………………………………………………………………………………………………………………………………………………

1. بخش تحلیلی ………………………………………………………………………………………………

1.1. نشانه های تعمیم یافته چند خطی در مدل های اقتصادسنجی ………………………………………………………………………………………………………………………………………………

1.2. راه های اصلی حذف چند خطی در مدل های اقتصادسنجی …………………………………………………………………………………………………………

2. بخش طراحی…………………………………………………………………………………………………………………………

2.1. اطلاعات و پشتیبانی روش شناختی پژوهش های اقتصادسنجی………………………………………………………………………………………………………………………

2.2. نمونه ای از یک مطالعه اقتصاد سنجی ………………………………………………………………………………………………………

نتیجه گیری…………………………………………………………………………………………………………………………………………………………………………………………………………………………………

فهرست منابع مورد استفاده ………………………………………………………………………………………………………………………………………………………………………………………………………

معرفی

مرتبط بودن موضوع کار «بررسی چند خطی در مدل‌های اقتصادسنجی: حذف متغیر (ها) از مدل» به این دلیل است که امروزه این مشکل اغلب در مدل‌های اقتصادسنجی کاربردی مشاهده می‌شود.

موضوع تحقیق مسئله چند خطی بودن است. هدف تحقیق مدل های اقتصادسنجی می باشد.

هدف اصلی کار توسعه راه حل های طراحی برای اطلاعات و پشتیبانی روش شناختی تحقیقات اقتصادسنجی است.

برای دستیابی به هدف، وظایف اصلی پژوهشی زیر تعیین و حل شد:

  1. تعمیم ویژگی های چند خطی در مدل های اقتصادسنجی
  2. شناسایی راه های اصلی حذف چند خطی.

3. توسعه اطلاعات و پشتیبانی روش شناختی برای تحقیقات اقتصادسنجی.

  1. بخش تحلیلی

1.1. نشانه های تعمیم یافته چند خطی در مدل های اقتصادسنجی

چند خطی - در اقتصاد سنجی (تحلیل رگرسیون) - وجود رابطه خطی بین متغیرهای توضیحی (عوامل) مدل رگرسیون. در عین حال وجود دارد هم خطی کامل، که به معنای وجود یک وابستگی خطی عملکردی (یکسان) است و جزئيیا به سادگی چند خطی بودن- وجود همبستگی قوی بین عوامل.

همخطی کامل منجر به عدم قطعیت هاپارامترها در یک مدل رگرسیون خطی بدون توجه به روش های تخمین. این را با استفاده از مدل خطی زیر به عنوان مثال در نظر بگیرید:

اجازه دهید عوامل این مدل به طور یکسان به صورت زیر مرتبط شوند:. سپس مدل خطی اصلی را در نظر بگیرید که در آن به ضریب اول اضافه می کنیم دلخواهعدد آو همین عدد را از دو ضریب دیگر کم کنید. سپس (بدون خطای تصادفی) داریم:

بنابراین با وجود تغییر نسبتاً دلخواه در ضرایب مدل، همان مدل به دست می آید. این مدل اساساً غیرقابل شناسایی است. عدم قطعیت از قبل در خود مدل وجود دارد. اگر فضای 3 بعدی ضرایب را در نظر بگیریم، در این فضا بردار ضرایب واقعی در این مورد تنها نیست، بلکه یک خط مستقیم است. هر نقطه از این خط بردار واقعی ضرایب است.

اگر همخطی کامل منجر به عدم قطعیت در مقادیر پارامتر شود، چند خطی جزئی منجر به ناپایداری آنها می شود. ارزیابی ها... بی ثباتی در افزایش عدم قطعیت آماری - واریانس برآوردها بیان می شود. این بدان معنی است که نتایج ارزیابی خاص می تواند از نمونه ای به نمونه دیگر بسیار متفاوت باشد، حتی اگر نمونه ها همگن باشند.

همانطور که می دانید ماتریس کوواریانس برآورد پارامترهای رگرسیون چندگانه با استفاده از روش حداقل مربعات برابر است. بنابراین، هرچه ماتریس کوواریانس (تعیین کننده آن) کوچکتر باشد، ماتریس کوواریانس تخمین پارامترها "بزرگتر" باشد، و به ویژه، عناصر مورب این ماتریس، یعنی واریانس تخمین پارامتر، بزرگتر باشد. برای وضوح، مثالی از یک مدل دو عاملی را در نظر بگیرید:

سپس واریانس تخمین پارامتر، به عنوان مثال، برای اولین عامل برابر است با:

ضریب همبستگی نمونه بین عوامل کجاست.

در اینجا به وضوح مشاهده می شود که هر چه مدول همبستگی بین عوامل بیشتر باشد، واریانس تخمین پارامترها بیشتر است. در (هم خطی کامل)، واریانس به بی نهایت میل می کند، که با آنچه قبلا گفته شد مطابقت دارد.

بنابراین، تخمین پارامترها نادرست به دست می‌آیند، به این معنی که تفسیر تأثیر برخی عوامل بر متغیر مورد توضیح دشوار خواهد بود. در عین حال، چند خطی بودن بر کیفیت مدل به عنوان یک کل تأثیر نمی گذارد - می توان آن را از نظر آماری معنی دار تشخیص داد، حتی زمانی که همهضرایب ناچیز هستند (این یکی از نشانه های چند خطی است).

در مدل های خطی، ضرایب همبستگی بین پارامترها می تواند مثبت و منفی باشد. در حالت اول، افزایش یک پارامتر با افزایش پارامتر دیگر همراه است. در حالت دوم، هنگامی که یک پارامتر افزایش می یابد، پارامتر دیگر کاهش می یابد.

بر این اساس می توان چند خطی قابل قبول و غیرقابل قبول را ایجاد کرد. زمانی چند خطی غیرقابل قبول رخ خواهد داد که بین عوامل 1 و 2 همبستگی مثبت و معناداری وجود داشته باشد و در عین حال تأثیر هر عامل بر همبستگی با تابع y یک جهته باشد، یعنی افزایش در هر دو عامل 1 و 2 باشد. منجر به افزایش یا کاهش عملکرد y می شود. به عبارت دیگر، هر دو عامل بر روی تابع y به یک شکل عمل می کنند و یک همبستگی مثبت معنادار بین آنها ممکن است اجازه حذف یکی از آنها را بدهد.

چند خطی مجاز به گونه ای است که عوامل بر تابع y تأثیر متفاوتی می گذارند. دو مورد در اینجا امکان پذیر است:

الف) با همبستگی مثبت و معنادار بین عوامل، تأثیر هر عامل بر همبستگی با تابع y چند جهتی است، یعنی. افزایش یک عامل منجر به افزایش تابع و افزایش عامل دیگر منجر به کاهش تابع y می شود.

ب) با وجود همبستگی منفی معنادار بین عوامل، افزایش یک عامل با کاهش عامل دیگر همراه است و این امر عوامل را مبهم می کند، بنابراین هرگونه نشانه ای از تأثیر عوامل بر عملکرد y امکان پذیر است.

در عمل، برخی از مشخص ترین ویژگی های چند خطی متمایز می شوند: 1. تغییر کوچک در داده های اولیه (به عنوان مثال، اضافه کردن مشاهدات جدید) منجر به تغییر قابل توجهی در برآورد ضرایب مدل می شود. 2. برآوردها دارای خطاهای استاندارد بزرگ، اهمیت کم هستند، در حالی که مدل به طور کلی قابل توجه است (مقدار بالای ضریب تعیین R2 و آمار F مربوطه). 3. برآورد ضرایب از نظر نظری دارای علائم نادرست یا مقادیر غیر قابل توجیه بزرگ است.

نشانه‌های غیرمستقیم چند خطی عبارتند از خطاهای استاندارد بالا در برآورد پارامترهای مدل، آماره‌های t کوچک (یعنی ضرایب ناچیز)، نشانه‌های نادرست تخمین‌ها، در حالی که مدل به عنوان یک کل از نظر آماری معنی‌دار تشخیص داده می‌شود (مقدار بزرگ آماره F) . چند خطی بودن را نیز می توان با تغییر قوی در تخمین پارامترها از افزودن (یا حذف) داده های نمونه (اگر الزامات برای همگنی نمونه کافی برآورده شود) اثبات کرد.

برای تشخیص چند خطی بودن عوامل، می توان ماتریس همبستگی عوامل را مستقیماً تحلیل کرد. در حال حاضر وجود مقادیر بزرگ در قدر مطلق (بالاتر از 0.7-0.8) ضرایب همبستگی جفت نشان دهنده مشکلات احتمالی در کیفیت تخمین های به دست آمده است.

با این حال، تجزیه و تحلیل ضرایب همبستگی زوجی کافی نیست. تجزیه و تحلیل ضرایب تعیین رگرسیون عوامل برای سایر عوامل ضروری است (). توصیه می شود شاخص را محاسبه کنید. مقادیر بیش از حد بالای دومی به معنای وجود چند خطی است.

بنابراین، معیارهای اصلی برای تشخیص چند خطی به شرح زیر است: R2 بالا برای همه ضرایب ناچیز، ضرایب همبستگی جفت بالا، مقادیر بالای ضریب VIF.

1.2. راه های اصلی حذف چند خطی در مدل های اقتصادسنجی

قبل از مشخص کردن روش‌های اصلی حذف چند خطی، متذکر می‌شویم که در تعدادی از موارد چند خطی بودن مشکل جدی نیست که نیازمند تلاش‌های قابل توجهی برای شناسایی و حذف آن باشد. اساساً همه چیز به اهداف مطالعه بستگی دارد.

اگر وظیفه اصلی مدل پیش بینی مقادیر آینده رگرسیون باشد و با ضریب تعیین R2 به اندازه کافی بزرگ (> 0.9)، وجود چند خطی معمولاً بر کیفیت های پیش بینی مدل تأثیر نمی گذارد. اگرچه این بیانیه تنها در صورتی توجیه می شود که در آینده رگرسیون های همبسته همان رابطه قبلی را حفظ کنند. اگر هدف مطالعه تعیین میزان تأثیر هر یک از رگرسیون ها بر رگرسیون باشد، وجود چند خطی که منجر به افزایش خطاهای استاندارد می شود، احتمالاً روابط واقعی بین رگرسیون ها را مخدوش می کند. در این شرایط، چند خطی بودن یک مشکل جدی است.

توجه داشته باشید که هیچ روش واحدی برای حذف چند خطی وجود ندارد که در هر صورت مناسب باشد. این به دلیل این واقعیت است که علل و پیامدهای چند خطی مبهم است و تا حد زیادی به نتایج نمونه بستگی دارد.

در عمل، روش های اصلی برای از بین بردن چند خطی متمایز می شوند:

  1. حذف رگرسیورها از مدل ساده ترین روش برای حذف چند خطی، حذف یک یا تعدادی از رگرسیورهای همبسته از مدل است. با این حال، هنگام استفاده از این روش، کمی احتیاط لازم است. در این شرایط، خطاهای مشخصات ممکن است. به عنوان مثال، هنگام مطالعه تقاضا برای یک کالای خاص، قیمت این کالا و قیمت های جایگزین برای این کالا که اغلب با یکدیگر همبستگی دارند، می توانند به عنوان متغیرهای توضیحی مورد استفاده قرار گیرند. با حذف قیمت های جایگزین از مدل، احتمال خطای مشخصات بیشتر است. در نتیجه می توان تخمین های مغرضانه ای به دست آورد و نتایج غیر منطقی گرفت. بنابراین، در مدل‌های اقتصادسنجی کاربردی، تا زمانی که همخطی بودن آنها به یک مشکل جدی تبدیل نشود، مطلوب است که رگرسیون‌ها حذف نشوند.
  2. به دست آوردن داده های اضافی یا یک نمونه جدید، از آنجایی که چند خطی به طور مستقیم به نمونه بستگی دارد، پس، شاید، با یک نمونه متفاوت، اصلا چند خطی وجود نداشته باشد، یا آنقدر جدی نباشد. گاهی اوقات افزایش حجم نمونه برای کاهش چند خطی بودن کافی است. به عنوان مثال، اگر از داده های سالانه استفاده می کنید، می توانید به داده های فصلی بروید. افزایش حجم داده ها باعث کاهش واریانس ضرایب رگرسیون و در نتیجه افزایش معناداری آماری آنها می شود. با این حال، به دست آوردن یک نمونه جدید یا گسترش نمونه قدیمی همیشه امکان پذیر نیست یا هزینه های جدی را به همراه دارد. علاوه بر این، این رویکرد می تواند همبستگی خودکار را افزایش دهد. این مشکلات استفاده از این روش را محدود می کند.

III. تغییر مشخصات مدل در برخی موارد، مشکل چند خطی را می‌توان با تغییر مشخصات مدل حل کرد: یا شکل مدل تغییر می‌کند، یا رگرسیورهای جدیدی اضافه می‌شوند که در مدل اصلی در نظر گرفته نشده‌اند، اما به‌طور قابل‌توجهی بر وابسته تأثیر می‌گذارند. متغیر. اگر این روش موجه باشد، استفاده از آن مجموع مربعات انحرافات را کاهش می دهد و در نتیجه خطای استاندارد رگرسیون را کاهش می دهد. این امر منجر به کاهش خطاهای استاندارد ضرایب می شود.

  1. تبدیل متغیرها در برخی موارد تنها با کمک تبدیل متغیرها می تواند مشکل چند خطی بودن را به حداقل برساند یا به طور کلی حذف کند. داده های اصلی در هر مورد بر مقادیر یکی از رگرسیون های وابسته در این مورد تقسیم می شود. استفاده از روش اجزای اصلی برای عوامل مدل به شما امکان می دهد تا عوامل اولیه را تغییر دهید و مجموعه ای از عوامل متعامد (غیر همبسته) را بدست آورید. در این مورد، وجود چند خطی به ما این امکان را می دهد که خود را به تعداد کمی از اجزای اصلی محدود کنیم. با این وجود، ممکن است مشکل تفسیر معنادار اجزای اصلی مطرح شود.

اگر با همه نشانه ها چند خطی وجود داشته باشد، در بین اقتصادسنجی ها نظرات مختلفی در این مورد وجود دارد. هنگامی که با مشکل چند خطی مواجه می شوید، ممکن است تمایل طبیعی به کنار گذاشتن متغیرهای مستقل «غیرضروری» که ممکن است باعث آن شوند وجود داشته باشد. با این حال، باید به خاطر داشت که ممکن است مشکلات جدیدی در انجام این کار ایجاد شود. اولاً، همیشه روشن نیست که کدام متغیرها از این نظر زائد هستند.

چند خطی فقط به معنای یک رابطه خطی تقریبی بین عوامل است، اما این همیشه متغیرهای "اضافی" را برجسته نمی کند. دوم، در بسیاری از موقعیت ها، حذف هر متغیر مستقل می تواند به طور قابل توجهی بر معنای مدل تأثیر بگذارد. در نهایت، دور انداختن متغیرهای به اصطلاح اساسی، یعنی. متغیرهای مستقلی که در واقع بر متغیر وابسته مورد مطالعه تأثیر می گذارند، منجر به سوگیری در ضرایب مدل می شود. در عمل، معمولاً وقتی چند خطی تشخیص داده می‌شود، کمترین فاکتور برای تحلیل حذف می‌شود و سپس محاسبات تکرار می‌شوند.

بنابراین، در عمل، روش‌های اصلی حذف چند خطی متمایز می‌شوند: تغییر یا افزایش نمونه، حذف یکی از متغیرها، تبدیل متغیرهای چند خطی (استفاده از فرم‌های غیرخطی، استفاده از تجمعات (ترکیب خطی چند متغیر)، استفاده از تفاوت‌های اول به جای با این حال، اگر چند خطی حذف نشد، می توانید آن را نادیده بگیرید، با در نظر گرفتن توصیه به حذف.

  1. بخش پروژه

2.1. اطلاعات و پشتیبانی روش شناختی از تحقیقات اقتصادسنجی

پشتیبانی اطلاعاتی تحقیقات اقتصادسنجی شامل اطلاعات زیر است:

اطلاعات ورودی:

  • داده های آماری در مورد شاخص اجتماعی-اقتصادی که به عنوان یک متغیر وابسته (عوامل - نتایج) تعریف شده است.
  • داده های آماری در مورد شاخص های اجتماعی-اقتصادی، که به عنوان متغیرهای توضیحی (عوامل - علائم) تعریف شده است.

اطلاعات میانی:

  • مدلی از معادله رگرسیون، معادله رگرسیون برآورد شده، شاخص های کیفیت و نتیجه گیری در مورد کیفیت معادله رگرسیون، نتیجه گیری در مورد وجود (عدم) مشکل چند خطی، توصیه هایی برای استفاده از مدل؛

اطلاعات موثر:

  • معادله رگرسیون برآورد شده، نتیجه گیری در مورد کیفیت معادله رگرسیون، نتیجه گیری در مورد وجود (عدم) مسئله چند خطی، توصیه هایی برای استفاده از مدل.

روش تحقیق اقتصادسنجی به شرح زیر است: مشخصات; پارامترسازی، تایید، تحقیقات تکمیلی، پیش بینی.

1. مشخصات مدل معادله رگرسیون شامل یک تحلیل گرافیکی از وابستگی همبستگی متغیر وابسته به هر متغیر توضیحی است. بر اساس نتایج تجزیه و تحلیل گرافیکی، در مورد مدل معادله رگرسیون انواع خطی یا غیرخطی نتیجه‌گیری می‌شود. برای تجزیه و تحلیل گرافیکی، رایج ترین ابزار MsExcel Scatter Chart توصیه می شود. در نتیجه این مرحله، مدلی از معادله رگرسیون تعیین می شود و در صورت غیر خطی، روش های خطی سازی آن نیز تعیین می شود.

2. پارامترسازی معادله رگرسیون شامل برآورد پارامترهای رگرسیون و تفسیر اجتماعی-اقتصادی آنها است. برای پارامترسازی از ابزار "رگرسیون" به عنوان بخشی از افزونه "تحلیل داده" MsExcel استفاده کنید. بر اساس نتایج تجزیه و تحلیل رگرسیون خودکار (ستون "ضرایب")، پارامترهای رگرسیون تعیین می شوند و تفسیر آنها نیز طبق قانون استاندارد ارائه می شود:

Bj مقداری است که مقدار متغیر Y به طور متوسط ​​با افزایش متغیر مستقل Xj به میزان یک یعنی ceteris paribus تغییر می کند.

وقفه معادله رگرسیون برابر است با مقدار پیش بینی شده متغیر وابسته Y زمانی که همه متغیرهای مستقل صفر باشند.

3. تأیید معادله رگرسیون بر اساس نتایج تجزیه و تحلیل رگرسیون خودکار (مرحله 2) با توجه به شاخص های زیر انجام می شود: "R-square"، "Significance F"، "P-value" (برای هر پارامتر). از رگرسیون)، و همچنین در نمودارهای انتخاب و باقیمانده ...

اهمیت ضرایب تعیین شده و کیفیت مدل ارزیابی می شود. برای این منظور، "اهمیت F"، "P-Value" و "R-square" در نظر گرفته می شود. اگر "P-value" کمتر از معادله اهمیت استاتیکی باشد، این نشان دهنده اهمیت ضریب است. اگر "R-squared" بزرگتر از 0.6 باشد، به این معنی است که مدل رگرسیون به خوبی رفتار متغیر وابسته Y را بر روی عوامل متغیرها توصیف می کند.

اگر "اهمیت F" کمتر از معادله استاتیکی معنی‌داری باشد، ضریب تعیین (R-square) از نظر آماری مشروط معنی‌دار در نظر گرفته می‌شود.

نمودار باقیمانده به شما امکان می دهد تا تغییرات خطاها را تخمین بزنید. اگر تفاوت خاصی بین خطاهای مربوط به مقادیر مختلف Xi وجود نداشته باشد، یعنی تغییرات در خطاها برای مقادیر مختلف Xi تقریباً یکسان است و می توان فرض کرد که هیچ مشکلی وجود ندارد. برنامه برازش به شما این امکان را می دهد که در مورد مقادیر پایه، پیش بینی شده و فاکتور قضاوت کنید.

در نتیجه، قضاوتی در مورد کیفیت معادله رگرسیون شکل می گیرد.

  1. تحقیقات تکمیلی

4.1 تشخیص اولین علامت چند خطی. بر اساس نتایج تحلیل رگرسیون به‌دست‌آمده در بندهای 2-3، وضعیتی بررسی می‌شود که در آن ضریب تعیین دارای مقدار بالا (R 2> 0.7) و از نظر آماری معنی‌دار (Significance F) باشد.<0,05), и хотя бы один из коэффициентов регрессии не может быть признан статистически значим (P-значение >0.05) هنگامی که چنین وضعیتی تشخیص داده می شود، در مورد فرض چند خطی بودن نتیجه گیری می شود.

4.2 تشخیص دومین علامت چند خطی. بر اساس محاسبات ضرایب همبستگی بین متغیرهای عاملی، رابطه معناداری بین عوامل فردی مشخص می شود. برای محاسبات در MS Excel، توصیه می شود از ابزار تجزیه و تحلیل داده / همبستگی استفاده کنید. بر اساس مقادیر ضریب همبستگی، نتیجه گیری می شود: هرچه (r) به نقاط انتهایی (1±) نزدیکتر باشد، درجه رابطه خطی بیشتر است، اگر ضریب همبستگی کمتر از 0.5 باشد، در نظر گرفته می شود. که رابطه ضعیف است اگر ضریب همبستگی معنی‌داری بین حداقل دو متغیر (یعنی بیشتر از 0.7 مدول) وجود داشته باشد، در حالت زیر وجود چند خطی فرض می‌شود.

4.3 تشخیص سومین علامت چند خطی. بر اساس ارزیابی رگرسیون کمکی بین متغیرهای عاملی و بین متغیرهایی که ضریب همبستگی معنی‌داری وجود دارد (بخش 4.2)، نتیجه‌گیری می‌شود که اگر حداقل در یک رگرسیون کمکی معنی‌دار و معنادار باشد، چند خطی وجود دارد. روش رگرسیون های اضافی ضریب تعیین به شرح زیر است: 1) معادلات رگرسیونی ساخته شده است که هر یک از رگرسیون ها را با بقیه رگرسیون ها متصل می کند. 2) ضرایب تعیین R2 برای هر معادله رگرسیون محاسبه می شود. 3) اگر معادله و ضریب تعیین از نظر آماری معنی دار در نظر گرفته شوند، این رگرسیور منجر به چند خطی می شود.

4.4 تعمیم احکام.

بر اساس بندهای 4.1-4.3، قضاوتی در مورد وجود / عدم وجود چند خطی و رگرسیون منجر به چند خطی شکل می گیرد.

علاوه بر این، جهت استفاده از مدل (در صورت نادیده گرفتن یا عدم وجود مشکل چند خطی) یا توصیه هایی برای حذف چند خطی (در عمل، به استثنای یک متغیر) شکل می گیرد.

هنگام حذف یک متغیر، توصیه می شود از قانون استفاده کنید:

ضریب تعیین برای معادله رگرسیون که در اصل از n مشاهدات ساخته شده است تعیین می شود (R21).

با حذف آخرین متغیرها از در نظر گرفتن (k)، معادله ای برای عوامل باقی مانده بر اساس n مشاهدات اولیه و ضریب تعیین (R 2 2) برای آن تعیین می شود.

آماره های F محاسبه می شود: در جایی که (R 1 2 -R 2 2) از دست دادن معادله در نتیجه سقوط به متغیرها است، (K) تعداد درجات آزادی اضافی است که ظاهر شده است، (1- R 1). 2) / (nml) واریانس غیر قابل توضیح معادلات اولیه است.

مقدار بحرانی F a، k، n-m -1 با توجه به جداول نقاط بحرانی توزیع فیشر در سطح معینی از اهمیت a و درجات آزادی v1 = k، v2 = n-m-l تعیین می شود.

قضاوت در مورد مصلحت استثنا طبق این قاعده شکل می گیرد: حذف (همزمان) k متغیر از معادله برای F> F a, k, n-m - 1 نامناسب تلقی می شود، در غیر این صورت چنین استثنایی جایز است.

هنگامی که متغیر حذف شد، مدل حاصل مطابق با بندهای 3-4 تجزیه و تحلیل می شود. و با مدل اصلی مقایسه می شود، در نتیجه "بهترین" انتخاب می شود. در عمل، از آنجایی که چند خطی بودن بر کیفیت های پیش بینی مدل تأثیر نمی گذارد، می توان این مشکل را نادیده گرفت.

5. پیش بینی بر اساس مدل اولیه / "بهترین" انتخاب شده در بند 4.4، بر اساس طرح پیش بینی گذشته نگر، که در آن 1/3 آخرین مشاهدات برای پیش بینی استفاده می شود، انجام می شود.

5.1. پیش بینی نقطه ای مقادیر واقعی متغیرهای عامل در دوره پیش‌بینی، پیش‌بینی‌شده در نظر گرفته می‌شوند، مقادیر پیش‌بینی‌شده متغیر حاصل براساس مدل اصلی / «بهترین» بر اساس متغیرهای عامل در دوره پیش‌بینی پیش‌بینی شده است. با استفاده از ابزار Microsoft Excel "Graph"، نموداری از مقادیر واقعی و پیش بینی شده متغیر حاصل مطابق مشاهدات رسم می شود و نتیجه گیری در مورد نزدیکی مقادیر واقعی به مقادیر پیش بینی شده انجام می شود.

5.2. پیش‌بینی بازه‌ای شامل محاسبه خطاهای استاندارد پیش‌بینی (با استفاده از متغیرهای ساختگی Salkever) و مرزهای بالا و پایین مقادیر پیش‌بینی‌شده است.

با استفاده از ابزار Microsoft Excel Data Analysis / Regression، یک رگرسیون برای مجموعه داده های نمونه و دوره پیش بینی ساخته می شود، اما با افزودن متغیرهای ساختگی D 1, D 2, ..., D p. در این حالت، D i = 1 فقط برای لحظه مشاهده (n + i)، برای تمام لحظات دیگر D i = 0. سپس ضریب متغیر ساختگی D i برابر با خطای پیش‌بینی در زمان (n + i) و خطای استاندارد ضریب برابر با خطای استاندارد پیش‌بینی (S i) است. بنابراین، یک تحلیل رگرسیون خودکار از مدل انجام می‌شود که در آن مقادیر کل (نمونه و پیش‌بینی‌شده) متغیرهای عامل و مقادیر متغیرهای ساختگی Salkever به عنوان مقادیر X و کل (نمونه و پیش بینی شده) مقادیر متغیر حاصل به عنوان مقادیر Y استفاده می شود.

خطاهای استاندارد بدست آمده از ضرایب برای متغیرهای ساختگی سالکور برابر با خطاهای استاندارد پیش بینی است. سپس مرزهای پیش بینی بازه با استفاده از فرمول های زیر محاسبه می شود: Ymin n + i = Yemp n + i -S i * t cr، Ymax n + i = Yemp n + i + S i * t cr، که در آن t cr است. مقدار بحرانی توزیع دانشجویی که با فرمول "= STYURASPOBR (0.05؛ nm-1) تعیین می شود، m تعداد عوامل توضیحی در مدل است (Y * t)، Yemp n + i مقادیر پیش بینی شده است. از متغیر حاصل (بند 5.1).

با استفاده از ابزار Microsoft Excel "Graph"، یک نمودار با توجه به مقادیر واقعی و پیش بینی شده متغیر حاصل، مرزهای بالا و پایین پیش بینی برای مشاهدات ساخته می شود. نتیجه‌گیری در مورد تناسب مقادیر واقعی متغیر حاصل در مرزهای پیش‌بینی فاصله انجام می‌شود.

5.3. ارزیابی پایداری مدل با استفاده از آزمون NCO به صورت زیر انجام می شود:

الف) با استفاده از ابزار "تجزیه و تحلیل داده ها / رگرسیون" مایکروسافت اکسل، یک رگرسیون ساخته می شود که در آن مقادیر مجموع (نمونه و پیش بینی شده) متغیرهای عامل به عنوان مقادیر X و مقادیر جمع (نمونه و پیش بینی شده) در نظر گرفته می شود. از متغیر حاصل به عنوان مقادیر Y در نظر گرفته می شود. این رگرسیون برای تعیین مجموع مربعات باقیمانده S استفاده می شود.

ب) با توجه به رگرسیون بند 5.2 با متغیرهای ساختگی سالکور، مجموع مجذورهای باقیمانده Sd تعیین می شود.

ج) مقدار آمار F با فرمول محاسبه و برآورد می شود:

که در آن p تعداد مراحل پیش بینی است. اگر مقدار به دست آمده بیشتر از مقدار بحرانی F cr باشد که با فرمول "= FDISP (0.05; p; nm-1) تعیین می شود، فرضیه پایداری مدل در دوره پیش بینی رد می شود، در غیر این صورت پذیرفته شده.

5.4. تعمیم قضاوت در مورد کیفیت های پیش بینی مدل بر اساس بندهای 5.1-5.3، در نتیجه، نتیجه گیری در مورد کیفیت پیش بینی مدل و توصیه هایی برای استفاده از مدل برای پیش بینی شکل می گیرد.

بنابراین، اطلاعات توسعه‌یافته و پشتیبانی روش‌شناختی با اهداف اصلی مطالعه اقتصادسنجی مسئله چند خطی در مدل‌های رگرسیون چندگانه مطابقت دارد.

2.2. نمونه ای از یک مطالعه اقتصاد سنجی

این مطالعه بر اساس داده‌های منعکس‌کننده شاخص‌های واقعی اقتصاد کلان فدراسیون روسیه برای دوره 2003-2011 انجام شده است. (جدول 1)، طبق روش بند 2.1.

میز 1

مخارج خانه مزارع (میلیارد روبل) [Y]

جمعیت (میلیون نفر)

عرضه پول (میلیارد روبل)

نرخ بیکاری (٪)

1. مشخصاتمدل معادله رگرسیون شامل یک تحلیل گرافیکی از وابستگی همبستگی متغیر وابسته Y (هزینه های خانوار بر متغیر توضیحی X 1 (جمعیت) (شکل 1)، وابستگی همبستگی متغیر وابسته Y (هزینه های خانوار به متغیر توضیحی) است. X 2 (عرضه پول) (شکل 2)، وابستگی همبستگی متغیر وابسته Y (هزینه های خانوار به متغیر توضیحی X 3 (نرخ بیکاری) (شکل 3).

نمودار وابستگی همبستگی بین Y و X 1 که در شکل 1 ارائه شده است، وابستگی خطی معکوس معکوس Y را به X1 نشان می دهد (R2 = 0.71).

نمودار وابستگی همبستگی بین Y و X 2، ارائه شده در شکل 2، وابستگی خطی مستقیم قابل توجه (R2 = 0.98) Y را به X2 نشان می دهد.

نمودار وابستگی همبستگی بین Y و X 3 که در شکل 3 ارائه شده است، وابستگی خطی معکوس Y را به X3 نشان می دهد (R2 = 0.15).

تصویر 1

تصویر 2

شکل 3

در نتیجه، یک مدل رگرسیون چندگانه خطی را می توان Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X 3 مشخص کرد.

2. پارامترسازیمعادلات رگرسیون با استفاده از ابزار "رگرسیون" به عنوان بخشی از افزونه های "تحلیل داده ها" MsExcel انجام می شود (شکل 4).

شکل 4

معادله رگرسیون تخمین زده شده به صورت زیر است:

233983.8-1605.6X 1 + 1.0X 2 + 396.22X 3.

در این مورد، ضرایب رگرسیون به صورت زیر تفسیر می شود: با افزایش جمعیت به میزان 1 میلیون نفر، هزینه های خانه. مزارع 1605.6 میلیارد روبل کاهش می یابد. با افزایش عرضه پول به میزان 1 میلیارد روبل. هزینه های خانه مزارع 1.0 میلیارد روبل افزایش می یابد. با افزایش 1 درصدی نرخ بیکاری هزینه های مسکن. مزارع 396.2 میلیارد روبل افزایش خواهند یافت. با مقادیر صفر متغیرهای عامل، هزینه های خانه. مزارع بالغ بر 233983.8 میلیارد روبل خواهد بود که شاید هیچ تفسیر اقتصادی نداشته باشد.

3. تأییدمعادله رگرسیون بر اساس نتایج تحلیل رگرسیون خودکار (مرحله 2) انجام می شود.

بنابراین، "R-square" برابر است با 0.998، یعنی. معادله رگرسیون رفتار متغیر وابسته را 99% توصیف می کند که بیانگر سطح بالایی از توصیف معادله است. "اهمیت F" 2.14774253442155E-07 است، که نشان می دهد که "R-square" قابل توجه است. "P-Value" برای b 0 0.002 است که نشان می دهد این پارامتر قابل توجه است. "P-Value" برای b 1 0.002 است که نشان می دهد این ضریب معنی دار است. "P-Value" برای b 2 برابر با 8.29103190343224E-07 است که نشان دهنده معنی دار بودن این ضریب است. "P-Value" برای b 3 0.084 است که نشان می دهد این ضریب معنی دار نیست.

بر اساس نمودار باقیمانده ها، باقیمانده های e مقادیر تصادفی هستند.

بر اساس نمودارهای برازش، نتیجه‌گیری در مورد نزدیکی مقادیر واقعی و پیش‌بینی‌شده برای مدل انجام می‌شود.

بنابراین، مدل از کیفیت خوبی برخوردار است، در حالی که b 3 قابل توجه نیست، بنابراین می توانیم وجود چند خطی را فرض کنیم.

4. تحقیقات تکمیلی.

4.1. تشخیص اولین علامت چند خطی.با توجه به داده های تحلیل رگرسیون (شکل 5)، می توان گفت که اولین علامت چند خطی وجود دارد، از آنجایی که R2 بالا و معنی دار تشخیص داده می شود، مشخص می شود که معادله دارای ضریب تعیین بالایی است و یکی از ضرایب معنی دار نیست این نشان دهنده وجود چند خطی است.

4.2 تشخیص دومین علامت چند خطی.

بر اساس محاسبات ضرایب همبستگی بین متغیرهای عاملی، رابطه معناداری بین عوامل فردی مشخص می شود. (جدول 2). اگر ضریب همبستگی معنی‌داری بین حداقل دو متغیر (یعنی بیشتر از 0.5 در مدول) وجود داشته باشد، وجود چند خطی در حالت زیر فرض می‌شود.

جدول 2

[ X2]

[ X3]

[ X2]

[ X3]

در مورد ما، یک ضریب همبستگی بین X 1 و X 2 وجود دارد (788--)، که نشان دهنده وابستگی قوی بین متغیرهای X 1، X 2 است، همچنین یک ضریب همبستگی بین X 1 و X 3 (0.54) وجود دارد. که نشان دهنده وابستگی شدید بین متغیرهای X 1, X 3 است.

در نتیجه، وجود چند خطی را می توان فرض کرد.

4.3 تشخیص سومین علامت چند خطی.

از آنجایی که در بخش 4.2 یک رابطه قوی بین متغیرهای X 1 و X 2 یافت شد، پس رگرسیون کمکی بین این متغیرها تحلیل می‌شود (شکل 5).

شکل 5

از آنجایی که "F Significance" 0.01 است، که نشان می دهد "R-squared" و رگرسیون کمکی قابل توجه هستند، می توان فرض کرد که رگرسیون X 2 منجر به چند خطی شدن می شود.

از آنجایی که در بخش 4.2 یک رابطه بین متغیرهای X 1 و X 3 بالاتر از سطح متوسط ​​یافت شد، پس رگرسیون کمکی بین این متغیرها تحلیل می‌شود (شکل 6).

شکل 6

از آنجایی که "Significance F" 0.13 است که نشان می دهد "R-squared" و رگرسیون کمکی معنی دار نیستند، می توان فرض کرد که رگرسیون X 3 به چند خطی منجر نمی شود.

بنابراین، با توجه به ویژگی سوم، وجود چند خطی را می توان فرض کرد.

4.4 تعمیم احکام.

با توجه به تجزیه و تحلیل پاراگراف های 4.1-4.3، هر سه نشانه چند خطی پیدا شد، بنابراین می توان آن را با احتمال بالا فرض کرد. در عین حال، علیرغم فرضیه بخش 4.3 در مورد رگرسیون که منجر به چند خطی می شود، می توان حذف X 3 را از مدل اصلی توصیه کرد، زیرا X 3 کمترین ضریب همبستگی را با Y دارد و ضریب این رگرسیور در معادله اصلی ناچیز است. نتایج تحلیل رگرسیون پس از حذف X 3 در شکل 1 نشان داده شده است. 7.

شکل 7

در این مورد، ما آمار F را برای بررسی امکان‌پذیری حذف محاسبه می‌کنیم:

F fact = 4.62،

و F tab = F 0.05؛ 1؛ 5 = 6.61، از آنجایی که F واقعیت دارد< F табл, то исключение допустимо для переменной X 3 .

ارزیابی کیفیت مدل رگرسیون چندگانه خطی Y = b 0 + b 1 X 1 + b 2 X 2. "R-squared" 0.996 است، یعنی. معادله رگرسیون رفتار متغیر وابسته را 99% توصیف می کند که بیانگر سطح بالایی از توصیف معادله است. "معنی F" 3.02415218982089E-08 است، که نشان می دهد که "R-square" قابل توجه است. "P-Value" برای b 0 برابر 0.004 است که نشان دهنده معنی دار بودن این پارامتر است. "P-Value" برای b 0 0.005 است که نشان دهنده معنی دار بودن این ضریب است. "P-Value" برای b 2 برابر با 3.87838361673427E-07 است که نشان دهنده معنی دار بودن این ضریب است. معادله رگرسیون تخمین زده شده به صورت زیر است:

201511.7 -1359.6X 1 + 1.01X 2

در این مورد، ضرایب رگرسیون به صورت زیر تفسیر می شود: با کاهش جمعیت به میزان 1 میلیون نفر، هزینه های خانه. مزارع 1359.6 میلیارد روبل کاهش می یابد. با افزایش سطح عرضه پول، هزینه های خانه. مزارع 1.0) (میلیارد روبل) افزایش می یابد. با مقادیر صفر متغیرهای عامل، هزینه های خانه. مزارع بالغ بر 201511.7 میلیارد روبل خواهد بود که ممکن است تفسیر اقتصادی داشته باشد.

بنابراین، مدل = 201511.7 -1359.6X 1 + 1.01X 2 کیفیت خوبی دارد و برای پیش بینی به عنوان "بهترین" در مقایسه با مدل اصلی توصیه می شود.

5. پیش بینی.

5.1 پیش بینی نقطه.مقادیر واقعی متغیرهای عامل در دوره پیش‌بینی پیش‌بینی شده در نظر گرفته می‌شوند، مقادیر پیش‌بینی‌شده متغیر حاصل طبق مدل «بهترین» (= 201511.7 -1359.6X 1 + 1.01X 2) پیش‌بینی شده است. متغیرهای عامل در دوره پیش بینی با استفاده از ابزار Microsoft Excel "Graph"، نموداری از مقادیر واقعی و پیش بینی شده متغیر حاصل مطابق مشاهدات رسم می شود و نتیجه گیری در مورد نزدیکی مقادیر واقعی به مقادیر پیش بینی شده انجام می شود.

مقادیر پیش بینی شده متغیرهای عامل در جدول 3 ارائه شده است.

جدول 3

مقادیر پیش‌بینی‌شده متغیر مؤثر مطابق با مدل «بهترین» (= 201511.7 -1359.6X 1 + 1.01X 2) پیش‌بینی‌شده بر اساس متغیرهای عامل در دوره پیش‌بینی تعیین می‌شود. مقادیر پیش بینی شده در جدول 4 ارائه شده است؛ مقادیر واقعی برای مقایسه اضافه شده است.

جدول 4

[Y] تجربی

شکل 8 مقادیر واقعی و پیش بینی شده متغیر حاصل و همچنین مرزهای پایین و بالایی پیش بینی را نشان می دهد.

شکل 8

مطابق شکل 8، پیش بینی روند افزایشی را حفظ می کند و تمام مقادیر پیش بینی شده نزدیک به مقادیر واقعی هستند.

5.2. پیش بینی فاصله زمانی

با استفاده از ابزار Microsoft Excel Data Analysis / Regression، یک رگرسیون برای مجموعه داده های نمونه و دوره پیش بینی ساخته می شود، اما با افزودن متغیرهای ساختگی D 1, D 2, ..., D p. در این حالت، D i = 1 فقط برای لحظه مشاهده (n + i)، برای تمام لحظات دیگر D i = 0. داده ها در جدول 5، نتیجه رگرسیون در شکل 9 ارائه شده است.

جدول 5

[Y] جغدها

شکل 9

سپس خطای استاندارد ضریب برای متغیر ساختگی برابر با خطای پیش‌بینی استاندارد (S i) است: برای سال 2012 738.5 خواهد بود. برای سال 2013 897.1 خواهد بود. برای سال 2014 1139.4 خواهد بود.

مرزهای پیش بینی بازه زمانی در جدول 6 محاسبه شده است.

جدول 6

[Y] تجربی

[Y] جغدها

[S] pr

طبق جدول. 6، با استفاده از ابزار Microsoft Excel "Graph"، یک نمودار با توجه به مقادیر واقعی و پیش بینی شده متغیر حاصل، مرزهای بالا و پایین پیش بینی برای مشاهدات ساخته می شود (شکل 10).

شکل 10

طبق نمودار، مقادیر پیش‌بینی‌شده در مرزهای پیش‌بینی بازه‌ای قرار می‌گیرند که نشان‌دهنده کیفیت پیش‌بینی خوب است.

5.3. ارزیابی پایداری مدل با استفاده از آزمون NCOبه شرح زیر انجام می شود:

الف) با استفاده از ابزار مایکروسافت اکسل "تجزیه و تحلیل داده ها / رگرسیون"، یک رگرسیون ساخته می شود (شکل 11)، که در آن مقادیر مجموع (نمونه و پیش بینی) متغیرهای عامل به عنوان مقادیر X در نظر گرفته می شود و مجموع ( مقادیر نمونه و پیش بینی) به عنوان مقادیر Y متغیر نتیجه گرفته می شود. این رگرسیون برای تعیین مجموع مجذورهای باقیمانده S = 2058232.333 استفاده می شود.

شکل 11

ب) با رگرسیون مورد 3.2 با متغیرهای ساختگی Salkever (شکل 9)، مجموع مربعات باقیمانده Sd = 1270272.697 تعیین می شود.

ج) مقدار آمار F محاسبه و ارزیابی می شود:

در حالی که F cr = F 0.05؛ 3؛ 5 = 5.40، پس مقدار به دست آمده کمتر از مقدار بحرانی F cr است و فرضیه پایداری مدل در دوره پیش بینی پذیرفته می شود.

5.4 تعمیم قضاوت در مورد کیفیت های پیش بینی مدلبر اساس بندهای 5.1-5.3، در نتیجه، نتیجه‌گیری در مورد کیفیت پیش‌بینی بالای مدل (= 201511.7 -1359.6X 1 + 1.01X 2) شکل می‌گیرد و توصیه‌هایی در مورد استفاده از مدل برای پیش‌بینی ارائه می‌شود.

تکنیک بند 2.1 با موفقیت آزمایش شده است، به ما امکان می دهد علائم اصلی چند خطی را شناسایی کنیم و می تواند برای چنین مطالعاتی توصیه شود.

نتیجه

چند خطی - در اقتصاد سنجی (تحلیل رگرسیون) - وجود رابطه خطی بین متغیرهای توضیحی (عوامل) مدل رگرسیون. در عین حال، بین هم خطی کامل، به معنای وجود یک رابطه خطی عملکردی (یکسان) و هم خطی جزئی یا ساده، که به معنای وجود همبستگی قوی بین عوامل است، تمایز قائل می‌شود.

پیامدهای اصلی چند خطی عبارتند از: واریانس زیاد تخمین ها، کاهش آماره t ضرایب، تخمین ضرایب با استفاده از روش حداقل مربعات ناپایدار می شود، تعیین سهم متغیرها دشوار است و علامت نادرست ضریب. به دست آمده است.

معیارهای اصلی برای تشخیص چند خطی به شرح زیر است: R 2 بالا با ضرایب ناچیز. ضرایب همبستگی جفتی بالا. مقادیر بالای ضریب VIF.

روشهای اصلی برای حذف چند خطی عبارتند از: حذف متغیر (ها) از مدل. به دست آوردن داده های اضافی یا نمونه جدید؛ تغییر مشخصات مدل؛ استفاده از اطلاعات اولیه در مورد برخی از پارامترها.

اطلاعات توسعه‌یافته و پشتیبانی روش‌شناختی با اهداف اصلی مطالعه اقتصادسنجی مسئله چند خطی در مدل‌های رگرسیون چندگانه مطابقت دارد و می‌تواند برای چنین مطالعاتی توصیه شود.

فهرست منابع استفاده شده

  1. استاخوف، S.N. اقتصاد سنجی [متن]: مجموعه آموزشی – روشی. کازان، 2008 .-- 107s.
  2. Bardasov, S. A. ECONOMETRICS [متن]: یک آموزش. ویرایش دوم، Rev. و اضافه کنید. تیومن: انتشارات دانشگاه ایالتی تیومن، 2010.264 ص.
  3. بورودکینا، L.I. دوره ای از سخنرانی ها [منبع الکترونیکی]. حالت دسترسی - http://www.iskunstvo.info/materials/history/2/inf/correl.htm
  4. وسکوبوینیکوف، یو. ECONOMETRICS در EXCEL قسمت 1 [متن]: راهنمای مطالعه، نووسیبیرسک 2005،156 ص.
  5. Eliseeva، I.I. کارگاه اقتصاد سنجی: کتاب درسی. راهنمای اقتصاد دانشگاه ها / Eliseeva، I.I.، Kurysheva، S.V.، Gordeenko، N.M. ، [و غیره.] ؛ ویرایش I.I. Eliseeva - M.: امور مالی و آمار، 2001 .-- 191 p. - (14126-1).
  6. چند خطی [منبع الکترونیکی]. حالت دسترسی - https://ru.wikipedia.org/wiki/Multicollinearity.
  7. نوویکوف، A.I. اقتصاد سنجی [متن]: کتاب درسی. دفترچه راهنمای سابق "مالی و اعتبار"، "اقتصاد" - M .: Dashkov and K، 2013. - 223 p. - (93895-1).
  8. مشکل چند خطی [منبع الکترونیکی]. حالت دسترسی - http://crow.academy.ru/econometrics/lectures_/lect_09_/lect_09_4.pdf.
  9. Chernyak V. اقتصاد سنجی کاربردی. سخنرانی شماره 9 [منبع الکترونیکی]. حالت دسترسی http://www.slideshare.net/vtcherniak/lect-09.
  10. ru - سایت دایره المعارفی [منبع الکترونیکی]. حالت دسترسی - http://kodcupon.ru/ra17syplinoe97/ چند خطی.

دانلود: شما به دانلود فایل ها از سرور ما دسترسی ندارید.

آژانس فدرال آموزش و علم فدراسیون روسیه

دانشگاه فناوری دولتی کوستروما

گروه ریاضیات عالی

در مورد اقتصاد سنجی با موضوع:

چند خطی

انجام

دانشجوی سال 1

دانشکده مکاتبات

sp-t "حسابداری،

تجزیه و تحلیل و حسابرسی ".

بررسی شد

Katezhina S.F.

کوستروما 2008


چند خطی

چند خطی به عنوان یک همبستگی متقابل بالا از متغیرهای توضیحی درک می شود. چند خطی می تواند خود را در اشکال عملکردی (صریح) و تصادفی (نهفته) نشان دهد.

در شکل عملکردی چند خطی، حداقل یکی از روابط زوجی بین متغیرهای توضیحی، یک وابستگی تابعی خطی است. در این مورد، ماتریس X`X ویژه است، زیرا حاوی بردارهای ستونی وابسته به خط است و تعیین کننده آن برابر با صفر است، یعنی. فرض تجزیه و تحلیل رگرسیون نقض می شود، این منجر به عدم امکان حل سیستم متناظر معادلات نرمال و به دست آوردن برآورد پارامترهای مدل رگرسیون می شود.

با این حال، در تحقیقات اقتصادی، چند خطی اغلب خود را به شکل تصادفی نشان می دهد، زمانی که یک همبستگی نزدیک بین حداقل دو متغیر توضیحی وجود دارد. ماتریس X`X در این مورد غیر مفرد است، اما تعیین کننده آن بسیار کوچک است.

در عین حال، بردار تخمین‌های b و ماتریس کوواریانس آن ∑ b با ماتریس معکوس (X`X) -1 متناسب هستند، به این معنی که عناصر آنها با مقدار تعیین کننده | X`X | نسبت معکوس دارند. در نتیجه، انحراف معیار قابل توجهی (خطای استاندارد) ضرایب رگرسیون b 0، b 1، ...، bp به دست می آید و ارزیابی اهمیت آنها با معیار t منطقی نیست، اگرچه به طور کلی مدل رگرسیون ممکن است تبدیل شود. با معیار F قابل توجه است.

تخمین ها نسبت به تغییرات کوچک در مشاهدات و اندازه نمونه بسیار حساس می شوند. معادلات رگرسیون در این مورد، به عنوان یک قاعده، معنای واقعی ندارند، زیرا برخی از ضرایب آن ممکن است دارای علائم نادرست از نظر تئوری اقتصادی و مقادیر غیر قابل توجیه بزرگ باشند.

هیچ معیار کمی دقیقی برای تعیین وجود یا عدم وجود چند خطی وجود ندارد. با این وجود، برخی از رویکردهای اکتشافی برای تشخیص آن وجود دارد.

یکی از این رویکردها، تحلیل ماتریس همبستگی بین متغیرهای توضیحی X 1، X 2، ...، X p و شناسایی جفت متغیرهایی با متغیرهای همبستگی بالا (معمولاً بیشتر از 0.8) است. اگر چنین متغیرهایی وجود داشته باشند، از چند خطی بودن بین آنها صحبت می شود. همچنین یافتن ضرایب تعیین چندگانه بین یکی از متغیرهای توضیحی و گروهی از آنها مفید است. وجود ضریب تعیین چندگانه بالا (معمولاً بیش از 0.6) نشان دهنده چند خطی بودن است.

روش دیگر بررسی ماتریس X`X است. اگر تعیین کننده ماتریس X`X یا حداقل مقدار ویژه آن λ min نزدیک به صفر باشد (به عنوان مثال، از همان مرتبه بزرگی با انباشته شدن خطاهای محاسباتی)، آنگاه این نشان دهنده وجود چند خطی بودن است. همین را می توان با انحراف قابل توجهی از حداکثر مقدار ویژه λmax ماتریس X`X از حداقل مقدار ویژه آن λ min اثبات کرد.

تعدادی از روش ها برای حذف یا کاهش چند خطی استفاده می شود. ساده ترین آنها (اما به دور از همیشه ممکن) این است که از بین دو متغیر توضیحی با ضریب همبستگی بالا (بیشتر از 0.8)، یک متغیر از بررسی حذف می شود. در عین حال، اینکه کدام متغیر را ترک کنیم و کدام را از تجزیه و تحلیل حذف کنیم، اساساً بر اساس ملاحظات اقتصادی تصمیم گیری می شود. اگر از نظر اقتصادی، هیچ یک از متغیرها را نمی توان ترجیح داد، یکی از دو متغیری که ضریب همبستگی بیشتری با متغیر وابسته دارد، باقی می ماند.

یکی دیگر از روش‌های حذف یا کاهش چند خطی، حرکت از تخمین‌های بی‌طرف تعیین‌شده با روش حداقل مربعات به تخمین‌های مغرضانه است که با این حال، پراکندگی کمتری نسبت به پارامتری که تخمین زده می‌شود، دارد. انتظارات ریاضی کمتر مربع انحراف تخمین bj از پارامتر β j یا M (b j - β j) 2.

تخمین‌های تعیین‌شده توسط بردار، مطابق با قضیه گاوس-مارکف، دارای حداقل واریانس در کلاس تمام تخمین‌های بی‌طرف خطی هستند، اما در صورت وجود چند خطی، این واریانس‌ها ممکن است خیلی بزرگ باشند و به مقادیر مربوطه تبدیل شوند. تخمین های مغرضانه می توانند دقت تخمین پارامترهای رگرسیون را افزایش دهند. شکل موردی را نشان می دهد که تخمین مغرضانه β j ^، توزیع نمونه آن با چگالی φ (βj ^) داده می شود.

در واقع، اجازه دهید حداکثر فاصله اطمینان قابل قبول برای پارامتر تخمینی β j باشد (β j -Δ، β j + Δ). سپس احتمال اطمینان، یا قابلیت اطمینان تخمین، که توسط مساحت زیر منحنی توزیع در بازه (β j -Δ، β j + Δ) تعیین می شود، همانطور که از شکل به راحتی قابل مشاهده است، در این مورد خواهد بود. برای تخمین β j در مقایسه با bj بیشتر است (در شکل، این مناطق سایه دار هستند). بر این اساس، میانگین مربع انحراف برآورد از پارامتر تخمین زده شده برای یک تخمین مغرضانه کمتر خواهد بود، یعنی:

M (β j ^ - β j) 2< M (b j - β j) 2

هنگام استفاده از رگرسیون پشته (یا رگرسیون پشته)، به جای تخمین های بی طرفانه، تخمین های مغرضانه ارائه شده توسط بردار

β τ ^ = (X`X + τ E p +1) -1 X`Y،

جایی که τ – تعدادی عدد مثبت که "رج" یا "رج" نامیده می شود،

E p +1 ماتریس واحد مرتبه (р + 1) است.

اضافه كردن τ به عناصر مورب ماتریس X`X تخمین های پارامترهای مدل را بایاس می کند، اما در همان زمان تعیین کننده ماتریس سیستم معادلات عادی افزایش می یابد - به جای (X`X) از برابر خواهد بود با

| X`X + τ E p +1 |

بنابراین، در مواردی که تعیین کننده | X`X | نزدیک به صفر است

برای حذف چند خطی، می توان از انتقال از متغیرهای توضیحی اصلی X 1، X 2، ...، X n، که با یک وابستگی همبستگی نسبتاً نزدیک به هم مرتبط هستند، به متغیرهای جدیدی که ترکیبات خطی اصلی را نشان می دهد، استفاده کرد. در این حالت، متغیرهای جدید باید دارای همبستگی ضعیف یا به طور کلی بی همبستگی باشند. به عنوان چنین متغیرهایی، به عنوان مثال، مولفه‌های به اصطلاح اصلی بردار متغیرهای توضیحی اولیه را که در تحلیل مؤلفه‌ها مورد مطالعه قرار می‌گیرند، در نظر می‌گیریم و رگرسیون را روی مؤلفه‌های اصلی در نظر می‌گیریم که در آن مؤلفه‌های دوم به‌عنوان متغیرهای توضیحی تعمیم‌یافته عمل می‌کنند. تفسیر اقتصادی).

متعامد بودن اجزای اصلی از تجلی اثر چند خطی جلوگیری می کند. علاوه بر این، روش اعمال شده به فرد اجازه می دهد تا خود را به تعداد کمی از اجزای اصلی با تعداد نسبتاً زیادی از متغیرهای توضیحی اولیه محدود کند.

چند خطی -این اصطلاحی است که برای توصیف مسئله ای استفاده می شود که در آن یک رابطه خطی سست بین متغیرهای توضیحی منجر به تخمین های رگرسیون غیرقابل اعتماد می شود. البته چنین رابطه ای لزوماً رتبه های رضایت بخشی نمی دهد. اگر همه شرایط دیگر مساعد باشد، یعنی اگر تعداد مشاهدات و واریانس های نمونه متغیرهای توضیحی زیاد باشد و واریانس عبارت تصادفی کم باشد، در نتیجه، می توان تخمین های کاملاً خوبی به دست آورد.

بنابراین، چند خطی باید به دلیل ترکیبی از یک وابستگی ضعیف و یک (یا چند) شرایط نامطلوب ایجاد شود، و این سوال است.

شدت پدیده و نه نوع آن. هر نمره رگرسیون تا حدی از آن رنج خواهد برد، مگر اینکه همه متغیرهای توضیحی کاملاً همبسته نباشند. بررسی این مشکل تنها زمانی آغاز می شود که به طور جدی بر نتایج برآورد رگرسیون تأثیر بگذارد.

این مشکل در رگرسیون های سری زمانی رایج است، یعنی زمانی که داده ها از یک سری مشاهدات در یک دوره زمانی تشکیل شده اند. اگر دو یا چند متغیر توضیحی روند زمانی قوی داشته باشند، در این صورت همبستگی نزدیکی با هم دارند و این می‌تواند به چند خطی بودن منجر شود.


در این صورت چه کاری می توان انجام داد؟

روش‌های مختلفی که می‌توان برای کاهش همخطی چندگانه استفاده کرد به دو دسته تقسیم می‌شوند: دسته اول شامل تلاش‌هایی برای بهبود درجه برآورده شدن چهار شرط است که قابلیت اطمینان تخمین‌های رگرسیون را تضمین می‌کند. دسته دوم استفاده از اطلاعات خارجی است. اگر امکان دارد ابتدا از داده‌های به‌دست‌آمده به‌طور مستقیم استفاده شود، بدیهی است که افزایش تعداد مشاهدات مفید خواهد بود.

اگر از داده های سری زمانی استفاده می کنید، می توانید این کار را با کوتاه کردن طول هر دوره زمانی انجام دهید. به عنوان مثال، هنگام ارزیابی معادلات تابع تقاضا در تمرینات 5.3 و 5.6، می توانید از استفاده از داده های سالانه به داده های فصلی تغییر دهید.

پس از آن، به جای 25 مشاهده، 100 مورد وجود خواهد داشت. انجام این کار به قدری واضح و آسان است که اکثر محققان با استفاده از سری های زمانی تقریباً به طور خودکار از داده های فصلی، در صورت موجود بودن، به جای داده های سالانه استفاده می کنند، حتی اگر مشکل چند خطی بودن باشد. ارزش آن را ندارد، فقط برای کاهش واریانس نظری ضرایب رگرسیون به حداقل. با این حال، مشکلات احتمالی با این رویکرد وجود دارد. خودهمبستگی را می توان معرفی کرد یا تقویت کرد، اما می توان آن را خنثی کرد. علاوه بر این، اگر داده‌های فصلی با دقت کمتری نسبت به داده‌های سالانه مربوطه اندازه‌گیری شود، سوگیری ناشی از خطاهای اندازه‌گیری می‌تواند معرفی شود (یا تقویت شود). حل این مشکل آسان نیست، اما ممکن است مهم نباشد.