ضریب همبستگی رتبه کندال. همبستگی رتبه و ضریب همبستگی رتبه کندال ضریب همبستگی رتبه کندال در اکسل

نظریه مختصر

ضریب همبستگی کندال زمانی استفاده می شود که متغیرها با دو مقیاس ترتیبی نشان داده شوند، مشروط بر اینکه هیچ رتبه مرتبطی وجود نداشته باشد. محاسبه ضریب کندال شامل شمارش تعداد مسابقات و وارونگی است.

این ضریب در داخل متغیر است و با فرمول محاسبه می شود:

برای محاسبه، همه واحدها بر اساس ویژگی رتبه بندی می شوند. بر اساس تعدادی از معیارهای دیگر، تعداد رتبه های بعدی بیش از یک داده شده (ما آنها را با نشان می دهیم) و تعداد رتبه های بعدی زیر آن (ما آنها را با نشان می دهیم) برای هر رتبه محاسبه می شود.

می توان نشان داد که

و ضریب همبستگی رتبه کندال را می توان به صورت

برای آزمون فرضیه صفر در سطح معناداری که ضریب همبستگی رتبه کلی کندال در یک فرضیه رقیب برابر با صفر است، لازم است نقطه بحرانی محاسبه شود:

حجم نمونه کجاست آیا نقطه بحرانی منطقه بحرانی دو طرفه است که از جدول تابع لاپلاس توسط برابری بدست می آید.

اگر - دلیلی برای رد فرضیه صفر وجود ندارد. همبستگی رتبه ای بین ویژگی ها ناچیز است.

اگر - فرضیه صفر رد شود. بین ویژگی ها همبستگی رتبه ای معنی دار وجود دارد.

نمونه ای از حل مشکل

وظیفه

هنگام جذب هفت نامزد برای پست های خالی، دو آزمون ارائه شد. نتایج آزمون (در امتیاز) در جدول نشان داده شده است:

تست

نامزد

ضریب همبستگی رتبه کندال بین نتایج آزمون برای دو آزمون را محاسبه کنید و اهمیت آن را در سطح ارزیابی کنید.

راه حل مشکل

ضریب کندال را محاسبه کنید

رتبه های صفت عامل به طور دقیق به ترتیب صعودی مرتب شده اند و رتبه های مربوط به ویژگی موثر به صورت موازی ثبت می شوند. برای هر رتبه از بین رتبه های بعدی، تعداد رتبه های بالاتر (درج شده در ستون) و تعداد رتبه های پایین (درج شده در ستون) محاسبه می شود.

مجموع

یکی از عوامل محدود کننده اعمال معیارها بر اساس فرض نرمال بودن حجم نمونه است. تا زمانی که نمونه به اندازه کافی بزرگ باشد (مثلاً 100 مشاهده یا بیشتر)، می توانید فرض کنید که توزیع نمونه نرمال است، حتی اگر مطمئن نباشید که توزیع متغیر در جامعه نرمال است. با این حال، اگر نمونه کوچک است، این معیارها تنها در صورتی باید استفاده شوند که اطمینان وجود داشته باشد که متغیر واقعاً به طور معمول توزیع شده است. با این حال، هیچ راهی برای آزمایش این فرض در یک نمونه کوچک وجود ندارد.

استفاده از معیارهای مبتنی بر فرض نرمال بودن نیز به مقیاس اندازه گیری محدود می شود (به فصل مفاهیم اساسی تجزیه و تحلیل داده ها مراجعه کنید). در روش های آماری مانند آزمون t، رگرسیون و ... فرض بر این است که داده های اصلی پیوسته هستند. با این حال، موقعیت هایی وجود دارد که داده ها به جای اندازه گیری دقیق، به سادگی رتبه بندی می شوند (در مقیاس ترتیبی اندازه گیری می شوند).

یک مثال معمولی با رتبه‌بندی سایت‌ها در اینترنت ارائه می‌شود: جایگاه اول توسط سایتی با حداکثر تعداد بازدیدکننده، جایگاه دوم توسط سایت با حداکثر تعداد بازدیدکننده در بین سایت‌های باقی‌مانده (در میان سایت‌ها) که اولین سایت از آن حذف شده است) و غیره. با دانستن رتبه ها می توان گفت که تعداد بازدیدکنندگان یک سایت از تعداد بازدیدکنندگان سایت دیگر بیشتر است، اما نمی توان گفت چقدر بیشتر است. تصور کنید 5 سایت دارید: A، B، C، D، E که در 5 مکان برتر قرار دارند. فرض کنید در ماه جاری ترتیب زیر را داشتیم: A, B, C, D, E و در ماه قبل: D, E, A, B, C. سوال این است که تغییرات قابل توجهی در رتبه بندی سایت ها ایجاد شده است. یا نه؟ در این شرایط، بدیهی است که نمی‌توانیم از آزمون t برای مقایسه این دو گروه داده استفاده کنیم و به حوزه محاسبات احتمالی خاص برویم (و هر معیار آماری حاوی یک محاسبه احتمالی است!). ما اینگونه استدلال می کنیم: چقدر احتمال دارد که تفاوت در دو طرح بندی سایت به دلایل کاملاً تصادفی باشد یا اینکه این تفاوت خیلی زیاد است و نمی توان آن را به طور تصادفی توضیح داد. در این استدلال ما فقط از رتبه ها یا جایگشت های سایت ها استفاده می کنیم و به هیچ وجه از شکل خاصی از توزیع تعداد بازدیدکنندگان آنها استفاده نمی کنیم.

برای تجزیه و تحلیل نمونه های کوچک و برای داده های اندازه گیری شده در مقیاس های ضعیف، از روش های ناپارامتریک استفاده می شود.

یک تور سریع از رویه های ناپارامتریک

اساسا، برای هر معیار پارامتری، حداقل یک جایگزین ناپارامتریک وجود دارد.

به طور کلی، این روش ها در یکی از دسته های زیر قرار می گیرند:

معیارهای تمایز برای نمونه های مستقل؛
معیارهای تمایز برای نمونه های وابسته.
ارزیابی میزان وابستگی بین متغیرها

به طور کلی، رویکرد به معیارهای آماری در تجزیه و تحلیل داده ها باید عمل گرایانه باشد و بار استدلال نظری غیرضروری نداشته باشد. با یک کامپیوتر STATISTICA که در اختیار دارید، به راحتی می توانید چندین معیار را برای داده های خود اعمال کنید. با دانستن برخی از مشکلات روش ها، با آزمایش راه حل مناسب را انتخاب خواهید کرد. توسعه نمودار کاملاً طبیعی است: اگر نیاز به مقایسه مقادیر دو متغیر دارید، از آزمون t استفاده می کنید. با این حال، باید به خاطر داشت که بر اساس فرض نرمال بودن و برابری واریانس ها در هر گروه است. رهایی از این مفروضات منجر به آزمایش‌های ناپارامتریک می‌شود که مخصوصاً برای نمونه‌های کوچک مفید هستند.

توسعه آزمون t منجر به تحلیل واریانس می شود که زمانی استفاده می شود که تعداد گروه های مقایسه شده بیش از دو باشد. توسعه متناظر رویه‌های ناپارامتریک منجر به تحلیل واریانس ناپارامتریک می‌شود، اگرچه به طور قابل‌توجهی ضعیف‌تر از تحلیل واریانس کلاسیک است.

برای ارزیابی وابستگی، یا، به بیان تا حدودی، میزان تنگی اتصال، ضریب همبستگی پیرسون محاسبه می شود. به بیان دقیق، کاربرد آن دارای محدودیت‌هایی است که به عنوان مثال با نوع مقیاس اندازه‌گیری داده‌ها و غیرخطی بودن وابستگی مرتبط است؛ بنابراین، از ضرایب همبستگی ناپارامتریک یا به اصطلاح رتبه‌ای نیز استفاده می‌شود. برای مثال برای داده های رتبه بندی شده استفاده می شود. اگر داده ها در مقیاس اسمی اندازه گیری شوند، طبیعی است که آنها را در جداول احتمالی ارائه کنیم که از آزمون کای دو پیرسون با تغییرات و اصلاحات مختلف برای دقت استفاده می کنند.

بنابراین، در اصل، تنها چند نوع معیار و رویه وجود دارد که بسته به مشخصات داده‌ها، باید بدانید و بتوانید از آنها استفاده کنید. شما باید تعیین کنید که کدام معیار باید در یک موقعیت خاص اعمال شود.

روش های ناپارامتریک زمانی مناسب هستند که حجم نمونه کوچک باشد. اگر داده های زیادی وجود داشته باشد (به عنوان مثال، n> 100)، اغلب استفاده از آمار ناپارامتریک منطقی نیست.

اگر حجم نمونه بسیار کوچک باشد (مثلاً n = 10 یا کمتر)، آنگاه سطوح معنی‌داری برای آن دسته از آزمون‌های ناپارامتریک که از تقریب نرمال استفاده می‌کنند، تنها می‌توانند به عنوان تخمین‌های تقریبی در نظر گرفته شوند.

تفاوت بین گروه های مستقل... اگر دو نمونه (به عنوان مثال، مردان و زنان) وجود داشته باشد که باید با توجه به مقدار متوسط مثلاً فشار متوسط یا تعداد لکوسیت ها در خون مقایسه شوند، می توان از آزمون t برای مستقل استفاده کرد. نمونه ها.

جایگزین های ناپارامتری برای این آزمون، معیار سری Val'd-Wolfowitz، Mann-Whitney) / n است، که در آن x i مقدار i-ام، n تعداد مشاهدات است. اگر متغیر دارای مقادیر منفی یا صفر (0) باشد، میانگین هندسی قابل محاسبه نیست.

میانگین هارمونیک

میانگین هارمونیک گاهی اوقات برای میانگین فرکانس ها استفاده می شود. میانگین هارمونیک با فرمول محاسبه می شود: ГС = n / S (1 / x i) که در آن ГС میانگین هارمونیک است، n تعداد مشاهدات، х i مقدار مشاهده با عدد i است. اگر متغیر دارای صفر (0) باشد، میانگین هارمونیک قابل محاسبه نیست.

پراکندگی و انحراف معیار

واریانس نمونه و انحراف معیار رایج ترین معیارهای مورد استفاده برای تغییرپذیری (تغییر) در داده ها هستند. واریانس به عنوان مجموع مجذور انحرافات مقادیر متغیر از میانگین نمونه، تقسیم بر n-1 (اما نه بر n) محاسبه می شود. انحراف استاندارد به عنوان جذر برآورد واریانس محاسبه می شود.

تاب خوردن

محدوده یک متغیر نشانگر نوسان است که به صورت حداکثر منهای حداقل محاسبه می شود.

محدوده چارک

محدوده سه ماهه، طبق تعریف، عبارت است از: چارک بالا منهای چارک پایین (صدک 75 درصد منهای 25 درصد). از آنجایی که صدک 75 درصد (چرک بالایی) مقداری است که در سمت چپ آن 75 درصد موارد قرار دارد و صدک 25 درصد (چرک پایین) مقداری است که در سمت چپ آن 25 درصد موارد قرار دارد، چارک محدوده فاصله حول میانه است که 50 درصد موارد (مقادیر متغیر) را شامل می شود.

عدم تقارن

عدم تقارن مشخصه شکل توزیع است. اگر مقدار چولگی منفی باشد، توزیع به سمت چپ منحرف می شود. اگر عدم تقارن مثبت باشد، توزیع به سمت راست منحرف می شود. چولگی توزیع نرمال استاندارد 0 است. چولگی با ممان سوم مرتبط است و به صورت زیر تعریف می شود: چولگی = n × M 3 / [(n-1) × (n-2) × s 3]، که در آن M 3 است: (xi -x به معنی x) 3، s 3 انحراف استاندارد افزایش یافته به توان سوم است، n تعداد مشاهدات است.

اضافی

کورتوز مشخصه شکل یک توزیع است، یعنی اندازه گیری شدت پیک آن (نسبت به توزیع نرمال، که کشیدگی آن برابر با 0 است). به عنوان یک قاعده، توزیع هایی با قله تندتر از نرمال دارای کشیدگی مثبت هستند. توزیع هایی که اوج آن ها حادتر از اوج توزیع نرمال است، کشش منفی دارند. مازاد با لحظه چهارم همراه است و با فرمول تعیین می شود:

کشیدگی = / [(n-1) × (n-2) × (n-3) × s 4]، که در آن M j این است: (xx میانگین x، s 4 انحراف استاندارد به توان چهارم است، n برابر است تعداد مشاهدات ...

برای شناسایی رابطه بین شاخص های کمی یا کیفی در صورت امکان رتبه بندی استفاده می شود. مقادیر اندیکاتور X به ترتیب صعودی تنظیم می شوند و رتبه های اختصاص داده می شوند. مقادیر شاخص Y رتبه بندی شده و ضریب همبستگی کندال محاسبه می شود:

جایی که اس = پ − س.

پ بزرگمقدار رتبه Y.

س- تعداد کل مشاهدات پس از مشاهدات فعلی با کوچکترمقدار رتبه Y. (رتبه های مساوی به حساب نمی آیند!)

اگر داده های مورد مطالعه تکرار شوند (دارای رتبه های یکسان باشند)، از ضریب همبستگی تصحیح شده کندال در محاسبات استفاده می شود:

تی- تعداد رتبه های مرتبط به ترتیب در ردیف X و Y.

19. هنگام تعریف موضوع، موضوع، موضوع، هدف، اهداف و فرضیه تحقیق چه نقطه شروعی باید باشد؟

برنامه تحقیق معمولاً دارای دو بخش روش شناختی و رویه ای است. اولین مورد شامل اثبات ارتباط موضوع، فرمول بندی مسئله، تعریف موضوع و موضوع، اهداف و مقاصد تحقیق، تدوین مفاهیم اساسی (دستگاه طبقه بندی)، تحلیل سیستماتیک اولیه موضوع تحقیق و ارائه یک فرضیه کاری است. بخش دوم برنامه تحقیقات استراتژیک و همچنین برنامه و رویه های اساسی برای جمع آوری و تجزیه و تحلیل داده های اولیه را نشان می دهد.

اول از همه، هنگام انتخاب موضوع تحقیق، باید از موضوع مربوطه پیش رفت. توجیه مربوط بودنشامل نشانه ای از نیاز و به موقع بودن مطالعه و حل مسئله برای توسعه بیشتر تئوری و عمل آموزش و پرورش است. تحقیقات موضعی پاسخی به فوری ترین سؤالات در این زمان می دهد، نظم اجتماعی جامعه را به علم تربیتی منعکس می کند و مهم ترین تضادهایی را که در عمل رخ می دهد آشکار می کند. معیار ارتباط پویا، متحرک است، بستگی به زمان دارد، با در نظر گرفتن شرایط خاص و خاص. در کلی‌ترین شکل آن، ارتباط، درجه تناقض بین تقاضا برای ایده‌های علمی و توصیه‌های عملی (برای برآوردن یک نیاز خاص) و پیشنهاداتی را که علم و عمل می‌توانند در زمان حاضر ارائه دهند، مشخص می‌کند.

قانع‌کننده‌ترین مبنایی که موضوع تحقیق را تعریف می‌کند، نظم اجتماعی است که حادترین و مهم‌ترین مشکلات اجتماعی را منعکس می‌کند که نیاز به راه‌حل‌های فوری دارند. نظم اجتماعی مستلزم اثبات موضوعی خاص است. معمولاً این تجزیه و تحلیل درجه بسط یک سؤال در علم است.

اگر نظم اجتماعی از تجزیه و تحلیل عملکرد آموزشی ناشی می شود، پس خودش مشکل علمیدر یک هواپیمای متفاوت است این تضاد اصلی را بیان می کند که باید با علم حل شود. راه حل مشکل معمولا این است هدف از مطالعههدف یک مشکل دوباره فرمول بندی شده است.

عبارت مسئله مستلزم آن است انتخاب شیپژوهش. این می تواند یک فرآیند آموزشی، یک منطقه از واقعیت آموزشی، یا نوعی نگرش آموزشی باشد که حاوی یک تناقض است. به عبارت دیگر، یک شی می تواند هر چیزی باشد که به طور صریح یا ضمنی حاوی یک تناقض باشد و یک موقعیت مشکل ایجاد کند. ابژه همان چیزی است که فرآیند شناخت به سمت آن هدایت می شود. موضوع مطالعه -قسمت، طرف شی اینها از نظر عملی یا نظری، ویژگی ها، جنبه ها، ویژگی های یک شی هستند که به طور مستقیم مورد مطالعه قرار می گیرند.

مطابق با هدف، موضوع و موضوع تحقیق، تحقیق وظایف،که، به عنوان یک قاعده، با هدف بررسی هستند فرضیه هادومی مجموعه ای از مفروضات مبتنی بر نظری است که صحت آن منوط به تأیید است.

معیار تازگی علمیمی توان برای ارزیابی کیفیت مطالعات تکمیل شده استفاده کرد. این نتیجه گیری های نظری و عملی جدید، الگوهای آموزشی، ساختار و مکانیسم های آن، محتوا، اصول و فناوری ها را مشخص می کند که در این مقطع زمانی شناخته شده نبودند و در ادبیات آموزشی ثبت نشده بودند. تازگی تحقیق می تواند از نظر نظری و عملی اهمیت داشته باشد. ارزش نظری تحقیق در ایجاد مفهوم، به دست آوردن فرضیه، قاعده مندی، روش، مدل برای شناسایی مسئله، گرایش، جهت است. اهمیت عملی تحقیق در تهیه پیشنهادات، پیشنهادات و غیره است. معیارهای تازگی، اهمیت نظری و عملی بسته به نوع تحقیق تغییر می‌کند و به زمان کسب دانش جدید نیز بستگی دارد.

ضریب همبستگی رتبه کندلا

یکی از معیارهای نمونه وابستگی دو متغیر تصادفی (ویژگی) X و Y،بر اساس رتبه بندی اقلام نمونه (X 1, Y x), .. ., (X n، Y n). K. به R. به. اشاره دارد، بنابراین، به رتبه بندی آماردانانو با فرمول تعیین می شود

جایی که r i- شما متعلق به آن جفت هستید ( X، Y), برای یک دسته از Xraven i، S = 2N- (n-1) / 2، N تعداد عناصر نمونه است که به طور همزمان j> i و r j> r i... همیشه ... هست به عنوان یک معیار انتخابی برای وابستگی به. به طور گسترده ای توسط M. Kendall استفاده شد (M. Kendall، نگاه کنید).

K. به R. K. برای آزمون فرضیه استقلال متغیرهای تصادفی استفاده می شود. اگر فرضیه استقلال درست باشد، E t = 0 و D t = 2 (2n + 5) / 9n (n-1) است. با حجم نمونه کوچک، بررسی آماری است. فرضیه استقلال با استفاده از جداول خاص ساخته شده است (نگاه کنید به). برای n> 10، تقریب نرمال برای توزیع m استفاده می شود: if

در این صورت فرضیه استقلال رد و در غیر این صورت پذیرفته می شود. در اینجا a . - سطح معنی داری، u a / 2 نقطه درصد توزیع نرمال است. K. به R. زیرا مانند هر چیز دیگری می توان از آن برای تشخیص وابستگی دو ویژگی کیفی استفاده کرد، در صورتی که فقط بتوان عناصر نمونه را با توجه به این ویژگی ها مرتب کرد. اگر X، Yدارای یک نرمال مشترک با ضریب همبستگی p، سپس رابطه بین K. به p. به. و به شکل:

را نیز ببینید همبستگی رتبه اسپیرمن، آزمون رتبه.

روشن شد: کندال م.، همبستگی رتبه، ترجم. از انگلیسی., M., 1975; Van der Waerden B.L.، ریاضی، ترجمه. از آن.، م.، 1960; Bol'shev L.N.، Smirnov N.V.، جداول آمار ریاضی، مسکو، 1965.

A. V. Prokhorov.

دایره المعارف ریاضیات. - م .: دایره المعارف شوروی... I. M. Vinogradov. 1977-1985.

ببینید «ضریب همبستگی رتبه کندالا» در فرهنگ‌های دیگر چیست:

انگلیسی. с کارآمد، همبستگی رتبه ای کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی، که درجه مطابقت ترتیب همه جفت اشیاء را در دو متغیر تعیین می کند. آنتی نازی دایره المعارف جامعه شناسی، 2009 ... دایره المعارف جامعه شناسی

ضریب همبستگی رتبه کندال- انگلیسی. کارآمد، همبستگی رتبه کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی، که درجه مطابقت ترتیب همه جفت اشیاء را در دو متغیر تعیین می کند ... فرهنگ توضیحی جامعه شناسی

اندازه‌گیری وابستگی دو متغیر تصادفی (ویژگی‌ها) X و Y، بر اساس رتبه‌بندی نتایج مشاهدات مستقل (X1، Y1). ... .، (Xn، Yn). اگر رتبه مقادیر X به ترتیب طبیعی i = 1 باشد. ... .، n و Ri رتبه Y مربوط به ... ... دایره المعارف ریاضیات

ضریب همبستگی- (ضریب همبستگی) ضریب همبستگی نشانگر آماری وابستگی دو متغیر تصادفی است تعیین ضریب همبستگی، انواع ضرایب همبستگی، خواص ضریب همبستگی، محاسبه و کاربرد ... ... دایره المعارف سرمایه گذار

رابطه بین متغیرهای تصادفی، که به طور کلی، کاملاً کاربردی نیست. بر خلاف وابستگی عملکردی، K.، به عنوان یک قاعده، زمانی در نظر گرفته می شود که یکی از مقادیر نه تنها به دیگری بستگی دارد، بلکه ... ... دایره المعارف ریاضیات

همبستگی (وابستگی همبستگی) یک رابطه آماری از دو یا چند متغیر تصادفی (یا مقادیری است که می‌توان آن‌ها را با درجه‌ای از دقت قابل قبول در نظر گرفت). در این صورت تغییرات در مقادیر یک یا ... ... ویکی پدیا

همبستگی- (همبستگی) همبستگی یک رابطه آماری از دو یا چند متغیر تصادفی است.مفهوم همبستگی، انواع همبستگی، ضریب همبستگی، تحلیل همبستگی، همبستگی قیمت، همبستگی جفت ارز بر روی محتویات فارکس ... ... دایره المعارف سرمایه گذار

به طور کلی پذیرفته شده است که آغاز S. از m. Century. یا، همانطور که اغلب نامیده می شود، آمار "n کوچک" در دهه اول قرن بیستم با انتشار کار W. Gosset ارائه شد، که در آن او توزیع t را که توسط کسانی که دریافت کردند، قرار داد. دنیا کمی دیرتر...... دایره المعارف روانشناسی

موریس کندال سر موریس جورج کندال تاریخ تولد: 6 سپتامبر 1907 (1907 09 06) محل تولد: Kettering، UK تاریخ مرگ ... ویکی پدیا

پیش بینی- (پیش بینی) تعریف پیش بینی وظایف و اصول پیش بینی تعریف پیش بینی وظایف و اصول پیش بینی روش های پیش بینی مطالب مندرجات تعریف مفاهیم اولیه پیش بینی وظایف و اصول پیش بینی ... ... دایره المعارف سرمایه گذار

برای محاسبه ضریب همبستگی رتبه کندال r kلازم است داده های یکی از ویژگی ها به ترتیب صعودی رتبه بندی شوند و رتبه های مربوط به ویژگی دوم تعیین شوند. سپس برای هر رتبه از ویژگی دوم، تعداد رتبه های بعدی، بزرگتر از رتبه گرفته شده، تعیین می شود و مجموع این اعداد به دست می آید.

ضریب همبستگی رتبه کندال با فرمول تعیین می شود

جایی که R i- تعداد رتبه های متغیر دوم، با شروع از من+1 که قدر آن بیشتر از قدر است منرتبه این متغیر

جداول نقاط درصد توزیع ضریب وجود دارد r k، به شما اجازه می دهد تا فرضیه مربوط به معنی دار بودن ضریب همبستگی را آزمایش کنید.

برای اندازه های نمونه بزرگ، مقادیر بحرانی r kجدول بندی نشده اند و باید با استفاده از فرمول های تقریبی محاسبه شوند که بر اساس این واقعیت است که در فرض صفر H 0: r k= 0 و بزرگ nمقدار تصادفی

تقریباً طبق قانون عادی استاندارد توزیع شده است.

40. رابطه بین صفات اندازه گیری شده در مقیاس اسمی یا ترتیبی

مشکل اغلب در بررسی استقلال دو ویژگی که در مقیاس اسمی یا ترتیبی اندازه‌گیری می‌شوند، ایجاد می‌شود.

اجازه دهید برخی از اشیا دو ویژگی را اندازه گیری کنند ایکسو Yبا تعداد سطوح rو سبه ترتیب. نتایج چنین مشاهداتی به راحتی در قالب یک جدول ارائه می شود که به آن جدول احتمالی می گویند.

در جدول تو من(من = 1, ..., r) و v j (j= 1, ..., س) - مقادیر گرفته شده توسط ویژگی ها، ارزش n ij- تعداد اشیاء از تعداد کل اشیایی که برای آنها ویژگی ایکسمعنی به خود گرفت تو من، و علامت Y- معنی v j

متغیرهای تصادفی زیر را معرفی می کنیم:

تو من

- تعداد اشیایی که دارای ارزش هستند v j

علاوه بر این، برابری های آشکاری وجود دارد

متغیرهای تصادفی گسسته ایکسو Yمستقل اگر و فقط اگر

برای همه زوج ها من, j

بنابراین، حدس در مورد استقلال متغیرهای تصادفی گسسته ایکسو Yرا می توان اینگونه نوشت:

به عنوان یک جایگزین، به عنوان یک قاعده، آنها از فرضیه استفاده می کنند

اعتبار فرضیه H 0 باید بر اساس فراوانی نمونه قضاوت شود n ijجداول احتمالی مطابق با قانون اعداد بزرگ در n→ ∞، فرکانس های نسبی نزدیک به احتمالات مربوطه هستند:

برای آزمون فرضیه H 0 از آمار استفاده می شود

که در صورت صحت فرضیه دارای توزیع است χ 2 ثانیه rs − (r + س- 1) درجات آزادی.

معیار استقلال χ 2 فرضیه H 0 را با سطح معناداری α رد می کند اگر:

41. تجزیه و تحلیل رگرسیون. مفاهیم اساسی تحلیل رگرسیون

برای توصیف ریاضی روابط آماری بین متغیرهای مورد مطالعه، مسائل زیر باید حل شود:

ü کلاسی از توابع را انتخاب کنید که در آن توصیه می شود بهترین تقریب (به معنای خاصی) وابستگی مورد علاقه را جستجو کنید.

ü برآورد مقادیر مجهول پارامترهای موجود در معادلات وابستگی مورد نیاز را بیابید.

ü تعیین کفایت معادله به دست آمده از وابستگی مورد نیاز.

ü شناسایی آموزنده ترین متغیرهای ورودی.

مجموع وظایف ذکر شده موضوع تحقیق در تحلیل رگرسیون است.

تابع رگرسیون (یا رگرسیون) وابستگی انتظارات ریاضی یک متغیر تصادفی به مقدار گرفته شده توسط متغیر تصادفی دیگر است که یک سیستم دو بعدی از متغیرهای تصادفی را با متغیر اول تشکیل می دهد.

اجازه دهید سیستمی از متغیرهای تصادفی وجود داشته باشد ( ایکس,Y، سپس تابع رگرسیون Yبر روی ایکس

و تابع رگرسیون ایکسبر روی Y

توابع رگرسیون f(ایکس) و φ (y) اگر فقط رابطه بین آنها وجود داشته باشد قابل برگشت نیستند ایکسو Yکاربردی نیست

چه زمانی n-بردار بعدی با مختصات ایکس 1 , ایکس 2 ,…, X nشما می توانید انتظارات ریاضی مشروط را برای هر جزء در نظر بگیرید. به عنوان مثال، برای ایکس 1

رگرسیون نامیده می شود ایکس 1 در ایکس 2 ,…, X n.

برای تعریف کامل تابع رگرسیون، دانستن توزیع شرطی متغیر خروجی برای مقادیر ثابت متغیر ورودی ضروری است.

از آنجایی که در یک موقعیت واقعی چنین اطلاعاتی در دسترس نیست، آنها معمولاً به جستجوی یک تابع تقریبی مناسب محدود می شوند f a(ایکس) برای f(ایکس) بر اساس داده های آماری فرم ( x i, y من), من = 1,…, n... این داده ها نتیجه است nمشاهدات مستقل y 1 ,…, y nمتغیر تصادفی Yبرای مقادیر متغیر ورودی ایکس 1 ,…, x n، در حالی که تحلیل رگرسیون فرض می کند که مقادیر متغیر ورودی به طور دقیق مشخص شده است.

مشکل انتخاب بهترین تابع تقریبی f a(ایکس) در تحلیل رگرسیون اصلی است و رویه های رسمی برای حل آن ندارد. گاهی اوقات انتخاب بر اساس تجزیه و تحلیل داده های تجربی، اغلب از ملاحظات نظری تعیین می شود.

اگر فرض شود که تابع رگرسیون به اندازه کافی صاف است، تابع تقریبی است f a(ایکس) را می توان به صورت ترکیبی خطی از مجموعه ای از توابع پایه مستقل خطی نشان داد ψ k(ایکس), ک = 0, 1,…, متر−1، یعنی به شکل

جایی که متر- تعداد پارامترهای ناشناخته θ k(در حالت کلی، مقدار ناشناخته است، در طول ساخت مدل تصفیه شده است).

چنین تابعی از نظر پارامترها خطی است، بنابراین، در مورد مورد بررسی، ما از یک مدل تابع رگرسیون صحبت می کنیم که از نظر پارامترها خطی است.

سپس مسئله یافتن بهترین تقریب برای خط رگرسیون f(ایکس) به یافتن چنین مقادیر پارامتری کاهش می یابد که برای آنها f a(ایکس؛ θ) مناسب ترین برای داده های موجود است. یکی از روش های حل این مشکل روش حداقل مربعات است.

42. روش حداقل مربعات

اجازه دهید مجموعه نقاط ( x i, y من), من= 1,…, nدر یک هواپیما در امتداد یک خط مستقیم قرار دارد

سپس، به عنوان یک تابع f a(ایکس) تقریب تابع رگرسیون f(ایکس) = م [Y|ایکس] طبیعی است که یک تابع خطی از آرگومان بگیریم ایکس:

یعنی توابع پایه در اینجا انتخاب می شوند ψ 0 (ایکس) ≡1 و ψ 1 (ایکس)≡ایکس... به این رگرسیون رگرسیون خطی ساده می گویند.

اگر مجموعه نقاط ( x i, y من), من= 1,…, nدر امتداد برخی از منحنی ها قرار دارد، سپس به عنوان f a(ایکس) طبیعی است که سعی کنیم خانواده سهمی ها را انتخاب کنیم

این تابع از نظر پارامتر غیر خطی است θ 0 و θ 1، با این حال، با تبدیل تابعی (در این مورد، با گرفتن لگاریتم)، می توان آن را به یک تابع جدید کاهش داد. f'a(ایکس، خطی در پارامترها:

43. رگرسیون خطی ساده

ساده ترین مدل رگرسیون یک مدل خطی ساده (تک بعدی، تک عاملی، زوجی) است که به شکل زیر است:

جایی که ε i- متغیرهای تصادفی (خطاها) بدون همبستگی با یکدیگر، دارای انتظارات ریاضی صفر و واریانس های یکسان σ 2 , آو ب- ضرایب (پارامترهای) ثابتی که باید از روی مقادیر پاسخ اندازه گیری شده تخمین زده شوند y من.

برای یافتن تخمین پارامترها آو برگرسیون خطی، تعیین خط مستقیم که بیشترین رضایت را از داده های تجربی دارد:

روش حداقل مربعات استفاده می شود.

مطابق با کمترین مربعات تخمین پارامترها آو باز شرط به حداقل رساندن مجموع مجذور انحراف مقادیر بدست می آیند y منبه صورت عمودی از خط رگرسیون "درست":

اجازه دهید ده مشاهده از یک متغیر تصادفی وجود داشته باشد Yبا مقادیر ثابت متغیر ایکس

برای به حداقل رساندن دیمشتقات جزئی را برابر با صفر می کنیم آو ب:

در نتیجه، سیستم معادلات زیر را برای یافتن تخمین ها به دست می آوریم آو ب:

حل این دو معادله به دست می آید:

عباراتی برای تخمین پارامترها آو بهمچنین می تواند به صورت زیر نمایش داده شود:

سپس معادله تجربی خط رگرسیون Yبر روی ایکسرا می توان به صورت زیر نوشت:

برآورد واریانس بی طرفانه σ 2 انحراف از مقادیر y مناز خط مستقیم برازش رگرسیون با عبارت داده می شود

بیایید پارامترهای معادله رگرسیون را محاسبه کنیم

بنابراین، خط رگرسیون به نظر می رسد:

و برآورد واریانس انحرافات مقادیر y مناز خط مستقیم رگرسیون متناسب

44. بررسی اهمیت خط رگرسیون

برآورد پیدا شد ب≠ 0 می تواند تحقق یک متغیر تصادفی باشد که انتظار ریاضی آن برابر با صفر است، یعنی ممکن است معلوم شود که در واقع هیچ وابستگی رگرسیونی وجود ندارد.

برای مقابله با این وضعیت، باید فرضیه H 0 را آزمایش کنید: ب= 0 با یک فرضیه رقابتی H 1: ب ≠ 0.

آزمون معناداری خط رگرسیون را می توان با استفاده از تحلیل واریانس انجام داد.

هویت زیر را در نظر بگیرید:

بزرگی y من− ŷ i = ε iباقیمانده نامیده می شود و تفاوت بین دو کمیت است:

ü انحراف مقدار مشاهده شده (پاسخ) از میانگین کل پاسخ.

ü انحراف از مقدار پاسخ پیش بینی شده ŷ iاز همان میانگین

هویت نوشتاری را می توان به صورت نوشتاری نوشت

هر دو قسمت آن را مربع و جمع کرده است من، ما گرفتیم:

جایی که مقادیر نامگذاری شده اند:

مجموع (کل) مجذورات SC n که برابر است با مجموع مجذورات انحراف مشاهدات نسبت به مقدار میانگین مشاهدات

مجموع مربعات ناشی از رگرسیون SK p که برابر است با مجموع مجذورات انحرافات مقادیر خط رگرسیون نسبت به میانگین مشاهدات.

مجموع باقیمانده مربعات SK 0. که برابر است با مجموع مجذور انحرافات مشاهدات نسبت به مقادیر خط رگرسیون

بنابراین گسترش Y-kov نسبت به میانگین آنها را می توان تا حدی به این واقعیت نسبت داد که همه مشاهدات در خط رگرسیون قرار ندارند. اگر اینطور بود، مجموع مربعات نسبت به رگرسیون صفر می شد. نتیجه این است که اگر مجموع مربعات SC p بزرگتر از مجموع مربعات SC 0 باشد، رگرسیون معنی دار خواهد بود.

محاسبات آزمون اهمیت رگرسیون در جدول ANOVA زیر انجام می شود.

اگر خطاها ε iطبق قانون نرمال توزیع می شود، اگر فرضیه H 0 معتبر باشد: ب= 0 آمار:

طبق قانون فیشر با تعداد درجات آزادی 1 و n−2.

اگر مقدار آماری محاسبه شده باشد، فرضیه صفر در سطح معناداری α رد خواهد شد افبزرگتر از نقطه درصد α خواهد بود f 1;n-2؛ α از توزیع فیشر.

45. بررسی کفایت مدل رگرسیون. روش باقیمانده

کفایت مدل رگرسیون ساخته شده به این صورت درک می شود که هیچ مدل دیگری پیشرفت قابل توجهی در پیش بینی پاسخ نمی دهد.

اگر تمام مقادیر پاسخ ها در مقادیر مختلف به دست آیند ایکس، به عنوان مثال، چندین مقدار پاسخ با یکسان به دست نمی آید x i، سپس فقط یک آزمایش محدود از کفایت مدل خطی را می توان انجام داد. مبنای چنین چکی باقیمانده است:

انحراف از الگوی تعیین شده:

تا جایی که ایکس- متغیر تک بعدی، نقاط ( x i, d i) را می توان بر روی یک صفحه به شکل طرح به اصطلاح باقیمانده ترسیم کرد. چنین نمایشی گاهی اوقات این امکان را به وجود می آورد که نظمی در رفتار باقیمانده ها پیدا کنیم. علاوه بر این، تجزیه و تحلیل باقیمانده به شما امکان می دهد تا فرضیه مربوط به توزیع خطاها را تجزیه و تحلیل کنید.

در مواردی که خطاها بر اساس قانون عادی توزیع شده و واریانس آنها برآورد پیشینی وجود دارد. σ 2 (تخمین به دست آمده بر اساس اندازه گیری های قبلی انجام شده)، سپس ارزیابی دقیق تری از کفایت مدل امکان پذیر است.

از طريق اف-از معیار فیشر می توان برای بررسی معنی دار بودن واریانس باقیمانده استفاده کرد س 0 2 با برآورد قبلی متفاوت است. اگر به طور قابل توجهی بیشتر باشد، نارسایی وجود دارد و باید در مدل تجدید نظر شود.

اگر برآورد قبلی σ 2 نه، اما اندازه گیری پاسخ Yدو یا چند بار با مقادیر یکسان تکرار می شود ایکس، سپس از این مشاهدات مکرر می توان برای به دست آوردن تخمین دیگری استفاده کرد σ 2 (اولین واریانس باقیمانده است). گفته می شود که چنین تخمینی نشان دهنده یک خطای "خالص" است، زیرا اگر ایکسبرای دو یا چند مشاهدات یکسان است، پس فقط تغییرات تصادفی می تواند بر نتایج تأثیر بگذارد و بین آنها پراکندگی ایجاد کند.

تخمین حاصل تخمین قابل اعتماد تری از واریانس نسبت به تخمین به دست آمده با روش های دیگر است. به همین دلیل، هنگام برنامه ریزی آزمایش ها، تنظیم آزمایش ها با تکرار منطقی است.

فرض کنید داریم مترمعانی مختلف ایکس : ایکس 1 , ایکس 2 , ..., x m... اجازه دهید برای هر یک از این مقادیر x iوجود دارد n منمشاهدات پاسخ Y... کل مشاهدات به دست آمده است:

سپس مدل رگرسیون خطی ساده را می توان به صورت زیر نوشت:

بیایید واریانس خطاهای "خالص" را پیدا کنیم. این واریانس برآورد ترکیبی واریانس است σ 2، اگر مقادیر پاسخ ها را نشان دهیم y ijدر ایکس = x iبه عنوان حجم نمونه n من... در نتیجه، واریانس خطاهای "خالص" عبارتند از:

این واریانس به عنوان یک تخمین عمل می کند σ 2 صرف نظر از اینکه مدل نصب شده صحیح است یا خیر.

اجازه دهید نشان دهیم که مجموع مربع های "خطاهای خالص" بخشی از مجموع مربعات باقی مانده است (مجموع مربع های موجود در عبارت برای واریانس باقیمانده). باقی مانده برای jمشاهده ام در x iرا می توان به صورت زیر نوشت:

اگر دو طرف این تساوی را مربع کنید و سپس آنها را جمع کنید jو توسط من، ما گرفتیم:

در سمت چپ این تساوی، مجموع مربعات باقی مانده است. عبارت اول در سمت راست مجموع مربعات خطاهای "خالص" است، عبارت دوم را می توان مجموع مربعات نارسایی نامید. آخرین مقدار دارد متر 2- درجه آزادی، بنابراین، واریانس عدم کفایت

آمار ملاک آزمون فرضیه H 0: مدل خطی ساده کافی است، در مقابل فرضیه H 1: مدل خطی ساده ناکافی است، متغیر تصادفی

اگر فرضیه صفر درست باشد، مقدار افدارای توزیع فیشر با درجات آزادی است متر-2 و n−متر... فرضیه خطی بودن خط رگرسیون باید با سطح معناداری α رد شود، در صورتی که مقدار به دست آمده از آماره بیشتر از نقطه درصد α توزیع فیشر با تعداد درجات آزادی باشد. متر-2 و n−متر.

46. بررسی کفایت مدل رگرسیون (نگاه کنید به 45). ANOVA

47. بررسی کفایت مدل رگرسیون (نگاه کنید به 45). ضریب تعیین

گاهی اوقات برای مشخص کردن کیفیت خط رگرسیون از ضریب تعیین نمونه استفاده می شود آر 2، نشان می دهد که چه بخش (کسری) از مجموع مربع ها، به دلیل رگرسیون، SK p در مجموع مجموع مربعات SK n است:

نزدیکتر آر 2 به یک، هرچه رگرسیون بهتر به داده های تجربی تقریب کند، مشاهدات به خط رگرسیون نزدیک تر است. اگر آر 2 = 0، سپس تغییرات در پاسخ کاملاً ناشی از تأثیر عوامل محاسبه نشده است و خط رگرسیون موازی با محور است. ایکس-ov. در مورد رگرسیون خطی ساده، ضریب تعیین آر 2 برابر است با مجذور ضریب همبستگی r 2 .

حداکثر مقدار R 2 = 1 تنها در صورتی قابل دستیابی است که مشاهدات در مقادیر مختلف x-ov انجام شده باشد. اگر آزمایش‌های مکرر در داده‌ها وجود داشته باشد، مقدار R 2 نمی‌تواند به وحدت برسد، مهم نیست مدل چقدر خوب باشد.

48. فواصل اطمینان برای پارامترهای رگرسیون خطی ساده

همانطور که میانگین نمونه تخمینی از میانگین واقعی (میانگین جامعه) است، پارامترهای نمونه معادله رگرسیون نیز چنین هستند. آو ب- چیزی بیش از برآورد ضرایب رگرسیون واقعی. نمونه های مختلف تخمین های متفاوتی از میانگین ارائه می دهند - همانطور که نمونه های مختلف تخمین های متفاوتی از ضرایب رگرسیون ارائه می دهند.

با فرض اینکه قانون توزیع خطا ε iتوسط قانون عادی، تخمین پارامتر توصیف می شوند بدارای توزیع نرمال با پارامترهای:

از آنجایی که برآورد پارامتر آترکیبی خطی از مقادیر مستقل توزیع شده نرمال است، همچنین دارای توزیع نرمال با میانگین و واریانس است:

در این حالت، فاصله اطمینان (1 - α) برای تخمین واریانس است σ 2 با در نظر گرفتن اینکه نسبت ( n−2)س 0 2 /σ 2 توسط قانون توزیع شده است χ 2 با تعداد درجات آزادی n−2 با عبارت مشخص خواهد شد

49. فواصل اطمینان برای خط رگرسیون. فاصله اطمینان برای مقادیر متغیر وابسته

ما معمولاً مقادیر واقعی ضرایب رگرسیون را نمی دانیم. آو ب... ما فقط تخمین آنها را می دانیم. به عبارت دیگر، خط رگرسیون واقعی می تواند بالاتر یا پایین تر، شیب دارتر یا کم عمق تر از خط ساخته شده از داده های نمونه باشد. ما فواصل اطمینان را برای ضرایب رگرسیون محاسبه کردیم. شما همچنین می توانید منطقه اطمینان را برای خود خط رگرسیون محاسبه کنید.

اجازه دهید برای رگرسیون خطی ساده لازم است که (1- α ) فاصله اطمینان برای انتظار ریاضی از پاسخ Yدر ارزش ایکس = ایکس 0. این انتظار ریاضی است آ+bx 0 و برآورد آن

از آن به بعد.

تخمین به‌دست‌آمده از انتظارات ریاضی ترکیبی خطی از مقادیر توزیع شده عادی نامرتبط است و بنابراین دارای یک توزیع نرمال است که در نقطه ارزش واقعی انتظارات و واریانس ریاضی شرطی متمرکز است.