همبستگی رتبه و ضریب همبستگی رتبه کندال. ضرایب همبستگی رتبه کندال و اسپیرمن فرمول ضریب همبستگی کندال

ضریب همبستگی رتبه کندلا

یکی از معیارهای نمونه وابستگی دو متغیر تصادفی (ویژگی) X و بر اساس رتبه بندی اقلام نمونه (X 1, Y x), .. ., (X n، Y n). K. به R. به. اشاره دارد، بنابراین، به رتبه بندی آماردانانو با فرمول تعیین می شود

جایی که r i- شما متعلق به آن جفت هستید ( X، Y), برای یک دسته از Xraven i، S = 2N- (n-1) / 2، N تعداد عناصر نمونه است که به طور همزمان j> i و r j> r i... همیشه ... هست به عنوان یک معیار انتخابی برای وابستگی به. به طور گسترده ای توسط M. Kendall استفاده شد (M. Kendall، نگاه کنید).

K. به R. K. برای آزمون فرضیه استقلال متغیرهای تصادفی استفاده می شود. اگر فرضیه استقلال درست باشد، E t = 0 و D t = 2 (2n + 5) / 9n (n-1) است. با حجم نمونه کوچک، بررسی آماری است. فرضیه استقلال با استفاده از جداول خاص ساخته شده است (نگاه کنید به). برای n> 10، تقریب نرمال برای توزیع m استفاده می شود: if

در این صورت فرضیه استقلال رد و در غیر این صورت پذیرفته می شود. در اینجا a . - سطح معنی داری، u a / 2 نقطه درصد توزیع نرمال است. K. به R. زیرا مانند هر چیز دیگری می توان از آن برای تشخیص وابستگی دو ویژگی کیفی استفاده کرد، در صورتی که فقط بتوان عناصر نمونه را با توجه به این ویژگی ها مرتب کرد. اگر X، Yدارای یک نرمال مشترک با ضریب همبستگی p، سپس رابطه بین K. به p. به. و به شکل:

را نیز ببینید همبستگی رتبه اسپیرمن، آزمون رتبه.

روشن شد: کندال م.، همبستگی رتبه، ترجم. از انگلیسی., M., 1975; Van der Waerden B.L.، ریاضی، ترجمه. از آن.، م.، 1960; Bol'shev L.N.، Smirnov N.V.، جداول آمار ریاضی، مسکو، 1965.

A. V. Prokhorov.


دایره المعارف ریاضیات. - م .: دایره المعارف شوروی... I. M. Vinogradov. 1977-1985.

ببینید «ضریب همبستگی رتبه کندالا» در فرهنگ‌های دیگر چیست:

    انگلیسی. с کارآمد، همبستگی رتبه ای کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی، که درجه مطابقت ترتیب همه جفت اشیاء را در دو متغیر تعیین می کند. آنتی نازی دایره المعارف جامعه شناسی، 2009 ... دایره المعارف جامعه شناسی

    ضریب همبستگی رتبه کندال- انگلیسی. کارآمد، همبستگی رتبه کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی، که درجه مطابقت ترتیب همه جفت اشیاء را در دو متغیر تعیین می کند ... فرهنگ توضیحی جامعه شناسی

    اندازه‌گیری وابستگی دو متغیر تصادفی (ویژگی‌ها) X و Y، بر اساس رتبه‌بندی نتایج مشاهدات مستقل (X1، Y1). ... .، (Xn، Yn). اگر رتبه مقادیر X به ترتیب طبیعی i = 1 باشد. ... .، n و Ri رتبه Y مربوط به ... ... دایره المعارف ریاضیات

    ضریب همبستگی- (ضریب همبستگی) ضریب همبستگی نشانگر آماری وابستگی دو متغیر تصادفی است تعیین ضریب همبستگی، انواع ضرایب همبستگی، خواص ضریب همبستگی، محاسبه و کاربرد ... ... دایره المعارف سرمایه گذار

    رابطه بین متغیرهای تصادفی، که به طور کلی، کاملاً کاربردی نیست. بر خلاف وابستگی عملکردی، K.، به عنوان یک قاعده، زمانی در نظر گرفته می شود که یکی از مقادیر نه تنها به دیگری بستگی دارد، بلکه ... ... دایره المعارف ریاضیات

    همبستگی (وابستگی همبستگی) یک رابطه آماری از دو یا چند متغیر تصادفی (یا مقادیری است که می‌توان آن‌ها را با درجه‌ای از دقت قابل قبول در نظر گرفت). در این صورت تغییرات در مقادیر یک یا ... ... ویکی پدیا

    همبستگی- (همبستگی) همبستگی یک رابطه آماری از دو یا چند متغیر تصادفی است.مفهوم همبستگی، انواع همبستگی، ضریب همبستگی، تحلیل همبستگی، همبستگی قیمت، همبستگی جفت ارز بر روی محتویات فارکس ... ... دایره المعارف سرمایه گذار

    به طور کلی پذیرفته شده است که آغاز S. از m. Century. یا، همانطور که اغلب نامیده می شود، آمار "n کوچک" در دهه اول قرن بیستم با انتشار کار W. Gosset ارائه شد، که در آن او توزیع t را که توسط کسانی که دریافت کردند، قرار داد. دنیا کمی دیرتر...... دایره المعارف روانشناسی

    موریس کندال سر موریس جورج کندال تاریخ تولد: 6 سپتامبر 1907 (1907 09 06) محل تولد: Kettering، UK تاریخ مرگ ... ویکی پدیا

    پیش بینی- (پیش بینی) تعریف پیش بینی وظایف و اصول پیش بینی تعریف پیش بینی وظایف و اصول پیش بینی روش های پیش بینی مطالب مندرجات تعریف مفاهیم اولیه پیش بینی وظایف و اصول پیش بینی ... ... دایره المعارف سرمایه گذار

ارائه و پیش پردازش ارزیابی های کارشناسی

در عمل، چندین نوع ارزیابی استفاده می شود:

- با کیفیت بالا (اغلب به ندرت، بدتر-بهتر، بله-نه)،

- تخمین های مقیاس (محدوده مقادیر 50-75، 76-90، 91-120، و غیره)،

امتیاز از یک فاصله معین (از 2 تا 5، 1 -10)، مستقل از یکدیگر،

رتبه بندی شده (اشیاء توسط یک متخصص به ترتیب خاصی مرتب می شوند و به هر کدام یک شماره سریال اختصاص داده می شود - رتبه)

مقایسه ای که با یکی از روش های مقایسه به دست می آید

روش مقایسه متوالی

روش مقایسه زوجی عوامل

در مرحله بعدی پردازش نظرات کارشناسی، ارزیابی لازم است میزان سازگاری این نظرات

برآوردهای به دست آمده از کارشناسان را می توان به عنوان یک متغیر تصادفی در نظر گرفت که توزیع آن منعکس کننده نظرات کارشناسان در مورد احتمال انتخاب خاصی از یک رویداد (عامل) است. بنابراین، برای تجزیه و تحلیل پراکندگی و سازگاری برآوردهای خبرگان، از ویژگی های آماری تعمیم یافته - میانگین ها و معیارهای پراکندگی استفاده می شود:

میانگین مربعات خطا،

محدوده تغییرات حداقل - حداکثر،

- ضریب تغییرات V = میانگین انحراف مربع / میانگین حساب. (مناسب برای هر نوع ارزیابی)

V i = σ i / x i میانگین

برای نرخ اقدامات شباهتاما نظرات هر جفت متخصصمی توان از روش های مختلفی استفاده کرد:

ضرایب ارتباطکه به کمک آن تعداد پاسخ های منطبق و غیر منطبق در نظر گرفته می شود.

ضرایب ناسازگارینظرات کارشناسی،

همه این معیارها را می توان یا برای مقایسه نظرات دو متخصص و یا برای تجزیه و تحلیل رابطه بین مجموعه ارزیابی ها بر دو مبنای استفاده کرد.

ضریب همبستگی جفت رتبه اسپیرمن:

که در آن n تعداد متخصصان است،

c k - تفاوت بین برآوردهای کارشناسان i-امین و j-امین برای همه عوامل T

ضریب همبستگی رتبه کندال (ضریب تطابق) ارزیابی کلی از سازگاری نظرات همه متخصصان در مورد همه عوامل را ارائه می دهد، اما فقط برای مواردی که از تخمین رتبه استفاده شده است.

ثابت شده است که مقدار S، زمانی که همه کارشناسان تخمین های یکسانی از همه عوامل ارائه می دهند، حداکثر مقدار برابر با

که در آن n تعداد عوامل است،

m تعداد کارشناسان است.

ضریب تطابق برابر با نسبت است

علاوه بر این، اگر W نزدیک به 1 باشد، همه کارشناسان تخمین های سازگاری کافی ارائه کرده اند، در غیر این صورت نظرات آنها مورد توافق نیست.

فرمول محاسبه S در زیر نشان داده شده است:

جایی که r ij تخمین رتبه ضریب i توسط متخصص j است،

r cf میانگین رتبه در کل ماتریس برآوردها و برابر است با

و بنابراین فرمول محاسبه S می تواند به شکل زیر باشد:

اگر ارزیابی های فردی یک متخصص همزمان باشد، و آنها در طول پردازش استاندارد شده باشند، از فرمول متفاوتی برای محاسبه ضریب تطابق استفاده می شود:



که در آن Tj برای هر متخصص محاسبه می شود (در صورتی که ارزیابی های وی برای اشیاء مختلف تکرار شده باشد)، با در نظر گرفتن تکرارها طبق قوانین زیر:

که در آن t j تعداد گروه های دارای رتبه های مساوی برای کارشناس j است و

h k - تعداد رتبه های مساوی در گروه k رتبه های مرتبط کارشناس j.

مثال. اجازه دهید 5 کارشناس شش عامل در رتبه بندی که در جدول 3 نشان داده شده است پاسخ دهند:

جدول 3 - پاسخ کارشناسان

کارشناسان О1 О2 O3 О4 O5 O6 مجموع رتبه ها توسط کارشناس
E1
E2
E3
E4
E5

با توجه به اینکه رتبه بندی دقیقی به دست نیامده است (ارزیابی های کارشناسان تکرار می شود و مجموع رتبه ها برابر نیست)، برآوردها را تغییر داده و رتبه های مربوطه را بدست می آوریم (جدول 4):

جدول 4 - رتبه های مرتبط ارزیابی های کارشناسی

کارشناسان О1 О2 O3 О4 O5 O6 مجموع رتبه ها توسط کارشناس
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
مجموع درجات شیء 7,5 9,5 23,5 29,5

حال بیایید با استفاده از ضریب تطابق، میزان سازگاری نظرات کارشناسی را مشخص کنیم. از آنجایی که رتبه ها به هم مرتبط هستند، W را با فرمول (**) محاسبه می کنیم.

سپس r cf = 7 * 5/2 = 17.5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

اجازه دهید به محاسبات W ادامه دهیم. برای این، مقادیر T j را جداگانه محاسبه می کنیم. در مثال، ارزیابی‌ها به‌طور ویژه انتخاب شده‌اند تا هر کارشناس ارزیابی‌های مکرر داشته باشد: اولی دارای دو، دومی دارای سه، سومی دارای دو گروه دو رتبه‌بندی و چهارمی دارای دو رتبه‌بندی یکسان است. از این رو:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 T 4 = 12

می بینیم که موافقت نظرات کارشناسان بسیار زیاد است و می توانیم به مرحله بعدی مطالعه - اثبات و اتخاذ جایگزین تصمیم توصیه شده توسط کارشناسان، برویم.

در غیر این صورت، باید به مراحل 4-8 برگردید.

ضریب همبستگی رتبهماهیت کلی وابستگی غیرخطی را مشخص می کند: افزایش یا کاهش در صفت مؤثر با افزایش عامل یک. این نشانگر تنگ بودن یک رابطه غیرخطی یکنواخت است.

هدف خدمات... این ماشین حساب آنلاین محاسبه می کند ضریب همبستگی رتبه کندالبا توجه به تمام فرمول های اساسی، و همچنین ارزیابی اهمیت آن.

دستورالعمل. مقدار داده (تعداد خطوط) را مشخص کنید. راه حل به دست آمده در یک فایل Word ذخیره می شود.

ضریب پیشنهادی کندال بر اساس روابطی از نوع "بیشتر-کمتر" ساخته شده است که اعتبار آن هنگام ساخت مقیاس ها مشخص شده است.
بیایید چند شی را انتخاب کنیم و رتبه آنها را در یک ویژگی و در ویژگی دیگر مقایسه کنیم. اگر طبق این معیار، رتبه‌ها یک ترتیب مستقیم (یعنی ترتیب سری طبیعی) را تشکیل می‌دهند، به جفت +1 اختصاص داده می‌شود، اگر برعکس، آنگاه -1 باشد. برای جفت انتخاب شده، واحدهای مثبت - منهای مربوطه (با ویژگی X و با ویژگی Y) ضرب می شوند. نتیجه به وضوح +1 است. اگر رتبه های یک جفت از هر دو ویژگی در یک دنباله قرار گرفته باشند، و -1 اگر برعکس باشد.
اگر ترتیب رتبه‌ها برای همه جفت‌ها با هر دو معیار یکسان باشد، مجموع واحدهای تخصیص داده شده به همه جفت اشیا حداکثر و برابر با تعداد جفت‌ها است. اگر ترتیب رتبه‌بندی همه جفت‌ها معکوس شود، آنگاه -C 2 N. در حالت کلی، C 2 N = P + Q، که در آن P تعداد مثبت و Q تعداد منفی است که به جفت ها هنگام مقایسه رتبه های آنها برای هر دو معیار اختصاص داده شده است.
کمیت را ضریب کندال می نامند.
از فرمول می توان دریافت که ضریب τ تفاوت بین نسبت جفت اشیایی است که ترتیب آنها در هر دو معیار یکسان است (در رابطه با تعداد همه جفت ها) و نسبت جفت اشیایی که در آنها یکسان است. ترتیب یکسان نیست
به عنوان مثال، مقدار ضریب 0.60 به این معنی است که 80٪ از جفت ها دارای نظم یکسانی از اشیاء هستند، در حالی که 20٪ این ترتیب را ندارند (80٪ + 20٪ = 100٪؛ 0.80 - 0.20 = 0.60). آن ها τ را می توان به عنوان تفاوت بین احتمالات تصادفی و عدم تصادفی ترتیبات در هر دو علامت برای یک جفت اشیاء انتخاب شده به طور تصادفی تفسیر کرد.
در حالت کلی، محاسبه τ (به طور دقیق تر، P یا Q) حتی برای N از مرتبه 10 دست و پا گیر است.
بیایید نشان دهیم که چگونه محاسبات را ساده کنیم.


یک مثال. رابطه بین حجم تولید صنعتی و سرمایه گذاری در دارایی های ثابت در 10 منطقه یکی از مناطق فدرال فدراسیون روسیه در سال 2003 با داده های زیر مشخص می شود:


ضرایب همبستگی رتبه اسپیرمن و کندال را محاسبه کنید. اهمیت آنها را در α = 0.05 بررسی کنید. نتیجه گیری در مورد رابطه بین حجم تولید صنعتی و سرمایه گذاری در دارایی های ثابت در مناطق تحت بررسی فدراسیون روسیه.

راه حل... بیایید رتبه هایی را به ویژگی Y و عامل X اختصاص دهیم.


بیایید داده ها را بر اساس X مرتب کنیم.
در ردیف Y در سمت راست 3، 7 رتبه بیش از 3 وجود دارد، بنابراین، 3 عبارت 7 را در P ایجاد می کند.
در سمت راست 1 8 رتبه بیش از 1 وجود دارد (اینها 2، 4، 6، 9، 5، 10، 7، 8 هستند)، یعنی. 8 وارد P و غیره می شود. در نتیجه Р = 37 و با استفاده از فرمول هایی که داریم:

ایکسYرتبه X، d xرتبه Y, d yپس
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


با فرمول های ساده شده:




که در آن n حجم نمونه است. z kp نقطه بحرانی منطقه بحرانی دو طرفه است که از جدول تابع لاپلاس با برابری Ф (z kp) = (1-α) / 2 پیدا می شود.
اگر | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - فرضیه صفر رد می شود. بین ویژگی های کیفی همبستگی رتبه ای معنی دار وجود دارد.
نقطه بحرانی z kp را پیدا کنید
Ф (z kp) = (1-α) / 2 = (1 - 0.05) / 2 = 0.475

بیایید نقطه بحرانی را پیدا کنیم:

از آنجایی که τ> T kp - فرضیه صفر را رد می کنیم. همبستگی رتبه ای بین نمرات در دو آزمون معنی دار است.

یک مثال. بر اساس داده های مربوط به حجم کار ساخت و ساز و نصب انجام شده به تنهایی و تعداد کارمندان در 10 شرکت ساختمانی در یکی از شهرهای فدراسیون روسیه، رابطه بین این علائم را با استفاده از ضریب کندال تعیین کنید.

راه حلبا ماشین حساب پیدا کنید
بیایید رتبه هایی را به ویژگی Y و عامل X اختصاص دهیم.
بیایید اجسام را طوری مرتب کنیم که رتبه های X آنها یک سری طبیعی را نشان دهد. از آنجایی که تخمین های اختصاص داده شده به هر جفت از این سری مثبت است، مقادیر "+1" موجود در P فقط توسط جفت هایی ایجاد می شود که رتبه های آنها در Y یک ترتیب مستقیم را تشکیل می دهد.
محاسبه آنها با مقایسه متوالی رتبه های هر جسم در ردیف Y با موارد فولادی آسان است.
ضریب کندال.

در حالت کلی، محاسبه τ (به طور دقیق تر، P یا Q) حتی برای N از مرتبه 10 دست و پا گیر است. بیایید نشان دهیم که چگونه محاسبات را ساده کنیم.

یا

راه حل.
بیایید داده ها را بر اساس X مرتب کنیم.
در ردیف Y در سمت راست 2، 8 رتبه بیش از 2 وجود دارد، بنابراین، 2 عبارت 8 را در P ایجاد می کند.
در سمت راست 4، 6 رتبه بیش از 4 وجود دارد (اینها 7، 5، 6، 8، 9، 10 هستند)، یعنی. 6 وارد P و غیره می شود. در نتیجه P = 29 و با استفاده از فرمول هایی که داریم:

ایکسYرتبه X، d xرتبه Y, d yپس
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


با فرمول های ساده شده:


به منظور آزمون فرضیه صفر در مورد برابری ضریب همبستگی رتبه کلی کندال به صفر در سطح معناداری α با فرضیه رقیب H 1: τ≠ 0، لازم است نقطه بحرانی محاسبه شود:

که در آن n حجم نمونه است. z kp نقطه بحرانی منطقه بحرانی دو طرفه است که از جدول تابع لاپلاس با برابری Ф (z kp) = (1 - α) / 2 پیدا می شود.
اگر | τ | T kp - فرضیه صفر رد می شود. بین ویژگی های کیفی همبستگی رتبه ای معنی دار وجود دارد.
نقطه بحرانی z kp را پیدا کنید
Ф (z kp) = (1 - α) / 2 = (1 - 0.05) / 2 = 0.475
با استفاده از جدول لاپلاس، z kp = 1.96 را پیدا می کنیم
بیایید نقطه بحرانی را پیدا کنیم:

از آنجایی که τ

ضریب همبستگی کندال زمانی استفاده می شود که متغیرها با دو مقیاس ترتیبی نشان داده شوند، مشروط بر اینکه هیچ رتبه مرتبطی وجود نداشته باشد. محاسبه ضریب کندال شامل شمارش تعداد مسابقات و وارونگی است. بیایید این روش را با استفاده از مثال کار قبلی در نظر بگیریم.

الگوریتم حل مسئله به صورت زیر است:

    داده ها را دوباره در جدول ثبت می کنیم. 8.5 به طوری که یکی از ردیف ها (در این مورد، ردیف ایکسط) رتبه بندی شده است. به عبارت دیگر، جفت ها را دوباره مرتب می کنیم ایکسو y به ترتیب درست و داده ها را در ستون های 1 و 2 جدول وارد می کنیم. 8.6.

جدول 8.6

ایکس من

y من

2. "درجه رتبه بندی" ردیف 2 را تعیین کنید ( yمن). این روش به ترتیب زیر انجام می شود:

الف) اولین مقدار ردیف غیر رتبه بندی شده "3" را می گیریم. محاسبه تعداد رتبه ها زیرعدد داده شده، که بیشترارزشی که باید مقایسه شود 9 چنین مقدار وجود دارد (اعداد 6، 7، 4، 9، 5، 11، 8، 12 و 10). در ستون "مطابقات" عدد 9 را وارد می کنیم. سپس تعداد مقادیری را که کمترسه. 2 چنین مقدار وجود دارد (رتبه های 1 و 2)؛ عدد 2 را به ستون "inversion" اضافه کنید.

ب) عدد 3 را دور بیندازید (ما قبلاً با آن کار کرده ایم) و این روش را برای مقدار بعدی "6" تکرار کنید: تعداد مسابقات 6 است (رتبه های 7، 9، 11، 8، 12 و 10)، تعداد وارونگی 4 است (رتبه های 1، 2، 4 و 5). عدد 6 را در ستون "تصادف" و عدد 4 را در ستون "وارونگی" وارد می کنیم.

ج) به همین ترتیب، این روش تا پایان ردیف تکرار می شود. باید به خاطر داشت که هر مقدار "کار شده" از بررسی بیشتر حذف می شود (فقط رتبه هایی که زیر این عدد قرار دارند شمارش می شوند).

توجه داشته باشید

برای اینکه در محاسبات اشتباه نکنید، باید در نظر داشت که با هر "گام" مجموع تصادفات و وارونگی ها یک بار کاهش می یابد. این قابل درک است اگر در نظر بگیریم که هر بار یک مقدار از در نظر گرفتن حذف می شود.

3. مجموع مسابقات محاسبه می شود (R)و مجموع وارونگی ها (س); داده ها در یک و سه فرمول قابل تعویض برای ضریب کندال (8.10) وارد می شوند. محاسبات مربوطه انجام می شود.

تی (8.10)

در مورد ما:

جدول ضمائم XIV مقادیر بحرانی ضریب برای یک نمونه معین هستند: τ cr. = 0.45; 0.59. مقدار تجربی به دست آمده با مقدار جدول مقایسه می شود.

نتیجه

τ = 0.55> τ cr. = 0.45. همبستگی از نظر آماری برای سطح 1 معنادار است.

توجه داشته باشید:

در صورت لزوم (مثلاً در غیاب جدول مقادیر بحرانی) اهمیت آماری تیکندال را می توان با فرمول زیر تعیین کرد:

(8.11)

جایی که S * = P - Q+ 1 اگر پ< Q ، و S * = P - Q - 1 اگر P> Q.

ارزش ها zبرای سطح معنی‌داری متناظر با معیار پیرسون مطابقت دارد و طبق جداول مربوطه یافت می‌شود (در پیوست موجود نیست. برای سطوح معنی‌داری استاندارد z cr = 1.96 (برای β 1 = 0.95) و 2.58 (برای β 2 = 0.99). ضریب همبستگی کندال از نظر آماری معنادار است اگر z > z cr

در مورد ما S * = P - Q- 1 = 35 و z 40/2 =، یعنی نتیجه اولیه تأیید می شود: همبستگی بین علائم برای سطح 1 معناداری از نظر آماری معنی دار است.

یکی از عوامل محدود کننده اعمال معیارها بر اساس فرض نرمال بودن حجم نمونه است. تا زمانی که نمونه به اندازه کافی بزرگ باشد (مثلاً 100 مشاهده یا بیشتر)، می توانید فرض کنید که توزیع نمونه نرمال است، حتی اگر مطمئن نباشید که توزیع متغیر در جامعه نرمال است. با این حال، اگر نمونه کوچک است، این معیارها تنها در صورتی باید استفاده شوند که اطمینان وجود داشته باشد که متغیر واقعاً به طور معمول توزیع شده است. با این حال، هیچ راهی برای آزمایش این فرض در یک نمونه کوچک وجود ندارد.

استفاده از معیارهای مبتنی بر فرض نرمال بودن نیز محدود به مقیاس اندازه گیری است (به فصل مفاهیم اساسی تجزیه و تحلیل داده ها مراجعه کنید). در روش های آماری مانند آزمون t، رگرسیون و ... فرض بر این است که داده های اصلی پیوسته هستند. با این حال، موقعیت هایی وجود دارد که داده ها به جای اندازه گیری دقیق، به سادگی رتبه بندی می شوند (در مقیاس ترتیبی اندازه گیری می شوند).

یک مثال معمولی با رتبه‌بندی سایت‌ها در اینترنت ارائه می‌شود: جایگاه اول توسط سایتی با حداکثر تعداد بازدیدکننده، جایگاه دوم توسط سایت با حداکثر تعداد بازدیدکننده در بین سایت‌های باقی‌مانده (در میان سایت‌ها) که اولین سایت از آن حذف شده است) و غیره. با دانستن رتبه ها می توان گفت که تعداد بازدیدکنندگان یک سایت از تعداد بازدیدکنندگان سایت دیگر بیشتر است، اما نمی توان گفت چقدر بیشتر است. تصور کنید 5 سایت دارید: A، B، C، D، E که در 5 مکان برتر قرار دارند. فرض کنید در ماه جاری ترتیب زیر را داشتیم: A, B, C, D, E و در ماه قبل: D, E, A, B, C. سوال اینجاست که تغییرات قابل توجهی در رتبه بندی سایت ها ایجاد شده است. یا نه؟ در این شرایط، بدیهی است که نمی‌توانیم از آزمون t برای مقایسه این دو گروه داده استفاده کنیم و به حوزه محاسبات احتمالی خاص برویم (و هر معیار آماری حاوی یک محاسبه احتمالی است!). ما اینگونه استدلال می کنیم: چقدر محتمل است که تفاوت در دو طرح بندی سایت به دلایل کاملا تصادفی باشد یا اینکه این تفاوت خیلی زیاد است و نمی توان آن را به طور تصادفی توضیح داد. در این استدلال ما فقط از رتبه ها یا جایگشت های سایت ها استفاده می کنیم و به هیچ وجه از شکل خاصی از توزیع تعداد بازدیدکنندگان آنها استفاده نمی کنیم.

برای تجزیه و تحلیل نمونه های کوچک و برای داده های اندازه گیری شده در مقیاس های ضعیف، از روش های ناپارامتریک استفاده می شود.

یک تور سریع از رویه های ناپارامتریک

اساسا، برای هر معیار پارامتری، حداقل یک جایگزین ناپارامتریک وجود دارد.

به طور کلی، این روش ها در یکی از دسته های زیر قرار می گیرند:

  • معیارهای تمایز برای نمونه های مستقل؛
  • معیارهای تمایز برای نمونه های وابسته.
  • ارزیابی میزان وابستگی بین متغیرها

به طور کلی، رویکرد به معیارهای آماری در تجزیه و تحلیل داده ها باید عمل گرایانه باشد و بار استدلال نظری غیرضروری نداشته باشد. با یک کامپیوتر STATISTICA که در اختیار دارید، به راحتی می توانید چندین معیار را برای داده های خود اعمال کنید. با دانستن برخی از مشکلات روش ها، با آزمایش راه حل مناسب را انتخاب خواهید کرد. توسعه نمودار کاملاً طبیعی است: اگر نیاز به مقایسه مقادیر دو متغیر دارید، از آزمون t استفاده می کنید. با این حال، باید به خاطر داشت که بر اساس فرض نرمال بودن و برابری واریانس ها در هر گروه است. رهایی از این مفروضات منجر به آزمایش‌های ناپارامتریک می‌شود که مخصوصاً برای نمونه‌های کوچک مفید هستند.

توسعه آزمون t منجر به تحلیل واریانس می شود که زمانی استفاده می شود که تعداد گروه های مقایسه شده بیش از دو باشد. توسعه متناظر رویه‌های ناپارامتریک منجر به تحلیل واریانس ناپارامتریک می‌شود، اگرچه به طور قابل‌توجهی ضعیف‌تر از تحلیل واریانس کلاسیک است.

برای ارزیابی وابستگی، یا، به بیان تا حدودی، میزان تنگی اتصال، ضریب همبستگی پیرسون محاسبه می شود. به عبارت دقیق تر، کاربرد آن دارای محدودیت هایی است، مثلاً با نوع مقیاسی که داده ها در آن اندازه گیری می شوند و غیرخطی بودن وابستگی؛ بنابراین، به طور متناوب، از ضرایب همبستگی ناپارامتریک یا به اصطلاح رتبه ای نیز استفاده می شود که عبارتند از: برای مثال برای داده های رتبه بندی شده استفاده می شود. اگر داده ها در مقیاس اسمی اندازه گیری شوند، طبیعی است که آنها را در جداول احتمالی ارائه کنیم که از آزمون کای دو پیرسون با تغییرات و اصلاحات مختلف برای دقت استفاده می کنند.

بنابراین، در اصل، تنها چند نوع معیار و رویه وجود دارد که بسته به مشخصات داده‌ها، باید بدانید و بتوانید از آنها استفاده کنید. شما باید تعیین کنید که کدام معیار باید در یک موقعیت خاص اعمال شود.

روش های ناپارامتریک زمانی مناسب هستند که حجم نمونه کوچک باشد. اگر داده های زیادی وجود داشته باشد (به عنوان مثال، n> 100)، اغلب استفاده از آمار ناپارامتریک منطقی نیست.

اگر حجم نمونه بسیار کوچک باشد (مثلاً n = 10 یا کمتر)، آنگاه سطوح معنی‌داری برای آن دسته از آزمون‌های ناپارامتریک که از تقریب نرمال استفاده می‌کنند، تنها می‌توانند به عنوان تخمین‌های تقریبی در نظر گرفته شوند.

تفاوت بین گروه های مستقل... اگر دو نمونه (به عنوان مثال، مردان و زنان) وجود داشته باشد که باید با توجه به مقدار متوسط ​​​​مثلاً فشار متوسط ​​یا تعداد لکوسیت ها در خون مقایسه شوند، می توان از آزمون t برای مستقل استفاده کرد. نمونه ها.

جایگزین های ناپارامتری برای این آزمون، معیار سری Val'd-Wolfowitz، Mann-Whitney) / n است، که در آن x i مقدار i-ام، n تعداد مشاهدات است. اگر متغیر دارای مقادیر منفی یا صفر (0) باشد، میانگین هندسی قابل محاسبه نیست.

میانگین هارمونیک

میانگین هارمونیک گاهی اوقات برای میانگین فرکانس ها استفاده می شود. میانگین هارمونیک با فرمول محاسبه می شود: ГС = n / S (1 / x i) که در آن ГС میانگین هارمونیک است، n تعداد مشاهدات، х i مقدار مشاهده با عدد i است. اگر متغیر دارای صفر (0) باشد، میانگین هارمونیک قابل محاسبه نیست.

پراکندگی و انحراف معیار

واریانس نمونه و انحراف معیار رایج ترین معیارهای مورد استفاده برای تغییرپذیری (تغییر) در داده ها هستند. واریانس به عنوان مجموع مجذور انحرافات مقادیر متغیر از میانگین نمونه، تقسیم بر n-1 (اما نه بر n) محاسبه می شود. انحراف استاندارد به عنوان جذر برآورد واریانس محاسبه می شود.

تاب خوردن

محدوده یک متغیر نشانگر نوسان است که به صورت حداکثر منهای حداقل محاسبه می شود.

محدوده چارک

محدوده سه ماهه، طبق تعریف، عبارت است از: چارک بالا منهای چارک پایین (صدک 75 درصد منهای 25 درصد). از آنجایی که صدک 75 درصد (چرک بالایی) مقداری است که در سمت چپ آن 75 درصد موارد قرار دارد و صدک 25 درصد (چرک پایین) مقداری است که در سمت چپ آن 25 درصد موارد قرار دارد، چارک محدوده فاصله حول میانه است که 50 درصد موارد (مقادیر متغیر) را شامل می شود.

عدم تقارن

عدم تقارن مشخصه شکل توزیع است. اگر مقدار چولگی منفی باشد، توزیع به سمت چپ منحرف می شود. اگر عدم تقارن مثبت باشد، توزیع به سمت راست منحرف می شود. چولگی توزیع نرمال استاندارد 0 است. چولگی با ممان سوم مرتبط است و به صورت زیر تعریف می شود: چولگی = n × M 3 / [(n-1) × (n-2) × s 3]، که در آن M 3 است: (xi -x به معنی x) 3، s 3 انحراف استاندارد افزایش یافته به توان سوم است، n تعداد مشاهدات است.

اضافی

کورتوز مشخصه شکل یک توزیع است، یعنی اندازه گیری شدت پیک آن (نسبت به توزیع نرمال، که کشیدگی آن برابر با 0 است). به عنوان یک قاعده، توزیع هایی با قله تندتر از نرمال دارای کشیدگی مثبت هستند. توزیع هایی که اوج آن ها حادتر از اوج توزیع نرمال است، کشش منفی دارند. مازاد با لحظه چهارم همراه است و با فرمول تعیین می شود:

کشیدگی = / [(n-1) × (n-2) × (n-3) × s 4]، که در آن M j است: (xx میانگین x، s 4 انحراف استاندارد به توان چهارم است، n برابر است تعداد مشاهدات ...