ضرایب همبستگی اسپیرمن، رتبه کندال، ضریب فچنر. ضرایب همبستگی رتبه کندال و اسپیرمن ضرایب همبستگی رتبه اسپیرمن و اسپیرمن

برای شناسایی رابطه بین شاخص های کمی یا کیفی در صورت امکان رتبه بندی استفاده می شود. مقادیر اندیکاتور X به ترتیب صعودی تنظیم می شوند و رتبه های اختصاص داده می شوند. مقادیر شاخص Y رتبه بندی شده و ضریب همبستگی کندال محاسبه می شود:

جایی که اس = پس.

پ بزرگمقدار رتبه Y.

س- تعداد کل مشاهدات پس از مشاهدات فعلی با کوچکترمقدار رتبه Y. (رتبه های مساوی به حساب نمی آیند!)

اگر داده های مورد مطالعه تکرار شوند (دارای رتبه های یکسان باشند)، از ضریب همبستگی تصحیح شده کندال در محاسبات استفاده می شود:

تی- تعداد رتبه های مرتبط به ترتیب در ردیف X و Y.

19. هنگام تعریف موضوع، موضوع، موضوع، هدف، اهداف و فرضیه تحقیق چه نقطه شروعی باید باشد؟

برنامه تحقیق معمولاً دارای دو بخش روش شناختی و رویه ای است. اولین مورد شامل اثبات ارتباط موضوع، فرمول بندی مسئله، تعریف موضوع و موضوع، اهداف و مقاصد تحقیق، تدوین مفاهیم اساسی (دستگاه طبقه بندی)، تحلیل سیستماتیک اولیه موضوع تحقیق و ارائه یک فرضیه کاری است. بخش دوم برنامه تحقیقات استراتژیک و همچنین برنامه و رویه های اساسی برای جمع آوری و تجزیه و تحلیل داده های اولیه را نشان می دهد.

اول از همه، هنگام انتخاب موضوع تحقیق، باید از موضوع مربوطه پیش رفت. توجیه مربوط بودنشامل نشانه ای از نیاز و به موقع بودن مطالعه و حل مسئله برای توسعه بیشتر تئوری و عمل آموزش و پرورش است. تحقیقات موضعی پاسخی به فوری ترین سؤالات در این زمان می دهد، نظم اجتماعی جامعه را به علم تربیتی منعکس می کند و مهم ترین تضادهایی را که در عمل رخ می دهد آشکار می کند. معیار ارتباط پویا، متحرک است، بستگی به زمان دارد، با در نظر گرفتن شرایط خاص و خاص. در کلی‌ترین شکل آن، ارتباط، درجه تناقض بین تقاضا برای ایده‌های علمی و توصیه‌های عملی (برای برآوردن یک نیاز خاص) و پیشنهاداتی را که علم و عمل می‌توانند در زمان حاضر ارائه دهند، مشخص می‌کند.

قانع‌کننده‌ترین مبنایی که موضوع تحقیق را تعریف می‌کند، نظم اجتماعی است که حادترین و مهم‌ترین مشکلات اجتماعی را منعکس می‌کند که نیاز به راه‌حل‌های فوری دارند. نظم اجتماعی مستلزم اثبات موضوعی خاص است. معمولاً این تجزیه و تحلیل درجه بسط یک سؤال در علم است.

اگر نظم اجتماعی از تجزیه و تحلیل عملکرد آموزشی ناشی می شود، پس خودش مشکل علمیدر یک هواپیمای متفاوت است این تضاد اصلی را بیان می کند که باید با علم حل شود. راه حل مشکل معمولا این است هدف از مطالعههدف یک مشکل دوباره فرمول بندی شده است.

عبارت مسئله مستلزم آن است انتخاب شیپژوهش. این می تواند یک فرآیند آموزشی، یک منطقه از واقعیت آموزشی، یا نوعی نگرش آموزشی باشد که حاوی یک تناقض است. به عبارت دیگر، یک شی می تواند هر چیزی باشد که به طور صریح یا ضمنی حاوی یک تناقض باشد و یک موقعیت مشکل ایجاد کند. ابژه همان چیزی است که فرآیند شناخت به سمت آن هدایت می شود. موضوع مطالعه -قسمت، طرف شی اینها از نظر عملی یا نظری، ویژگی ها، جنبه ها، ویژگی های یک شی هستند که در معرض مطالعه مستقیم قرار دارند.

مطابق با هدف، موضوع و موضوع تحقیق، تحقیق وظایف،که، به عنوان یک قاعده، با هدف بررسی هستند فرضیه هادومی مجموعه ای از مفروضات مبتنی بر نظری است که صحت آنها منوط به تأیید است.

معیار تازگی علمیمی توان برای ارزیابی کیفیت مطالعات تکمیل شده استفاده کرد. این نتیجه گیری های نظری و عملی جدید، الگوهای آموزشی، ساختار و مکانیسم های آن، محتوا، اصول و فناوری ها را مشخص می کند که در این مقطع زمانی شناخته شده نبودند و در ادبیات آموزشی ثبت نشده بودند. تازگی تحقیق می تواند از نظر نظری و عملی اهمیت داشته باشد. ارزش نظری تحقیق در ایجاد مفهوم، به دست آوردن فرضیه، قاعده مندی، روش، مدل شناسایی مسئله، گرایش، جهت است. اهمیت عملی تحقیق در تهیه پیشنهادات، پیشنهادات و غیره است. معیارهای تازگی، اهمیت نظری و عملی بسته به نوع تحقیق تغییر می‌کند و به زمان کسب دانش جدید نیز بستگی دارد.

ضریب همبستگی رتبهماهیت کلی وابستگی غیرخطی را مشخص می کند: افزایش یا کاهش در صفت مؤثر با افزایش عامل یک. این نشانگر تنگ بودن یک رابطه غیرخطی یکنواخت است.

هدف خدمات... این ماشین حساب آنلاین محاسبه می کند ضریب همبستگی رتبه کندالبا توجه به تمام فرمول های اساسی، و همچنین ارزیابی اهمیت آن.

دستورالعمل. مقدار داده (تعداد خطوط) را مشخص کنید. راه حل به دست آمده در یک فایل Word ذخیره می شود.

ضریب پیشنهادی کندال بر اساس روابطی از نوع "بیشتر-کمتر" ساخته شده است که اعتبار آن هنگام ساخت مقیاس ها مشخص شده است.
بیایید چند شی را انتخاب کنیم و رتبه آنها را در یک ویژگی و در ویژگی دیگر مقایسه کنیم. اگر طبق این معیار، رتبه‌ها یک ترتیب مستقیم (یعنی ترتیب سری طبیعی) را تشکیل می‌دهند، به جفت +1 اختصاص داده می‌شود، اگر برعکس، آنگاه -1 باشد. برای جفت انتخاب شده، واحدهای مثبت - منهای مربوطه (با ویژگی X و با ویژگی Y) ضرب می شوند. نتیجه به وضوح +1 است. اگر رتبه های یک جفت از هر دو ویژگی در یک دنباله قرار گرفته باشند، و -1 اگر برعکس باشد.
اگر ترتیب رتبه‌ها برای همه جفت‌ها با هر دو معیار یکسان باشد، مجموع واحدهای تخصیص داده شده به همه جفت اشیا حداکثر و برابر با تعداد جفت‌ها است. اگر ترتیب رتبه‌بندی همه جفت‌ها معکوس شود، آنگاه -C 2 N. در حالت کلی، C 2 N = P + Q، که در آن P تعداد مثبت و Q تعداد منفی است که به جفت ها هنگام مقایسه رتبه های آنها برای هر دو معیار اختصاص داده شده است.
کمیت را ضریب کندال می نامند.
از فرمول می توان دریافت که ضریب τ تفاوت بین نسبت جفت اشیایی است که ترتیب آنها در هر دو معیار یکسان است (در رابطه با تعداد همه جفت ها) و نسبت جفت اشیایی که در آنها یکسان است. ترتیب یکسان نیست
به عنوان مثال، مقدار ضریب 0.60 به این معنی است که 80٪ از جفت ها دارای نظم یکسانی از اشیاء هستند، در حالی که 20٪ این ترتیب را ندارند (80٪ + 20٪ = 100٪؛ 0.80 - 0.20 = 0.60). آن ها τ را می توان به عنوان تفاوت بین احتمالات تصادفی و عدم تصادفی ترتیبات در هر دو علامت برای یک جفت اشیاء انتخاب شده به طور تصادفی تفسیر کرد.
در حالت کلی، محاسبه τ (به طور دقیق تر، P یا Q) حتی برای N از مرتبه 10 دست و پا گیر است.
بیایید نشان دهیم که چگونه محاسبات را ساده کنیم.


یک مثال. رابطه بین حجم تولید صنعتی و سرمایه گذاری در دارایی های ثابت در 10 منطقه یکی از مناطق فدرال فدراسیون روسیه در سال 2003 با داده های زیر مشخص می شود:


ضرایب همبستگی رتبه اسپیرمن و کندال را محاسبه کنید. اهمیت آنها را در α = 0.05 بررسی کنید. نتیجه گیری در مورد رابطه بین حجم تولید صنعتی و سرمایه گذاری در دارایی های ثابت در مناطق تحت بررسی فدراسیون روسیه.

راه حل... بیایید رتبه هایی را به ویژگی Y و عامل X اختصاص دهیم.


بیایید داده ها را بر اساس X مرتب کنیم.
در ردیف Y در سمت راست 3، 7 رتبه بیش از 3 وجود دارد، بنابراین، 3 عبارت 7 را در P ایجاد می کند.
در سمت راست 1 8 رتبه بیش از 1 وجود دارد (اینها 2، 4، 6، 9، 5، 10، 7، 8 هستند)، یعنی. 8 وارد P و غیره می شود. در نتیجه Р = 37 و با استفاده از فرمول هایی که داریم:

ایکسYرتبه X، d xرتبه Y, d yپس
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


با فرمول های ساده شده:




که در آن n حجم نمونه است. z kp نقطه بحرانی منطقه بحرانی دو طرفه است که از جدول تابع لاپلاس با برابری Ф (z kp) = (1-α) / 2 پیدا می شود.
اگر | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - فرضیه صفر رد می شود. بین ویژگی های کیفی همبستگی رتبه ای معنی دار وجود دارد.
نقطه بحرانی z kp را پیدا کنید
Ф (z kp) = (1-α) / 2 = (1 - 0.05) / 2 = 0.475

بیایید نقطه بحرانی را پیدا کنیم:

از آنجایی که τ> T kp - فرضیه صفر را رد می کنیم. همبستگی رتبه ای بین نمرات در دو آزمون معنی دار است.

یک مثال. بر اساس داده های مربوط به حجم کار ساخت و ساز و نصب انجام شده به تنهایی و تعداد کارمندان در 10 شرکت ساختمانی در یکی از شهرهای فدراسیون روسیه، رابطه بین این علائم را با استفاده از ضریب کندال تعیین کنید.

راه حلبا ماشین حساب پیدا کنید
بیایید رتبه هایی را به ویژگی Y و عامل X اختصاص دهیم.
بیایید اجسام را طوری مرتب کنیم که رتبه های X آنها یک سری طبیعی را نشان دهد. از آنجایی که تخمین های اختصاص داده شده به هر جفت از این سری مثبت است، مقادیر "+1" موجود در P فقط توسط جفت هایی ایجاد می شود که رتبه های آنها در Y یک ترتیب مستقیم را تشکیل می دهد.
محاسبه آنها با مقایسه متوالی رتبه های هر جسم در ردیف Y با موارد فولادی آسان است.
ضریب کندال.

در حالت کلی، محاسبه τ (به طور دقیق تر، P یا Q) حتی برای N از مرتبه 10 دست و پا گیر است. بیایید نشان دهیم که چگونه محاسبات را ساده کنیم.

یا

راه حل.
بیایید داده ها را بر اساس X مرتب کنیم.
در ردیف Y در سمت راست 2، 8 رتبه بیش از 2 وجود دارد، بنابراین، 2 عبارت 8 را در P ایجاد می کند.
در سمت راست 4، 6 رتبه بیش از 4 وجود دارد (اینها 7، 5، 6، 8، 9، 10 هستند)، یعنی. 6 وارد P و غیره می شود. در نتیجه P = 29 و با استفاده از فرمول هایی که داریم:

ایکسYرتبه X، d xرتبه Y, d yپس
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


با فرمول های ساده شده:


به منظور آزمون فرضیه صفر در مورد برابری ضریب همبستگی رتبه کلی کندال به صفر در سطح معناداری α با فرضیه رقیب H 1: τ≠ 0، لازم است نقطه بحرانی محاسبه شود:

که در آن n حجم نمونه است. z kp نقطه بحرانی منطقه بحرانی دو طرفه است که از جدول تابع لاپلاس با برابری Ф (z kp) = (1 - α) / 2 پیدا می شود.
اگر | τ | T kp - فرضیه صفر رد می شود. بین ویژگی های کیفی همبستگی رتبه ای معنی دار وجود دارد.
نقطه بحرانی z kp را پیدا کنید
Ф (z kp) = (1 - α) / 2 = (1 - 0.05) / 2 = 0.475
با استفاده از جدول لاپلاس، z kp = 1.96 را پیدا می کنیم
بیایید نقطه بحرانی را پیدا کنیم:

از آنجایی که τ

نیازهای عملکرد اقتصادی و اجتماعی مستلزم توسعه روش هایی برای توصیف کمی فرآیندها است که امکان ثبت دقیق نه تنها عوامل کمی، بلکه همچنین عوامل کیفی را فراهم می کند. به شرطی که مقادیر مشخصه های کیفی را بتوان مرتب کرد یا بر اساس میزان کاهش (افزایش) مشخصه مرتب کرد، می توان نزدیکی رابطه بین ویژگی های کیفی را ارزیابی کرد. کیفی به معنای ویژگی است که نمی توان آن را به دقت اندازه گیری کرد، اما به شما امکان می دهد اشیاء را با یکدیگر مقایسه کنید و بنابراین آنها را به ترتیب کاهش یا افزایش کیفیت مرتب کنید. و محتوای واقعی اندازه‌گیری‌ها در مقیاس‌های رتبه‌بندی، ترتیبی است که اشیاء بر اساس شدت ویژگی اندازه‌گیری شده مرتب می‌شوند.

برای اهداف عملی، استفاده از همبستگی رتبه بسیار مفید است. به عنوان مثال، اگر بین دو ویژگی کیفی محصولات همبستگی رتبه بالایی برقرار شود، کافی است محصولات را تنها با یکی از ویژگی‌ها کنترل کنیم که این امر کنترل را ارزان‌تر و سریع‌تر می‌کند.

به عنوان مثال می توان وجود ارتباط بین در دسترس بودن محصولات تجاری تعدادی از بنگاه ها و هزینه های سربار برای فروش را در نظر گرفت. در طی 10 مشاهده، جدول زیر به دست آمد:

اجازه دهید مقادیر X را به ترتیب صعودی مرتب کنیم و هر مقدار عدد ترتیبی (رتبه) خود را به هر مقدار اختصاص دهد:

به این ترتیب،

بیایید جدول زیر را بسازیم که در آن جفت های X و Y نوشته شده اند که در نتیجه مشاهده با رتبه های آنها به دست آمده است:

با نشان دادن تفاوت در رتبه ها، فرمول محاسبه ضریب همبستگی نمونه اسپیرمن را می نویسیم:

که در آن n تعداد مشاهدات است، همچنین تعداد جفت رتبه ها است.

ضریب اسپیرمن دارای ویژگی های زیر است:

اگر یک رابطه مستقیم کامل بین ویژگی های کیفی X و Y وجود داشته باشد به این معنا که رتبه های اشیاء برای همه مقادیر i منطبق است، ضریب همبستگی نمونه اسپیرمن 1 است. در واقع، با جایگزینی آن در فرمول، به دست می آوریم. 1.

اگر بین ویژگی های کیفی X و Y رابطه معکوس کامل وجود داشته باشد به این معنا که رتبه با رتبه مطابقت دارد، ضریب همبستگی نمونه اسپیرمن 1- است.

در واقع، اگر

با جایگزینی مقدار در فرمول ضریب همبستگی اسپیرمن، -1 را دریافت می کنیم.

اگر بین ویژگی‌های کیفی بازخورد مستقیم یا کامل وجود نداشته باشد، ضریب همبستگی نمونه اسپیرمن بین ۱- و ۱ است و هر چه مقدار آن به صفر نزدیک‌تر باشد، ارتباط بین ویژگی‌ها کمتر می‌شود.

با توجه به مثال بالا، مقدار P را پیدا می کنیم، برای این کار جدول را با مقادیر و:

ضریب همبستگی نمونه کندال. شما می توانید با استفاده از ضریب همبستگی رتبه ای کندال رابطه بین دو ویژگی کیفی را ارزیابی کنید.

بگذارید رتبه اشیاء نمونه با اندازه n برابر باشد:

بر اساس X:

بر اساس Y:. اجازه دهید فرض کنیم که در سمت راست رتبه‌هایی وجود دارد، بزرگ، در سمت راست رتبه‌هایی، بزرگ، در سمت راست رتبه‌هایی، بزرگ وجود دارد. اجازه دهید نماد را برای مجموع رتبه ها معرفی کنیم

به طور مشابه، نماد را به عنوان مجموع تعداد رتبه‌های سمت راست، اما کمتر معرفی می‌کنیم.

ضریب همبستگی نمونه کندال با فرمول نوشته می شود:

جایی که n حجم نمونه است.

ضریب کندال همان ویژگی های ضریب اسپیرمن را دارد:

اگر رابطه مستقیم کاملی بین ویژگی‌های کیفی X و Y وجود داشته باشد به این معنا که رتبه‌های اشیا برای همه مقادیر i منطبق است، ضریب همبستگی نمونه کندال 1 است. در واقع، در سمت راست n-1 وجود دارد. رتبه ها، بزرگ، بنابراین، به همان شیوه ای که ما ایجاد می کنیم، چه. سپس. و ضریب کندال:.

اگر بین ویژگی های کیفی X و Y رابطه معکوس کامل وجود داشته باشد به این معنا که رتبه با رتبه مطابقت دارد، ضریب همبستگی نمونه کندال 1- است. در سمت راست هیچ رتبه ای وجود ندارد، بنابراین بزرگ است. به همین ترتیب. با جایگزینی مقدار R + = 0 در فرمول ضریب کندال، -1 را بدست می آوریم.

با حجم نمونه به اندازه کافی بزرگ و با مقادیر ضرایب همبستگی رتبه نزدیک به 1، یک برابری تقریبی رخ می دهد:

آیا ضریب کندال تخمین محافظه‌کارانه‌تری از همبستگی نسبت به ضریب اسپیرمن ارائه می‌دهد؟ (مقدار عددی؟ همیشه کمتر از). در حین محاسبه ضریب؟ کار کمتری نسبت به محاسبه ضریب، در صورت اضافه شدن یک عبارت جدید به سری، محاسبه مجدد ضریب آسان تر است.

یک مزیت مهم ضریب این است که می توان از آن برای تعیین ضریب همبستگی رتبه خصوصی استفاده کرد که امکان ارزیابی میزان اتصال "خالص" دو ویژگی رتبه را فراهم می کند و تأثیر سومی را از بین می برد:

اهمیت ضرایب همبستگی رتبه. هنگام تعیین قدرت همبستگی رتبه ای بر اساس داده های نمونه، باید این سوال را در نظر گرفت: با چه درجه ای از پایایی می توان به این نتیجه رسید که در جامعه عمومی همبستگی وجود دارد اگر ضریب نمونه مشخصی از همبستگی رتبه ای باشد. به دست آمده. به عبارت دیگر، اهمیت همبستگی‌های رتبه‌ای مشاهده‌شده باید بر اساس این فرضیه بررسی شود که دو رتبه‌بندی مورد بررسی از نظر آماری مستقل هستند.

با حجم نمونه نسبتاً بزرگ n، اهمیت ضرایب همبستگی رتبه را می توان با استفاده از جدول توزیع نرمال بررسی کرد (جدول پیوست 1). برای آزمون معناداری ضریب اسپیرمن؟ (برای n> 20) مقدار را محاسبه کنید

و معناداری ضریب کندال را آزمایش کنیم؟ (برای n> 10) مقدار را محاسبه کنید

که در آن S = R + - R-، n اندازه نمونه است.

در مرحله بعد، سطح معنی داری تنظیم می شود، مقدار بحرانی tcr (?، K) از جدول نقاط بحرانی توزیع دانشجو و مقدار محاسبه شده تعیین می شود یا با آن مقایسه می شود. تعداد درجات آزادی k = n-2 در نظر گرفته می شود. اگر or> tcr، آنگاه مقادیر یا معنی دار در نظر گرفته می شوند.

ضریب همبستگی فچنر.

در نهایت، ما باید ضریب Fechner را ذکر کنیم که درجه اولیه سفتی یک اتصال را مشخص می کند، که توصیه می شود در صورت وجود مقدار کمی از اطلاعات اولیه، از آن برای ایجاد واقعیت اتصال استفاده شود. مبنای محاسبه آن در نظر گرفتن جهت انحرافات از میانگین حسابی انواع هر سری تغییرات و تعیین ثبات علائم این انحرافات برای دو سری است که رابطه بین آنها اندازه گیری می شود.

این ضریب با فرمول تعیین می شود:

که در آن na تعداد تصادفات علائم انحراف مقادیر فردی از میانگین حسابی آنها است. nb - به ترتیب تعداد عدم تطابق.

ضریب فچنر می تواند بین -1.0 متفاوت باشد<= Кф<= +1,0.

جنبه های کاربردی همبستگی رتبه. همانطور که قبلا ذکر شد، ضرایب همبستگی رتبه را می توان نه تنها برای تجزیه و تحلیل کیفی رابطه بین دو ویژگی رتبه، بلکه در تعیین قدرت رابطه بین رتبه و ویژگی های کمی استفاده کرد. در این حالت، مقادیر مشخصه کمی مرتب شده و رتبه های مربوطه به آنها اختصاص می یابد.

تعدادی موقعیت وجود دارد که هنگام محاسبه ضرایب همبستگی رتبه ای نیز هنگام تعیین قدرت رابطه بین دو ویژگی کمی توصیه می شود. بنابراین، با انحراف معنی دار توزیع یکی از آنها (یا هر دو) از توزیع نرمال، تعیین سطح معنی داری ضریب همبستگی نمونه r نادرست می شود، در حالی که ضرایب رتبه؟ و هنگام تعیین سطح اهمیت، مشمول چنین محدودیت هایی نیستند.

موقعیت دیگری از این دست زمانی به وجود می آید که رابطه بین دو ویژگی کمی غیرخطی (اما یکنواخت) باشد. اگر تعداد اشیاء در نمونه کم است یا اگر علامت اتصال برای محقق مهم است، پس استفاده از نسبت همبستگی؟ ممکن است در اینجا ناکافی باشد. محاسبه ضریب همبستگی رتبه به فرد اجازه می دهد تا مشکلات نشان داده شده را دور بزند.

بخش عملی

وظیفه 1. تحلیل همبستگی-رگرسیون

بیان و رسمیت مشکل:

یک نمونه تجربی داده شده است، که بر اساس یک سری مشاهدات از وضعیت تجهیزات (برای خرابی) و تعداد محصولات تولید شده جمع آوری شده است. نمونه به طور ضمنی رابطه بین مقدار تجهیزات شکست خورده و تعداد اقلام ساخته شده را مشخص می کند. با توجه به مفهوم نمونه مشخص می شود که محصولات تولیدی بر روی تجهیزاتی تولید می شوند که در سرویس باقی می مانند، زیرا هر چه درصد تجهیزات خراب بیشتر باشد، محصولات تولیدی کمتر می شود. انجام مطالعه نمونه برای وابستگی همبستگی-رگرسیون، یعنی ایجاد شکل وابستگی، ارزیابی تابع رگرسیون (تحلیل رگرسیون) و همچنین شناسایی رابطه بین متغیرهای تصادفی و ارزیابی تنگی آن الزامی است. (تجزیه و تحلیل همبستگی). یکی از وظایف دیگر تحلیل همبستگی تخمین معادله رگرسیون یک متغیر برای متغیر دیگر است. علاوه بر این، لازم است تعداد محصولات تولید شده با 30 درصد خرابی تجهیزات را پیش بینی کرد.

بیایید نمونه داده شده را در جدول رسمی کنیم و داده های "شکست تجهیزات،٪" را به عنوان X، داده های "تعداد محصولات" را به عنوان Y تعیین کنیم:

اطلاعات اولیه. میز 1

با توجه به معنای فیزیکی مسئله، می توان مشاهده کرد که تعداد محصولات تولید شده Y به طور مستقیم به درصد خرابی تجهیزات بستگی دارد، یعنی وابستگی Y به X وجود دارد. هنگام انجام تحلیل رگرسیون، لازم است یک رابطه ریاضی (رگرسیون) را پیدا کنید که مقادیر X و Y را به هم متصل می کند. در این مورد، تحلیل رگرسیون، برخلاف همبستگی، فرض می کند که مقدار X به عنوان یک متغیر مستقل یا یک عامل، مقدار Y - به عنوان وابسته به آن، یا یک نشانه موثر. بنابراین، نیاز به سنتز یک مدل اقتصادی و ریاضی کافی است، به عنوان مثال. تابع Y = f (X) را تعیین کنید (یافتن، انتخاب کنید)، که رابطه بین مقادیر X و Y را مشخص می کند، با استفاده از آن می توان مقدار Y را در X = 30 پیش بینی کرد. این مشکل می تواند باشد. با استفاده از تحلیل همبستگی-رگرسیون حل شد.

مروری کوتاه بر روش‌های حل مسائل همبستگی-رگرسیون و منطق روش راه‌حل انتخابی.

روش های تحلیل رگرسیون بر اساس تعداد عوامل مؤثر بر صفت مؤثر به یک و چند عاملی تقسیم می شوند. تک متغیره - تعداد عوامل مستقل = 1، به عنوان مثال. Y = F (X)

چند عاملی - تعداد عوامل> 1، یعنی.

با توجه به تعداد متغیرهای وابسته بررسی شده (شاخص های مؤثر)، مسائل رگرسیون را نیز می توان به وظایف دارای یک یا چند شاخص مؤثر تقسیم کرد. به طور کلی، یک کار با بسیاری از ویژگی های موثر را می توان نوشت:

روش تحلیل همبستگی-رگرسیون شامل یافتن پارامترهای وابستگی تقریبی (تقریبی) فرم است.

از آنجایی که تنها یک متغیر مستقل در مسئله فوق ظاهر می‌شود، یعنی وابستگی تنها به یک عامل مؤثر در نتیجه بررسی می‌شود، مطالعه برای وابستگی یک طرفه یا رگرسیون زوجی باید اعمال شود.

اگر تنها یک عامل وجود داشته باشد، وابستگی به صورت زیر تعریف می شود:

شکل نوشتن یک معادله رگرسیون خاص به انتخاب تابعی بستگی دارد که رابطه آماری بین عامل و شاخص مؤثر را نشان می دهد و شامل موارد زیر است:

رگرسیون خطی، معادله شکل،

سهمی، معادله شکل

مکعب، معادله شکل

هذلولی، معادله شکل

نیم لگاریتمی، معادله شکل

نمایی، معادله فرم

قدرت-قانون، معادله شکل.

یافتن تابع به تعیین پارامترهای معادله رگرسیون و ارزیابی پایایی خود معادله خلاصه می شود. برای تعیین پارامترها می توان از روش حداقل مربعات و روش کمترین مدول استفاده کرد.

اولین مورد این است که مجموع مربعات انحراف مقادیر تجربی Yi از میانگین محاسبه شده Yi حداقل است.

روش حداقل مدول شامل به حداقل رساندن مجموع مدول های تفاوت بین مقادیر تجربی Yi و میانگین محاسبه شده Yi است.

برای حل مسئله، روش حداقل مربعات را انتخاب می کنیم، زیرا ساده ترین است و از نظر ویژگی های آماری تخمین های خوبی ارائه می دهد.

فناوری حل مسئله تحلیل رگرسیون با استفاده از روش حداقل مربعات.

با ارزیابی انحراف مقدار واقعی y از مقدار محاسبه شده، می توان نوع وابستگی (خطی، درجه دوم، مکعب و غیره) بین متغیرها را تعیین کرد:

که در آن - مقادیر تجربی، - مقادیر محاسبه شده توسط تابع تقریبی. با تخمین مقادیر Si برای توابع مختلف و انتخاب کوچکترین آنها، یک تابع تقریبی را انتخاب می کنیم.

نوع تابع با یافتن ضرایبی که برای هر تابع به عنوان راه حلی برای سیستم معینی از معادلات یافت می شود تعیین می شود:

رگرسیون خطی، معادله شکل، سیستم -

سهمی، معادله شکل، سیستم -

مکعب، معادله شکل، سیستم -

پس از حل سیستم، می یابیم که با کمک آن به یک عبارت خاص از تابع تحلیلی می رسیم که با داشتن آن، مقادیر محاسبه شده را پیدا می کنیم. علاوه بر این، تمام داده ها برای یافتن تخمینی از مقدار انحراف S و تجزیه و تحلیل برای حداقل وجود دارد.

برای یک رابطه خطی، نزدیکی رابطه بین عامل X و شاخص موثر Y را در قالب یک ضریب همبستگی r تخمین می زنیم:

مقدار متوسط ​​شاخص؛

مقدار عامل متوسط;

y مقدار تجربی نشانگر است.

x مقدار تجربی عامل است.

انحراف استاندارد در x;

انحراف معیار در y.

اگر ضریب همبستگی r = 0 باشد، اعتقاد بر این است که رابطه بین ویژگی‌ها ناچیز است یا وجود ندارد، اگر r = 1 باشد، رابطه عملکردی بسیار بالایی بین ویژگی‌ها وجود دارد.

با استفاده از جدول Chaddock، می توانید به طور کیفی تنگی همبستگی بین علائم را ارزیابی کنید:

جدول Chaddock جدول 2.

برای یک وابستگی غیرخطی، نسبت همبستگی (0 1) و شاخص همبستگی R تعیین می شود که از وابستگی های زیر محاسبه می شود.

که در آن مقدار مقدار شاخص محاسبه شده توسط وابستگی رگرسیون است.

به عنوان تخمینی از دقت محاسبه، از مقدار میانگین خطای تقریب نسبی استفاده می کنیم

با دقت بالا، در محدوده 0-12٪ قرار دارد.

برای ارزیابی انتخاب وابستگی عملکردی، از ضریب تعیین استفاده می کنیم

ضریب تعیین به عنوان یک معیار "تعمیم یافته" برای کیفیت انتخاب یک مدل عملکردی استفاده می شود، زیرا نسبت بین واریانس فاکتوریل و کل یا به عبارت بهتر سهم واریانس عاملی در کل را بیان می کند.

برای ارزیابی معنی داری شاخص همبستگی R از آزمون F فیشر استفاده می شود. مقدار واقعی معیار با فرمول تعیین می شود:

که در آن m تعداد پارامترهای معادله رگرسیون، n تعداد مشاهدات است. مقدار با مقدار بحرانی مقایسه می شود که با توجه به سطح معنی داری پذیرفته شده و تعداد درجات آزادی و با توجه به جدول معیار F تعیین می شود. اگر، آنگاه مقدار شاخص همبستگی R معنی دار در نظر گرفته می شود.

برای فرم انتخاب شده رگرسیون، ضرایب معادله رگرسیون محاسبه می شود. برای راحتی، نتایج محاسبه در جدول ساختار زیر گنجانده شده است (به طور کلی، تعداد ستون ها و ظاهر آنها بسته به نوع رگرسیون تغییر می کند):

جدول 3

راه حل مشکل.

مشاهداتی از پدیده اقتصادی - وابستگی انتشار محصولات به درصد خرابی تجهیزات انجام شد. مجموعه ای از مقادیر به دست می آید.

مقادیر انتخاب شده در جدول 1 توضیح داده شده است.

ما یک نمودار از وابستگی تجربی برای نمونه داده شده می سازیم (شکل 1)

با توجه به نوع نمودار، تعیین می کنیم که وابستگی تحلیلی را می توان به عنوان یک تابع خطی نشان داد:

بیایید ضریب همبستگی زوجی را برای ارزیابی رابطه بین X و Y محاسبه کنیم:

بیایید یک جدول کمکی بسازیم:

جدول 4

ما سیستم معادلات را حل می کنیم تا ضرایب را پیدا کنیم و:

از معادله اول، جایگزین مقدار

در معادله دوم بدست می آوریم:

ما پیدا می کنیم

شکل معادله رگرسیون را بدست می آوریم:

9. برای ارزیابی تنگی رابطه پیدا شده، از ضریب همبستگی r استفاده می کنیم:

با توجه به جدول Chaddock، ما تعیین می کنیم که برای r = 0.90 رابطه بین X و Y بسیار بالا است، بنابراین، قابلیت اطمینان معادله رگرسیون نیز بالا است. برای تخمین دقت محاسبات، از مقدار میانگین خطای نسبی تقریب استفاده می کنیم:

ما معتقدیم که مقدار درجه بالایی از قابلیت اطمینان معادله رگرسیون را فراهم می کند.

برای رابطه خطی بین X و Y، شاخص تعیین برابر است با مجذور ضریب همبستگی r:. در نتیجه، 81 درصد از کل تغییرات با تغییر در مشخصه عامل X توضیح داده می شود.

برای ارزیابی اهمیت شاخص همبستگی R که در مورد رابطه خطی از نظر مقدار مطلق برابر با ضریب همبستگی r است، از آزمون F فیشر استفاده می شود. مقدار واقعی را با استفاده از فرمول تعیین می کنیم:

که در آن m تعداد پارامترهای معادله رگرسیون، n تعداد مشاهدات است. یعنی n = 5، m = 2.

با در نظر گرفتن سطح معناداری پذیرفته شده = 0.05 و تعداد درجات آزادی، مقدار جدول بحرانی را به دست می آوریم. از آنجایی که مقدار شاخص همبستگی R معنی دار تشخیص داده می شود.

بیایید مقدار پیش بینی شده Y را در X = 30 محاسبه کنیم:

بیایید یک نمودار از تابع پیدا شده بسازیم:

11. خطای ضریب همبستگی را با مقدار انحراف معیار تعیین کنید

و سپس مقدار انحراف نرمال شده را تعیین می کنیم

از نسبت > 2 با احتمال 95 درصد می توان در مورد معنی دار بودن ضریب همبستگی به دست آمده صحبت کرد.

مسئله 2. بهینه سازی خطی

انتخاب 1.

در طرح توسعه منطقه قرار است 3 میدان نفتی با حجم کل تولید 9 میلیون تن به بهره برداری برسد. در میدان اول، حجم تولید حداقل 1 میلیون تن، در دوم - 3 میلیون تن، در سوم - 5 میلیون تن است. برای دستیابی به این بهره وری، حفاری حداقل 125 حلقه چاه ضروری است. برای اجرای این طرح 25 میلیون روبل در نظر گرفته شده است. سرمایه گذاری سرمایه (شاخص K) و 80 کیلومتر لوله (شاخص L).

تعیین تعداد بهینه (حداکثر) چاه ها برای اطمینان از بهره وری برنامه ریزی شده هر میدان الزامی است. داده های اولیه در مورد کار در جدول آورده شده است.

اطلاعات اولیه

بیان مشکل در بالا آورده شده است.

اجازه دهید شرایط و محدودیت های مشخص شده در مسئله را رسمی کنیم. هدف از حل این مسئله بهینه سازی، یافتن حداکثر مقدار تولید نفت با تعداد بهینه چاه برای هر میدان با در نظر گرفتن محدودیت های موجود بر روی مسئله است.

تابع هدف، مطابق با الزامات کار، به شکل زیر خواهد بود:

تعداد چاه های هر میدان کجاست.

محدودیت های موجود در کار برای:

طول لوله گذاری:

تعداد چاه در هر میدان:

هزینه ساخت 1 چاه:

مسائل بهینه سازی خطی به عنوان مثال با روش های زیر حل می شوند:

به صورت گرافیکی

روش سیمپلکس

استفاده از روش گرافیکی تنها در هنگام حل مسائل بهینه سازی خطی با دو متغیر راحت است. با تعداد بیشتر متغیرها، استفاده از دستگاه جبری ضروری است. یک روش کلی برای حل مسائل بهینه سازی خطی به نام روش سیمپلکس در نظر بگیرید.

روش سیمپلکس یک مثال معمولی از محاسبات تکراری است که برای حل اکثر مسائل بهینه سازی استفاده می شود. روش های تکراری از این نوع در نظر گرفته شده است که حل مشکلات را با کمک مدل های تحقیق عملیات تضمین می کند.

برای حل مسئله بهینه سازی با استفاده از روش سیمپلکس، لازم است که تعداد مجهولات Xi بیشتر از تعداد معادلات باشد. سیستم معادلات

رابطه m را برآورده می کند

A = برابر m بود.

اجازه دهید ستون ماتریس A را به عنوان و ستون عبارات آزاد را به عنوان نشان دهیم

راه حل اساسی برای سیستم (1) مجموعه ای از m مجهولات است که راه حلی برای سیستم (1) هستند.

به طور خلاصه، الگوریتم روش سیمپلکس به شرح زیر است:

محدودیت اصلی به صورت نابرابری مانند نوشته شده است<= (=>) را می توان با اضافه کردن متغیر باقیمانده به سمت چپ محدودیت (کم کردن متغیر اضافی از سمت چپ) به عنوان برابری نشان داد.

به عنوان مثال، در سمت چپ محدودیت اصلی

یک متغیر باقیمانده معرفی می شود که در نتیجه نابرابری اولیه به برابری تبدیل می شود.

اگر محدودیت اصلی نرخ جریان لوله را تعیین می کند، آنگاه متغیر باید به عنوان باقیمانده یا قسمت استفاده نشده این منبع تفسیر شود.

حداکثر کردن تابع هدف معادل کمینه کردن همان تابع است که با علامت مخالف گرفته می شود. یعنی در مورد ما

معادل

یک جدول ساده برای حل اصلی شکل زیر جمع آوری شده است:

در این جدول نشان داده شده است که پس از حل مشکل در این سلول ها یک راه حل اساسی وجود خواهد داشت. - ضرایب از تقسیم یک ستون بر یکی از ستون ها. - ضرب کننده های اضافی برای صفر کردن مقادیر در سلول های جدول مربوط به ستون حل. - مقدار حداقل تابع هدف -Z، - مقادیر ضرایب در تابع هدف با مجهولات.

هر مقدار مثبتی در میان معانی یافت می شود. اگر اینطور نباشد، مشکل حل شده در نظر گرفته می شود. هر ستونی از جدول که در آن باشد انتخاب می شود، این ستون را ستون "مجاز" می نامند. اگر اعداد مثبتی در بین عناصر ستون حل وجود نداشته باشد، به دلیل نامحدود بودن تابع هدف در مجموعه راه حل های آن، مسئله غیرقابل حل است. اگر اعداد مثبت در ستون حل وجود دارد، به مرحله 5 بروید.

ستون با کسری پر شده است که در صورت شمار آن عناصر ستون و در مخرج - عناصر مربوطه ستون حل است. کوچکترین از همه مقادیر انتخاب شده است. خطی که کمترین نتیجه را داشته باشد، خط "فعال" نامیده می شود. در تقاطع خط حل و ستون تفکیک کننده، یک عنصر تفکیک کننده پیدا می شود که به نوعی، مثلاً با رنگ، برجسته می شود.

بر اساس جدول سیمپلکس اول، موارد زیر گردآوری شده است که در آن:

بردار ردیف را با بردار ستونی جایگزین می کند

خط مجاز با همان خط تقسیم بر عنصر مجاز جایگزین می شود

هر یک از سطرهای دیگر جدول با مجموع این سطر با یکی از حل‌کننده‌ها جایگزین می‌شود که در یک عامل اضافی انتخاب‌شده خاص ضرب می‌شود تا 0 در سلول ستون حل به دست آید.

با جدول جدید به نقطه 4 می رویم.

راه حل مشکل.

بر اساس فرمول مسئله، سیستم نابرابری زیر را داریم:

و تابع هدف

ما سیستم نابرابری ها را با معرفی متغیرهای اضافی به یک سیستم معادلات تبدیل می کنیم:

اجازه دهید تابع هدف را به معادل آن کاهش دهیم:

بیایید جدول اصلی سیمپلکس را بسازیم:

بیایید یک ستون مجاز انتخاب کنیم. بیایید ستون را محاسبه کنیم:

مقادیر را در جدول وارد می کنیم. برای کوچکترین آنها = 10، خط حل را تعیین می کنیم:. در تقاطع خط حل و ستون حل، عنصر حل کننده = 1 را پیدا می کنیم. قسمت جدول را با فاکتورهای اضافی پر می کنیم، به این ترتیب که: سطر حل کننده ضرب در آنها به بقیه ردیف های جدول اضافه می شود. 0 را در عناصر ستون حل تشکیل می دهد.

جدول سیمپلکس دوم را می سازیم:

ما ستون حل را در آن می گیریم، مقادیر را محاسبه می کنیم، آنها را در جدول وارد می کنیم. با حداقل، ما خط حل را دریافت می کنیم. عنصر حل کننده 1 خواهد بود. فاکتورهای اضافی را پیدا کنید، ستون ها را پر کنید.

جدول سیمپلکس زیر را ایجاد می کنیم:

به طور مشابه، ما ستون حل، ردیف حل و عنصر حل کننده = 2 را پیدا می کنیم. جدول سیمپلکس زیر را می سازیم:

از آنجایی که هیچ مقدار مثبتی در خط -Z وجود ندارد، این جدول محدود است. ستون اول مقادیر مورد نظر مجهولات را می دهد، یعنی. راه حل اساسی بهینه:

در این حالت مقدار تابع هدف -Z = -8000 است که معادل Zmax = 8000 است. مشکل حل شد.

وظیفه 3. تجزیه و تحلیل خوشه ای

فرمول مسئله:

تقسیم اشیا بر اساس داده های داده شده در جدول. انتخاب روش حل باید به طور مستقل انجام شود، تا یک نمودار وابستگی داده ایجاد شود.

انتخاب 1.

اطلاعات اولیه

بررسی روش های حل این نوع مشکلات. توجیه روش حل.

وظایف تجزیه و تحلیل خوشه ای با استفاده از روش های زیر حل می شود:

روش خوشه‌بندی اتحادیه یا درختی برای تشکیل خوشه‌های «عدم شباهت» یا «فاصله بین اشیاء» استفاده می‌شود. این فاصله ها را می توان در فضای یک بعدی یا چند بعدی تعریف کرد.

ترکیب دو طرفه (نسبتاً به ندرت) در شرایطی استفاده می شود که داده ها نه بر اساس "اشیاء" و "ویژگی های اشیاء"، بلکه بر اساس مشاهدات و متغیرها تفسیر می شوند. انتظار می‌رود مشاهدات و متغیرها به طور همزمان به شناسایی خوشه‌های معنادار کمک کنند.

روش K-means. زمانی استفاده می شود که از قبل فرضیه ای در مورد تعداد خوشه ها وجود داشته باشد. می توانید به سیستم بگویید که دقیقاً مثلاً سه خوشه تشکیل دهد تا تا حد امکان متفاوت باشند. به طور کلی، روش K-means دقیقاً K خوشه های مختلف را می سازد که در بیشترین فاصله ممکن از یکدیگر قرار دارند.

روش های زیر برای اندازه گیری فاصله وجود دارد:

فاصله ی اقلیدسی. این رایج ترین نوع فاصله است. به سادگی فاصله هندسی در فضای چند بعدی است و به صورت زیر محاسبه می شود:

توجه داشته باشید که فاصله اقلیدسی (و مربع آن) از داده های اصلی و نه استاندارد شده محاسبه می شود.

فاصله بلوک های شهر (فاصله منهتن). این فاصله صرفاً میانگین اختلاف مختصات است. در بیشتر موارد، این اندازه گیری فاصله منجر به نتایجی مشابه با فاصله اقلیدسی معمولی می شود. با این حال، توجه داشته باشید که برای این اندازه‌گیری، تأثیر تفاوت‌های بزرگ فردی (فروت‌ها) کاهش می‌یابد (زیرا آنها مجذور نیستند). فاصله منهتن با استفاده از فرمول محاسبه می شود:

فاصله چبیشف این فاصله زمانی می‌تواند مفید باشد که می‌خواهید دو شی را به‌عنوان «متفاوت» تعریف کنید، اگر در یک مختصات (هر بعد) متفاوت باشند. فاصله چبیشف با فرمول محاسبه می شود:

فاصله قدرت. گاهی اوقات فرد می خواهد به تدریج وزن مربوط به بعد را افزایش یا کاهش دهد که اشیاء مربوطه برای آن بسیار متفاوت است. این را می توان با استفاده از فاصله قانون توان به دست آورد. فاصله قدرت-قانون با فرمول محاسبه می شود:

که در آن r و p پارامترهای تعریف شده توسط کاربر هستند. چند مثال محاسبه می تواند نشان دهد که این اندازه گیری چگونه "کار می کند". پارامتر p مسئول وزن‌دهی تدریجی تفاوت‌ها در مختصات فردی است، پارامتر r مسئول وزن‌دهی تدریجی فواصل زیاد بین اجسام است. اگر هر دو پارامتر - r و p برابر با دو باشند، این فاصله با فاصله اقلیدسی منطبق است.

درصد اختلاف نظر این معیار زمانی استفاده می شود که داده ها طبقه بندی شده باشند. این فاصله با فرمول محاسبه می شود:

برای حل مشکل، روش یکسان سازی (خوشه بندی درخت مانند) را به عنوان روشی انتخاب می کنیم که شرایط و فرمول مسئله را به بهترین نحو برآورده کند (برای تقسیم اشیا). به نوبه خود، روش اتحاد می تواند از چندین نوع قوانین ارتباطی استفاده کند:

پیوند واحد (روش نزدیکترین همسایه). در این روش فاصله بین دو خوشه با فاصله بین دو نزدیکترین شی (نزدیکترین همسایه) در خوشه های مختلف تعیین می شود. یعنی هر دو شی در دو خوشه نسبت به فاصله پیوند مربوطه به یکدیگر نزدیکتر هستند. این قاعده باید به یک معنا، اشیاء را به هم متصل کند تا خوشه‌ها را تشکیل دهند و خوشه‌های حاصل به «زنجیره» طولانی تبدیل شوند.

ارتباط کامل (روش دورترین همسایگان). در این روش، فاصله بین خوشه ها با بیشترین فاصله بین هر دو ویژگی در خوشه های مختلف (یعنی «دورترین همسایگان») تعیین می شود.

همچنین بسیاری از روش‌های خوشه‌بندی دیگر مانند این وجود دارد (به عنوان مثال، جفت‌سازی بدون وزن، جفت‌سازی وزنی، و غیره).

تکنولوژی روش حل. محاسبه شاخص ها

در مرحله اول، زمانی که هر شی یک خوشه مجزا است، فواصل بین این اشیاء با معیار انتخاب شده تعیین می شود.

از آنجایی که تکلیف واحدهای اندازه گیری ویژگی ها را مشخص نمی کند، فرض می شود که آنها یکسان هستند. بنابراین، نیازی به عادی سازی داده های اولیه نیست، بنابراین بلافاصله به محاسبه ماتریس فاصله می پردازیم.

راه حل مشکل.

بیایید یک نمودار وابستگی با توجه به داده های اولیه بسازیم (شکل 2)

فاصله اقلیدسی معمول را به عنوان فاصله بین اجسام در نظر می گیریم. سپس طبق فرمول:

جایی که l - علامت می دهد. k تعداد ویژگی ها است، فاصله بین اشیاء 1 و 2 برابر است با:

ما به محاسبه مسافت های باقی مانده ادامه می دهیم:

بیایید یک جدول از مقادیر به دست آمده بسازیم:

کوچکترین فاصله. این بدان معنی است که ما عناصر 3، 6 و 5 را در یک خوشه ترکیب می کنیم. جدول زیر را بدست می آوریم:

کوچکترین فاصله. عناصر 3، 6، 5 و 4 در یک خوشه ترکیب می شوند. جدولی از دو خوشه بدست می آوریم:

حداقل فاصله بین موارد 3 و 6 است. این بدان معنی است که عناصر 3 و 6 در یک خوشه ترکیب می شوند. حداکثر فاصله بین خوشه تازه تشکیل شده و بقیه عناصر را انتخاب می کنیم. به عنوان مثال، فاصله بین خوشه 1 و خوشه 3.6 حداکثر (13.34166, 13.60147) = 13.34166 است. بیایید جدول زیر را بسازیم:

در آن، حداقل فاصله، فاصله بین خوشه های 1 و 2 است. با ترکیب 1 و 2 در یک خوشه، به دست می آوریم:

بدین ترتیب با استفاده از روش "همسایه دور" دو خوشه 1،2 و 3،4،5،6 به دست آمد که فاصله بین آنها 13.60147 است.

مشکل حل شده است.

برنامه های کاربردی. حل مشکلات با استفاده از بسته های نرم افزاری (MS Excel 7.0)

مشکل تحلیل همبستگی و رگرسیون.

داده های اولیه را در جدول وارد می کنیم (شکل 1)

منوی "سرویس / تجزیه و تحلیل داده" را انتخاب کنید. در پنجره ای که ظاهر می شود، خط "Regression" را انتخاب کنید (شکل 2).

اجازه دهید در پنجره بعدی فواصل ورودی X و Y را تنظیم کنیم، سطح قابلیت اطمینان 95٪ خواهد بود و داده های خروجی در یک برگه جداگانه "گزارش برگ" قرار می گیرند (شکل 3).

پس از انجام محاسبات، داده های نهایی تحلیل رگرسیون را در برگه "گزارش برگ" به دست می آوریم:

همچنین یک نمودار نقطه ای از تابع تقریبی یا "گراف انتخاب" را نمایش می دهد:


مقادیر محاسبه‌شده و انحراف‌ها به ترتیب در ستون‌های «Y پیش‌بینی‌شده» و «موازنه» در جدول نشان داده شده‌اند.

بر اساس داده های اولیه و انحرافات، نمودار باقی مانده رسم می شود:

وظیفه بهینه سازی


داده های اولیه را به صورت زیر وارد می کنیم:

ناشناخته های X1، X2، X3 به ترتیب به سلول های C9، D9، E9 وارد می شوند.

ضرایب تابع هدف برای X1، X2، X3 به ترتیب در C7، D7، E7 وارد می شوند.

تابع هدف را به عنوان فرمول در سلول B11 وارد کنید: = C7 * C9 + D7 * D9 + E7 * E9.

محدودیت های کار موجود

برای طول لوله گذاری:

ما به سلول های C5، D5، E5، F5، G5 اضافه می کنیم

تعداد چاه ها در هر میدان:

X3 Ј 100; ما به سلول های C8، D8، E8 اضافه می کنیم.

هزینه ساخت 1 چاه:

ما به سلول های C6، D6، E6، F6، G6 اضافه می کنیم.

فرمول محاسبه طول کل C5 * C9 + D5 * D9 + E5 * E9 در سلول B5 قرار می گیرد، فرمول محاسبه کل هزینه C6 * C9 + D6 * D9 + E6 * E9 در سلول B6 قرار می گیرد.


ما در منوی "سرویس / جستجوی راه حل" را انتخاب می کنیم، پارامترهای یافتن راه حل را مطابق با داده های اولیه وارد می کنیم (شکل 4):

با استفاده از دکمه "Parameters"، پارامترهای زیر را برای یافتن راه حل تنظیم کنید (شکل 5):


پس از جستجوی راه حل، گزارشی از نتایج دریافت می کنیم:

گزارش نتایج Microsoft Excel 8.0e

گزارش ایجاد: 1381/11/17 ساعت 1:28:30 بامداد

سلول هدف (حداکثر)

نتیجه

کل غارت

سلول های قابل تغییر

نتیجه

تعداد چاه

تعداد چاه

تعداد چاه

محدودیت های

معنی

طول

مربوط

هزینه پروژه

بی ارتباط.

تعداد چاه

بی ارتباط.

تعداد چاه

مربوط

تعداد چاه

مربوط

جدول اول مقدار اولیه و نهایی (بهینه) سلول هدف را نشان می دهد که تابع هدف مسئله حل شده در آن قرار گرفته است. در جدول دوم مقادیر اولیه و نهایی متغیرهای بهینه سازی شده را می بینیم که در سلول های اصلاح شده موجود است. جدول سوم در گزارش نتایج حاوی اطلاعاتی در مورد محدودیت ها است. ستون "Value" حاوی مقادیر بهینه منابع مورد نیاز و متغیرهایی است که باید بهینه شوند. ستون "فرمول" شامل محدودیت هایی در منابع مصرف شده و متغیرهایی است که باید بهینه شوند، که به صورت ارجاع به سلول های حاوی این داده ها نوشته شده است. ستون "State" تعیین می کند که آیا این یا آن محدودیت ها مرتبط یا غیرمرتبط هستند. در اینجا "محدود" محدودیت هایی هستند که در راه حل بهینه در قالب برابری های صلب اجرا می شوند. ستون "تفاوت" برای محدودیت های منبع، باقیمانده منابع استفاده شده را تعیین می کند. تفاوت بین مقدار مورد نیاز منابع و در دسترس بودن آنها.

به همین ترتیب، پس از یادداشت نتیجه جستجوی راه حل در فرم "گزارش پایداری"، جداول زیر را دریافت خواهیم کرد:

گزارش انعطاف پذیری Microsoft Excel 8.0e

کاربرگ: [حل مسئله بهینه سازی.xls] حل مسئله بهینه سازی

گزارش ایجاد: 1381/11/17 ساعت 1:35:16 ق.ظ

سلول های قابل تغییر

جایز است

جایز است

معنی

قیمت

ضریب

افزایش دادن

نزول کردن

تعداد چاه

تعداد چاه

تعداد چاه

محدودیت های

محدودیت

جایز است

جایز است

معنی

قسمت راست

افزایش دادن

نزول کردن

طول

هزینه پروژه

گزارش پایداری حاوی اطلاعاتی در مورد متغیرهای قابل اصلاح (بهینه شده) و محدودیت های مدل است. این اطلاعات با روش سیمپلکس مورد استفاده در بهینه سازی مسائل خطی، که در بالا از نظر حل مسئله توضیح داده شد، مرتبط است. این به شما امکان می دهد تا حدس بزنید که راه حل بهینه به دست آمده چقدر نسبت به تغییرات احتمالی در پارامترهای مدل حساس است.

بخش اول گزارش حاوی اطلاعاتی در مورد سلول های اصلاح شده حاوی مقادیر مربوط به تعداد چاه ها در فیلدها است. ستون "مقدار نتیجه" مقادیر بهینه متغیرهایی که باید بهینه شوند را نشان می دهد. ستون "ضریب هدف" حاوی داده های اولیه مقادیر ضرایب تابع هدف است. دو ستون بعدی افزایش و کاهش مجاز این ضرایب را بدون تغییر جواب بهینه یافت شده نشان می دهد.

بخش دوم گزارش پایداری حاوی اطلاعاتی در مورد محدودیت های اعمال شده بر روی متغیرهای در حال بهینه سازی است. ستون اول منابع مورد نیاز برای راه حل بهینه را نشان می دهد. دومی حاوی مقادیر قیمت های سایه برای انواع منابع استفاده شده است. دو ستون آخر حاوی داده هایی در مورد افزایش یا کاهش احتمالی مقدار منابع موجود است.

مشکل خوشه بندی

روش گام به گام برای حل مشکل در بالا آورده شده است. در اینجا جداول اکسل وجود دارد که پیشرفت حل مشکل را نشان می دهد:

روش نزدیکترین همسایه

حل مسئله تحلیل خوشه ای - "روش نزدیکترین همسایه"

اطلاعات اولیه

که در آن x1 حجم محصولات است.

х2 - میانگین هزینه سالانه اصلی

دارایی های تولید صنعتی

روش همسایه دور

حل مسئله تحلیل خوشه ای - "روش همسایه فاصله"

اطلاعات اولیه

که در آن x1 حجم محصولات است.

х2 - میانگین هزینه سالانه اصلی

دارایی های تولید صنعتی

ارائه و پیش پردازش ارزیابی های کارشناسی

در عمل، چندین نوع ارزیابی استفاده می شود:

- با کیفیت بالا (اغلب به ندرت، بدتر-بهتر، بله-نه)،

- تخمین های مقیاس (محدوده مقادیر 50-75، 76-90، 91-120، و غیره)،

امتیاز از یک فاصله معین (از 2 تا 5، 1 -10)، مستقل از یکدیگر،

رتبه بندی شده (اشیاء توسط یک متخصص به ترتیب خاصی مرتب می شوند و به هر کدام یک شماره سریال اختصاص داده می شود - رتبه)

مقایسه ای که با یکی از روش های مقایسه به دست می آید

روش مقایسه متوالی

روش مقایسه زوجی عوامل

در مرحله بعدی پردازش نظرات کارشناسی، ارزیابی لازم است میزان سازگاری این نظرات

تخمین های به دست آمده از کارشناسان را می توان به عنوان یک متغیر تصادفی در نظر گرفت که توزیع آن منعکس کننده نظرات کارشناسان در مورد احتمال انتخاب خاصی از یک رویداد (عامل) است. بنابراین، برای تجزیه و تحلیل پراکندگی و سازگاری برآوردهای خبرگان، از ویژگی های آماری تعمیم یافته - میانگین ها و معیارهای پراکندگی استفاده می شود:

میانگین مربعات خطا،

محدوده تغییرات حداقل - حداکثر،

- ضریب تغییرات V = میانگین انحراف مربع / میانگین حساب. (مناسب برای هر نوع ارزیابی)

V i = σ i / x i میانگین

برای نرخ اقدامات شباهتاما نظرات هر جفت متخصصمی توان از روش های مختلفی استفاده کرد:

ضرایب ارتباطکه به کمک آن تعداد پاسخ های منطبق و غیر منطبق در نظر گرفته می شود.

ضرایب ناسازگارینظرات کارشناسی،

همه این معیارها را می توان یا برای مقایسه نظرات دو متخصص و یا برای تجزیه و تحلیل رابطه بین مجموعه ارزیابی ها بر دو مبنای استفاده کرد.

ضریب همبستگی جفت رتبه اسپیرمن:

که در آن n تعداد متخصصان است،

c k - تفاوت بین برآوردهای کارشناسان i-امین و j-امین برای همه عوامل T

ضریب همبستگی رتبه کندال (ضریب تطابق) ارزیابی کلی از سازگاری نظرات همه متخصصان در مورد همه عوامل را ارائه می دهد، اما فقط برای مواردی که از تخمین رتبه استفاده شده است.

ثابت شده است که مقدار S، زمانی که همه کارشناسان تخمین های یکسانی از همه عوامل ارائه می دهند، حداکثر مقدار برابر با

که در آن n تعداد عوامل است،

m تعداد کارشناسان است.

ضریب تطابق برابر با نسبت است

علاوه بر این، اگر W نزدیک به 1 باشد، همه کارشناسان تخمین های سازگاری کافی ارائه کرده اند، در غیر این صورت نظرات آنها مورد توافق نیست.

فرمول محاسبه S در زیر نشان داده شده است:

جایی که r ij تخمین رتبه ضریب i توسط متخصص j است،

r cf میانگین رتبه در کل ماتریس برآوردها و برابر است با

و بنابراین فرمول محاسبه S می تواند به شکل زیر باشد:

اگر ارزیابی های فردی یک متخصص همزمان باشد، و آنها در طول پردازش استاندارد شده باشند، از فرمول متفاوتی برای محاسبه ضریب تطابق استفاده می شود:



که در آن Tj برای هر متخصص محاسبه می شود (در صورتی که ارزیابی های وی برای اشیاء مختلف تکرار شده باشد)، با در نظر گرفتن تکرارها طبق قوانین زیر:

که در آن t j تعداد گروه های دارای رتبه های مساوی برای کارشناس j است و

h k - تعداد رتبه های مساوی در گروه k رتبه های مرتبط کارشناس j.

مثال. اجازه دهید 5 کارشناس شش عامل در رتبه بندی که در جدول 3 نشان داده شده است پاسخ دهند:

جدول 3 - پاسخ کارشناسان

کارشناسان О1 О2 O3 О4 O5 O6 مجموع رتبه ها توسط کارشناس
E1
E2
E3
E4
E5

با توجه به اینکه رتبه بندی دقیقی به دست نیامده است (ارزیابی های کارشناسان تکرار می شود و مجموع رتبه ها برابر نیست)، برآوردها را تغییر داده و رتبه های مربوطه را بدست می آوریم (جدول 4):

جدول 4 - رتبه های مرتبط ارزیابی های کارشناسی

کارشناسان О1 О2 O3 О4 O5 O6 مجموع رتبه ها توسط کارشناس
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
مجموع درجات شیء 7,5 9,5 23,5 29,5

حال بیایید با استفاده از ضریب تطابق، میزان سازگاری نظرات کارشناسی را مشخص کنیم. از آنجایی که رتبه ها به هم مرتبط هستند، W را با فرمول (**) محاسبه می کنیم.

سپس r cf = 7 * 5/2 = 17.5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

اجازه دهید به محاسبات W ادامه دهیم. برای این، مقادیر T j را جداگانه محاسبه می کنیم. در مثال، ارزیابی‌ها به‌طور ویژه انتخاب شده‌اند تا هر کارشناس ارزیابی‌های مکرری داشته باشد: اولی دارای دو، دومی دارای سه، سومی دارای دو گروه دو رتبه‌بندی و چهارمی دارای دو رتبه‌بندی یکسان است. از این رو:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 T 4 = 12

می بینیم که موافقت نظرات کارشناسان بسیار زیاد است و می توانیم به مرحله بعدی مطالعه - اثبات و اتخاذ جایگزین تصمیم توصیه شده توسط کارشناسان، برویم.

در غیر این صورت، باید به مراحل 4-8 برگردید.

ضریب همبستگی رتبه کندلا

یکی از معیارهای نمونه وابستگی دو متغیر تصادفی (ویژگی) X و بر اساس رتبه بندی اقلام نمونه (X 1, Y x), .. ., (X n، Y n). K. به R. به. اشاره دارد، بنابراین، به رتبه بندی آماردانانو با فرمول تعیین می شود

جایی که r i- شما متعلق به آن جفت هستید ( X، Y), برای یک دسته از Xraven i، S = 2N- (n-1) / 2، N تعداد عناصر نمونه است که به طور همزمان j> i و r j> r i... همیشه ... هست به عنوان یک معیار انتخابی برای وابستگی به. به طور گسترده ای توسط M. Kendall استفاده شد (M. Kendall، نگاه کنید).

K. به R. K. برای آزمون فرضیه استقلال متغیرهای تصادفی استفاده می شود. اگر فرضیه استقلال درست باشد، E t = 0 و D t = 2 (2n + 5) / 9n (n-1) است. با حجم نمونه کوچک، بررسی آماری است. فرضیه استقلال با استفاده از جداول خاص ساخته شده است (نگاه کنید به). برای n> 10، تقریب نرمال برای توزیع m استفاده می شود: if

در این صورت فرضیه استقلال رد و در غیر این صورت پذیرفته می شود. در اینجا a . - سطح معنی داری، u a / 2 نقطه درصد توزیع نرمال است. K. به R. زیرا مانند هر چیز دیگری می توان از آن برای تشخیص وابستگی دو ویژگی کیفی استفاده کرد، در صورتی که فقط بتوان عناصر نمونه را با توجه به این ویژگی ها مرتب کرد. اگر X، Yدارای یک نرمال مشترک با ضریب همبستگی p، سپس رابطه بین K. به p. به. و به شکل:

را نیز ببینید همبستگی رتبه اسپیرمن، آزمون رتبه.

روشن شد: کندال م.، همبستگی رتبه، ترجم. از انگلیسی., M., 1975; Van der Waerden B.L.، ریاضی، ترجمه. از آن.، م.، 1960; Bol'shev L.N.، Smirnov N.V.، جداول آمار ریاضی، مسکو، 1965.

A. V. Prokhorov.


دایره المعارف ریاضیات. - م .: دایره المعارف شوروی... I. M. Vinogradov. 1977-1985.

ببینید «ضریب همبستگی رتبه کندالا» در فرهنگ‌های دیگر چیست:

    انگلیسی. с کارآمد، همبستگی رتبه ای کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی، که درجه مطابقت ترتیب همه جفت اشیاء را در دو متغیر تعیین می کند. آنتی نازی دایره المعارف جامعه شناسی، 2009 ... دایره المعارف جامعه شناسی

    ضریب همبستگی رتبه کندال- انگلیسی. کارآمد، همبستگی رتبه کندال; آلمانی کندالز رانگکوررالاسکوافزینت. ضریب همبستگی، که درجه مطابقت ترتیب همه جفت اشیاء را در دو متغیر تعیین می کند ... فرهنگ توضیحی جامعه شناسی

    اندازه‌گیری وابستگی دو متغیر تصادفی (ویژگی‌ها) X و Y، بر اساس رتبه‌بندی نتایج مشاهدات مستقل (X1، Y1). ... .، (Xn، Yn). اگر رتبه مقادیر X به ترتیب طبیعی i = 1 باشد. ... .، n و Ri رتبه Y مربوط به ... ... دایره المعارف ریاضیات

    ضریب همبستگی- (ضریب همبستگی) ضریب همبستگی نشانگر آماری وابستگی دو متغیر تصادفی است تعیین ضریب همبستگی، انواع ضرایب همبستگی، خواص ضریب همبستگی، محاسبه و کاربرد ... ... دایره المعارف سرمایه گذار

    رابطه بین متغیرهای تصادفی، که به طور کلی، کاملاً کاربردی نیست. بر خلاف وابستگی عملکردی، K.، به عنوان یک قاعده، زمانی در نظر گرفته می شود که یکی از مقادیر نه تنها به دیگری بستگی دارد، بلکه ... ... دایره المعارف ریاضیات

    همبستگی (وابستگی همبستگی) یک رابطه آماری از دو یا چند متغیر تصادفی (یا مقادیری است که می‌توان آن‌ها را با درجه‌ای از دقت قابل قبول در نظر گرفت). در این صورت تغییرات در مقادیر یک یا ... ... ویکی پدیا

    همبستگی- (همبستگی) همبستگی یک رابطه آماری از دو یا چند متغیر تصادفی است.مفهوم همبستگی، انواع همبستگی، ضریب همبستگی، تحلیل همبستگی، همبستگی قیمت، همبستگی جفت ارز بر روی محتویات فارکس ... ... دایره المعارف سرمایه گذار

    به طور کلی پذیرفته شده است که آغاز S. از m. Century. یا، همانطور که اغلب نامیده می شود، آمار "n کوچک" در دهه اول قرن بیستم با انتشار کار W. Gosset ارائه شد، که در آن او توزیع t را که توسط کسانی که دریافت کردند، قرار داد. دنیا کمی دیرتر...... دایره المعارف روانشناسی

    موریس کندال سر موریس جورج کندال تاریخ تولد: 6 سپتامبر 1907 (1907 09 06) محل تولد: Kettering، UK تاریخ مرگ ... ویکی پدیا

    پیش بینی- (پیش بینی) تعریف پیش بینی وظایف و اصول پیش بینی تعریف پیش بینی وظایف و اصول پیش بینی روش های پیش بینی مطالب مندرجات تعریف مفاهیم اولیه پیش بینی وظایف و اصول پیش بینی ... ... دایره المعارف سرمایه گذار