კენდალის წოდების კორელაციის კოეფიციენტი. რანგის კორელაცია და კენდალის რანგის კორელაციის კოეფიციენტი კენდალის რანგის კორელაციის კოეფიციენტი Excel-ში

მოკლე თეორია

კენდალის კორელაციის კოეფიციენტი გამოიყენება, როდესაც ცვლადები წარმოდგენილია ორი რიგითი სკალებით, იმ პირობით, რომ არ არსებობს ასოცირებული რიგები. კენდალის კოეფიციენტის გამოთვლა გულისხმობს მატჩების რაოდენობის დათვლას და ინვერსიებს.

ეს კოეფიციენტი მერყეობს შიგნით და გამოითვლება ფორმულით:

გამოსათვლელად, ყველა ერთეული ფასდება ატრიბუტის მიხედვით; რიგი სხვა კრიტერიუმების მიხედვით, თითოეულ წოდებაზე გამოითვლება მოცემულს აღემატება შემდგომი წოდებების რაოდენობა (ჩვენ აღვნიშნავთ მათ) და შემდგომი წოდებების რაოდენობა მოცემულზე ქვემოთ (ვნიშნავთ მათ).

ამის ჩვენება შეიძლება

და კენდალის რანგის კორელაციის კოეფიციენტი შეიძლება დაიწეროს როგორც

იმისათვის, რომ შევამოწმოთ ნულოვანი ჰიპოთეზა მნიშვნელოვნების დონეზე, რომ გენერალური კენდალის რანგის კორელაციის კოეფიციენტი ნულის ტოლია კონკურენტი ჰიპოთეზის მიხედვით, აუცილებელია კრიტიკული წერტილის გამოთვლა:

სად არის ნიმუშის ზომა; არის ორმხრივი კრიტიკული რეგიონის კრიტიკული წერტილი, რომელიც ნაპოვნია ლაპლასის ფუნქციის ცხრილიდან ტოლობით

თუ - ნულოვანი ჰიპოთეზის უარყოფის საფუძველი არ არსებობს. ნიშან-თვისებებს შორის რანგის კორელაცია უმნიშვნელოა.

თუ - ნულოვანი ჰიპოთეზა უარყოფილია. მახასიათებლებს შორის მნიშვნელოვანი რანგის კორელაციაა.

პრობლემის გადაჭრის მაგალითი

Ამოცანა

ვაკანტურ თანამდებობაზე შვიდი კანდიდატის დაკომპლექტებისას შესთავაზეს ორი ტესტი. ტესტის შედეგები (ქულები) ნაჩვენებია ცხრილში:

ტესტი

კანდიდატი

გამოთვალეთ კენდალის რანგის კორელაციის კოეფიციენტი ტესტის შედეგებს შორის ორი ტესტისთვის და შეაფასეთ მისი მნიშვნელობა დონეზე.

პრობლემის გადაწყვეტა

გამოთვალეთ კენდალის კოეფიციენტი

ფაქტორის ატრიბუტის რიგები განლაგებულია მკაცრად აღმავალი თანმიმდევრობით, ხოლო ეფექტური ატრიბუტის შესაბამისი რიგები აღირიცხება პარალელურად. ყოველი წოდებისთვის მის შემდეგ წოდებებს შორის გამოითვლება უმაღლესი წოდებების რაოდენობა (შეყვანილი სვეტში) და ქვედა წოდებების რაოდენობა (სვეტაში შეყვანილი).

ჯამი

ნორმალურობის დაშვებაზე დაფუძნებული კრიტერიუმების გამოყენების შეზღუდვის ერთ-ერთი ფაქტორი არის შერჩევის ზომა. სანამ ნიმუში საკმარისად დიდია (მაგალითად, 100 ან მეტი დაკვირვება), შეგიძლიათ ვივარაუდოთ, რომ ნიმუშის განაწილება ნორმალურია, მაშინაც კი, თუ დარწმუნებული არ ხართ, რომ ცვლადის განაწილება პოპულაციაში ნორმალურია. თუმცა, თუ ნიმუში მცირეა, ეს კრიტერიუმები უნდა იქნას გამოყენებული მხოლოდ იმ შემთხვევაში, თუ არსებობს დარწმუნებული, რომ ცვლადი მართლაც ნორმალურად არის განაწილებული. თუმცა, ამ ვარაუდის მცირე ნიმუშზე შესამოწმებელი გზა არ არსებობს.

ნორმალურობის დაშვებაზე დაფუძნებული კრიტერიუმების გამოყენება ასევე შემოიფარგლება გაზომვების მასშტაბით (იხ. თავი მონაცემთა ანალიზის ძირითადი ცნებები). სტატისტიკური მეთოდები, როგორიცაა t-ტესტი, რეგრესია და ა.შ. ვარაუდობენ, რომ თავდაპირველი მონაცემები უწყვეტია. თუმცა, არის სიტუაციები, როდესაც მონაცემები უბრალოდ ფასდება (იზომება რიგითი მასშტაბით) და არა ზუსტად.

ტიპიური მაგალითი მოყვანილია ინტერნეტში საიტების რეიტინგებით: პირველ პოზიციას იკავებს საიტი ვიზიტორთა მაქსიმალური რაოდენობით, მეორე ადგილს იკავებს საიტი ვიზიტორთა მაქსიმალური რაოდენობით დარჩენილ საიტებს შორის (საიტებს შორის საიდანაც პირველი საიტია ამოღებული) და ა.შ. რეიტინგების ცოდნით, შეგვიძლია ვთქვათ, რომ ერთი საიტის ვიზიტორთა რაოდენობა მეტია, ვიდრე მეორეზე, მაგრამ კიდევ რამდენის თქმა შეუძლებელია. წარმოიდგინეთ, რომ გაქვთ 5 საიტი: A, B, C, D, E, რომლებიც ტოპ 5 ადგილზე არიან. დავუშვათ, რომ მიმდინარე თვეში გვქონდა შემდეგი მოწყობა: A, B, C, D, E, ხოლო წინა თვეში: D, E, A, B, C. საკითხავია, მნიშვნელოვანი ცვლილებები მოხდა საიტის რეიტინგებში. თუ არა? ამ სიტუაციაში, ცხადია, ჩვენ არ შეგვიძლია გამოვიყენოთ t-ტესტი მონაცემთა ამ ორი ჯგუფის შესადარებლად და გადავიდეთ კონკრეტული ალბათობის გამოთვლების არეალზე (და ნებისმიერი სტატისტიკური კრიტერიუმი შეიცავს ალბათურ გამოთვლას!). ჩვენ ასე ვმსჯელობთ: რამდენად სავარაუდოა, რომ საიტის ორ განლაგებაში განსხვავება გამოწვეულია წმინდა შემთხვევითი მიზეზებით, ან რომ განსხვავება ძალიან დიდია და არ შეიძლება აიხსნას სუფთა შემთხვევით. ამ მსჯელობაში ჩვენ ვიყენებთ მხოლოდ საიტების წოდებებს ან პერმუტაციებს და არანაირად არ ვიყენებთ მათზე ვიზიტორთა რაოდენობის განაწილების კონკრეტულ ფორმას.

მცირე ნიმუშების ანალიზისთვის და ცუდი მასშტაბებით გაზომილი მონაცემებისთვის გამოიყენება არაპარამეტრული მეთოდები.

არაპარამეტრული პროცედურების სწრაფი ტური

არსებითად, ყველა პარამეტრული კრიტერიუმისთვის არის მინიმუმ ერთი არაპარამეტრული ალტერნატივა.

ზოგადად, ეს პროცედურები იყოფა ერთ-ერთ შემდეგ კატეგორიად:

დამოუკიდებელი ნიმუშების განმასხვავებელი კრიტერიუმები;
დამოკიდებული ნიმუშების განმასხვავებელი კრიტერიუმები;
ცვლადებს შორის დამოკიდებულების ხარისხის შეფასება.

ზოგადად, სტატისტიკური კრიტერიუმებისადმი მიდგომა მონაცემთა ანალიზის დროს უნდა იყოს პრაგმატული და არ იყოს დატვირთული ზედმეტი თეორიული მსჯელობით. თქვენს განკარგულებაში არსებული STATISTICA კომპიუტერით, შეგიძლიათ მარტივად გამოიყენოთ რამდენიმე კრიტერიუმი თქვენს მონაცემებზე. იცოდეთ მეთოდების ზოგიერთი ნაკლის შესახებ, თქვენ აირჩევთ სწორ გადაწყვეტას ექსპერიმენტების გზით. ნაკვეთის განვითარება საკმაოდ ბუნებრივია: თუ საჭიროა ორი ცვლადის მნიშვნელობების შედარება, მაშინ იყენებთ t-ტესტს. თუმცა, უნდა გვახსოვდეს, რომ იგი ემყარება თითოეულ ჯგუფში ნორმალურობის და დისპერსიების თანასწორობის დაშვებას. ამ დაშვებებისგან თავის დაღწევა იწვევს არაპარამეტრულ ტესტებს, რომლებიც განსაკუთრებით სასარგებლოა მცირე ნიმუშებისთვის.

t-ტესტის შემუშავება იწვევს დისპერსიის ანალიზს, რომელიც გამოიყენება მაშინ, როდესაც შედარებული ჯგუფების რაოდენობა ორზე მეტია. არაპარამეტრული პროცედურების შესაბამისი განვითარება იწვევს დისპერსიის არაპარამეტრულ ანალიზს, თუმცა ის მნიშვნელოვნად ღარიბია ვიდრე კლასიკური დისპერსიის ანალიზი.

დამოკიდებულების შესაფასებლად, ან, გარკვეულწილად პომპეზურად რომ ვთქვათ, კავშირის სიმჭიდროვის ხარისხის შესაფასებლად, გამოითვლება პირსონის კორელაციის კოეფიციენტი. მკაცრად რომ ვთქვათ, მის გამოყენებას აქვს შეზღუდვები, რომლებიც დაკავშირებულია, მაგალითად, მასშტაბის ტიპთან, რომლითაც ხდება მონაცემების გაზომვა და დამოკიდებულების არაწრფივიობა; ამიტომ, ალტერნატიულად, ასევე გამოიყენება არაპარამეტრული, ან ე.წ. რანგის, კორელაციის კოეფიციენტები, რომლებიც გამოიყენება, მაგალითად, რანჟირებული მონაცემებისთვის. თუ მონაცემები იზომება ნომინალურ შკალაზე, მაშინ ბუნებრივია მათი წარდგენა შემთხვევითობის ცხრილებში, რომლებიც იყენებენ პირსონის ჩი-კვადრატის ტესტს სხვადასხვა ვარიაციით და სიზუსტისთვის.

ასე რომ, არსებითად, არსებობს მხოლოდ რამდენიმე ტიპის კრიტერიუმი და პროცედურა, რომელიც უნდა იცოდეთ და შეგეძლოთ გამოიყენოთ მონაცემების სპეციფიკიდან გამომდინარე. თქვენ უნდა განსაზღვროთ რომელი კრიტერიუმი უნდა იქნას გამოყენებული კონკრეტულ სიტუაციაში.

არაპარამეტრული მეთოდები ყველაზე შესაფერისია, როდესაც ნიმუშის ზომები მცირეა. თუ ბევრი მონაცემია (მაგალითად, n> 100), ხშირად აზრი არ აქვს არაპარამეტრული სტატისტიკის გამოყენებას.

თუ ნიმუშის ზომა ძალიან მცირეა (მაგალითად, n = 10 ან ნაკლები), მაშინ მნიშვნელოვნების დონეები იმ არაპარამეტრული ტესტებისთვის, რომლებიც იყენებენ ნორმალურ მიახლოებას, შეიძლება ჩაითვალოს მხოლოდ უხეშ შეფასებად.

განსხვავებები დამოუკიდებელ ჯგუფებს შორის... თუ არსებობს ორი ნიმუში (მაგალითად, მამაკაცები და ქალები), რომლებიც უნდა შევადაროთ ზოგიერთ საშუალო მნიშვნელობას, მაგალითად, საშუალო წნევას ან სისხლში ლეიკოციტების რაოდენობას, მაშინ t-ტესტი შეიძლება გამოყენებულ იქნას დამოუკიდებელი ნიმუშები.

ამ ტესტის არაპარამეტრული ალტერნატივები არის Val'd-Wolfowitz, Mann-Whitney სერიის კრიტერიუმი) / n, სადაც x i არის i-ე მნიშვნელობა, n არის დაკვირვების რაოდენობა. თუ ცვლადი შეიცავს უარყოფით მნიშვნელობებს ან ნულს (0), გეომეტრიული საშუალო ვერ გამოითვლება.

ჰარმონიული საშუალო

ჰარმონიული საშუალო ზოგჯერ გამოიყენება საშუალო სიხშირეებისთვის. ჰარმონიული საშუალო გამოითვლება ფორმულით: ГС = n / S (1 / x i) სადაც ГС არის ჰარმონიული საშუალო, n არის დაკვირვებების რაოდენობა, х i არის დაკვირვების მნიშვნელობა i რიცხვით. თუ ცვლადი შეიცავს ნულს (0), ჰარმონიული საშუალო ვერ გამოითვლება.

დისპერსია და სტანდარტული გადახრა

ნიმუშის ვარიაცია და სტანდარტული გადახრა არის მონაცემების ცვალებადობის (ვარიაციის) ყველაზე ხშირად გამოყენებული საზომები. ვარიაცია გამოითვლება, როგორც ცვლადის მნიშვნელობების გადახრების კვადრატების ჯამი ნიმუშის საშუალოდან, გაყოფილი n-1-ზე (მაგრამ არა n-ზე). სტანდარტული გადახრა გამოითვლება დისპერსიის შეფასების კვადრატული ფესვით.

საქანელა

ცვლადის დიაპაზონი არის არასტაბილურობის ინდიკატორი, რომელიც გამოითვლება მაქსიმუმს გამოკლებული მინიმუმი.

კვარტილის ფარგლები

კვარტალური დიაპაზონი, განსაზღვრებით, არის: ზედა კვარტლი მინუს ქვედა კვარტლი (75% პროცენტული მინუს 25% პროცენტული). ვინაიდან 75% პროცენტული (ზედა კვარტლი) არის მნიშვნელობა მარცხნივ, საიდანაც განლაგებულია შემთხვევების 75%, და 25% პროცენტული (ქვედა კვარტლი) არის მნიშვნელობა მარცხნივ, რომლის მარცხნივ განლაგებულია შემთხვევების 25%, კვარტლი დიაპაზონი არის შუალედური შუალედი, რომელიც შეიცავს შემთხვევების 50%-ს (ცვლადი მნიშვნელობები).

ასიმეტრია

ასიმეტრია არის განაწილების ფორმის მახასიათებელი. განაწილება გადახრილია მარცხნივ, თუ დახრის მნიშვნელობა უარყოფითია. განაწილება გადახრილია მარჯვნივ, თუ ასიმეტრია დადებითია. სტანდარტული ნორმალური განაწილების დახრილობა არის 0. დახრილობა დაკავშირებულია მესამე მომენტთან და განისაზღვრება როგორც: დახრილობა = n × M 3 / [(n-1) × (n-2) × s 3], სადაც M 3 არის: (xi -x ნიშნავს x) 3, s 3 არის სტანდარტული გადახრა ამაღლებული მესამე ხარისხზე, n არის დაკვირვებების რაოდენობა.

Ჭარბი

კურტოზი არის განაწილების ფორმის მახასიათებელი, კერძოდ, მისი პიკის სიმძიმის საზომი (ნორმალურ განაწილებასთან შედარებით, რომლის ქურტოზი 0-ის ტოლია). როგორც წესი, ნორმაზე მკვეთრი მწვერვალის მქონე დისტრიბუციებს აქვთ დადებითი ქურთოზი; დისტრიბუციებს, რომელთა პიკი ნორმალური განაწილების პიკზე ნაკლებად მწვავეა, უარყოფითი ქურთოზი აქვთ. ჭარბი ასოცირდება მეოთხე მომენტთან და განისაზღვრება ფორმულით:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], სადაც M j არის: (xx ნიშნავს x, s 4 არის სტანდარტული გადახრა მეოთხე ხარისხზე, n არის დაკვირვებების რაოდენობა...

იგი გამოიყენება რაოდენობრივ ან ხარისხობრივ ინდიკატორებს შორის კავშირის დასადგენად, თუ შესაძლებელია მათი რანჟირება. X ინდიკატორის მნიშვნელობები დაყენებულია ზრდადი თანმიმდევრობით და ენიჭება წოდებები. Y ინდიკატორის მნიშვნელობები რანჟირებულია და გამოითვლება კენდალის კორელაციის კოეფიციენტი:

სადაც ს = პ − ქ.

პ დიდიწოდების მნიშვნელობა Y.

ქ- დაკვირვებების საერთო რაოდენობა მიმდინარე დაკვირვებების შემდეგ უფრო პატარაწოდების მნიშვნელობა Y. (თანაბარი წოდებები არ ითვლება!)

თუ შესწავლილი მონაცემები მეორდება (იგივე წოდებები აქვთ), მაშინ გამოთვლებში გამოიყენება კენდალის კორექტირებული კორელაციის კოეფიციენტი:

ტ- დაკავშირებული წოდებების რაოდენობა X და Y მწკრივში, შესაბამისად.

19.რა უნდა იყოს ამოსავალი კვლევის თემის, ობიექტის, საგნის, მიზნის, ამოცანებისა და ჰიპოთეზის განსაზღვრისას?

კვლევის პროგრამა, როგორც წესი, შედგება ორი განყოფილებისგან: მეთოდოლოგიური და პროცედურული. პირველი მოიცავს თემის აქტუალობის დასაბუთებას, პრობლემის ფორმულირებას, კვლევის ობიექტისა და საგნის, მიზნებისა და ამოცანების განსაზღვრას, ძირითადი ცნებების (კატეგორიული აპარატის) ფორმულირებას, კვლევის ობიექტის წინასწარ სისტემურ ანალიზს და სამუშაო ჰიპოთეზის წამოყენებას. მეორე ნაწილში მოცემულია სტრატეგიული კვლევის გეგმა, ასევე პირველადი მონაცემების შეგროვებისა და ანალიზის გეგმა და ძირითადი პროცედურები.

უპირველეს ყოვლისა, საკვლევი თემის არჩევისას, უნდა იხელმძღვანელოთ შესაბამისობიდან. შესაბამისობის დასაბუთებამოიცავს მითითებას სწავლებისა და აღზრდის თეორიისა და პრაქტიკის შემდგომი განვითარებისათვის პრობლემის შესწავლისა და გადაწყვეტის აუცილებლობისა და დროულობის შესახებ. აქტუალური კვლევა იძლევა პასუხს ამ დროს ყველაზე აქტუალურ კითხვებზე, ასახავს საზოგადოების სოციალურ წესრიგს პედაგოგიურ მეცნიერებამდე და ავლენს ყველაზე მნიშვნელოვან წინააღმდეგობებს, რომლებიც პრაქტიკაში ხდება. შესაბამისობის კრიტერიუმი არის დინამიური, მობილური, დამოკიდებულია დროზე, კონკრეტული და კონკრეტული გარემოებების გათვალისწინებით. მისი ყველაზე ზოგადი ფორმით, რელევანტურობა ახასიათებს შეუსაბამობის ხარისხს სამეცნიერო იდეებსა და პრაქტიკულ რეკომენდაციებზე მოთხოვნას (კონკრეტული საჭიროების დასაკმაყოფილებლად) და იმ წინადადებებს შორის, რომლებიც მეცნიერებასა და პრაქტიკას შეუძლია უზრუნველყოს ამჟამად.

კვლევის თემის განმსაზღვრელი ყველაზე დამაჯერებელი საფუძველია სოციალური წესრიგი, რომელიც ასახავს ყველაზე მწვავე, სოციალურად მნიშვნელოვან პრობლემებს, რომლებიც საჭიროებენ სასწრაფო გადაწყვეტას. სოციალური წესრიგი მოითხოვს კონკრეტული თემის დასაბუთებას. ჩვეულებრივ, ეს არის მეცნიერებაში საკითხის დამუშავების ხარისხის ანალიზი.

თუ სოციალური წესრიგი გამომდინარეობს პედაგოგიური პრაქტიკის ანალიზიდან, მაშინ თავად მეცნიერული პრობლემაარის სხვა თვითმფრინავში. ის გამოხატავს მთავარ წინააღმდეგობას, რომელიც უნდა გადაიჭრას მეცნიერების საშუალებით. პრობლემის გადაწყვეტა ჩვეულებრივ არის კვლევის მიზანი.მიზანი არის გადაფორმებული პრობლემა.

პრობლემის ფორმულირება გულისხმობს ობიექტის შერჩევაკვლევა. ეს შეიძლება იყოს პედაგოგიური პროცესი, პედაგოგიური რეალობის სფერო ან რაიმე სახის პედაგოგიური დამოკიდებულება, რომელიც შეიცავს წინააღმდეგობას. სხვა სიტყვებით რომ ვთქვათ, ობიექტი შეიძლება იყოს ყველაფერი, რაც აშკარად ან ირიბად შეიცავს წინააღმდეგობას და ქმნის პრობლემურ სიტუაციას. ობიექტი არის ის, რისკენაც მიმართულია შემეცნების პროცესი. სასწავლო საგანი -ნაწილი, ობიექტის მხარე. ეს არის ყველაზე მნიშვნელოვანი პრაქტიკული თუ თეორიული თვალსაზრისით, ობიექტების თვისებები, ასპექტები, მახასიათებლები, რომლებიც ექვემდებარება უშუალო შესწავლას.

კვლევის მიზნის, ობიექტისა და საგნის შესაბამისად, კვლევა დავალებები,რომლებიც, როგორც წესი, მიზნად ისახავს შემოწმებას ჰიპოთეზები.ეს უკანასკნელი არის თეორიულად დაფუძნებული ვარაუდების ერთობლიობა, რომლის ჭეშმარიტება დამოწმებას ექვემდებარება.

Კრიტერიუმი სამეცნიერო სიახლეშეიძლება გამოყენებულ იქნას დასრულებული კვლევების ხარისხის შესაფასებლად. იგი ახასიათებს ახალ თეორიულ და პრაქტიკულ დასკვნებს, განათლების ნიმუშებს, მის სტრუქტურასა და მექანიზმებს, შინაარსს, პრინციპებსა და ტექნოლოგიებს, რომლებიც ამ დროისთვის არ იყო ცნობილი და არ იყო დაფიქსირებული პედაგოგიურ ლიტერატურაში. კვლევის სიახლეს შეიძლება ჰქონდეს როგორც თეორიული, ასევე პრაქტიკული მნიშვნელობა. კვლევის თეორიული ღირებულება მდგომარეობს კონცეფციის შექმნაში, ჰიპოთეზის, კანონზომიერების, პრობლემის, ტენდენციის, მიმართულების ამოცნობის მეთოდის, მოდელის მოპოვებაში. კვლევის პრაქტიკული მნიშვნელობა მდგომარეობს წინადადებების, რეკომენდაციების მომზადებაში და ა.შ. სიახლის, თეორიული და პრაქტიკული მნიშვნელობის კრიტერიუმები იცვლება კვლევის სახეობიდან გამომდინარე, ისინი ასევე დამოკიდებულია ახალი ცოდნის მიღების დროზე.

KENDALLA რანგის კორელაციის კოეფიციენტი

ორი შემთხვევითი ცვლადის (მახასიათებლის) დამოკიდებულების ერთ-ერთი ნიმუში X და Y,ნიმუშის ერთეულების რანჟირების საფუძველზე (X 1, Y x), .. ., (X n, Y n). კ.-მდე რ. შესაბამისად, ეხება რანგის სტატისტიკოსებიდა განისაზღვრება ფორმულით

სადაც რ ი- შენ იმ წყვილს ეკუთვნი ( X, Y), Xraven-ის გროვისთვის მე, S = 2N- (n-1) / 2, N არის ნიმუში ელემენტების რაოდენობა, რომლისთვისაც ერთდროულად j> i და r j> r i... Ყოველთვის არის როგორც დამოკიდებულების შერჩევითი საზომი To.R. ფართოდ იყენებდა მ.კენდალს (მ. კენდალი, იხ.).

კ.-მდე რ. შემთხვევითი ცვლადების დამოუკიდებლობის ჰიპოთეზის შესამოწმებლად გამოიყენება კ. თუ დამოუკიდებლობის ჰიპოთეზა მართალია, მაშინ E t = 0 და D t = 2 (2n + 5) / 9n (n-1). მცირე ნიმუშის ზომით, შემოწმება სტატისტიკურია. დამოუკიდებლობის ჰიპოთეზა დამზადებულია სპეციალური ცხრილების გამოყენებით (იხ.). n> 10-ისთვის გამოიყენება m-ის განაწილების ნორმალური მიახლოება: თუ

მაშინ დამოუკიდებლობის ჰიპოთეზა უარყოფილია, წინააღმდეგ შემთხვევაში მიიღება. აქ ა . - მნიშვნელობის დონე, u a / 2 არის ნორმალური განაწილების პროცენტული წერტილი. კ.-მდე რ. იმის გამო, რომ, როგორც ნებისმიერი სხვა, ის შეიძლება გამოყენებულ იქნას ორი თვისებრივი მახასიათებლის დამოკიდებულების დასადგენად, თუ მხოლოდ ნიმუშის ელემენტების შეკვეთა შესაძლებელია ამ მახასიათებლების მიმართ. თუ X, Yაქვს ერთობლივი ნორმა კორელაციის კოეფიციენტთან p, შემდეგ კავშირი K.-ს შორის p. და აქვს ფორმა:

იხილეთ ასევე სპირმენის წოდების კორელაცია, რანგის ტესტი.

განათებული: კენდალ მ., რანგის კორელაციები, თრ. ინგლისურიდან., მ., 1975; Van der Waerden B.L., მათემატიკური, თარგმანი. მისგან., მ., 1960; ბოლშევი ლ.ნ., სმირნოვი ნ.ვ., მათემატიკური სტატისტიკის ცხრილები, მოსკოვი, 1965 წ.

A.V. პროხოროვი.

მათემატიკის ენციკლოპედია. - მ .: საბჭოთა ენციკლოპედია... I. M. ვინოგრადოვი. 1977-1985 წწ.

ნახეთ, რა არის "KENDALLA RANK CORELATION COEFFICIENT" სხვა ლექსიკონებში:

ინგლისური. с ეფექტური, რანგის კორელაცია კენდალი; გერმანული კენდალს რანგკორელაციის ეფექტურობა. კორელაციის კოეფიციენტი, რომელიც განსაზღვრავს ობიექტების ყველა წყვილის ორ ცვლადში მოწესრიგების შესაბამისობის ხარისხს. ანტინაზი. სოციოლოგიის ენციკლოპედია, 2009 ... სოციოლოგიის ენციკლოპედია

კენდალის რანგის კორელაციის კოეფიციენტი- ინგლისური. ეფექტური, რანგის კორელაცია კენდალი; გერმანული კენდალს რანგკორელაციის ეფექტურობა. კორელაციის კოეფიციენტი, რომელიც განსაზღვრავს ობიექტების ყველა წყვილის დალაგების შესაბამისობის ხარისხს ორ ცვლადში ... სოციოლოგიის განმარტებითი ლექსიკონი

ორი შემთხვევითი ცვლადის (მახასიათებლების) X და Y დამოკიდებულების საზომი, დამოუკიდებელი დაკვირვების შედეგების რეიტინგის საფუძველზე (X1, Y1). ... ., (Xn, Yn). თუ X-ის მნიშვნელობების რიგები განლაგებულია ბუნებრივი რიგით i = 1,. ... ., n და Ri წოდება Y, რომელიც შეესაბამება ... ... მათემატიკის ენციკლოპედია

Კორელაციის კოეფიციენტი- (კორელაციის კოეფიციენტი) კორელაციის კოეფიციენტი არის ორი შემთხვევითი ცვლადის დამოკიდებულების სტატისტიკური მაჩვენებელი კორელაციის კოეფიციენტის განსაზღვრა, კორელაციის კოეფიციენტების ტიპები, კორელაციის კოეფიციენტის თვისებები, გამოთვლა და გამოყენება ... ... ინვესტორის ენციკლოპედია

ურთიერთობა შემთხვევით ცვლადებს შორის, რომელიც, ზოგადად, არ არის მკაცრად ფუნქციონალური. ფუნქციური დამოკიდებულებისგან განსხვავებით, K., როგორც წესი, განიხილება, როდესაც ერთ-ერთი რაოდენობა დამოკიდებულია არა მხოლოდ ამ მეორეზე, არამედ ... ... მათემატიკის ენციკლოპედია

კორელაცია (კორელაციის დამოკიდებულება) არის ორი ან მეტი შემთხვევითი ცვლადის სტატისტიკური კავშირი (ან რაოდენობები, რომლებიც შეიძლება ჩაითვალოს ასეთად გარკვეული მისაღები სიზუსტით). ამ შემთხვევაში, იცვლება ერთი ან ... ... ვიკიპედიის მნიშვნელობები

კორელაცია- (კორელაცია) კორელაცია არის ორი ან მეტი შემთხვევითი ცვლადის სტატისტიკური ურთიერთობა. კორელაციის ცნება, კორელაციის ტიპები, კორელაციის კოეფიციენტი, კორელაციის ანალიზი, ფასების კორელაცია, სავალუტო წყვილების კორელაცია ფორექსის შიგთავსზე ... ... ინვესტორის ენციკლოპედია

საყოველთაოდ მიღებულია, რომ მ.ს-ის დასაწყისის ს. ან, როგორც ხშირად უწოდებენ, სტატისტიკა "მცირე n"-ის ჩამოყალიბდა XX საუკუნის პირველ ათწლეულში W. Gosset-ის ნაშრომის გამოქვეყნებით, რომელშიც მან განათავსა t განაწილება, რომელიც პოსტულირებულია მათ მიერ, ვინც მიიღო. სამყარო ცოტა მოგვიანებით...... ფსიქოლოგიური ენციკლოპედია

მორის კენდალი სერ მორის ჯორჯ კენდალი დაბადების თარიღი: 1907 წლის 6 სექტემბერი (1907 09 06) დაბადების ადგილი: კეტერინგი, დიდი ბრიტანეთი გარდაცვალების თარიღი ... ვიკიპედია

პროგნოზი- (პროგნოზი) პროგნოზის განსაზღვრა, ამოცანები და პროგნოზირების პრინციპები პროგნოზის განსაზღვრა, ამოცანები და პროგნოზირების პრინციპები, პროგნოზირების მეთოდები სარჩევი შინაარსი განმარტება პროგნოზირების ძირითადი ცნებები ამოცანები და პროგნოზირების პრინციპები ... ... ინვესტორის ენციკლოპედია

კენდალის რანგის კორელაციის კოეფიციენტის გამოსათვლელად რ კაუცილებელია ერთ-ერთი ატრიბუტის მონაცემების რანჟირება ზრდადი თანმიმდევრობით და შესაბამისი რანგის დადგენა მეორე ატრიბუტისთვის. შემდეგ, მეორე მახასიათებლის ყოველი წოდებისთვის, განისაზღვრა მომდევნო წოდებების რიცხვი, აღებულ წოდებაზე დიდი სიდიდით და იპოვება ამ რიცხვების ჯამი.

კენდალის რანგის კორელაციის კოეფიციენტი განისაზღვრება ფორმულით

სადაც რ ი- მეორე ცვლადის რანგების რაოდენობა, დაწყებული მე+1, რომლის სიდიდე სიდიდეზე მეტია მეამ ცვლადის რანგი.

არსებობს კოეფიციენტის განაწილების პროცენტული პუნქტების ცხრილები რ კ, რაც საშუალებას იძლევა შემოწმების ჰიპოთეზა კორელაციის კოეფიციენტის მნიშვნელოვნების შესახებ.

ნიმუშის დიდი ზომისთვის, კრიტიკული მნიშვნელობები რ კარ არის ჩამოთვლილი და მათი გამოთვლა უნდა მოხდეს სავარაუდო ფორმულების გამოყენებით, რომლებიც ეფუძნება იმ ფაქტს, რომ H 0 ნულოვანი ჰიპოთეზის მიხედვით: რ კ= 0 და დიდი ნშემთხვევითი მნიშვნელობა

განაწილებული დაახლოებით სტანდარტული ნორმალური კანონის მიხედვით.

40. ნომინალური ან რიგითი მასშტაბებით გაზომილ ნიშან-თვისებებს შორის კავშირი

პრობლემა ხშირად ჩნდება ნომინალური ან რიგითი მასშტაბით გაზომილი ორი მახასიათებლის დამოუკიდებლობის შემოწმებისას.

მოდით, ზოგიერთმა ობიექტმა გაზომოს ორი თვისება Xდა იდონეების რაოდენობით რდა სშესაბამისად. ასეთი დაკვირვების შედეგები მოხერხებულად არის წარმოდგენილი ცხრილის სახით, რომელსაც ე.წ.

Მაგიდაზე u i(მე = 1, ..., რ) და ვ ჯ (ჯ= 1, ..., ს) - თვისებების მიერ აღებული მნიშვნელობები, ღირებულება n ij- ობიექტების რაოდენობა იმ ობიექტების მთლიანი რიცხვიდან, რომლებისთვისაც არის ატრიბუტი Xმნიშვნელობა მიიღო u iდა ნიშანი ი- მნიშვნელობა ვ ჯ

ჩვენ წარმოგიდგენთ შემდეგ შემთხვევით ცვლადებს:

u i

- ობიექტების რაოდენობა, რომლებსაც აქვთ მნიშვნელობა ვ ჯ

გარდა ამისა, აშკარაა თანასწორობა

დისკრეტული შემთხვევითი ცვლადები Xდა იდამოუკიდებელი თუ და მხოლოდ თუ

ყველა წყვილისთვის მე, ჯ

აქედან გამომდინარე, ვარაუდი დისკრეტული შემთხვევითი ცვლადების დამოუკიდებლობის შესახებ Xდა იშეიძლება დაიწეროს ასე:

როგორც ალტერნატივა, როგორც წესი, ისინი იყენებენ ჰიპოთეზას

ჰიპოთეზის H 0 ვალიდობა უნდა შეფასდეს ნიმუშის სიხშირეების საფუძველზე n ijსაგანგებო ცხრილები. ზე დიდი რიცხვების კანონის შესაბამისად ნ→ ∞, ფარდობითი სიხშირეები ახლოსაა შესაბამის ალბათობებთან:

H 0 ჰიპოთეზის შესამოწმებლად გამოიყენება სტატისტიკა

რომელსაც, თუ ჰიპოთეზა ჭეშმარიტია, აქვს განაწილება χ 2 წმ რს − (რ + ს- 1) თავისუფლების ხარისხი.

დამოუკიდებლობის კრიტერიუმი χ 2 უარყოფს H 0 ჰიპოთეზას α მნიშვნელოვნების დონით, თუ:

41. Რეგრესიული ანალიზი. რეგრესიული ანალიზის ძირითადი ცნებები

შესწავლილ ცვლადებს შორის სტატისტიკური ურთიერთობების მათემატიკური აღწერისთვის უნდა გადაწყდეს შემდეგი ამოცანები:

ü შეარჩიეთ ფუნქციების კლასი, რომელშიც მიზანშეწონილია ინტერესთა დამოკიდებულების საუკეთესო (გარკვეული გაგებით) დაახლოების ძიება;

ü იპოვეთ საჭირო დამოკიდებულების განტოლებებში შემავალი პარამეტრების უცნობი მნიშვნელობების შეფასებები;

ü საჭირო დამოკიდებულების მიღებული განტოლების ადეკვატურობის დადგენა;

ü ყველაზე ინფორმაციული შეყვანის ცვლადების იდენტიფიცირება.

ჩამოთვლილი ამოცანების მთლიანობა კვლევის საგანია რეგრესიულ ანალიზში.

რეგრესიის ფუნქცია (ან რეგრესია) არის ერთი შემთხვევითი ცვლადის მათემატიკური მოლოდინის დამოკიდებულება მეორე შემთხვევითი ცვლადის მიერ აღებულ მნიშვნელობაზე, რომელიც ქმნის შემთხვევითი ცვლადების ორგანზომილებიან სისტემას პირველთან.

დაე არსებობდეს შემთხვევითი ცვლადების სისტემა ( X,ი), შემდეგ რეგრესიის ფუნქცია ი on X

და რეგრესიის ფუნქცია X on ი

რეგრესიის ფუნქციები ვ(x) და φ (წ) არ არის ურთიერთშექცევადი, თუ მხოლოდ ურთიერთობას შორის Xდა იარ არის ფუნქციონალური.

Როდესაც ნ-განზომილებიანი ვექტორი კოორდინატებით X 1 , X 2 ,…, X nთქვენ შეგიძლიათ გაითვალისწინოთ პირობითი მათემატიკური მოლოდინი ნებისმიერი კომპონენტისთვის. მაგალითად, ამისთვის X 1

რეგრესიას უწოდებენ X 1-ზე X 2 ,…, X n.

რეგრესიის ფუნქციის სრული განმარტებისთვის, აუცილებელია იცოდეთ გამომავალი ცვლადის პირობითი განაწილება შეყვანის ცვლადის ფიქსირებული მნიშვნელობებისთვის.

ვინაიდან რეალურ სიტუაციაში ასეთი ინფორმაცია არ არის ხელმისაწვდომი, ისინი ჩვეულებრივ შემოიფარგლება შესაბამისი მიახლოებითი ფუნქციის ძიებით ვ ა(x) ამისთვის ვ(xფორმის სტატისტიკურ მონაცემებზე დაყრდნობით ( x i, y მე), მე = 1,…, ნ... ეს მონაცემები არის შედეგი ნდამოუკიდებელი დაკვირვებები წ 1 ,…, y nშემთხვევითი ცვლადი იშეყვანის ცვლადის მნიშვნელობებისთვის x 1 ,…, x n, ხოლო რეგრესიის ანალიზი ვარაუდობს, რომ შეყვანის ცვლადის მნიშვნელობები ზუსტად არის მითითებული.

საუკეთესო მიახლოებითი ფუნქციის არჩევის პრობლემა ვ ა(x), არის მთავარი რეგრესიულ ანალიზში და არ გააჩნია მისი გადაჭრის ფორმალიზებული პროცედურები. ზოგჯერ არჩევანი განისაზღვრება ექსპერიმენტული მონაცემების ანალიზის საფუძველზე, უფრო ხშირად თეორიული მოსაზრებებიდან.

თუ ვივარაუდებთ, რომ რეგრესიის ფუნქცია საკმარისად გლუვია, მაშინ მიახლოებითი ფუნქცია ვ ა(x) შეიძლება წარმოდგენილი იყოს წრფივად დამოუკიდებელი საბაზისო ფუნქციების სიმრავლის წრფივი კომბინაციით ψ კ(x), კ = 0, 1,…, მ−1, ანუ სახით

სადაც მ- უცნობი პარამეტრების რაოდენობა θ კ(ზოგად შემთხვევაში, ღირებულება უცნობია, დახვეწილია მოდელის აგების დროს).

ასეთი ფუნქცია პარამეტრებში წრფივია, ამიტომ განსახილველ შემთხვევაში ვსაუბრობთ რეგრესიის ფუნქციის მოდელზე, რომელიც პარამეტრებში წრფივია.

შემდეგ რეგრესიის ხაზისთვის საუკეთესო მიახლოების პოვნის პრობლემა ვ(x) მცირდება ისეთი პარამეტრის მნიშვნელობების პოვნამდე, რისთვისაც ვ ა(x; θ) არის ყველაზე ადეკვატური არსებული მონაცემებისთვის. ამ პრობლემის გადაჭრის ერთ-ერთი მეთოდი არის უმცირესი კვადრატების მეთოდი.

42. მინიმალური კვადრატის მეთოდი

მოდით პუნქტების ნაკრები ( x i, y მე), მე= 1,…, ნმდებარეობს სიბრტყეზე რაღაც სწორი ხაზის გასწვრივ

შემდეგ, როგორც ფუნქცია ვ ა(x) რეგრესიის ფუნქციის დაახლოება ვ(x) = მ [ი|x] ბუნებრივია არგუმენტის წრფივი ფუნქციის აღება x:

ანუ აქ არჩეულია საბაზისო ფუნქციები ψ 0 (x) ≡1 და ψ 1 (x)≡x... ამ რეგრესიას მარტივი წრფივი რეგრესია ეწოდება.

თუ ქულების ნაკრები ( x i, y მე), მე= 1,…, ნმდებარეობს ზოგიერთი მრუდის გასწვრივ, შემდეგ როგორც ვ ა(x) ბუნებრივია პარაბოლების ოჯახის არჩევის მცდელობა

ეს ფუნქცია პარამეტრებში არაწრფივია θ 0 და θ 1, თუმცა, ფუნქციური ტრანსფორმაციის გზით (ამ შემთხვევაში, ლოგარითმის აღებით), ის შეიძლება შემცირდეს ახალ ფუნქციამდე ვ ა(x), წრფივი პარამეტრებით:

43. მარტივი ხაზოვანი რეგრესია

უმარტივესი რეგრესიული მოდელი არის მარტივი (ერთგანზომილებიანი, ერთფაქტორიანი, დაწყვილებული) ხაზოვანი მოდელი, რომელსაც აქვს შემდეგი ფორმა:

სადაც ε ი- შემთხვევითი ცვლადები (შეცდომები) ერთმანეთთან არაკორელირებული, ნულოვანი მათემატიკური მოლოდინებით და იგივე დისპერსიებით σ 2 , ადა ბ- მუდმივი კოეფიციენტები (პარამეტრები), რომლებიც უნდა შეფასდეს გაზომილი პასუხის მნიშვნელობებიდან y მე.

პარამეტრების შეფასების საპოვნელად ადა ბწრფივი რეგრესია, სწორი ხაზის განსაზღვრა, რომელიც ყველაზე მეტად აკმაყოფილებს ექსპერიმენტულ მონაცემებს:

გამოიყენება უმცირესი კვადრატების მეთოდი.

Მიხედვით უმცირესი კვადრატები პარამეტრების შეფასებები ადა ბგვხვდება მნიშვნელობების გადახრების კვადრატების ჯამის მინიმიზაციის მდგომარეობიდან y მევერტიკალურად "ჭეშმარიტი" რეგრესიის ხაზიდან:

დაე, იყოს შემთხვევითი ცვლადის ათი დაკვირვება იცვლადის ფიქსირებული მნიშვნელობებით X

მინიმუმამდე დასაყვანად დჩვენ ვუტოლებთ ნულს ნაწილობრივ წარმოებულებს მიმართ ადა ბ:

შედეგად, ჩვენ ვიღებთ განტოლებების შემდეგ სისტემას შეფასებების საპოვნელად ადა ბ:

ამ ორი განტოლების ამოხსნა იძლევა:

პარამეტრების შეფასების გამონათქვამები ადა ბასევე შეიძლება წარმოდგენილი იყოს როგორც:

შემდეგ რეგრესიის ხაზის ემპირიული განტოლება ი on Xშეიძლება დაიწეროს როგორც:

მიუკერძოებელი დისპერსიის შეფასება σ მნიშვნელობების 2 გადახრა y მერეგრესიის მორგებული სწორი ხაზიდან მოცემულია გამოხატულება

გამოვთვალოთ რეგრესიის განტოლების პარამეტრები

ამრიგად, რეგრესიის ხაზი ასე გამოიყურება:

და მნიშვნელობების გადახრების დისპერსიის შეფასება y მერეგრესიის მორგებული სწორი ხაზიდან

44. რეგრესიის ხაზის მნიშვნელობის შემოწმება

ნაპოვნია შეფასება ბ≠ 0 შეიძლება იყოს შემთხვევითი ცვლადის რეალიზაცია, რომლის მათემატიკური მოლოდინი ნულის ტოლია, ანუ შეიძლება აღმოჩნდეს, რომ რეალურად არ არსებობს რეგრესიული დამოკიდებულება.

ამ სიტუაციის მოსაგვარებლად, თქვენ უნდა შეამოწმოთ ჰიპოთეზა H 0: ბ= 0 კონკურენტი ჰიპოთეზა H 1: ბ ≠ 0.

რეგრესიის ხაზის მნიშვნელოვნების ტესტი შეიძლება განხორციელდეს დისპერსიის ანალიზის გამოყენებით.

განიხილეთ შემდეგი ვინაობა:

სიდიდე y მე− ŷ ი = ε ინაშთს უწოდებენ და არის განსხვავება ორ რაოდენობას შორის:

ü დაკვირვებული მნიშვნელობის (პასუხის) გადახრა მთლიანი საშუალო პასუხიდან;

ü პროგნოზირებული პასუხის მნიშვნელობის გადახრა ŷ იიგივე საშუალოდან

წერილობითი ვინაობა შეიძლება დაიწეროს როგორც

მისი ორივე ნაწილის კვადრატი და შეჯამება მე, ვიღებთ:

სადაც დასახელებულია რაოდენობები:

SC n-ის კვადრატების ჯამური (ჯამური) ჯამი, რომელიც უდრის დაკვირვების გადახრების კვადრატების ჯამს დაკვირვებების საშუალო მნიშვნელობასთან მიმართებაში.

SK p-ის რეგრესიის გამო კვადრატების ჯამი, რომელიც უდრის რეგრესიის ხაზის მნიშვნელობების გადახრების კვადრატების ჯამს დაკვირვების საშუალოზე.

კვადრატების ნარჩენი ჯამი SK 0. რომელიც უდრის დაკვირვების გადახრების კვადრატების ჯამს რეგრესიის ხაზის მნიშვნელობებთან მიმართებაში

ასე რომ გავრცელება ი-კოვი მათ საშუალოსთან შედარებით შეიძლება გარკვეულწილად მივაწეროთ იმ ფაქტს, რომ ყველა დაკვირვება არ დევს რეგრესიის ხაზზე. თუ ეს ასე იყო, მაშინ კვადრატების ჯამი რეგრესიასთან შედარებით იქნება ნული. აქედან გამომდინარეობს, რომ რეგრესია მნიშვნელოვანი იქნება, თუ SC p-ის კვადრატების ჯამი მეტია SC 0-ის კვადრატების ჯამს.

რეგრესიის მნიშვნელოვნების ტესტის გამოთვლები შესრულებულია შემდეგ ANOVA ცხრილში.

თუ შეცდომები ε იგანაწილებულია ნორმალური კანონის მიხედვით, მაშინ თუ ჰიპოთეზა H 0 მოქმედებს: ბ= 0 სტატისტიკა:

განაწილებულია ფიშერის კანონის მიხედვით თავისუფლების ხარისხით 1 და ნ−2.

ნულოვანი ჰიპოთეზა უარყოფილი იქნება α მნიშვნელოვნების დონეზე, თუ გამოთვლილი სტატისტიკური მნიშვნელობა ფიქნება α პროცენტულ პუნქტზე მეტი ვ 1;ნ−2; ფიშერის განაწილების α.

45. რეგრესიის მოდელის ადეკვატურობის შემოწმება. ნარჩენი მეთოდი

აგებული რეგრესიის მოდელის ადეკვატურობა გაგებულია, როგორც ის ფაქტი, რომ არცერთი სხვა მოდელი არ იძლევა მნიშვნელოვან გაუმჯობესებას პასუხის პროგნოზირებაში.

თუ პასუხების ყველა მნიშვნელობა მიღებულია სხვადასხვა მნიშვნელობებზე x, ანუ, არ არსებობს რამდენიმე საპასუხო მნიშვნელობა, რომელიც მიღებულია იმავეთი x i, მაშინ შეიძლება ჩატარდეს მხოლოდ ხაზოვანი მოდელის ადეკვატურობის შეზღუდული ტესტი. ასეთი შემოწმების საფუძველია ნარჩენები:

გადახრები დადგენილი ნიმუშიდან:

Იმდენად, რამდენადაც X- ერთგანზომილებიანი ცვლადი, წერტილები ( x i, დ ი) შეიძლება დაისახოს სიბრტყეზე ნარჩენი ნაკვეთის სახით ე.წ. ასეთი წარმოდგენა ზოგჯერ შესაძლებელს ხდის ნარჩენების ქცევაში გარკვეული კანონზომიერების პოვნას. გარდა ამისა, ნარჩენების ანალიზი საშუალებას გაძლევთ გაანალიზოთ ვარაუდი შეცდომების განაწილებასთან დაკავშირებით.

იმ შემთხვევაში, როდესაც შეცდომები განაწილებულია ჩვეულებრივი კანონის მიხედვით და ხდება მათი დისპერსიის აპრიორი შეფასება. σ 2 (შეფასება მიღებული ადრე ჩატარებული გაზომვების საფუძველზე), მაშინ შესაძლებელია მოდელის ადეკვატურობის უფრო ზუსტი შეფასება.

Გამოყენებით ფ-ფიშერის კრიტერიუმი შეიძლება გამოყენებულ იქნას იმის შესამოწმებლად, არის თუ არა ნარჩენი განსხვავება მნიშვნელოვანი ს 0 2 განსხვავდება აპრიორი შეფასებისგან. თუ ის მნიშვნელოვნად დიდია, მაშინ არის არაადეკვატურობა და მოდელი უნდა გადაიხედოს.

თუ წინასწარი შეფასება σ 2 არა, მაგრამ პასუხის გაზომვები იგაიმეორეთ ორ ან მეტჯერ ერთი და იგივე მნიშვნელობებით X, მაშინ ეს განმეორებითი დაკვირვებები შეიძლება გამოყენებულ იქნას სხვა შეფასების მისაღებად σ 2 (პირველი არის ნარჩენი ვარიაცია). ნათქვამია, რომ ასეთი შეფასება წარმოადგენს „სუფთა“ შეცდომას, რადგან თუ xიგივეა ორი ან მეტი დაკვირვებისთვის, მაშინ მხოლოდ შემთხვევითმა ცვლილებებმა შეიძლება გავლენა მოახდინოს შედეგებზე და შექმნას გაფანტვა მათ შორის.

შედეგად მიღებული შეფასება დისპერსიის უფრო საიმედო შეფასებაა, ვიდრე სხვა მეთოდებით მიღებული შეფასება. ამ მიზეზით, ექსპერიმენტების დაგეგმვისას, აზრი აქვს ექსპერიმენტების დაყენებას გამეორებებით.

დავუშვათ, გვაქვს მსხვადასხვა მნიშვნელობა X : x 1 , x 2 , ..., x მ... მოდით თითოეული ამ მნიშვნელობისთვის x iიქ არის n iსაპასუხო დაკვირვებები ი... მთლიანი დაკვირვებები მიიღება:

მაშინ მარტივი ხაზოვანი რეგრესიის მოდელი შეიძლება დაიწეროს როგორც:

მოდი ვიპოვოთ "სუფთა" შეცდომების განსხვავება. ეს განსხვავება არის დისპერსიის კომბინირებული შეფასება σ 2, თუ ჩვენ წარმოვადგენთ პასუხების მნიშვნელობებს y ijზე x = x iროგორც ნიმუშის მოცულობა n i... შედეგად, "სუფთა" შეცდომების განსხვავებაა:

ეს განსხვავება ემსახურება როგორც შეფასება σ 2 მიუხედავად იმისა, არის თუ არა დამონტაჟებული მოდელი სწორი.

მოდით ვაჩვენოთ, რომ „სუფთა შეცდომების“ კვადრატების ჯამი არის კვადრატების ნარჩენი ჯამის ნაწილი (ნარჩენი დისპერსიის გამოხატულებაში შეტანილი კვადრატების ჯამი). დარჩენილი ამისთვის ჯდაკვირვება ზე x iშეიძლება დაიწეროს როგორც:

თუ ამ ტოლობის ორივე მხარეს კვადრატში მოათავსებთ და შემდეგ შეაჯამებთ მათ ჯდა მიერ მე, ვიღებთ:

ამ ტოლობის მარცხნივ არის კვადრატების ნარჩენი ჯამი. პირველი წევრი მარჯვნივ არის "სუფთა" შეცდომების კვადრატების ჯამი, მეორე წევრს შეიძლება ეწოდოს არაადეკვატურობის კვადრატების ჯამი. ბოლო თანხა აქვს მ−2 გრადუსი თავისუფლება, შესაბამისად, არაადეკვატურობის ვარიაცია

H 0 ჰიპოთეზის შემოწმების კრიტერიუმის სტატისტიკა: მარტივი წრფივი მოდელი ადეკვატურია, ჰიპოთეზა H 1-ის საწინააღმდეგოდ: მარტივი წრფივი მოდელი არაადეკვატურია, შემთხვევითი ცვლადი არის

თუ ნულოვანი ჰიპოთეზა მართალია, მნიშვნელობა ფაქვს ფიშერის განაწილება თავისუფლების ხარისხით მ-2 და ნ−მ... რეგრესიის ხაზის წრფივობის ჰიპოთეზა უარყოფილი უნდა იყოს α მნიშვნელოვნების დონით, თუ სტატისტიკის მიღებული მნიშვნელობა აღემატება ფიშერის განაწილების α-პროცენტულ წერტილს თავისუფლების ხარისხით. მ-2 და ნ−მ.

46. რეგრესიის მოდელის ადეკვატურობის შემოწმება (იხ. 45). ANOVA

47. რეგრესიის მოდელის ადეკვატურობის შემოწმება (იხ. 45). განსაზღვრის კოეფიციენტი

ზოგჯერ, რეგრესიის ხაზის ხარისხის დასახასიათებლად გამოიყენება განსაზღვრის კოეფიციენტის ნიმუში რ 2, რომელიც გვიჩვენებს კვადრატების ჯამის რა ნაწილს (წილადს), რეგრესიის გამო, SK p არის კვადრატების ჯამურ ჯამში SK n:

რაც უფრო ახლოს რ 2-დან ერთამდე, რაც უფრო უახლოვდება რეგრესია ექსპერიმენტულ მონაცემებს, მით უფრო ახლოსაა დაკვირვებები რეგრესიის ხაზთან. თუ რ 2 = 0, მაშინ პასუხში ცვლილებები მთლიანად განპირობებულია გაუთვალისწინებელი ფაქტორების გავლენით, ხოლო რეგრესიის ხაზი ღერძის პარალელურია. x-ოვ. მარტივი წრფივი რეგრესიის შემთხვევაში დეტერმინაციის კოეფიციენტი რ 2 უდრის კორელაციის კოეფიციენტის კვადრატს რ 2 .

მაქსიმალური მნიშვნელობა R 2 = 1 შეიძლება მიღწეული იყოს მხოლოდ იმ შემთხვევაში, როდესაც დაკვირვებები განხორციელდა x-ov-ის სხვადასხვა მნიშვნელობებზე. თუ მონაცემებში განმეორებითი ექსპერიმენტებია, მაშინ R 2-ის მნიშვნელობა ვერ აღწევს ერთიანობას, რაც არ უნდა კარგი იყოს მოდელი.

48. ნდობის ინტერვალები მარტივი ხაზოვანი რეგრესიის პარამეტრებისთვის

ისევე როგორც შერჩევის საშუალო არის ჭეშმარიტი საშუალოს შეფასება (პოპულაციის საშუალო), ასევეა რეგრესიის განტოლების ნიმუშის პარამეტრები ადა ბ- მეტი არაფერი, თუ არა ჭეშმარიტი რეგრესიის კოეფიციენტების შეფასება. სხვადასხვა ნიმუშები იძლევა საშუალოს განსხვავებულ შეფასებას - ისევე როგორც სხვადასხვა ნიმუშები იძლევა რეგრესიის კოეფიციენტების განსხვავებულ შეფასებას.

თუ ვივარაუდებთ, რომ შეცდომების განაწილების კანონი ε იაღწერილია ნორმალური კანონით, პარამეტრის შეფასება ბექნება ნორმალური განაწილება პარამეტრებით:

პარამეტრის შეფასებიდან გამომდინარე აარის დამოუკიდებელი ნორმალურად განაწილებული სიდიდეების წრფივი კომბინაცია, მას ასევე ექნება ნორმალური განაწილება საშუალო და დისპერსიით:

ამ შემთხვევაში, (1 - α) ნდობის ინტერვალი დისპერსიის შესაფასებლად σ 2 იმის გათვალისწინებით, რომ თანაფარდობა ( ნ−2)ს 0 2 /σ კანონით განაწილებული 2 χ 2 თავისუფლების ხარისხით ნ−2 განისაზღვრება გამოსახულებით

49. რეგრესიის ხაზის ნდობის ინტერვალები. ნდობის ინტერვალი დამოკიდებული ცვლადის მნიშვნელობებისთვის

ჩვენ ჩვეულებრივ არ ვიცით რეგრესიის კოეფიციენტების ნამდვილი მნიშვნელობები. ადა ბ... ჩვენ მხოლოდ მათი შეფასებები ვიცით. სხვა სიტყვებით რომ ვთქვათ, ჭეშმარიტი რეგრესიის ხაზი შეიძლება ავიდეს უფრო მაღლა ან დაბლა, იყოს უფრო ციცაბო ან ზედაპირული, ვიდრე ნიმუშის მონაცემებიდან აგებული. ჩვენ გამოვთვალეთ ნდობის ინტერვალები რეგრესიის კოეფიციენტებისთვის. თქვენ ასევე შეგიძლიათ გამოთვალოთ ნდობის რეგიონი თავად რეგრესიის ხაზისთვის.

მოდით, მარტივი წრფივი რეგრესისთვის საჭიროა ააგოთ (1− α ) ნდობის ინტერვალი პასუხის მათემატიკური მოლოდინისთვის იღირებულებით NS = NS 0. ეს მათემატიკური მოლოდინი არის ა+bx 0 და მისი შეფასება

Მას შემდეგ.

მათემატიკური მოლოდინის მიღებული შეფასება არის არაკორელირებული ნორმალურად განაწილებული მნიშვნელობების წრფივი კომბინაცია და, შესაბამისად, აქვს ნორმალური განაწილება, რომელიც ორიენტირებულია პირობითი მათემატიკური მოლოდინისა და დისპერსიის ჭეშმარიტი მნიშვნელობის წერტილზე.

ამიტომ, ნდობის ინტერვალი რეგრესიის ხაზისთვის თითოეულ მნიშვნელობაზე x 0 შეიძლება წარმოდგენილი იყოს როგორც

როგორც ხედავთ, მინიმალური ნდობის ინტერვალი მიიღება x 0 უდრის საშუალოს და იზრდება როგორც x 0 „მოშორდება“ შუა ნაწილს ნებისმიერი მიმართულებით.

მთლიანი რეგრესიის ფუნქციისთვის შესაფერისი ერთობლივი ნდობის ინტერვალების კომპლექტის მისაღებად, მის მთელ სიგრძეზე, ზემოთ მოცემულ გამოსახულებაში ნაცვლად t n −2,α / 2 უნდა შეიცვალოს