რანგის კორელაცია და კენდალის რანგის კორელაციის კოეფიციენტი. კენდალის და სპირმენის რანგის კორელაციის კოეფიციენტები კენდალის კორელაციის კოეფიციენტის ფორმულა

KENDALLA რანგის კორელაციის კოეფიციენტი

ორი შემთხვევითი ცვლადის (მახასიათებლის) დამოკიდებულების ერთ-ერთი ნიმუში X და Y,ნიმუშის ერთეულების რანჟირების საფუძველზე (X 1, Y x), .. ., (X n, Y n). კ.-მდე რ. შესაბამისად, ეხება რანგის სტატისტიკოსებიდა განისაზღვრება ფორმულით

სადაც რ ი- შენ იმ წყვილს ეკუთვნი ( X, Y), Xraven-ის გროვისთვის მე, S = 2N- (n-1) / 2, N არის ნიმუში ელემენტების რაოდენობა, რომლისთვისაც ერთდროულად j> i და r j> r i... Ყოველთვის არის როგორც დამოკიდებულების შერჩევითი საზომი To.R. ფართოდ იყენებდა მ.კენდალს (მ. კენდალი, იხ.).

კ.-მდე რ. შემთხვევითი ცვლადების დამოუკიდებლობის ჰიპოთეზის შესამოწმებლად გამოიყენება კ. თუ დამოუკიდებლობის ჰიპოთეზა მართალია, მაშინ E t = 0 და D t = 2 (2n + 5) / 9n (n-1). მცირე ნიმუშის ზომით, შემოწმება სტატისტიკურია. დამოუკიდებლობის ჰიპოთეზა დამზადებულია სპეციალური ცხრილების გამოყენებით (იხ.). n> 10-ისთვის გამოიყენება m-ის განაწილების ნორმალური მიახლოება: თუ

მაშინ დამოუკიდებლობის ჰიპოთეზა უარყოფილია, წინააღმდეგ შემთხვევაში მიიღება. აქ ა . - მნიშვნელობის დონე, u a / 2 არის ნორმალური განაწილების პროცენტული წერტილი. კ.-მდე რ. იმის გამო, რომ, როგორც ნებისმიერი სხვა, ის შეიძლება გამოყენებულ იქნას ორი თვისებრივი მახასიათებლის დამოკიდებულების დასადგენად, თუ მხოლოდ ნიმუშის ელემენტების შეკვეთა შესაძლებელია ამ მახასიათებლების მიმართ. თუ X, Yაქვს ერთობლივი ნორმა კორელაციის კოეფიციენტთან p, შემდეგ კავშირი K.-ს შორის p. და აქვს ფორმა:

იხილეთ ასევე Spearman-ის წოდების კორელაცია, რანგის ტესტი.

განათებული: კენდალ მ., რანგის კორელაციები, ტრანს. ინგლისურიდან., მ., 1975; Van der Waerden B.L., მათემატიკური, თარგმანი. მისგან., მ., 1960; ბოლშევი ლ.ნ., სმირნოვი ნ.ვ., მათემატიკური სტატისტიკის ცხრილები, მოსკოვი, 1965 წ.

A.V. პროხოროვი.


მათემატიკის ენციკლოპედია. - მ .: საბჭოთა ენციკლოპედია... I. M. ვინოგრადოვი. 1977-1985 წწ.

ნახეთ, რა არის "KENDALLA RANK CORELATION COEFFICIENT" სხვა ლექსიკონებში:

    ინგლისური. с ეფექტური, რანგის კორელაცია კენდალი; გერმანული კენდალს რანგკორელაციის ეფექტურობა. კორელაციის კოეფიციენტი, რომელიც განსაზღვრავს ობიექტების ყველა წყვილის ორ ცვლადში მოწესრიგების შესაბამისობის ხარისხს. ანტინაზი. სოციოლოგიის ენციკლოპედია, 2009 ... სოციოლოგიის ენციკლოპედია

    კენდალის რანგის კორელაციის კოეფიციენტი- ინგლისური. ეფექტური, რანგის კორელაცია კენდალი; გერმანული კენდალს რანგკორელაციის ეფექტურობა. კორელაციის კოეფიციენტი, რომელიც განსაზღვრავს ობიექტების ყველა წყვილის დალაგების შესაბამისობის ხარისხს ორ ცვლადში ... სოციოლოგიის განმარტებითი ლექსიკონი

    ორი შემთხვევითი ცვლადის (მახასიათებლების) X და Y დამოკიდებულების საზომი, დამოუკიდებელი დაკვირვების შედეგების რანჟირების საფუძველზე (X1, Y1). ... ., (Xn, Yn). თუ X-ის მნიშვნელობების რიგები განლაგებულია ბუნებრივი რიგით i = 1,. ... ., n და Ri წოდება Y, რომელიც შეესაბამება ... ... მათემატიკის ენციკლოპედია

    Კორელაციის კოეფიციენტი- (კორელაციის კოეფიციენტი) კორელაციის კოეფიციენტი არის ორი შემთხვევითი ცვლადის დამოკიდებულების სტატისტიკური მაჩვენებელი კორელაციის კოეფიციენტის განსაზღვრა, კორელაციის კოეფიციენტების ტიპები, კორელაციის კოეფიციენტის თვისებები, გამოთვლა და გამოყენება ... ... ინვესტორის ენციკლოპედია

    ურთიერთობა შემთხვევით ცვლადებს შორის, რომელიც, ზოგადად, არ არის მკაცრად ფუნქციონალური. ფუნქციური დამოკიდებულებისგან განსხვავებით, K., როგორც წესი, განიხილება, როდესაც ერთ-ერთი რაოდენობა დამოკიდებულია არა მხოლოდ ამ მეორეზე, არამედ ... ... მათემატიკის ენციკლოპედია

    კორელაცია (კორელაციის დამოკიდებულება) არის ორი ან მეტი შემთხვევითი ცვლადის სტატისტიკური კავშირი (ან რაოდენობები, რომლებიც შეიძლება ჩაითვალოს ასეთად გარკვეული მისაღები სიზუსტით). ამ შემთხვევაში, იცვლება ერთი ან ... ... ვიკიპედიის მნიშვნელობები

    კორელაცია- (კორელაცია) კორელაცია არის ორი ან მეტი შემთხვევითი ცვლადის სტატისტიკური ურთიერთობა. კორელაციის ცნება, კორელაციის ტიპები, კორელაციის კოეფიციენტი, კორელაციის ანალიზი, ფასების კორელაცია, სავალუტო წყვილების კორელაცია ფორექსის შიგთავსზე ... ... ინვესტორის ენციკლოპედია

    საყოველთაოდ მიღებულია, რომ მ.ს-ის დასაწყისის ს. ან, როგორც ხშირად უწოდებენ, სტატისტიკა "მცირე n"-ის ჩამოყალიბდა XX საუკუნის პირველ ათწლეულში W. Gosset-ის ნაშრომის გამოქვეყნებით, რომელშიც მან განათავსა t განაწილება, რომელიც პოსტულირებულია მათ მიერ, ვინც მიიღო. სამყარო ცოტა მოგვიანებით...... ფსიქოლოგიური ენციკლოპედია

    მორის კენდალი სერ მორის ჯორჯ კენდალი დაბადების თარიღი: 1907 წლის 6 სექტემბერი (1907 09 06) დაბადების ადგილი: კეტერინგი, დიდი ბრიტანეთი გარდაცვალების თარიღი ... ვიკიპედია

    პროგნოზი- (პროგნოზი) პროგნოზის განსაზღვრა, ამოცანები და პროგნოზირების პრინციპები პროგნოზის განსაზღვრა, ამოცანები და პროგნოზირების პრინციპები, პროგნოზირების მეთოდები სარჩევი შინაარსი განმარტება პროგნოზირების ძირითადი ცნებები ამოცანები და პროგნოზირების პრინციპები ... ... ინვესტორის ენციკლოპედია

საექსპერტო შეფასებების წარდგენა და წინასწარი დამუშავება

პრაქტიკაში გამოიყენება შეფასების რამდენიმე ტიპი:

- მაღალი ხარისხის (ხშირად-იშვიათად, უარესი-უკეთესი, დიახ-არა),

- მასშტაბის შეფასებები (მნიშვნელობების დიაპაზონი 50-75, 76-90, 91-120 და ა.შ.),

ქულა მოცემული ინტერვალიდან (2-დან 5-მდე, 1-10), ურთიერთდამოუკიდებლად,

რანჟირებული (ობიექტები განლაგებულია ექსპერტის მიერ გარკვეული თანმიმდევრობით და თითოეულს ენიჭება სერიული ნომერი - წოდება),

შედარებითი, მიღებული ერთ-ერთი შედარების მეთოდით

თანმიმდევრული შედარების მეთოდი

ფაქტორების წყვილთა შედარების მეთოდი.

საექსპერტო დასკვნების დამუშავების შემდეგ ეტაპზე აუცილებელია შეფასება ამ მოსაზრებების თანმიმდევრულობის ხარისხი.

ექსპერტებისგან მიღებული შეფასებები შეიძლება ჩაითვალოს შემთხვევით ცვლადად, რომლის განაწილება ასახავს ექსპერტების მოსაზრებებს მოვლენის (ფაქტორის) კონკრეტული არჩევანის ალბათობის შესახებ. ამიტომ, ექსპერტთა შეფასებების გაფანტვისა და თანმიმდევრულობის გასაანალიზებლად გამოიყენება განზოგადებული სტატისტიკური მახასიათებლები - საშუალო და გაფანტული ზომები:

საშუალო კვადრატული შეცდომა,

ვარიაციული დიაპაზონი მინ - მაქსიმალური,

- ვარიაციის კოეფიციენტი V = საშუალო კვადრატული გადახრა / საშუალო არითმი. (გამოდგება ნებისმიერი ტიპის შეფასებისთვის)

V i = σ i / x i საშ

განაკვეთისთვის მსგავსების ზომებიმაგრამ მოსაზრებები ექსპერტების თითოეული წყვილიშეიძლება გამოყენებულ იქნას სხვადასხვა მეთოდი:

ასოციაციის კოეფიციენტები, რომლის დახმარებითაც გათვალისწინებულია შესატყვისი და შეუსაბამო პასუხების რაოდენობა,

შეუსაბამობის კოეფიციენტებიექსპერტების მოსაზრებები,

ყველა ეს ზომა შეიძლება გამოყენებულ იქნას ან ორი ექსპერტის მოსაზრებების შესადარებლად, ან შეფასებების სერიას შორის ურთიერთკავშირის გასაანალიზებლად ორ საფუძველზე.

სპირმენის წყვილის რანგის კორელაციის კოეფიციენტი:

სადაც n არის ექსპერტების რაოდენობა,

c k - სხვაობა i-ე და j-th ექსპერტების შეფასებებს შორის ყველა T ფაქტორისთვის

კენდალის რანგის კორელაციის კოეფიციენტი (თანხმობის კოეფიციენტი) იძლევა ზოგად შეფასებას ყველა ექსპერტის მოსაზრებების თანმიმდევრულობის შესახებ ყველა ფაქტორზე, მაგრამ მხოლოდ იმ შემთხვევებისთვის, როდესაც გამოყენებული იყო რანგის შეფასება.

დადასტურებულია, რომ S-ის მნიშვნელობა, როდესაც ყველა ექსპერტი იძლევა ყველა ფაქტორის ერთსა და იმავე შეფასებას, აქვს მაქსიმალური მნიშვნელობა ტოლი

სადაც n არის ფაქტორების რაოდენობა,

m არის ექსპერტების რაოდენობა.

შესაბამისობის კოეფიციენტი თანაფარდობის ტოლია

უფრო მეტიც, თუ W უახლოვდება 1-ს, მაშინ ყველა ექსპერტმა საკმარისად თანმიმდევრული შეფასება მისცა, წინააღმდეგ შემთხვევაში მათი მოსაზრებები არ არის შეთანხმებული.

S-ის გამოთვლის ფორმულა ნაჩვენებია ქვემოთ:

სადაც r ij არის i-ე ფაქტორის რანგის შეფასება j-ე ექსპერტის მიერ,

r cf არის საშუალო რანგი შეფასებების მთელ მატრიცაზე და უდრის

და, შესაბამისად, S-ის გამოთვლის ფორმულას შეუძლია მიიღოს ფორმა:

თუ ერთი ექსპერტის ინდივიდუალური შეფასებები ემთხვევა და ისინი სტანდარტიზებულია დამუშავების დროს, მაშინ შესაბამისობის კოეფიციენტის გამოსათვლელად გამოიყენება სხვა ფორმულა:



სადაც T j გამოითვლება თითოეული ექსპერტისთვის (იმ შემთხვევაში, თუ მისი შეფასებები განმეორდა სხვადასხვა ობიექტზე), გამეორებების გათვალისწინებით შემდეგი წესების მიხედვით:

სადაც t j არის თანაბარი რანგის ჯგუფების რაოდენობა j-ე ექსპერტისთვის და

h k - თანაბარი წოდებების რაოდენობა j-ე ექსპერტის მონათესავე წოდებების k-ე ჯგუფში.

მაგალითი. დაე, ექვს ფაქტორზე 5 ექსპერტმა უპასუხოს რეიტინგში, როგორც ნაჩვენებია ცხრილში 3:

ცხრილი 3 - ექსპერტების პასუხები

ექსპერტები О1 О2 O3 О4 O5 O6 წოდებების ჯამი ექსპერტის მიხედვით
E1
E2
E3
E4
E5

იმის გამო, რომ მკაცრი რეიტინგი არ იქნა მიღებული (ექსპერტების შეფასებები მეორდება და წოდებების ჯამები არ არის თანაბარი), ჩვენ გარდაქმნით შეფასებებს და მივიღებთ შესაბამის წოდებებს (ცხრილი 4):

ცხრილი 4 - ექსპერტთა შეფასებების შესაბამისი რანგები

ექსპერტები О1 О2 O3 О4 O5 O6 წოდებების ჯამი ექსპერტის მიხედვით
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
ობიექტის რიგების ჯამი 7,5 9,5 23,5 29,5

ახლა მოდით განვსაზღვროთ ექსპერტთა მოსაზრებების თანმიმდევრულობის ხარისხი შესაბამისობის კოეფიციენტის გამოყენებით. ვინაიდან რიგები დაკავშირებულია, ჩვენ გამოვთვალოთ W ფორმულით (**).

შემდეგ r cf = 7 * 5/2 = 17.5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

მოდით გადავიდეთ W-ის გამოთვლებზე. ამისათვის ჩვენ ცალკე ვიანგარიშებთ T j-ის მნიშვნელობებს. მაგალითში შეფასებები სპეციალურად არის შერჩეული ისე, რომ თითოეულ ექსპერტს ჰქონდეს განმეორებითი შეფასება: პირველს აქვს ორი, მეორეს აქვს სამი, მესამეს აქვს ორი ჯგუფის ორი რეიტინგი, ხოლო მეოთხეს აქვს ორი იდენტური შეფასება. აქედან გამომდინარე:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

ვხედავთ, რომ ექსპერტთა მოსაზრებების თანხმობა საკმაოდ მაღალია და შეგვიძლია გადავიდეთ კვლევის შემდეგ ეტაპზე - ექსპერტების მიერ რეკომენდებული გადაწყვეტილების დასაბუთება და ალტერნატივის მიღება.

წინააღმდეგ შემთხვევაში, თქვენ უნდა დაუბრუნდეთ ნაბიჯებს 4-8.

რანგის კორელაციის კოეფიციენტიახასიათებს არაწრფივი დამოკიდებულების ზოგად ბუნებას: ეფექტური მახასიათებლის ზრდა ან შემცირება პირველი ფაქტორის ზრდით. ეს არის მონოტონური არაწრფივი ურთიერთობის შებოჭილობის მაჩვენებელი.

მომსახურების მიზანი... ეს ონლაინ კალკულატორი ითვლის კენდალის წოდების კორელაციის კოეფიციენტიყველა ძირითადი ფორმულის მიხედვით, ასევე მისი მნიშვნელობის შეფასება.

ინსტრუქცია. მიუთითეთ მონაცემთა რაოდენობა (ხაზების რაოდენობა). შედეგად მიღებული გამოსავალი ინახება Word ფაილში.

კენდალის მიერ შემოთავაზებული კოეფიციენტი აგებულია „მეტ-ნაკლებად“ ტიპის ურთიერთობების საფუძველზე, რომლის მართებულობა დადგინდა სასწორის აგებისას.
ავირჩიოთ რამდენიმე ობიექტი და შევადაროთ მათი რიგები ერთ ატრიბუტში და მეორეში. თუ ამ კრიტერიუმის მიხედვით, რიგები ქმნიან პირდაპირ წესრიგს (ანუ ნატურალური რიგის წესრიგს), მაშინ წყვილს ენიჭება +1, თუ პირიქით, მაშინ –1. არჩეული წყვილისთვის მრავლდება შესაბამისი პლუს-მინუს ერთეულები (X ატრიბუტით და Y ატრიბუტით). შედეგი აშკარად არის +1; თუ ორივე მახასიათებლის წყვილის რიგები განლაგებულია იმავე თანმიმდევრობით და –1 თუ პირიქით.
თუ რიგების რიგები ყველა წყვილისთვის ორივე კრიტერიუმით ერთნაირია, მაშინ ყველა წყვილ ობიექტზე მინიჭებული ერთეულების ჯამი მაქსიმალურია და უდრის წყვილთა რაოდენობას. თუ ყველა წყვილის რიგები შებრუნებულია, მაშინ –C 2 N. ზოგად შემთხვევაში, C 2 N = P + Q, სადაც P არის დადებითი რიცხვი და Q არის უარყოფითი რიცხვების რაოდენობა, რომლებიც მინიჭებულია წყვილებისთვის მათი რიგების შედარებისას ორივე კრიტერიუმისთვის.
რაოდენობას კენდალის კოეფიციენტი ეწოდება.
ფორმულიდან ჩანს, რომ კოეფიციენტი τ არის განსხვავება ობიექტების წყვილის პროპორციას შორის, რომლებშიც თანმიმდევრობა ერთნაირია ორივე კრიტერიუმში (ყველა წყვილის რაოდენობასთან მიმართებაში) და ობიექტების წყვილთა პროპორციას შორის, რომელშიც რიგი არ არის იგივე.
მაგალითად, კოეფიციენტის მნიშვნელობა 0,60 ნიშნავს, რომ წყვილების 80%-ს აქვს ობიექტების ერთნაირი რიგი, ხოლო 20%-ს არა (80% + 20% = 100%; 0,80 - 0,20 = 0,60). იმათ. τ შეიძლება განიმარტოს, როგორც განსხვავება დამთხვევისა და შეუსაბამობის ალბათობას შორის ორივე ნიშანში შემთხვევით შერჩეული ობიექტების წყვილისთვის.
ზოგად შემთხვევაში, τ (უფრო ზუსტად, P ან Q) გამოთვლა 10-ის რიგის N-ისთვისაც კი რთული გამოდის.
მოდით ვაჩვენოთ როგორ გავამარტივოთ გამოთვლები.


Მაგალითი. კავშირი სამრეწველო წარმოების მოცულობასა და ძირითად აქტივებში ინვესტიციებს შორის 2003 წელს რუსეთის ფედერაციის ერთ-ერთი ფედერალური ოლქის 10 რეგიონში ხასიათდება შემდეგი მონაცემებით:


გამოთვალეთ სპირმენისა და კენდალის რანგის კორელაციის კოეფიციენტები. შეამოწმეთ მათი მნიშვნელობა α = 0,05. ჩამოაყალიბეთ დასკვნა რუსეთის ფედერაციის განსახილველ რეგიონებში სამრეწველო წარმოების მოცულობასა და ძირითად აქტივებში ინვესტიციებს შორის ურთიერთობის შესახებ.

გამოსავალი... მოდით, მივაკუთვნოთ რიგები Y-ს და X ფაქტორს.


დავახარისხოთ მონაცემები X-ის მიხედვით.
Y მწკრივში 3-ის მარჯვნივ არის 7 რანგი, რომელიც აღემატება 3-ს, შესაბამისად, 3 გამოიმუშავებს ტერმინს 7 P-ში.
1-ის მარჯვნივ არის 1-ზე მეტი 8 წოდება (ეს არის 2, 4, 6, 9, 5, 10, 7, 8), ე.ი. 8 შევა P და ა.შ. შედეგად, Р = 37 და ფორმულების გამოყენებით გვაქვს:

Xწოდება X, d xწოდება Y, d y
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


გამარტივებული ფორმულებით:




სადაც n არის ნიმუშის ზომა; z kp არის ორმხრივი კრიტიკული რეგიონის კრიტიკული წერტილი, რომელიც გვხვდება ლაპლასის ფუნქციის ცხრილიდან Ф (z kp) = (1-α) / 2 ტოლობით.
თუ | t |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - ნულოვანი ჰიპოთეზა უარყოფილია. ხარისხობრივ მახასიათებლებს შორის მნიშვნელოვანი რანგის კორელაციაა.
იპოვეთ კრიტიკული წერტილი z kp
Ф (z kp) = (1-α) / 2 = (1 - 0.05) / 2 = 0.475

მოდი ვიპოვოთ კრიტიკული წერტილი:

ვინაიდან τ> T kp - უარვყოფთ ნულოვან ჰიპოთეზას; რანგის კორელაცია ორ ტესტში ქულებს შორის მნიშვნელოვანია.

Მაგალითი. ჩვენს მიერ შესრულებული სამშენებლო და სამონტაჟო სამუშაოების მოცულობის შესახებ და რუსეთის ფედერაციის ერთ-ერთ ქალაქში 10 სამშენებლო კომპანიაში დასაქმებულთა რაოდენობაზე დაყრდნობით, განსაზღვრეთ ამ ნიშნებს შორის ურთიერთობა კენდალის კოეფიციენტის გამოყენებით.

გამოსავალიიპოვნეთ კალკულატორით.
მოდით, მივაკუთვნოთ რიგები Y-ს და X ფაქტორს.
მოდით მოვაწყოთ ობიექტები ისე, რომ მათი X რიგები წარმოადგენდეს ბუნებრივ სერიას. ვინაიდან ამ სერიის თითოეულ წყვილზე მინიჭებული შეფასებები დადებითია, P-ში შეტანილი მნიშვნელობები "+1" გენერირებული იქნება მხოლოდ იმ წყვილების მიერ, რომელთა რიგები Y-ში ქმნიან პირდაპირ წესრიგს.
მათი გამოთვლა მარტივია Y მწკრივში თითოეული ობიექტის ფოლადის რიგების თანმიმდევრული შედარებით.
კენდალის კოეფიციენტი.

ზოგად შემთხვევაში, τ (უფრო ზუსტად, P ან Q) გამოთვლა 10-ის რიგის N-ისთვისაც კი რთული გამოდის. მოდით ვაჩვენოთ როგორ გავამარტივოთ გამოთვლები.

ან

გამოსავალი.
დავახარისხოთ მონაცემები X-ის მიხედვით.
Y მწკრივში 2-ის მარჯვნივ არის 8 წოდება, რომელიც აღემატება 2-ს, შესაბამისად, 2 გამოიმუშავებს ტერმინს 8 P-ში.
მე-4-ის მარჯვნივ არის 4-ზე მეტი 6 წოდება (ეს არის 7, 5, 6, 8, 9, 10), ე.ი. 6 შევა P და ა.შ. შედეგად, P = 29 და ფორმულების გამოყენებით გვაქვს:

Xწოდება X, d xწოდება Y, d y
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


გამარტივებული ფორმულებით:


იმისათვის, რომ შევამოწმოთ ნულოვანი ჰიპოთეზა კენდალის ზოგადი რანგის კორელაციის კოეფიციენტის ნულთან ტოლობის შესახებ მნიშვნელოვნების დონეზე α კონკურენტი ჰიპოთეზა H 1: τ ≠ 0, აუცილებელია კრიტიკული წერტილის გამოთვლა:

სადაც n არის ნიმუშის ზომა; z kp არის ორმხრივი კრიტიკული რეგიონის კრიტიკული წერტილი, რომელიც გვხვდება ლაპლასის ფუნქციის ცხრილიდან Ф (z kp) = (1 - α) / 2 ტოლობით.
თუ | t | T kp - ნულოვანი ჰიპოთეზა უარყოფილია. ხარისხობრივ მახასიათებლებს შორის მნიშვნელოვანი რანგის კორელაციაა.
იპოვეთ კრიტიკული წერტილი z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0.05) / 2 = 0.475
ლაპლასის ცხრილის გამოყენებით ვპოულობთ z kp = 1.96
მოდი ვიპოვოთ კრიტიკული წერტილი:

ვინაიდან τ

კენდალის კორელაციის კოეფიციენტი გამოიყენება, როდესაც ცვლადები წარმოდგენილია ორი რიგითი სკალებით, იმ პირობით, რომ არ არსებობს ასოცირებული რიგები. კენდალის კოეფიციენტის გამოთვლა გულისხმობს მატჩების რაოდენობის დათვლას და ინვერსიებს. განვიხილოთ ეს პროცედურა წინა დავალების მაგალითის გამოყენებით.

პრობლემის გადაჭრის ალგორითმი შემდეგია:

    ჩვენ ხელახლა აღვრიცხავთ მონაცემებს ცხრილში. 8.5 ისე, რომ ერთ-ერთი მწკრივი (ამ შემთხვევაში მწკრივი xი) რეიტინგული აღმოჩნდა. სხვა სიტყვებით რომ ვთქვათ, ჩვენ ვაწყობთ წყვილებს xდა სწორი თანმიმდევრობით და ჩვენ შევიყვანთ მონაცემებს ცხრილის 1 და 2 სვეტებში. 8.6.

ცხრილი 8.6

x მე

მე

2. დაადგინეთ მე-2 რიგის „რეიტინგის ხარისხი“ ( მე). ეს პროცედურა ტარდება შემდეგი თანმიმდევრობით:

ა) ვიღებთ არარეიტინგული მწკრივის პირველ მნიშვნელობას „3“. წოდებების რაოდენობის გამოთვლა ქვევითმოცემული ნომერი, რომელიც მეტიშესადარებელი ღირებულება. არსებობს 9 ასეთი მნიშვნელობა (ნომრები 6, 7, 4, 9, 5, 11, 8, 12 და 10). ჩვენ ვწერთ რიცხვს 9 სვეტში "მატჩები". შემდეგ ჩვენ ვითვლით მნიშვნელობების რაოდენობას უფრო პატარასამი. არსებობს 2 ასეთი მნიშვნელობა (რანგი 1 და 2); დაამატეთ ნომერი 2 "ინვერსიის" სვეტს.

ბ) გადააგდეთ ნომერი 3 (ჩვენ უკვე ვიმუშავეთ მასთან) და გაიმეორეთ პროცედურა შემდეგი მნიშვნელობისთვის "6": შესატყვისების რაოდენობაა 6 (რიგები 7, 9, 11, 8, 12 და 10), ინვერსიები არის 4 (რიგები 1, 2, 4 და 5). "დამთხვევების" სვეტში ვწერთ რიცხვს 6, ხოლო სვეტში "ინვერსიების" რიცხვს 4.

გ) ანალოგიურად, პროცედურა მეორდება რიგის ბოლომდე; უნდა გვახსოვდეს, რომ ყოველი "შემუშავებული" მნიშვნელობა გამორიცხულია შემდგომი განხილვისგან (ითვლია მხოლოდ ის რიგები, რომლებიც ამ რიცხვის ქვემოთაა).

შენიშვნა

იმისათვის, რომ არ დავუშვათ შეცდომები გამოთვლებში, გასათვალისწინებელია, რომ ყოველ „ნაბიჯზე“ დამთხვევებისა და ინვერსიების ჯამი ერთით მცირდება; ეს გასაგებია, თუ გავითვალისწინებთ, რომ ყოველ ჯერზე ერთი მნიშვნელობა გამორიცხულია განხილვისგან.

3. გამოითვლება მატჩების ჯამი (R)და ინვერსიების ჯამი (Q); მონაცემები შეყვანილია კენდალის კოეფიციენტის ერთ და სამ ურთიერთშემცვლელ ფორმულებში (8.10). შესაბამისი გამოთვლები ტარდება.

(8.10)

ჩვენს შემთხვევაში:

მაგიდა XIV დანართები არის კოეფიციენტის კრიტიკული მნიშვნელობები მოცემული ნიმუშისთვის: τ cr. = 0,45; 0.59. ემპირიულად მიღებული მნიშვნელობა შედარებულია ცხრილის მნიშვნელობასთან.

გამომავალი

τ = 0,55> τ კრ. = 0.45. კორელაცია სტატისტიკურად მნიშვნელოვანია 1 დონისთვის.

შენიშვნა:

საჭიროების შემთხვევაში (მაგალითად, კრიტიკული მნიშვნელობების ცხრილის არარსებობის შემთხვევაში) სტატისტიკური მნიშვნელობა კენდალის დადგენა შესაძლებელია შემდეგი ფორმულით:

(8.11)

სადაც S * = P - Q+ 1 თუ პ< Q , და S * = P - Q - 1 თუ P> Q.

ღირებულებები შესაბამისი მნიშვნელოვნების დონე შეესაბამება პირსონის ზომას და გვხვდება შესაბამისი ცხრილების მიხედვით (არ შედის დანართში. სტანდარტული მნიშვნელოვნების დონეებისთვის cr = 1.96 (β 1 = 0.95-ისთვის) და 2.58 (β 2 = 0.99-ისთვის). კენდალის კორელაციის კოეფიციენტი სტატისტიკურად მნიშვნელოვანია თუ > კრ

ჩვენს შემთხვევაში S * = P - Q- 1 = 35 და = 2.40, ანუ დადასტურებულია საწყისი დასკვნა: ნიშანთა შორის კორელაცია სტატისტიკურად მნიშვნელოვანია მნიშვნელოვნების 1-ლი დონისთვის.

ნორმალურობის დაშვებაზე დაფუძნებული კრიტერიუმების გამოყენების შეზღუდვის ერთ-ერთი ფაქტორი არის შერჩევის ზომა. სანამ ნიმუში საკმარისად დიდია (მაგალითად, 100 ან მეტი დაკვირვება), შეგიძლიათ ვივარაუდოთ, რომ ნიმუშის განაწილება ნორმალურია, მაშინაც კი, თუ არ ხართ დარწმუნებული, რომ ცვლადის განაწილება პოპულაციაში ნორმალურია. თუმცა, თუ ნიმუში მცირეა, ეს კრიტერიუმები უნდა იქნას გამოყენებული მხოლოდ იმ შემთხვევაში, თუ არსებობს დარწმუნებული, რომ ცვლადი მართლაც ნორმალურად არის განაწილებული. თუმცა, არ არსებობს გზა ამ ვარაუდის მცირე ნიმუშში შესამოწმებლად.

ნორმალურობის დაშვებაზე დაფუძნებული კრიტერიუმების გამოყენება ასევე შემოიფარგლება გაზომვების მასშტაბით (იხ. თავი მონაცემთა ანალიზის ძირითადი ცნებები). სტატისტიკური მეთოდები, როგორიცაა t-ტესტი, რეგრესია და ა.შ. ვარაუდობენ, რომ თავდაპირველი მონაცემები უწყვეტია. თუმცა, არის სიტუაციები, როდესაც მონაცემები უბრალოდ ფასდება (იზომება რიგითი მასშტაბით) და არა ზუსტად.

ტიპიური მაგალითია ინტერნეტში საიტების რეიტინგები: პირველ პოზიციას იკავებს საიტი ვიზიტორთა მაქსიმალური რაოდენობით, მეორე ადგილს იკავებს საიტი ვიზიტორთა მაქსიმალური რაოდენობით დარჩენილ საიტებს შორის (საიტებს შორის საიდანაც პირველი საიტია ამოღებული) და ა.შ. რეიტინგების ცოდნით, შეგვიძლია ვთქვათ, რომ ერთი საიტის ვიზიტორთა რაოდენობა მეტია, ვიდრე მეორეზე, მაგრამ კიდევ რამდენის თქმა შეუძლებელია. წარმოიდგინეთ, რომ გაქვთ 5 საიტი: A, B, C, D, E, რომლებიც ტოპ 5 ადგილზე არიან. დავუშვათ, რომ მიმდინარე თვეში გვქონდა შემდეგი მოწყობა: A, B, C, D, E და წინა თვეში: D, E, A, B, C. საკითხავია, მნიშვნელოვანი ცვლილებები მოხდა საიტის რეიტინგებში. თუ არა? ამ სიტუაციაში, ცხადია, ჩვენ არ შეგვიძლია გამოვიყენოთ t-ტესტი მონაცემთა ამ ორი ჯგუფის შესადარებლად და გადავიდეთ კონკრეტული ალბათობის გამოთვლების არეალზე (და ნებისმიერი სტატისტიკური კრიტერიუმი შეიცავს ალბათურ გამოთვლას!). ჩვენ ასე ვმსჯელობთ: რამდენად სავარაუდოა, რომ საიტის ორ განლაგებაში განსხვავება გამოწვეულია წმინდა შემთხვევითი მიზეზებით, ან რომ განსხვავება ძალიან დიდია და არ შეიძლება აიხსნას სუფთა შემთხვევით. ამ მსჯელობაში ჩვენ ვიყენებთ მხოლოდ საიტების წოდებებს ან პერმუტაციებს და არანაირად არ ვიყენებთ მათზე ვიზიტორთა რაოდენობის განაწილების კონკრეტულ ფორმას.

მცირე ნიმუშების ანალიზისთვის და ცუდი მასშტაბებით გაზომილი მონაცემებისთვის გამოიყენება არაპარამეტრული მეთოდები.

არაპარამეტრული პროცედურების სწრაფი ტური

არსებითად, ყველა პარამეტრული კრიტერიუმისთვის არის მინიმუმ ერთი არაპარამეტრული ალტერნატივა.

ზოგადად, ეს პროცედურები იყოფა ერთ-ერთ შემდეგ კატეგორიად:

  • დამოუკიდებელი ნიმუშების განმასხვავებელი კრიტერიუმები;
  • დამოკიდებული ნიმუშების განმასხვავებელი კრიტერიუმები;
  • ცვლადებს შორის დამოკიდებულების ხარისხის შეფასება.

ზოგადად, სტატისტიკური კრიტერიუმებისადმი მიდგომა მონაცემთა ანალიზის დროს უნდა იყოს პრაგმატული და არ იყოს დატვირთული ზედმეტი თეორიული მსჯელობით. თქვენს განკარგულებაში არსებული STATISTICA კომპიუტერით, შეგიძლიათ მარტივად გამოიყენოთ რამდენიმე კრიტერიუმი თქვენს მონაცემებზე. იცოდეთ მეთოდების ზოგიერთი ნაკლის შესახებ, თქვენ აირჩევთ სწორ გადაწყვეტას ექსპერიმენტების გზით. ნაკვეთის განვითარება საკმაოდ ბუნებრივია: თუ საჭიროა ორი ცვლადის მნიშვნელობების შედარება, მაშინ იყენებთ t-ტესტს. თუმცა, უნდა გვახსოვდეს, რომ იგი ემყარება თითოეულ ჯგუფში ნორმალურობის და დისპერსიების თანასწორობის დაშვებას. ამ დაშვებებისგან თავის დაღწევა იწვევს არაპარამეტრულ ტესტებს, რომლებიც განსაკუთრებით სასარგებლოა მცირე ნიმუშებისთვის.

t-ტესტის შემუშავება იწვევს დისპერსიის ანალიზს, რომელიც გამოიყენება მაშინ, როდესაც შედარებული ჯგუფების რაოდენობა ორზე მეტია. არაპარამეტრული პროცედურების შესაბამისი განვითარება იწვევს დისპერსიის არაპარამეტრულ ანალიზს, თუმცა ის მნიშვნელოვნად ღარიბია ვიდრე კლასიკური დისპერსიის ანალიზი.

დამოკიდებულების შესაფასებლად, ან, გარკვეულწილად პომპეზურად რომ ვთქვათ, კავშირის სიმჭიდროვის ხარისხის შესაფასებლად, გამოითვლება პირსონის კორელაციის კოეფიციენტი. მკაცრად რომ ვთქვათ, მის გამოყენებას აქვს შეზღუდვები, რომლებიც დაკავშირებულია, მაგალითად, მასშტაბის ტიპთან, რომლითაც ხდება მონაცემების გაზომვა და დამოკიდებულების არაწრფივიობა; ამიტომ, ალტერნატიულად, ასევე გამოიყენება არაპარამეტრული, ან ე.წ. რანგის, კორელაციის კოეფიციენტები, რომლებიც გამოიყენება, მაგალითად, რანჟირებული მონაცემებისთვის. თუ მონაცემები იზომება ნომინალურ შკალაზე, მაშინ ბუნებრივია მათი წარდგენა შემთხვევითობის ცხრილებში, რომლებიც იყენებენ პირსონის ჩი-კვადრატის ტესტს სხვადასხვა ვარიაციით და სიზუსტისთვის.

ასე რომ, არსებითად, არსებობს მხოლოდ რამდენიმე ტიპის კრიტერიუმი და პროცედურა, რომელიც უნდა იცოდეთ და შეგეძლოთ გამოიყენოთ მონაცემების სპეციფიკიდან გამომდინარე. თქვენ უნდა განსაზღვროთ რომელი კრიტერიუმი უნდა იქნას გამოყენებული კონკრეტულ სიტუაციაში.

არაპარამეტრული მეთოდები ყველაზე შესაფერისია, როდესაც ნიმუშის ზომები მცირეა. თუ ბევრი მონაცემია (მაგალითად, n> 100), ხშირად აზრი არ აქვს არაპარამეტრული სტატისტიკის გამოყენებას.

თუ ნიმუშის ზომა ძალიან მცირეა (მაგალითად, n = 10 ან ნაკლები), მაშინ მნიშვნელოვნების დონეები იმ არაპარამეტრული ტესტებისთვის, რომლებიც იყენებენ ნორმალურ მიახლოებას, შეიძლება ჩაითვალოს მხოლოდ უხეშ შეფასებებად.

განსხვავებები დამოუკიდებელ ჯგუფებს შორის... თუ არსებობს ორი ნიმუში (მაგალითად, მამაკაცები და ქალები), რომლებიც უნდა შევადაროთ ზოგიერთ საშუალო მნიშვნელობას, მაგალითად, საშუალო წნევას ან სისხლში ლეიკოციტების რაოდენობას, მაშინ t-ტესტი შეიძლება გამოყენებულ იქნას დამოუკიდებელისთვის. ნიმუშები.

ამ ტესტის არაპარამეტრული ალტერნატივები არის Val'd-Wolfowitz, Mann-Whitney სერიის კრიტერიუმი) / n, სადაც x i არის i-ე მნიშვნელობა, n არის დაკვირვების რაოდენობა. თუ ცვლადი შეიცავს უარყოფით მნიშვნელობებს ან ნულს (0), გეომეტრიული საშუალო ვერ გამოითვლება.

ჰარმონიული საშუალო

ჰარმონიული საშუალო ზოგჯერ გამოიყენება საშუალო სიხშირეებისთვის. ჰარმონიული საშუალო გამოითვლება ფორმულით: ГС = n / S (1 / x i) სადაც ГС არის ჰარმონიული საშუალო, n არის დაკვირვებების რაოდენობა, х i არის დაკვირვების მნიშვნელობა i რიცხვით. თუ ცვლადი შეიცავს ნულს (0), ჰარმონიული საშუალო ვერ გამოითვლება.

დისპერსია და სტანდარტული გადახრა

ნიმუშის ვარიაცია და სტანდარტული გადახრა არის მონაცემების ცვალებადობის (ვარიაციის) ყველაზე ხშირად გამოყენებული საზომები. ვარიაცია გამოითვლება, როგორც ცვლადის მნიშვნელობების გადახრების კვადრატების ჯამი ნიმუშის საშუალოდან, გაყოფილი n-1-ზე (მაგრამ არა n-ზე). სტანდარტული გადახრა გამოითვლება დისპერსიის შეფასების კვადრატული ფესვით.

საქანელა

ცვლადის დიაპაზონი არის არასტაბილურობის ინდიკატორი, რომელიც გამოითვლება მაქსიმუმს გამოკლებული მინიმუმი.

კვარტილის ფარგლები

კვარტალური დიაპაზონი, განსაზღვრებით, არის: ზედა კვარტლი მინუს ქვედა კვარტლი (75% პროცენტული მინუს 25% პროცენტული). ვინაიდან 75% პროცენტული (ზედა კვარტლი) არის მნიშვნელობა მარცხნივ, საიდანაც განლაგებულია შემთხვევების 75%, და 25% პროცენტული (ქვედა კვარტლი) არის მნიშვნელობა მარცხნივ, რომლის მარცხნივ განლაგებულია შემთხვევების 25%, კვარტლი დიაპაზონი არის შუალედური შუალედი, რომელიც შეიცავს შემთხვევების 50%-ს (ცვლადი მნიშვნელობები).

ასიმეტრია

ასიმეტრია არის განაწილების ფორმის მახასიათებელი. განაწილება გადახრილია მარცხნივ, თუ დახრის მნიშვნელობა უარყოფითია. განაწილება გადახრილია მარჯვნივ, თუ ასიმეტრია დადებითია. სტანდარტული ნორმალური განაწილების დახრილობა არის 0. დახრილობა დაკავშირებულია მესამე მომენტთან და განისაზღვრება როგორც: დახრილობა = n × M 3 / [(n-1) × (n-2) × s 3], სადაც M 3 არის: (xi -x ნიშნავს x) 3, s 3 არის სტანდარტული გადახრა ამაღლებული მესამე ხარისხზე, n არის დაკვირვებების რაოდენობა.

Ჭარბი

კურტოზი არის განაწილების ფორმის მახასიათებელი, კერძოდ, მისი პიკის სიმძიმის საზომი (ნორმალურ განაწილებასთან შედარებით, რომლის ქურტოზი 0-ის ტოლია). როგორც წესი, ნორმაზე მკვეთრი მწვერვალის მქონე დისტრიბუციებს აქვთ დადებითი ქურთოზი; დისტრიბუციებს, რომელთა პიკი უფრო ნაკლებია, ვიდრე ნორმალური განაწილების პიკი, აქვთ უარყოფითი ქურთოზი. ჭარბი ასოცირდება მეოთხე მომენტთან და განისაზღვრება ფორმულით:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], სადაც M j არის: (xx ნიშნავს x, s 4 არის სტანდარტული გადახრა მეოთხე ხარისხზე, n არის დაკვირვებების რაოდენობა...