Sıra korelasyonu ve Kendall'ın sıra korelasyon katsayısı. Kendall'ın ve Spearman'ın sıra korelasyon katsayıları Kendall'ın korelasyon katsayısı formülü

KENDALLA SIRA KORELASYON KATSAYISI

İki rastgele değişkenin (özellik) bağımlılığının örnek ölçümlerinden biri X ve Y,örnek öğelerin sıralamasına göre (X 1, Yx), .. ., (Xn, Yn). K. ila R. bu nedenle, şuna atıfta bulunur: rütbe istatistikçileri ve formül tarafından belirlenir

nerede ri- U o çifte ait ( X, Y), bir Xraven sürüsü için ben, S = 2N- (n-1) / 2, N, aynı anda j> i ve r j> r ben... Her zaman Bağımlılığın seçici bir ölçüsü olarak To. To. R. to., M. Kendall tarafından yaygın olarak kullanılmıştır (M. Kendall, bkz.).

K. ila R. K., rastgele değişkenlerin bağımsızlığı hipotezini test etmek için kullanılır. Bağımsızlık hipotezi doğruysa, E t = 0 ve D t = 2 (2n + 5) / 9n (n-1). Küçük bir örneklem büyüklüğü ile kontrol istatistikseldir. bağımsızlık hipotezi özel tablolar kullanılarak yapılır (bkz.). n> 10 için, m'nin dağılımı için normal yaklaşım kullanılır:

daha sonra bağımsızlık hipotezi reddedilir, aksi takdirde kabul edilir. Burada bir . - anlamlılık düzeyi, u a / 2, normal dağılımın yüzde noktasıdır. K. ila R. Çünkü, diğerleri gibi, sadece numunenin elemanları bu özelliklere göre sıralanabiliyorsa, iki nitel özelliğin bağımlılığını tespit etmek için kullanılabilir. Eğer X, Y p korelasyon katsayısı ile ortak bir normale sahip olmak, ardından K. ila p arasındaki ilişki. ve forma sahiptir:

Ayrıca bakınız Spearman's rank korelasyon, Rank testi.

Aydınlatılmış.: Kendal M., Sıra bağıntıları, çev. İngilizceden., M., 1975; Van der Waerden B.L., Matematiksel, çev. ondan., M., 1960; Bol'shev L.N., Smirnov N.V., Matematiksel istatistik tabloları, Moskova, 1965.

A.V. Prohorov.


Matematik Ansiklopedisi. - M.: Sovyet ansiklopedisi... I.M. Vinogradov. 1977-1985.

Diğer sözlüklerde "KENDALLA RANK CORRELATION COEFFICIENT" in ne olduğuna bakın:

    İngilizce. с verimli, sıra korelasyonu Kendall; Almanca Kendalls Rangkorrelationskoye verimli. İki değişkendeki tüm nesne çiftlerinin sırasının yazışma derecesini belirleyen korelasyon katsayısı. Antinazi. Sosyoloji Ansiklopedisi, 2009 ... Sosyoloji Ansiklopedisi

    KENDALL'IN SIRALAMA KORELASYON KATSAYISI- İngilizce. verimli, sıra korelasyonu Kendall; Almanca Kendalls Rangkorrelationskoye verimli. İki değişkendeki tüm nesne çiftlerinin sırasının yazışma derecesini belirleyen korelasyon katsayısı ... Açıklayıcı Sosyoloji Sözlüğü

    Bağımsız gözlem sonuçlarının (X1, Y1) sıralamasına dayalı olarak iki rastgele değişkenin (özellik) X ve Y'nin bağımlılığının bir ölçüsü. ... ., (Xn, Yn). X değerlerinin sıraları doğal sırada yer alıyorsa i = 1,. ... ., n ve Ri, Y rütbesine karşılık gelen ... ... matematik ansiklopedisi

    Korelasyon katsayısı- (Korelasyon katsayısı) Korelasyon katsayısı, iki rastgele değişkenin bağımlılığının istatistiksel bir göstergesidir.Korelasyon katsayısının belirlenmesi, korelasyon katsayılarının türleri, korelasyon katsayısının özellikleri, hesaplama ve uygulama ... ... yatırımcı ansiklopedisi

    Genel olarak konuşursak, kesinlikle işlevsel olmayan rastgele değişkenler arasındaki ilişki. Fonksiyonel bağımlılığın aksine, K., bir kural olarak, niceliklerden birinin yalnızca buna değil, aynı zamanda ... ... matematik ansiklopedisi

    Korelasyon (korelasyon bağımlılığı), iki veya daha fazla rastgele değişkenin (veya kabul edilebilir bir doğruluk derecesi ile bu şekilde kabul edilebilecek miktarların) istatistiksel bir ilişkisidir. Bu durumda, bir veya ... ... Wikipedia değerindeki değişiklikler

    korelasyon- (Korelasyon) Korelasyon, iki veya daha fazla rastgele değişkenin istatistiksel bir ilişkisidir.Korelasyon kavramı, korelasyon türleri, korelasyon katsayısı, korelasyon analizi, fiyat korelasyonu, Forex'teki döviz çiftlerinin korelasyonu İçerikler ... ... yatırımcı ansiklopedisi

    S. m.yy. başlarında olduğu genel olarak kabul edilmektedir. ya da sık sık denildiği gibi, "küçük n" istatistikleri, XX yüzyılın ilk on yılında, W. Gosset'in t dağılımını yerleştirdiği çalışmasının yayınlanmasıyla konulmuştur. dünya biraz sonra... ... psikolojik ansiklopedi

    Maurice Kendall Sir Maurice George Kendall Doğum tarihi: 6 Eylül 1907 (1907 09 06) Doğum yeri: Kettering, Birleşik Krallık Ölüm tarihi ... Wikipedia

    Tahmin etmek- (Tahmin) Tahminin tanımı, tahminin görevleri ve ilkeleri Tahminin tanımı, tahminin görevleri ve ilkeleri, tahmin yöntemleri İçindekiler İçerik Tanım Tahminin temel kavramları Tahminin görevleri ve ilkeleri ... ... yatırımcı ansiklopedisi

Uzman değerlendirmelerinin sunulması ve ön işleme tabi tutulması

Uygulamada, çeşitli değerlendirme türleri kullanılır:

- yüksek kaliteli (sıklıkla-nadiren, daha kötü-daha iyi, evet-hayır),

- ölçek tahminleri (50-75, 76-90, 91-120 vb. değer aralıkları),

Belirli bir aralıktan puan (2'den 5'e, 1 -10), karşılıklı olarak bağımsız,

Dereceli (nesneler bir uzman tarafından belirli bir sırayla düzenlenir ve her birine bir seri numarası atanır - rütbe),

Karşılaştırmalı, karşılaştırma yöntemlerinden biri ile elde edilen

sıralı karşılaştırma yöntemi

faktörlerin ikili karşılaştırma yöntemi.

Uzman görüşlerinin işlenmesinin bir sonraki aşamasında, Bu görüşlerin tutarlılık derecesi.

Uzmanlardan elde edilen tahminler, dağılımı, belirli bir olayın (faktör) olasılığı hakkında uzmanların görüşlerini yansıtan rastgele bir değişken olarak kabul edilebilir. Bu nedenle, uzman tahminlerinin dağılımını ve tutarlılığını analiz etmek için genelleştirilmiş istatistiksel özellikler kullanılır - ortalamalar ve dağılım ölçümleri:

Ortalama kare hatası,

Varyasyon aralığı min - maks,

- varyasyon katsayısı V = ortalama kare sapma / ortalama aritme. (her türlü değerlendirme için uygundur)

V ben = σ ben / x ben ortalama

oran için benzerlik ölçüleri ama görüşler her bir uzman çiftiçeşitli yöntemler kullanılabilir:

ilişki katsayıları, eşleşen ve eşleşmeyen cevapların sayısının dikkate alındığı,

tutarsızlık katsayıları uzman görüşleri,

Tüm bu ölçümler, ya iki uzmanın görüşlerini karşılaştırmak için ya da bir dizi değerlendirme arasındaki ilişkiyi iki zeminde analiz etmek için kullanılabilir.

Spearman'ın çift sıra korelasyon katsayısı:

burada n uzman sayısıdır,

c k - tüm T faktörleri için i-th ve j-th uzmanlarının tahminleri arasındaki fark

Kendall'ın sıra korelasyon katsayısı (uyum katsayısı), tüm uzmanların tüm faktörler hakkındaki görüşlerinin tutarlılığının genel bir değerlendirmesini verir, ancak yalnızca sıralama tahminlerinin kullanıldığı durumlar için.

Tüm uzmanlar tüm faktörler için aynı tahminleri verdiğinde S değerinin maksimum değerine eşit olduğu kanıtlanmıştır.

n faktör sayısıdır,

m uzman sayısıdır.

Uyum katsayısı orana eşittir

ayrıca, eğer W 1'e yakınsa, o zaman tüm uzmanlar yeterince tutarlı tahminler vermiştir, aksi takdirde görüşleri üzerinde anlaşmaya varılmaz.

S hesaplama formülü aşağıda gösterilmiştir:

burada r ij, j-inci uzman tarafından i-inci faktörün sıra tahminleridir,

r cf, tüm tahmin matrisi üzerindeki ortalama sıralamadır ve şuna eşittir:

Bu nedenle S'yi hesaplama formülü şu şekilde olabilir:

Bir uzmanın bireysel değerlendirmeleri çakışıyorsa ve bunlar işleme sırasında standartlaştırıldıysa, uyum katsayısını hesaplamak için farklı bir formül kullanılır:



burada T j, aşağıdaki kurallara göre tekrarlar dikkate alınarak (farklı nesneler için değerlendirmelerinin tekrarlanması durumunda) her uzman için hesaplanır:

burada t j, j'inci uzman için eşit sıradaki grupların sayısıdır ve

h k - j-inci uzmanın ilgili sıralarının k-inci grubundaki eşit sıraların sayısı.

ÖRNEK. Tablo 3'te gösterildiği gibi sıralamada altı faktöre ilişkin 5 uzmanın yanıt vermesine izin verin:

Tablo 3 - Uzmanların Cevapları

uzmanlar О1 О2 O3 О4 O5 O6 Uzmana göre rütbe toplamı
E1
E2
E3
E 4
E5

Kesin bir sıralama elde edilemediği için (uzmanların değerlendirmeleri tekrarlanır ve sıra toplamları eşit değildir), tahminleri dönüştürerek ilgili sıraları elde edeceğiz (Tablo 4):

Tablo 4 - Uzman değerlendirmelerinin ilgili sıraları

uzmanlar О1 О2 O3 О4 O5 O6 Uzmana göre rütbe toplamı
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E 4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Nesnenin saflarının toplamı 7,5 9,5 23,5 29,5

Şimdi uyum katsayısını kullanarak uzman görüşlerinin tutarlılık derecesini belirleyelim. Sıralar ilişkili olduğu için W'yi (**) formülü ile hesaplayacağız.

O zaman r cf = 7 * 5/2 = 17.5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384.5

W'nin hesaplamalarına geçelim. Bunun için T j'nin değerlerini ayrı ayrı hesaplıyoruz. Örnekte, değerlendirmeler, her bir uzmanın tekrarlanan değerlendirmeleri olacak şekilde özel olarak seçilmiştir: ilki iki, ikincisi üç, üçüncüsü ikişerli derecelendirme grubu ve dördüncüsü iki aynı derecelendirmeye sahiptir. Buradan:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Uzmanların görüşlerinin mutabakatının oldukça yüksek olduğunu görüyoruz ve çalışmanın bir sonraki aşamasına geçebiliriz - uzmanlar tarafından önerilen kararın alternatifinin doğrulanması ve benimsenmesi.

Aksi takdirde, 4-8 arasındaki adımlara geri dönmeniz gerekir.

Sıra korelasyon katsayısı doğrusal olmayan bağımlılığın genel doğasını karakterize eder: birinci faktörde bir artış ile etkili özellikte bir artış veya azalma. Bu, monotonik doğrusal olmayan bir ilişkinin sıkılığının bir göstergesidir.

Hizmet amacı... Bu çevrimiçi hesap makinesi Kendall'ın sıra korelasyon katsayısı tüm temel formüllere ve öneminin bir değerlendirmesine göre.

Talimat. Veri miktarını belirtin (satır sayısı). Ortaya çıkan çözüm bir Word dosyasına kaydedilir.

Kendall tarafından önerilen katsayı, geçerliliği ölçekler oluşturulurken kurulan "çok-az" türündeki ilişkiler temelinde oluşturulmuştur.
Birkaç nesne seçelim ve sıralarını bir nitelik ve diğerinde karşılaştıralım. Bu kritere göre, sıralar doğrudan bir sıra oluşturuyorsa (yani doğal serinin sırası), o zaman çifte +1, tersi ise –1 atanır. Seçilen çift için karşılık gelen artı - eksi birimleri (X niteliğine göre ve Y niteliğine göre) çarpılır. Sonuç açıkça +1'dir; her iki özelliğin bir çiftinin sıraları aynı sırada yer alıyorsa ve tersi ise –1.
Her iki kritere göre tüm çiftler için sıra sıraları aynıysa, tüm nesne çiftlerine atanan birimlerin toplamı maksimumdur ve çiftlerin sayısına eşittir. Tüm çiftlerin sıra sıraları tersine çevrilirse, o zaman –C 2 N. Genel durumda, C 2 N = P + Q, burada P pozitiflerin sayısıdır ve Q, her iki kriter için sıralarını karşılaştırırken çiftlere atanan negatiflerin sayısıdır.
Miktar Kendall katsayısı olarak adlandırılır.
Formülden, τ katsayısının, her iki kriterde de (tüm çiftlerin sayısına göre) sıranın aynı olduğu nesne çiftlerinin oranı ile içinde bulunduğu nesne çiftlerinin oranı arasındaki fark olduğu görülebilir. sıralama aynı değil.
Örneğin, 0.60 katsayı değeri, çiftlerin %80'inin aynı nesne sırasına sahip olduğu, %20'sinin ise olmadığı (%80 + %20 = %100; 0.80 - 0.20 = 0.60) anlamına gelir. Şunlar. τ, rastgele seçilen bir nesne çifti için her iki işaretteki sıraların çakışma ve çakışmama olasılıkları arasındaki fark olarak yorumlanabilir.
Genel durumda, 10 mertebesindeki N için bile τ (daha kesin olarak P veya Q) hesaplamasının zahmetli olduğu ortaya çıkıyor.
Hesaplamaların nasıl basitleştirileceğini gösterelim.


Bir örnek. 2003 yılında Rusya Federasyonu'nun federal bölgelerinden birinin 10 bölgesinde endüstriyel üretim hacmi ile sabit varlıklara yatırım arasındaki ilişki aşağıdaki verilerle karakterize edilir:


Spearman ve Kendal sıralama korelasyon katsayılarını hesaplayın. Önemlerini α = 0.05'te kontrol edin. Rusya Federasyonu'nun söz konusu bölgelerindeki endüstriyel üretim hacmi ile sabit varlıklara yapılan yatırım arasındaki ilişki hakkında bir sonuç formüle edin.

Çözüm... Y özniteliğine ve X faktörüne dereceler atayalım.


Verileri X'e göre sıralayalım.
3'ün sağındaki Y satırında 3'ü aşan 7 sıra vardır, bu nedenle 3, P'de 7 terimi üretecektir.
1'in sağında 1'i aşan 8 sıra vardır (bunlar 2, 4, 6, 9, 5, 10, 7, 8'dir), yani. 8, P'ye girecek, vb. Sonuç olarak, Р = 37 ve sahip olduğumuz formülleri kullanarak:

xYsıra X, dxSıra Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Basitleştirilmiş formüllerle:




n, numune boyutudur; z kp, Laplace fonksiyonunun tablosundan Ф (z kp) = (1-α) / 2 eşitliği ile bulunan ikili kritik bölgenin kritik noktasıdır.
Eğer |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - boş hipotez reddedilir. Nitel özellikler arasında önemli bir sıralama korelasyonu vardır.
Kritik noktayı bulun z kp
Ф (z kp) = (1-α) / 2 = (1 - 0.05) / 2 = 0.475

Kritik noktayı bulalım:

τ> T kp - olduğundan, boş hipotezi reddediyoruz; iki testteki puanlar arasındaki sıralama korelasyonu önemlidir.

Bir örnek. Kendi başımıza gerçekleştirilen inşaat ve montaj işlerinin hacmine ve Rusya Federasyonu şehirlerinden birindeki 10 inşaat şirketindeki çalışan sayısına ilişkin verilere dayanarak, Kendal katsayısını kullanarak bu işaretler arasındaki ilişkiyi belirleyin.

Çözüm hesap makinesi ile bulun.
Y özniteliğine ve X faktörüne dereceler atayalım.
Nesneleri, X sıraları doğal bir diziyi temsil edecek şekilde düzenleyelim. Bu serinin her bir çiftine atanan tahminler pozitif olduğundan, P'ye dahil edilen "+1" değerleri yalnızca Y'deki sıraları doğrudan bir sıra oluşturan çiftler tarafından üretilecektir.
Y satırındaki her nesnenin sırasını çelik olanlarla sırayla karşılaştırarak hesaplamaları kolaydır.
Kendall katsayısı.

Genel durumda, 10 mertebesindeki N için bile τ (daha kesin olarak P veya Q) hesaplamasının zahmetli olduğu ortaya çıkıyor. Hesaplamaların nasıl basitleştirileceğini gösterelim.

veya

Çözüm.
Verileri X'e göre sıralayalım.
2'nin sağındaki Y satırında 2'yi aşan 8 sıra vardır, bu nedenle 2, P'de 8 terimi üretecektir.
4'ün sağında 4'ü aşan 6 sıra vardır (bunlar 7, 5, 6, 8, 9, 10'dur), yani. 6 P girecek, vb. Sonuç olarak, P = 29 ve sahip olduğumuz formülleri kullanarak:

xYsıra X, dxSıra Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Basitleştirilmiş formüllerle:


Kendall'ın genel sıra korelasyon katsayısının α anlamlılık düzeyinde sıfıra eşitliğine ilişkin sıfır hipotezini rakip bir hipotez H 1: τ ≠ 0 ile test etmek için kritik noktayı hesaplamak gerekir:

n, numune boyutudur; z kp, Laplace fonksiyonunun tablosundan Ф (z kp) = (1 - α) / 2 eşitliği ile bulunan iki taraflı kritik bölgenin kritik noktasıdır.
Eğer | T kp - boş hipotez reddedilir. Nitel özellikler arasında önemli bir sıralama korelasyonu vardır.
Kritik noktayı bulun z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0.05) / 2 = 0.475
Laplace tablosunu kullanarak z kp = 1,96 buluyoruz.
Kritik noktayı bulalım:

τ'dan beri

Kendall'ın korelasyon katsayısı, değişkenler iki sıralı ölçekle temsil edildiğinde, ilişkili sıra olmaması koşuluyla kullanılır. Kendall katsayısının hesaplanması, eşleşme ve ters çevirme sayısını saymayı içerir. Bu prosedürü önceki görev örneğini kullanarak ele alalım.

Sorunu çözmek için algoritma aşağıdaki gibidir:

    Tablodaki verileri yeniden kaydediyoruz. 8.5 böylece satırlardan biri (bu durumda satır x i) sıralanmış olduğu ortaya çıktı. Başka bir deyişle, çiftleri yeniden düzenleriz x ve y doğru sırada ve verileri tablonun 1. ve 2. sütunlarına giriyoruz. 8.6.

Tablo 8.6

x Bence

y Bence

2. 2. sıranın "sıralama derecesini" belirleyin ( y Bence). Bu prosedür aşağıdaki sırayla gerçekleştirilir:

a) sıralanmamış "3" satırının ilk değerini alıyoruz. Rütbe sayısını hesaplama altında verilen sayı, daha fazla karşılaştırılacak değerdir. Bu tür 9 değer vardır (6, 7, 4, 9, 5, 11, 8, 12 ve 10 sayıları). "Maçlar" sütununa 9 sayısını giriyoruz. Sonra bu değerlerin sayısını sayarız. azüç. Bu tür 2 değer vardır (1. ve 2. sıra); 2 sayısını "inversiyon" sütununa ekleyin.

b) 3 sayısını atın (onunla zaten çalıştık) ve bir sonraki "6" değeri için prosedürü tekrarlayın: eşleşme sayısı 6'dır (sıra 7, 9, 11, 8, 12 ve 10), inversiyonlar 4'tür (sıra 1, 2, 4 ve 5). "Tesadüfler" sütununa 6 sayısını ve "ters çevirmeler" sütununa 4 sayısını giriyoruz.

c) Aynı şekilde sıra sonuna kadar işlem tekrarlanır; her "çalıştırılmış" değerin daha fazla dikkate alınmadığı unutulmamalıdır (yalnızca bu sayının altında kalan sıralar sayılır).

Not

Hesaplamalarda hata yapmamak için, her "adım" ile tesadüflerin ve ters çevirmelerin toplamının bir azaldığı akılda tutulmalıdır; Bu, her seferinde bir değerin dikkate alınmadığını hesaba katarsak anlaşılabilir.

3. Maçların toplamı hesaplanır (R) ve inversiyonların toplamı (Q); veriler, Kendall katsayısı (8.10) için bir ve üç değiştirilebilir formüle girilir. İlgili hesaplamalar yapılır.

T (8.10)

Bizim durumumuzda:

Tablo XIV Ekler, belirli bir örnek için katsayının kritik değerleridir: τ cr. = 0.45; 0,59. Ampirik olarak elde edilen değer, tablo değeri ile karşılaştırılır.

Çözüm

τ = 0,55> τ kr. = 0.45. Korelasyon, seviye 1 için istatistiksel olarak önemlidir.

Not:

Gerekirse (örneğin, kritik değerler tablosunun yokluğunda) istatistiksel anlamlılık T Kendall aşağıdaki formülle belirlenebilir:

(8.11)

nerede S * = P - Q+ 1 ise P< Q , ve S * = P - Q - 1 ise P> S.

Değerler z karşılık gelen anlamlılık düzeyi için Pearson ölçüsüne karşılık gelir ve ilgili tablolara göre bulunur (eke dahil değildir. Standart anlamlılık düzeyleri için z cr = 1,96 (β 1 = 0,95 için) ve 2,58 (β 2 = 0,99 için). Kendall'ın korelasyon katsayısı aşağıdaki durumlarda istatistiksel olarak anlamlıdır: z > z cr

bizim durumumuzda S * = P - Q- 1 = 35 ve z= 2.40, yani ilk sonuç doğrulanır: işaretler arasındaki korelasyon, 1. anlamlılık düzeyi için istatistiksel olarak anlamlıdır.

Normallik varsayımına dayalı kriterlerin uygulanmasını sınırlayan faktörlerden biri de örneklem büyüklüğüdür. Örneklem yeterince büyük olduğu sürece (örneğin, 100 veya daha fazla gözlem), değişkenin popülasyondaki dağılımının normal olduğundan emin olmasanız bile, örnek dağılımının normal olduğunu varsayabilirsiniz. Bununla birlikte, örneklem küçükse, bu kriterler yalnızca değişkenin gerçekten normal dağıldığına dair bir güven varsa kullanılmalıdır. Ancak, bu varsayımı küçük bir örneklem üzerinde test etmenin bir yolu yoktur.

Normallik varsayımına dayalı kriterlerin kullanımı da bir ölçüm ölçeği ile sınırlıdır (bkz. bölüm Temel veri analizi kavramları). t-testi, regresyon vb. gibi istatistiksel yöntemler, orijinal verilerin sürekli olduğunu varsayar. Ancak, verilerin doğru bir şekilde ölçülmek yerine basitçe sıralandığı (sıralı bir ölçekte ölçüldüğü) durumlar vardır.

İnternetteki sitelerin derecelendirmelerine göre tipik bir örnek verilir: ilk sırayı maksimum ziyaretçi sayısına sahip site alır, ikinci sıra kalan siteler arasında (siteler arasında) maksimum ziyaretçi sayısına sahip site tarafından alınır. İlk sitenin kaldırıldığı), vb. Derecelendirmeleri bilerek, bir sitenin ziyaretçi sayısının diğerinin ziyaretçi sayısından daha fazla olduğunu söyleyebiliriz, ancak daha ne kadar olduğunu söylemek imkansız. 5 siteniz olduğunu düşünün: A, B, C, D, E, bunlar ilk 5 yerdedir. Mevcut ayda şu düzenlemeye sahip olduğumuzu varsayalım: A, B, C, D, E ve önceki ayda: D, E, A, B, C. Soru şu ki, site derecelendirmelerinde önemli değişiklikler oldu. ya da değil? Bu durumda, açıkçası, bu iki veri grubunu karşılaştırmak ve belirli olasılık hesaplamaları alanına geçmek için t-testini kullanamayız (ve herhangi bir istatistiksel kriter, olasılıksal bir hesaplama içerir!). Şu şekilde akıl yürütürüz: İki site düzenindeki farkın tamamen rastgele nedenlerden kaynaklanması veya farkın çok büyük olması ve tamamen şans eseri açıklanamaması ne kadar olasıdır. Bu akıl yürütmede, yalnızca sitelerin sıralarını veya permütasyonlarını kullanıyoruz ve hiçbir şekilde sitelere gelen ziyaretçi sayısının belirli bir dağıtım biçimini kullanmıyoruz.

Küçük örneklerin analizi ve zayıf ölçeklerde ölçülen veriler için parametrik olmayan yöntemler kullanılır.

Parametrik olmayan prosedürlere hızlı bir tur

Esasen, her parametrik kriter için en az bir parametrik olmayan alternatif vardır.

Genel olarak, bu prosedürler aşağıdaki kategorilerden birine girer:

  • bağımsız örnekler için ayrım kriterleri;
  • bağımlı örnekler için ayrım kriterleri;
  • değişkenler arasındaki bağımlılık derecesinin değerlendirilmesi.

Genel olarak, veri analizinde istatistiksel kriterlere yaklaşım pragmatik olmalı ve gereksiz teorik muhakeme ile yüklenmemelidir. Bir STATISTICA bilgisayarı emrinizdeyken, verilerinize kolayca birkaç kriter uygulayabilirsiniz. Yöntemlerin bazı tuzaklarını bilerek, deneyler yoluyla doğru çözümü seçeceksiniz. Arsa gelişimi oldukça doğaldır: iki değişkenin değerlerini karşılaştırmanız gerekiyorsa, t-testini kullanırsınız. Ancak her grupta normallik ve varyansların eşitliği varsayımına dayandığı unutulmamalıdır. Bu varsayımlardan kurtulmak, özellikle küçük örnekler için yararlı olan parametrik olmayan testlerle sonuçlanır.

T testinin geliştirilmesi, karşılaştırılan grup sayısı ikiden fazla olduğunda kullanılan varyans analizine yol açar. Parametrik olmayan prosedürlerin karşılık gelen gelişimi, klasik varyans analizinden önemli ölçüde daha zayıf olmasına rağmen, parametrik olmayan bir varyans analizine yol açar.

Bağımlılığı değerlendirmek veya biraz şatafatlı bir şekilde söylemek gerekirse, bağlantının sıkılık derecesini değerlendirmek için Pearson korelasyon katsayısı hesaplanır. Kesin olarak, uygulamasının, örneğin verilerin ölçüldüğü ölçek türü ve bağımlılığın doğrusal olmaması ile ilişkili sınırlamaları vardır; bu nedenle, alternatif olarak, parametrik olmayan veya sıra olarak adlandırılan korelasyon katsayıları da kullanılır; örneğin, sıralanmış veriler için kullanılır. Veriler nominal bir ölçekte ölçülürse, bunları doğruluk için çeşitli varyasyonlar ve düzeltmelerle Pearson'ın ki-kare testini kullanan beklenmedik durum tablolarında sunmak doğaldır.

Bu nedenle, özünde, verilerin özelliklerine bağlı olarak bilmeniz ve kullanabilmeniz gereken yalnızca birkaç tür kriter ve prosedür vardır. Belirli bir durumda hangi kriterin uygulanması gerektiğini belirlemeniz gerekir.

Parametrik olmayan yöntemler, örnek boyutları küçük olduğunda en uygundur. Çok fazla veri varsa (örneğin, n> 100), parametrik olmayan istatistiklerin kullanılması çoğu zaman mantıklı değildir.

Örnek boyutu çok küçükse (örneğin, n = 10 veya daha az), normal yaklaşımı kullanan parametrik olmayan testler için anlamlılık seviyeleri yalnızca kaba tahminler olarak kabul edilebilir.

Bağımsız gruplar arasındaki farklar... Kandaki ortalama basınç veya lökosit sayısı gibi bazı ortalama değerlere göre karşılaştırılması gereken iki numune (örneğin erkek ve kadın) varsa, t-testi bağımsız olarak kullanılabilir. örnekler.

Bu testin parametrik olmayan alternatifleri Val'd-Wolfowitz, Mann-Whitney serisi) / n'nin kriteridir, burada x i i-inci değerdir, n gözlem sayısıdır. Değişken negatif değerler veya sıfır (0) içeriyorsa geometrik ortalama hesaplanamaz.

harmonik ortalama

Harmonik ortalama bazen frekansları ortalamak için kullanılır. Harmonik ortalama şu formülle hesaplanır: ГС = n / S (1 / x i) burada ГГ harmonik ortalamadır, n gözlem sayısıdır, х i, i numaralı gözlemin değeridir. Değişken sıfır (0) içeriyorsa, harmonik ortalama hesaplanamaz.

Dağılım ve standart sapma

Örnek varyansı ve standart sapma, verilerde en sık kullanılan değişkenlik (varyasyon) ölçüleridir. Varyans, değişkenin değerlerinin örnek ortalamadan sapmalarının karelerinin toplamının n-1'e bölünmesiyle hesaplanır (ancak n ile değil). Standart sapma, varyans tahmininin karekökü olarak hesaplanır.

Sallanmak

Bir değişkenin aralığı, maksimum eksi minimum olarak hesaplanan oynaklığın bir göstergesidir.

Çeyrek kapsamı

Üç aylık aralık, tanım gereği: üst çeyrek eksi alt çeyrek (%75 yüzde eksi %25 yüzdelik). %75 yüzdelik dilim (üst çeyrek), vakaların %75'inin bulunduğu soldaki değer ve %25 yüzdelik dilim (alt çeyrek), vakaların %25'inin bulunduğu soldaki değer olduğundan, çeyrek aralık, vakaların %50'sini içeren ortanca etrafındaki aralıktır (değişken değerler).

asimetri

Asimetri, dağılımın şeklinin bir özelliğidir. Çarpıklık değeri negatifse dağılım sola çarpıktır. Asimetri pozitifse dağılım sağa çarpıktır. Standart normal dağılımın çarpıklığı 0'dır. Çarpıklık üçüncü an ile ilişkilidir ve şu şekilde tanımlanır: çarpıklık = n × M 3 / [(n-1) × (n-2) × s 3], burada M 3 şudur: (xi -x ortalama x) 3, s 3 üçüncü güce yükseltilmiş standart sapmadır, n gözlem sayısıdır.

Aşırı

Basıklık, bir dağılımın şeklinin bir özelliğidir, yani tepe noktasının ciddiyetinin bir ölçüsüdür (basıklığı 0'a eşit olan normal bir dağılıma göre). Kural olarak, normalden daha keskin bir zirveye sahip dağılımlar, pozitif bir basıklığa sahiptir; zirvesi normal dağılımın zirvesinden daha az akut olan dağılımlar negatif basıklığa sahiptir. Fazlalık dördüncü an ile ilişkilendirilir ve aşağıdaki formülle belirlenir:

basıklık = / [(n-1) × (n-2) × (n-3) × s 4], burada M j: (xx ortalama x, s 4 dördüncü güce standart sapmadır, n gözlem sayısı...