Korelasi peringkat dan koefisien korelasi peringkat Kendall. Koefisien korelasi peringkat Kendall dan Spearman Rumus koefisien korelasi Kendall

KOEFISIEN KORELASI PERINGKAT KENDALLA

Salah satu ukuran sampel ketergantungan dua variabel acak (fitur) X dan Y, berdasarkan peringkat item sampel (X 1, Y x), .. ., (X n, Y n). K. sampai. R. untuk merujuk, oleh karena itu, untuk peringkat ahli statistik dan ditentukan oleh rumus

di mana r saya- U milik pasangan itu ( X, Y), untuk segerombolan Xraven i, S = 2N- (n-1) / 2, N adalah jumlah elemen sampel, yang secara bersamaan j> i dan r j> r i... Selalu Sebagai ukuran selektif ketergantungan To. To. R. to digunakan secara luas oleh M. Kendall (M. Kendall, lihat).

K. sampai. R. K. digunakan untuk menguji hipotesis independensi variabel acak. Jika hipotesis independensi benar, maka E t = 0 dan D t = 2 (2n + 5) / 9n (n-1). Dengan ukuran sampel yang kecil, pemeriksaannya bersifat statistik. hipotesis independensi dibuat dengan menggunakan tabel khusus (lihat). Untuk n> 10, pendekatan normal digunakan untuk distribusi m: jika

maka hipotesis independensi ditolak, jika tidak maka diterima. Di sini a . - tingkat signifikansi, u a / 2 adalah titik persentase dari distribusi normal. K. sampai. R. Karena, seperti yang lainnya, dapat digunakan untuk mendeteksi ketergantungan dua fitur kualitatif, jika hanya elemen sampel yang dapat diurutkan sehubungan dengan fitur ini. Jika X, Y memiliki joint normal dengan koefisien korelasi p, maka hubungan antara K. to.p. ke.dan berbentuk:

Lihat juga Korelasi peringkat Spearman, Tes peringkat.

Lit.: Kendal M., Korelasi peringkat, trans. dari bahasa Inggris., M., 1975; Van der Waerden B.L., Matematika, trans. dari itu., M., 1960; Bol'shev L.N., Smirnov N.V., Tabel statistik matematika, Moskow, 1965.

A.V.Prokhorov.


Ensiklopedia Matematika. - M.: ensiklopedia Soviet... I.M.Vinogradov. 1977-1985.

Lihat apa itu "KENDALLA RANK CORRELATION COEFFICIENT" di kamus lain:

    Bahasa Inggris. efisien, korelasi peringkat Kendall; Jerman Kendalls Rangkorrelationskoeffizient. Koefisien korelasi, yang menentukan derajat korespondensi urutan semua pasangan objek dalam dua variabel. Antinazi. Ensiklopedia Sosiologi, 2009 ... Ensiklopedia Sosiologi

    KOEFISIEN KORELASI PERINGKAT KENDALL- Bahasa Inggris. efisien, korelasi peringkat Kendall; Jerman Kendalls Rangkorrelationskoeffizient. Koefisien korelasi, yang menentukan derajat korespondensi urutan semua pasangan objek dalam dua variabel ... Kamus Penjelasan Sosiologi

    Ukuran ketergantungan dua variabel acak (fitur) X dan Y, berdasarkan peringkat hasil observasi independen (X1, Y1),. ... ., (Xn, Yn). Jika barisan nilai-nilai X terletak pada orde natural i = 1,. ... ., n, dan Ri pangkat Y sesuai dengan ... ... Ensiklopedia matematika

    Koefisien korelasi- (Koefisien korelasi) Koefisien korelasi adalah indikator statistik ketergantungan dua variabel acak Penentuan koefisien korelasi, jenis koefisien korelasi, sifat-sifat koefisien korelasi, perhitungan dan penerapan ... ... ensiklopedia investor

    Hubungan antara variabel acak, yang, secara umum, tidak sepenuhnya fungsional. Tidak seperti ketergantungan fungsional, K., sebagai suatu peraturan, dianggap ketika salah satu kuantitas tidak hanya bergantung pada yang lain ini, tetapi juga ... ... Ensiklopedia matematika

    Korelasi (ketergantungan korelasi) adalah hubungan statistik dari dua atau lebih variabel acak (atau kuantitas yang dapat dianggap demikian dengan tingkat akurasi yang dapat diterima). Dalam hal ini, perubahan nilai satu atau ... ... Wikipedia

    Korelasi- (Korelasi) Korelasi adalah hubungan statistik dari dua atau lebih variabel acak Konsep korelasi, jenis korelasi, koefisien korelasi, analisis korelasi, korelasi harga, korelasi pasangan mata uang pada Isi Forex ... ... ensiklopedia investor

    Secara umum diterima bahwa awal S. m. Century. atau, seperti yang sering disebut, statistik "n kecil", dimasukkan ke dalam dekade pertama abad XX oleh publikasi karya W. Gosset, di mana ia menempatkan distribusi t, didalilkan oleh mereka yang menerima dunia sedikit kemudian ... ... Ensiklopedia psikologi

    Maurice Kendall Sir Maurice George Kendall Tanggal lahir: 6 September 1907 (1907 09 06) Tempat lahir: Kettering, Inggris Tanggal kematian ... Wikipedia

    Ramalan cuaca- (Forecast) Pengertian prakiraan, tugas dan prinsip peramalan Pengertian prakiraan, tugas dan prinsip peramalan, metode peramalan Daftar Isi Isi Pengertian Konsep dasar peramalan Tugas dan prinsip peramalan ... ... ensiklopedia investor

Pengajuan dan pra-pemrosesan penilaian ahli

Dalam praktiknya, beberapa jenis penilaian digunakan:

- berkualitas tinggi (sering-jarang, lebih buruk-lebih baik, ya-tidak),

- perkiraan skala (rentang nilai 50-75, 76-90, 91-120, dll.),

Skor dari interval tertentu (dari 2 hingga 5, 1 -10), saling independen,

Peringkat (objek disusun oleh seorang ahli dalam urutan tertentu, dan masing-masing diberi nomor seri - pangkat),

Komparatif, diperoleh dengan salah satu metode perbandingan

metode perbandingan berurutan

metode perbandingan berpasangan faktor.

Pada langkah selanjutnya dalam memproses pendapat ahli, perlu dilakukan evaluasi tingkat konsistensi pendapat tersebut.

Perkiraan yang diperoleh dari para ahli dapat dianggap sebagai variabel acak, yang distribusinya mencerminkan pendapat para ahli tentang probabilitas pilihan tertentu dari suatu peristiwa (faktor). Oleh karena itu, untuk menganalisis penyebaran dan konsistensi perkiraan ahli, karakteristik statistik umum digunakan - rata-rata dan ukuran pencar:

Kesalahan kuadrat rata-rata,

Rentang variasi min - maks,

- koefisien variasi V = mean kuadrat deviasi / mean aritma. (cocok untuk semua jenis penilaian)

V i = i / x i rata-rata

Untuk tarif langkah-langkah kesamaan tapi opini setiap pasangan ahli berbagai metode dapat digunakan:

koefisien asosiasi, dengan bantuan yang memperhitungkan jumlah jawaban yang cocok dan tidak cocok,

koefisien inkonsistensi pendapat ahli,

Semua ukuran ini dapat digunakan baik untuk membandingkan pendapat dua ahli, atau untuk menganalisis hubungan antara serangkaian penilaian dengan dua alasan.

Koefisien korelasi peringkat pasangan Spearman:

di mana n adalah jumlah ahli,

c k - perbedaan antara estimasi ahli ke-i dan ke-j untuk semua faktor T

Koefisien korelasi peringkat Kendall (koefisien konkordansi) memberikan penilaian keseluruhan atas konsistensi pendapat semua ahli tentang semua faktor, tetapi hanya untuk kasus di mana perkiraan peringkat digunakan.

Terbukti bahwa nilai S, ketika semua ahli memberikan estimasi yang sama untuk semua faktor, memiliki nilai maksimum yang sama dengan

di mana n adalah jumlah faktor,

m adalah jumlah ahli.

Koefisien konkordansi sama dengan rasio

apalagi, jika W mendekati 1, maka semua ahli telah memberikan perkiraan yang cukup konsisten, jika tidak, pendapat mereka tidak akan disetujui.

Rumus untuk menghitung S ditunjukkan di bawah ini:

di mana r ij adalah estimasi peringkat faktor ke-i oleh pakar ke-j,

r cf adalah peringkat rata-rata di seluruh matriks estimasi dan sama dengan

Dan karena itu rumus untuk menghitung S dapat berbentuk:

Jika penilaian individu dari satu ahli bertepatan, dan mereka dibuat standar selama pemrosesan, maka rumus yang berbeda digunakan untuk menghitung koefisien konkordansi:



dimana Tj dihitung untuk setiap ahli (dalam hal penilaiannya diulang untuk objek yang berbeda), dengan memperhatikan pengulangan menurut aturan berikut:

di mana t j adalah jumlah kelompok dengan peringkat yang sama untuk ahli ke-j, dan

h k - jumlah peringkat yang sama dalam kelompok ke-k dari peringkat terkait dari ahli ke-j.

CONTOH. Biarkan 5 ahli pada enam faktor menjawab dalam peringkat seperti yang ditunjukkan pada Tabel 3:

Tabel 3 - Jawaban para ahli

Pakar 1 2 O3 4 O5 O6 Jumlah peringkat menurut ahli
E1
E2
E3
E4
E5

Karena fakta bahwa tidak diperoleh peringkat yang ketat (penilaian dari para ahli diulang, dan jumlah peringkat tidak sama), kami akan mengubah perkiraan dan mendapatkan peringkat terkait (Tabel 4):

Tabel 4 - Peringkat terkait penilaian ahli

Pakar 1 2 O3 4 O5 O6 Jumlah peringkat menurut ahli
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Jumlah pangkat objek 7,5 9,5 23,5 29,5

Sekarang mari kita tentukan derajat konsistensi pendapat ahli dengan menggunakan koefisien konkordansi. Karena peringkat terkait, kami akan menghitung W dengan rumus (**).

Maka r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384,5

Mari kita lanjutkan ke perhitungan W. Untuk ini, kami menghitung secara terpisah nilai T j. Dalam contoh, penilaian dipilih secara khusus sehingga setiap ahli memiliki penilaian berulang: yang pertama memiliki dua, yang kedua memiliki tiga, yang ketiga memiliki dua kelompok dengan dua peringkat, dan yang keempat memiliki dua peringkat yang identik. Karenanya:

T 1 = 2 3 - 2 = 6 T 5 = 6

T2 = 3 3 - 3 = 24

3 = 2 3 –2+ 2 3 –2 = 12 4 = 12

Kami melihat bahwa persetujuan pendapat para ahli cukup tinggi dan kami dapat melanjutkan ke tahap studi berikutnya - pembuktian dan adopsi alternatif keputusan yang direkomendasikan oleh para ahli.

Jika tidak, Anda harus kembali ke langkah 4-8.

Koefisien korelasi peringkat mencirikan sifat umum ketergantungan nonlinier: peningkatan atau penurunan sifat efektif dengan peningkatan faktor satu. Ini adalah indikator ketatnya hubungan nonlinier monoton.

Tujuan layanan... Kalkulator online ini menghitung Koefisien korelasi peringkat Kendall menurut semua rumus dasar, serta penilaian signifikansinya.

Petunjuk. Menunjukkan jumlah data (jumlah baris). Solusi yang dihasilkan disimpan dalam file Word.

Koefisien yang diusulkan oleh Kendall dibangun atas dasar hubungan tipe "lebih-kurang", yang validitasnya ditetapkan ketika membangun skala.
Mari pilih beberapa objek dan bandingkan peringkatnya dalam satu atribut dan atribut lainnya. Jika, menurut kriteria ini, barisan membentuk urutan langsung (yaitu, urutan deret alami), maka pasangan diberi +1, jika sebaliknya, maka -1. Untuk pasangan yang dipilih, unit plus - minus yang sesuai (menurut atribut X dan atribut Y) dikalikan. Hasilnya jelas +1; jika barisan pasangan dari kedua fitur terletak pada barisan yang sama, dan -1 jika terbalik.
Jika urutan peringkat adalah sama untuk semua pasangan menurut kedua kriteria, maka jumlah unit yang diberikan untuk semua pasangan objek adalah maksimum dan sama dengan jumlah pasangan. Jika urutan peringkat semua pasangan dibalik, maka –C 2 N. Dalam kasus umum, C 2 N = P + Q, di mana P adalah jumlah positif dan Q adalah jumlah negatif yang ditetapkan untuk pasangan ketika membandingkan peringkat mereka untuk kedua kriteria.
Besaran tersebut disebut koefisien Kendall.
Dari rumus dapat diketahui bahwa koefisien adalah selisih antara proporsi pasangan benda yang ordonya sama pada kedua kriteria (berkaitan dengan banyaknya semua pasangan) dan proporsi pasangan benda yang urutannya tidak sama.
Misalnya, nilai koefisien 0,60 berarti 80% pasangan memiliki urutan objek yang sama, sedangkan 20% tidak (80% + 20% = 100%; 0,80 - 0,20 = 0,60). Itu. dapat diartikan sebagai perbedaan antara probabilitas kebetulan dan non-kebetulan dari urutan di kedua tanda untuk sepasang objek yang dipilih secara acak.
Dalam kasus umum, perhitungan (lebih tepatnya, P atau Q) bahkan untuk N orde 10 ternyata rumit.
Mari tunjukkan cara menyederhanakan perhitungan.


Sebuah contoh. Hubungan antara volume produksi industri dan investasi dalam aset tetap di 10 wilayah di salah satu distrik federal Federasi Rusia pada tahun 2003 ditandai oleh data berikut:


Hitung koefisien korelasi rank Spearman dan Kendal. Periksa signifikansinya pada = 0,05. Merumuskan kesimpulan tentang hubungan antara volume produksi industri dan investasi dalam aset tetap di wilayah Federasi Rusia yang sedang dipertimbangkan.

Larutan... Mari kita tetapkan peringkat untuk atribut Y dan faktor X.


Mari kita urutkan data berdasarkan X.
Di baris Y di sebelah kanan 3 ada 7 peringkat yang melebihi 3, oleh karena itu, 3 akan menghasilkan suku 7 di P.
Di sebelah kanan 1 ada 8 peringkat melebihi 1 (ini adalah 2, 4, 6, 9, 5, 10, 7, 8), mis. 8 akan masuk P, dan seterusnya. Akibatnya, = 37 dan menggunakan rumus yang kita miliki:

xkamupangkat X, d xperingkat Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Dengan rumus yang disederhanakan:




di mana n adalah ukuran sampel; z kp adalah titik kritis daerah kritis bilateral, yang diperoleh dari tabel fungsi Laplace dengan persamaan (z kp) = (1-α) / 2.
Jika | |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - hipotesis nol ditolak. Ada korelasi peringkat yang signifikan antara fitur kualitatif.
Cari titik kritis z kp
(z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Mari kita temukan titik kritisnya:

Karena > T kp - kami menolak hipotesis nol; korelasi peringkat antara skor pada dua tes adalah signifikan.

Sebuah contoh. Berdasarkan data volume pekerjaan konstruksi dan instalasi yang dilakukan sendiri dan jumlah karyawan di 10 perusahaan konstruksi di salah satu kota di Federasi Rusia, tentukan hubungan antara tanda-tanda ini menggunakan koefisien Kendal.

Larutan temukan dengan kalkulator.
Mari kita tetapkan peringkat untuk atribut Y dan faktor X.
Mari kita atur objek sehingga peringkat X mereka mewakili deret alami. Karena perkiraan yang ditetapkan untuk setiap pasangan dari seri ini adalah positif, nilai "+1" yang termasuk dalam P hanya akan dihasilkan oleh pasangan yang peringkatnya di Y membentuk urutan langsung.
Mereka mudah dihitung dengan membandingkan secara berurutan peringkat setiap objek di baris Y dengan yang baja.
Koefisien Kendall.

Dalam kasus umum, perhitungan (lebih tepatnya, P atau Q) bahkan untuk N orde 10 ternyata rumit. Mari tunjukkan cara menyederhanakan perhitungan.

atau

Larutan.
Mari kita urutkan data berdasarkan X.
Di baris Y di sebelah kanan 2 ada 8 peringkat yang melebihi 2, oleh karena itu, 2 akan menghasilkan suku 8 di P.
Di sebelah kanan 4 ada 6 peringkat melebihi 4 (ini adalah 7, 5, 6, 8, 9, 10), yaitu. 6 akan masuk P, dan seterusnya. Akibatnya, P = 29 dan menggunakan rumus yang kita miliki:

xkamupangkat X, d xperingkat Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Dengan rumus yang disederhanakan:


Untuk menguji hipotesis nol tentang persamaan koefisien korelasi peringkat umum Kendall menjadi nol pada tingkat signifikansi dengan hipotesis pesaing H 1: 0, perlu untuk menghitung titik kritis:

di mana n adalah ukuran sampel; z kp adalah titik kritis daerah kritis dua sisi, yang diperoleh dari tabel fungsi Laplace dengan persamaan (z kp) = (1 - ) / 2.
Jika | | T kp - hipotesis nol ditolak. Ada korelasi peringkat yang signifikan antara fitur kualitatif.
Cari titik kritis z kp
(z kp) = (1 - ) / 2 = (1 - 0,05) / 2 = 0,475
Menggunakan tabel Laplace, kami menemukan z kp = 1,96
Mari kita temukan titik kritisnya:

Sejak

Koefisien korelasi Kendall digunakan ketika variabel diwakili oleh dua skala ordinal, asalkan tidak ada peringkat yang terkait. Perhitungan koefisien Kendall melibatkan penghitungan jumlah kecocokan dan inversi. Mari kita pertimbangkan prosedur ini menggunakan contoh tugas sebelumnya.

Algoritma untuk memecahkan masalah adalah sebagai berikut:

    Kami mendaftarkan ulang data dalam tabel. 8.5 sehingga salah satu baris (dalam hal ini, baris x i) ternyata peringkat. Dengan kata lain, kami mengatur ulang pasangan x dan kamu dalam urutan yang benar dan kita masukkan data di kolom 1 dan 2 tabel. 8.6.

Tabel 8.6

x Saya

kamu Saya

2. Tentukan "derajat peringkat" dari baris ke-2 ( kamu Saya). Prosedur ini dilakukan dalam urutan berikut:

a) kami mengambil nilai pertama dari baris non-peringkat "3". Menghitung jumlah rangking di bawah nomor yang diberikan, yang lagi nilai yang akan dibandingkan. Ada 9 nilai seperti itu (angka 6, 7, 4, 9, 5, 11, 8, 12 dan 10). Kami memasukkan angka 9 di kolom "cocok". Kemudian kita hitung jumlah nilai yang lebih kecil tiga. Ada 2 nilai seperti itu (peringkat 1 dan 2); tambahkan angka 2 ke kolom "inversi".

b) buang nomor 3 (kami sudah mengerjakannya) dan ulangi prosedur untuk nilai berikutnya "6": jumlah kecocokan adalah 6 (peringkat 7, 9, 11, 8, 12 dan 10), jumlah inversinya adalah 4 (peringkat 1, 2, 4 dan 5). Kami memasukkan angka 6 di kolom "kebetulan", dan angka 4 - di kolom "pembalikan".

c) dengan cara yang sama, prosedur diulangi sampai akhir baris; harus diingat bahwa setiap nilai "berhasil" dikeluarkan dari pertimbangan lebih lanjut (hanya peringkat yang berada di bawah angka ini yang dihitung).

Catatan

Agar tidak membuat kesalahan dalam perhitungan, harus diingat bahwa dengan setiap "langkah" jumlah kebetulan dan inversi berkurang satu; ini dapat dimengerti jika kita memperhitungkan bahwa setiap kali satu nilai dikeluarkan dari pertimbangan.

3. Jumlah kecocokan dihitung (R) dan jumlah inversi (Q); data dimasukkan ke dalam satu dan tiga rumus yang dapat dipertukarkan untuk koefisien Kendall (8.10). Perhitungan yang sesuai dilakukan.

T (8.10)

Dalam kasus kami:

Meja XIV Lampiran adalah nilai kritis dari koefisien untuk sampel yang diberikan: cr. = 0,45; 0,59. Nilai yang diperoleh secara empiris dibandingkan dengan nilai tabel.

Keluaran

= 0,55> cr. = 0,45. Korelasi signifikan secara statistik untuk level 1.

Catatan:

Jika perlu (misalnya, jika tidak ada tabel nilai kritis) signifikansi statistik T Kendall dapat ditentukan dengan rumus berikut:

(8.11)

di mana S * = P - Q+ 1 jika P< Q , dan S * = P - Q - 1 jika P > Q.

Nilai z untuk tingkat signifikansi yang sesuai sesuai dengan ukuran Pearson dan ditemukan sesuai dengan tabel yang sesuai (tidak termasuk dalam lampiran. Untuk tingkat signifikansi standar z cr = 1,96 (untuk 1 = 0,95) dan 2,58 (untuk 2 = 0,99). Koefisien korelasi Kendall signifikan secara statistik jika z > z cr

Dalam kasus kami S * = P - Q- 1 = 35 dan z= 2,40, yaitu, kesimpulan awal dikonfirmasi: korelasi antara tanda-tanda signifikan secara statistik untuk tingkat signifikansi pertama.

Salah satu faktor yang membatasi penerapan kriteria berdasarkan asumsi normalitas adalah ukuran sampel. Selama sampel cukup besar (misalnya, 100 atau lebih pengamatan), Anda dapat mengasumsikan bahwa distribusi sampel normal, bahkan jika Anda tidak yakin bahwa distribusi variabel dalam populasi adalah normal. Namun, jika sampelnya kecil, kriteria ini hanya boleh digunakan jika ada keyakinan bahwa variabel tersebut memang terdistribusi normal. Namun, tidak ada cara untuk menguji asumsi ini dalam sampel kecil.

Penggunaan kriteria berdasarkan asumsi normalitas juga terbatas pada skala pengukuran (lihat bab Konsep dasar analisis data). Metode statistik seperti t-test, regresi, dll mengasumsikan bahwa data asli adalah kontinu. Namun, ada situasi di mana data hanya diberi peringkat (diukur pada skala ordinal) daripada diukur secara akurat.

Contoh tipikal diberikan oleh peringkat situs di Internet: posisi pertama diambil oleh situs dengan jumlah pengunjung maksimum, posisi kedua diambil oleh situs dengan jumlah pengunjung maksimum di antara situs yang tersisa (di antara situs dari mana situs pertama telah dihapus), dll. Mengetahui peringkatnya, kita dapat mengatakan bahwa jumlah pengunjung ke satu situs lebih besar daripada jumlah pengunjung ke yang lain, tetapi berapa banyak lagi tidak mungkin untuk dikatakan. Bayangkan Anda memiliki 5 situs: A, B, C, D, E, yang berada di 5 tempat teratas. Misalkan pada bulan berjalan kita memiliki susunan sebagai berikut: A, B, C, D, E, dan pada bulan sebelumnya: D, E, A, B, C. Pertanyaannya, telah terjadi perubahan peringkat situs yang signifikan atau tidak? Dalam situasi ini, jelas, kita tidak dapat menggunakan uji-t untuk membandingkan kedua kelompok data ini, dan beralih ke area perhitungan probabilistik tertentu (dan kriteria statistik apa pun berisi perhitungan probabilistik!). Kami beralasan seperti ini: seberapa besar kemungkinan perbedaan dalam dua tata letak situs disebabkan oleh alasan yang benar-benar acak, atau bahwa perbedaannya terlalu besar dan tidak dapat dijelaskan secara kebetulan. Dalam alasan ini, kami hanya menggunakan peringkat atau permutasi situs dan sama sekali tidak menggunakan bentuk distribusi tertentu dari jumlah pengunjung ke situs tersebut.

Untuk analisis sampel kecil dan untuk data yang diukur pada skala yang buruk, digunakan metode nonparametrik.

Tur singkat prosedur nonparametrik

Pada dasarnya, untuk setiap kriteria parametrik, setidaknya ada satu alternatif nonparametrik.

Secara umum, prosedur ini termasuk dalam salah satu kategori berikut:

  • kriteria pembeda untuk sampel independen;
  • kriteria pembedaan untuk sampel dependen;
  • penilaian derajat ketergantungan antar variabel.

Secara umum, pendekatan kriteria statistik dalam analisis data harus pragmatis dan tidak dibebani dengan penalaran teoretis yang tidak perlu. Dengan komputer STATISTICA yang Anda inginkan, Anda dapat dengan mudah menerapkan beberapa kriteria pada data Anda. Mengetahui tentang beberapa perangkap metode, Anda akan memilih solusi yang tepat melalui eksperimen. Perkembangan plotnya cukup alami: jika Anda perlu membandingkan nilai dua variabel, maka Anda menggunakan uji-t. Namun perlu diingat bahwa ini didasarkan pada asumsi normalitas dan persamaan varians pada masing-masing kelompok. Melepaskan dari asumsi ini menghasilkan pengujian nonparametrik yang sangat berguna untuk sampel kecil.

Pengembangan uji-t mengarah pada analisis varians, yang digunakan ketika jumlah kelompok yang dibandingkan lebih dari dua. Pengembangan prosedur nonparametrik yang sesuai mengarah pada analisis varians nonparametrik, meskipun secara signifikan lebih buruk daripada analisis varians klasik.

Untuk menilai ketergantungan, atau, untuk membuatnya agak sombong, tingkat keketatan koneksi, koefisien korelasi Pearson dihitung. Tegasnya, penerapannya memiliki keterbatasan yang terkait, misalnya, dengan jenis skala di mana data diukur dan nonlinier ketergantungan; oleh karena itu, sebagai alternatif, nonparametrik, atau disebut peringkat, koefisien korelasi juga digunakan, yang digunakan, misalnya, untuk data peringkat. Jika data diukur pada skala nominal, maka wajar untuk menyajikannya dalam tabel kontingensi yang menggunakan uji chi-square Pearson dengan berbagai variasi dan koreksi untuk akurasi.

Jadi, pada intinya, hanya ada beberapa jenis kriteria dan prosedur yang perlu Anda ketahui dan dapat digunakan, tergantung pada spesifikasi datanya. Anda perlu menentukan kriteria mana yang harus diterapkan dalam situasi tertentu.

Metode nonparametrik paling tepat ketika ukuran sampel kecil. Jika ada banyak data (misalnya, n> 100), seringkali tidak masuk akal untuk menggunakan statistik nonparametrik.

Jika ukuran sampel sangat kecil (misalnya, n = 10 atau kurang), maka tingkat signifikansi untuk pengujian nonparametrik yang menggunakan pendekatan normal hanya dapat dianggap sebagai perkiraan kasar.

Perbedaan antara kelompok independen... Jika ada dua sampel (misalnya laki-laki dan perempuan) yang perlu dibandingkan terhadap beberapa nilai rata-rata, misalnya tekanan rata-rata atau jumlah leukosit dalam darah, maka uji-t dapat digunakan untuk pemeriksaan independen. sampel.

Alternatif nonparametrik untuk pengujian ini adalah kriteria dari deret Val'd-Wolfowitz, Mann-Whitney) / n, di mana x i adalah nilai ke-i, n adalah jumlah pengamatan. Jika variabel mengandung nilai negatif atau nol (0), mean geometrik tidak dapat dihitung.

Arti harmonik

Rata-rata harmonik kadang-kadang digunakan untuk frekuensi rata-rata. Rata-rata harmonik dihitung dengan rumus: = n / S (1 / x i) di mana adalah rata-rata harmonik, n adalah jumlah pengamatan, i adalah nilai pengamatan dengan jumlah i. Jika variabel berisi nol (0), mean harmonik tidak dapat dihitung.

Dispersi dan simpangan baku

Varians sampel dan deviasi standar adalah ukuran variabilitas (variasi) data yang paling umum digunakan. Varians dihitung sebagai jumlah kuadrat deviasi nilai variabel dari mean sampel, dibagi dengan n-1 (tetapi tidak dengan n). Standar deviasi dihitung sebagai akar kuadrat dari estimasi varians.

Mengayun

Rentang variabel adalah indikator volatilitas, dihitung sebagai maksimum dikurangi minimum.

Lingkup kuartil

Kisaran triwulanan, menurut definisi, adalah: kuartil atas dikurangi kuartil bawah (persentil 75% dikurangi persentil 25%). Karena persentil 75% (kuartil atas) adalah nilai di sebelah kiri dimana 75% kasus berada, dan persentil 25% (kuartil bawah) adalah nilai di sebelah kiri dimana 25% kasus berada, kuartil range adalah interval di sekitar median yang berisi 50% kasus (nilai variabel).

Asimetri

Asimetri merupakan ciri dari bentuk distribusi. Distribusi condong ke kiri jika nilai skewness negatif. Distribusi condong ke kanan jika asimetri positif. Kemiringan dari distribusi normal standar adalah 0. Kemiringan dikaitkan dengan momen ketiga dan didefinisikan sebagai: kemiringan = n × M 3 / [(n-1) × (n-2) × s 3], di mana M 3 adalah: (xi -x mean x) 3, s 3 adalah standar deviasi yang dipangkatkan ketiga, n adalah jumlah pengamatan.

Kelebihan

Kurtosis adalah karakteristik bentuk distribusi, yaitu ukuran keparahan puncaknya (relatif terhadap distribusi normal, yang kurtosisnya sama dengan 0). Sebagai aturan, distribusi dengan puncak yang lebih tajam dari biasanya memiliki kurtosis positif; distribusi yang puncaknya kurang akut dari puncak distribusi normal memiliki kurtosis negatif. Kelebihan dikaitkan dengan momen keempat dan ditentukan oleh rumus:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], di mana M j adalah: (xx mean x, s 4 adalah standar deviasi pangkat keempat, n adalah jumlah pengamatan...