Koefisien korelasi peringkat Kendall. Korelasi peringkat dan koefisien korelasi peringkat Kendall Koefisien korelasi peringkat Kendall di excel

Teori singkat

Koefisien korelasi Kendall digunakan ketika variabel diwakili oleh dua skala ordinal, asalkan tidak ada peringkat yang terkait. Perhitungan koefisien Kendall melibatkan penghitungan jumlah kecocokan dan inversi.

Koefisien ini bervariasi di dalam dan dihitung dengan rumus:

Untuk perhitungan, semua unit diurutkan berdasarkan atribut; menurut sejumlah kriteria lain, jumlah peringkat berikutnya yang melebihi yang diberikan (kami menyatakannya dengan) dan jumlah peringkat berikutnya di bawah yang diberikan (kami menunjukkannya dengan) dihitung untuk setiap peringkat.

Dapat ditunjukkan bahwa

dan koefisien korelasi rank Kendall dapat ditulis sebagai

Untuk menguji hipotesis nol pada tingkat signifikansi bahwa koefisien korelasi peringkat Kendall umum sama dengan nol di bawah hipotesis yang bersaing, perlu untuk menghitung titik kritis:

di mana ukuran sampel; Apakah titik kritis dari daerah kritis dua sisi, yang ditemukan dari tabel fungsi Laplace dengan persamaan

Jika - tidak ada alasan untuk menolak hipotesis nol. Korelasi peringkat antara fitur tidak signifikan.

Jika - hipotesis nol ditolak. Ada korelasi peringkat yang signifikan antara fitur.

Contoh penyelesaian masalah

Tugas

Saat merekrut tujuh kandidat untuk posisi kosong, dua tes ditawarkan. Hasil pengujian (dalam poin) ditunjukkan pada tabel:

Tes Calon 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Hitung koefisien korelasi peringkat Kendall antara hasil tes untuk dua tes dan nilai signifikansinya pada tingkat tersebut.

Solusi dari masalah

Hitung koefisien Kendall

Jajaran atribut faktor diatur secara ketat dalam urutan menaik, dan peringkat yang sesuai dari atribut efektif dicatat secara paralel. Untuk setiap pangkat dari antara pangkat yang mengikutinya dihitung jumlah pangkat yang lebih tinggi (dimasukkan dalam kolom) dan jumlah pangkat yang lebih rendah (dimasukkan dalam kolom).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Jumlah 16 5

Salah satu faktor yang membatasi penerapan kriteria berdasarkan asumsi normalitas adalah ukuran sampel. Selama sampel cukup besar (misalnya, 100 atau lebih pengamatan), Anda dapat mengasumsikan bahwa distribusi sampel normal, bahkan jika Anda tidak yakin bahwa distribusi variabel dalam populasi adalah normal. Namun, jika sampelnya kecil, kriteria ini hanya boleh digunakan jika ada keyakinan bahwa variabel tersebut memang terdistribusi normal. Namun, tidak ada cara untuk menguji asumsi ini dalam sampel kecil.

Penggunaan kriteria berdasarkan asumsi normalitas juga terbatas pada skala pengukuran (lihat bab Konsep dasar analisis data). Metode statistik seperti uji-t, regresi, dll. mengasumsikan bahwa data asli adalah kontinu. Namun, ada situasi di mana data hanya diberi peringkat (diukur pada skala ordinal) daripada diukur secara akurat.

Contoh tipikal diberikan oleh peringkat situs di Internet: posisi pertama diambil oleh situs dengan jumlah pengunjung maksimum, posisi kedua diambil oleh situs dengan jumlah pengunjung maksimum di antara situs yang tersisa (di antara situs dari mana situs pertama telah dihapus), dll. Mengetahui peringkatnya, kita dapat mengatakan bahwa jumlah pengunjung ke satu situs lebih besar daripada jumlah pengunjung ke yang lain, tetapi berapa banyak lagi tidak mungkin untuk dikatakan. Bayangkan Anda memiliki 5 situs: A, B, C, D, E, yang berada di 5 tempat teratas. Misalkan pada bulan berjalan kita memiliki susunan sebagai berikut: A, B, C, D, E, dan pada bulan sebelumnya: D, E, A, B, C. Pertanyaannya, ada perubahan signifikan dalam peringkat situs atau tidak? Dalam situasi ini, jelas, kita tidak dapat menggunakan uji-t untuk membandingkan kedua kelompok data ini, dan beralih ke area perhitungan probabilistik tertentu (dan kriteria statistik apa pun berisi perhitungan probabilistik!). Kami beralasan seperti ini: seberapa besar kemungkinan perbedaan dalam dua tata letak situs disebabkan oleh alasan yang benar-benar acak, atau bahwa perbedaannya terlalu besar dan tidak dapat dijelaskan secara kebetulan. Dalam alasan ini, kami hanya menggunakan peringkat atau permutasi situs dan sama sekali tidak menggunakan bentuk distribusi tertentu dari jumlah pengunjung ke situs tersebut.

Untuk analisis sampel kecil dan untuk data yang diukur pada skala yang buruk, digunakan metode nonparametrik.

Tur singkat prosedur nonparametrik

Pada dasarnya, untuk setiap kriteria parametrik, setidaknya ada satu alternatif nonparametrik.

Secara umum, prosedur ini termasuk dalam salah satu kategori berikut:

  • kriteria pembeda untuk sampel independen;
  • kriteria pembedaan untuk sampel dependen;
  • penilaian derajat ketergantungan antar variabel.

Secara umum, pendekatan kriteria statistik dalam analisis data harus pragmatis dan tidak dibebani dengan penalaran teoretis yang tidak perlu. Dengan komputer STATISTICA yang Anda inginkan, Anda dapat dengan mudah menerapkan beberapa kriteria pada data Anda. Mengetahui tentang beberapa perangkap metode, Anda akan memilih solusi yang tepat melalui eksperimen. Perkembangan plotnya cukup alami: jika Anda perlu membandingkan nilai dua variabel, maka Anda menggunakan uji-t. Namun, harus diingat bahwa ini didasarkan pada asumsi normalitas dan persamaan varians pada masing-masing kelompok. Melepaskan dari asumsi ini menghasilkan tes nonparametrik yang sangat berguna untuk sampel kecil.

Pengembangan uji-t mengarah pada analisis varians, yang digunakan ketika jumlah kelompok yang dibandingkan lebih dari dua. Pengembangan prosedur nonparametrik yang sesuai mengarah pada analisis varians nonparametrik, meskipun secara signifikan lebih buruk daripada analisis varians klasik.

Untuk menilai ketergantungan, atau, untuk membuatnya agak sombong, tingkat keketatan koneksi, koefisien korelasi Pearson dihitung. Tegasnya, penerapannya memiliki keterbatasan yang terkait, misalnya, dengan jenis skala di mana data diukur dan nonlinier ketergantungan; oleh karena itu, sebagai alternatif, nonparametrik, atau yang disebut peringkat, koefisien korelasi juga digunakan, yang digunakan, misalnya, untuk data peringkat. Jika data diukur dalam skala nominal, maka wajar untuk menyajikannya dalam tabel kontingensi yang menggunakan uji chi-kuadrat Pearson dengan berbagai variasi dan koreksi untuk akurasi.

Jadi, pada intinya, hanya ada beberapa jenis kriteria dan prosedur yang perlu Anda ketahui dan dapat digunakan, tergantung pada spesifikasi datanya. Anda perlu menentukan kriteria mana yang harus diterapkan dalam situasi tertentu.

Metode nonparametrik paling tepat ketika ukuran sampel kecil. Jika ada banyak data (misalnya, n> 100), seringkali tidak masuk akal untuk menggunakan statistik nonparametrik.

Jika ukuran sampel sangat kecil (misalnya, n = 10 atau kurang), maka tingkat signifikansi untuk pengujian nonparametrik yang menggunakan pendekatan normal hanya dapat dianggap sebagai perkiraan kasar.

Perbedaan antara kelompok independen... Jika ada dua sampel (misalnya laki-laki dan perempuan) yang perlu dibandingkan terhadap beberapa nilai rata-rata, misalnya tekanan rata-rata atau jumlah leukosit dalam darah, maka uji-t dapat digunakan untuk pemeriksaan independen. sampel.

Alternatif nonparametrik untuk pengujian ini adalah kriteria dari deret Val'd-Wolfowitz, Mann-Whitney) / n, di mana x i adalah nilai ke-i, n adalah jumlah pengamatan. Jika variabel mengandung nilai negatif atau nol (0), mean geometrik tidak dapat dihitung.

Arti harmonik

Rata-rata harmonik kadang-kadang digunakan untuk frekuensi rata-rata. Rata-rata harmonik dihitung dengan rumus: = n / S (1 / x i) di mana adalah rata-rata harmonik, n adalah jumlah pengamatan, i adalah nilai pengamatan dengan jumlah i. Jika variabel berisi nol (0), mean harmonik tidak dapat dihitung.

Dispersi dan simpangan baku

Varians sampel dan deviasi standar adalah ukuran variabilitas (variasi) data yang paling umum digunakan. Varians dihitung sebagai jumlah kuadrat deviasi nilai variabel dari mean sampel, dibagi dengan n-1 (tetapi tidak dengan n). Standar deviasi dihitung sebagai akar kuadrat dari estimasi varians.

Mengayun

Rentang variabel adalah indikator volatilitas, dihitung sebagai maksimum dikurangi minimum.

Lingkup kuartil

Kisaran triwulanan, menurut definisi, adalah: kuartil atas dikurangi kuartil bawah (persentil 75% dikurangi persentil 25%). Karena persentil 75% (kuartil atas) adalah nilai di sebelah kiri dimana 75% kasus berada, dan persentil 25% (kuartil bawah) adalah nilai di sebelah kiri dimana 25% kasus berada, kuartil range adalah interval di sekitar median yang berisi 50% kasus (nilai variabel).

Asimetri

Asimetri merupakan ciri dari bentuk distribusi. Distribusi condong ke kiri jika nilai skewness negatif. Distribusi condong ke kanan jika asimetri positif. Kemiringan dari distribusi normal standar adalah 0. Kemiringan dikaitkan dengan momen ketiga dan didefinisikan sebagai: kemiringan = n × M 3 / [(n-1) × (n-2) × s 3], di mana M 3 adalah: (xi -x mean x) 3, s 3 adalah standar deviasi yang dipangkatkan ketiga, n adalah jumlah pengamatan.

Kelebihan

Kurtosis adalah karakteristik bentuk distribusi, yaitu ukuran keparahan puncaknya (relatif terhadap distribusi normal, yang kurtosisnya sama dengan 0). Sebagai aturan, distribusi dengan puncak yang lebih tajam dari biasanya memiliki kurtosis positif; distribusi yang puncaknya kurang akut dari puncak distribusi normal memiliki kurtosis negatif. Kelebihan dikaitkan dengan momen keempat dan ditentukan oleh rumus:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], di mana M j adalah: (xx mean x, s 4 adalah standar deviasi pangkat keempat, n adalah jumlah pengamatan...

Ini digunakan untuk mengidentifikasi hubungan antara indikator kuantitatif atau kualitatif, jika mereka dapat diberi peringkat. Nilai indikator X diatur dalam urutan menaik dan peringkat yang ditetapkan. Nilai indikator Y diberi peringkat dan koefisien korelasi Kendall dihitung:

di mana S = PQ.

P besar nilai pangkat Y

Q- jumlah total pengamatan setelah pengamatan saat ini dengan lebih kecil nilai pangkat Y (peringkat yang sama tidak dihitung!)

Jika data yang dipelajari diulang (memiliki peringkat yang sama), maka koefisien korelasi yang dikoreksi Kendall digunakan dalam perhitungan:

T- jumlah peringkat terkait di baris X dan Y, masing-masing.

19. Apa yang harus menjadi titik awal ketika mendefinisikan tema, objek, subjek, tujuan, tujuan dan hipotesis penelitian?

Program penelitian, sebagai suatu peraturan, memiliki dua bagian: metodologis dan prosedural. Yang pertama meliputi membuktikan relevansi topik, merumuskan masalah, mendefinisikan objek dan subjek, tujuan dan sasaran penelitian, merumuskan konsep dasar (perangkat kategoris), analisis sistematis awal objek penelitian dan mengajukan hipotesis kerja. Bagian kedua mengungkapkan rencana penelitian strategis, serta rencana dan prosedur dasar untuk mengumpulkan dan menganalisis data primer.

Pertama-tama, ketika memilih topik penelitian, seseorang harus berangkat dari relevansi. Pembenaran relevansi termasuk indikasi kebutuhan dan ketepatan waktu studi dan solusi masalah untuk pengembangan lebih lanjut dari teori dan praktik pengajaran dan pengasuhan. Penelitian topikal memberikan jawaban atas pertanyaan paling mendesak saat ini, mencerminkan tatanan sosial masyarakat terhadap ilmu pedagogis, dan mengungkapkan kontradiksi terpenting yang terjadi dalam praktik. Kriteria relevansi adalah dinamis, mobile, tergantung pada waktu, dengan mempertimbangkan keadaan spesifik dan spesifik. Dalam bentuknya yang paling umum, relevansi mencirikan tingkat ketidaksesuaian antara permintaan akan ide-ide ilmiah dan rekomendasi praktis (untuk memenuhi kebutuhan tertentu) dan proposal yang dapat diberikan oleh sains dan praktik pada saat ini.

Dasar yang paling meyakinkan untuk mendefinisikan topik penelitian adalah tatanan sosial, yang mencerminkan masalah paling akut dan signifikan secara sosial yang membutuhkan solusi mendesak. Tatanan sosial membutuhkan pembuktian topik tertentu. Biasanya ini adalah analisis tingkat elaborasi suatu pertanyaan dalam sains.

Jika tatanan sosial mengikuti dari analisis praktik pedagogis, maka itu sendiri masalah ilmiah berada di pesawat yang berbeda. Ini mengungkapkan kontradiksi utama yang harus diselesaikan melalui sains. Solusi untuk masalah ini biasanya tujuan studi. Tujuannya adalah masalah yang dirumuskan kembali.

Kata-kata dari masalah memerlukan pemilihan objek riset. Ini bisa berupa proses pedagogis, area realitas pedagogis, atau semacam sikap pedagogis yang mengandung kontradiksi. Dengan kata lain, suatu objek dapat berupa apa saja yang secara eksplisit atau implisit mengandung kontradiksi dan menimbulkan situasi masalah. Objeknya adalah apa proses kognisi diarahkan. Subyek studi - bagian, sisi objek. Ini adalah yang paling signifikan dari sudut pandang praktis atau teoretis, sifat, aspek, fitur dari suatu objek yang tunduk pada studi langsung.

Sesuai dengan tujuan, objek dan subjek penelitian, penelitian tugas, yang, sebagai suatu peraturan, ditujukan untuk memeriksa hipotesis. Yang terakhir adalah seperangkat asumsi yang didasarkan pada teori, yang kebenarannya harus diverifikasi.

Kriteria kebaruan ilmiah dapat digunakan untuk menilai kualitas studi yang diselesaikan. Ini mencirikan kesimpulan teoretis dan praktis baru, pola pendidikan, struktur dan mekanismenya, konten, prinsip dan teknologinya, yang pada saat ini tidak diketahui dan tidak dicatat dalam literatur pedagogis. Kebaruan penelitian dapat memiliki signifikansi teoretis dan praktis. Nilai teoritis penelitian terletak pada penciptaan konsep, memperoleh hipotesis, keteraturan, metode, model untuk mengidentifikasi masalah, kecenderungan, arah. Signifikansi praktis dari penelitian ini terletak pada penyusunan proposal, rekomendasi, dll. Kriteria kebaruan, perubahan signifikansi teoritis dan praktis tergantung pada jenis penelitian, mereka juga tergantung pada waktu memperoleh pengetahuan baru.

KOEFISIEN KORELASI PERINGKAT KENDALLA

Salah satu ukuran sampel ketergantungan dua variabel acak (fitur) X dan y, berdasarkan rangking item sampel (X 1, Y x), .. ., (X n, Y n). K. sampai. R. untuk merujuk, oleh karena itu, untuk peringkat ahli statistik dan ditentukan oleh rumus

di mana r saya- U milik pasangan itu ( X, Y), untuk segerombolan Xraven i, S = 2N- (n-1) / 2, N adalah jumlah elemen sampel, yang secara bersamaan j> i dan r j> r i... Selalu Sebagai ukuran selektif ketergantungan To. To. R. to digunakan secara luas oleh M. Kendall (M. Kendall, lihat).

K. sampai. R. K. digunakan untuk menguji hipotesis independensi variabel acak. Jika hipotesis independensi benar, maka E t = 0 dan D t = 2 (2n + 5) / 9n (n-1). Dengan ukuran sampel yang kecil, pemeriksaannya bersifat statistik. hipotesis independensi dibuat dengan menggunakan tabel khusus (lihat). Untuk n> 10, pendekatan normal untuk distribusi m digunakan: jika

maka hipotesis independensi ditolak, jika tidak maka diterima. Di sini a . - tingkat signifikansi, u a / 2 adalah titik persentase dari distribusi normal. K. sampai. R. Karena, seperti yang lainnya, dapat digunakan untuk mendeteksi ketergantungan dua fitur kualitatif, jika hanya elemen sampel yang dapat dipesan sehubungan dengan fitur ini. Jika X, Y memiliki joint normal dengan koefisien korelasi p, maka hubungan antara K. to.p. ke. dan berbentuk:

Lihat juga Korelasi peringkat Spearman, Tes peringkat.

menyala.: Kendal M., Korelasi peringkat, trans. dari bahasa Inggris., M., 1975; Van der Waerden B.L., Matematika, trans. dari itu., M., 1960; Bol'shev L.N., Smirnov N.V., Tabel statistik matematika, Moskow, 1965.

A.V. Prokhorov.


Ensiklopedia Matematika. - M.: ensiklopedia Soviet... I.M. Vinogradov. 1977-1985.

Lihat apa itu "KENDALLA RANK CORRELATION COEFFICIENT" di kamus lain:

    Bahasa Inggris. efisien, korelasi peringkat Kendall; Jerman Kendalls Rangkorrelationskoeffizient. Koefisien korelasi, yang menentukan derajat korespondensi urutan semua pasangan objek dalam dua variabel. Antinazi. Ensiklopedia Sosiologi, 2009 ... Ensiklopedia Sosiologi

    KOEFISIEN KORELASI PERINGKAT KENDALL- Bahasa Inggris. efisien, korelasi peringkat Kendall; Jerman Kendalls Rangkorrelationskoeffizient. Koefisien korelasi, yang menentukan derajat korespondensi urutan semua pasangan objek dalam dua variabel ... Kamus Penjelasan Sosiologi

    Ukuran ketergantungan dua variabel acak (fitur) X dan Y, berdasarkan pemeringkatan hasil observasi independen (X1, Y1),. ... ., (Xn, Yn). Jika barisan nilai-nilai X terletak pada orde natural i = 1,. ... ., n, dan Ri pangkat Y yang sesuai dengan ... ... Ensiklopedia matematika

    Koefisien korelasi- (Koefisien korelasi) Koefisien korelasi adalah indikator statistik ketergantungan dua variabel acak Penentuan koefisien korelasi, jenis koefisien korelasi, sifat-sifat koefisien korelasi, perhitungan dan penerapan ... ... ensiklopedia investor

    Hubungan antara variabel acak, yang, secara umum, tidak sepenuhnya fungsional. Tidak seperti ketergantungan fungsional, K., sebagai suatu peraturan, dianggap ketika salah satu kuantitas tidak hanya bergantung pada yang lain ini, tetapi juga ... ... Ensiklopedia matematika

    Korelasi (ketergantungan korelasi) adalah hubungan statistik dari dua atau lebih variabel acak (atau kuantitas yang dapat dianggap demikian dengan tingkat akurasi yang dapat diterima). Dalam hal ini, perubahan nilai satu atau ... ... Wikipedia

    Korelasi- (Korelasi) Korelasi adalah hubungan statistik dari dua atau lebih variabel acak Konsep korelasi, jenis korelasi, koefisien korelasi, analisis korelasi, korelasi harga, korelasi pasangan mata uang pada Isi Forex ... ... ensiklopedia investor

    Secara umum diterima bahwa awal S. m. Century. atau, seperti yang sering disebut, statistik "n kecil", diletakkan pada dekade pertama abad XX dengan penerbitan karya W. Gosset, di mana ia menempatkan distribusi t, didalilkan oleh mereka yang menerima dunia beberapa saat kemudian ... ... Ensiklopedia psikologi

    Maurice Kendall Sir Maurice George Kendall Tanggal lahir: 6 September 1907 (1907 09 06) Tempat lahir: Kettering, Inggris Tanggal kematian ... Wikipedia

    Ramalan- (Forecast) Pengertian prakiraan, tugas dan prinsip peramalan Pengertian prakiraan, tugas dan prinsip peramalan, metode peramalan Daftar Isi Isi Definisi Konsep dasar peramalan Tugas dan prinsip peramalan ... ... ensiklopedia investor

Untuk menghitung koefisien korelasi peringkat Kendall r k perlu untuk membuat peringkat data untuk salah satu atribut dalam urutan menaik dan menentukan peringkat yang sesuai untuk atribut kedua. Kemudian, untuk setiap peringkat fitur kedua, jumlah peringkat berikutnya, yang besarnya lebih besar dari peringkat yang diambil, ditentukan, dan jumlah dari angka-angka ini ditemukan.

Koefisien korelasi peringkat Kendall ditentukan oleh rumus


di mana R i- jumlah peringkat variabel kedua, mulai dari Saya+1, yang besarnya lebih besar dari besarnya Saya peringkat variabel ini.

Ada tabel poin persentase dari distribusi koefisien r k, memungkinkan untuk menguji hipotesis tentang signifikansi koefisien korelasi.

Untuk ukuran sampel yang besar, nilai kritis r k tidak ditabulasi, dan harus dihitung menggunakan rumus perkiraan, yang didasarkan pada fakta bahwa di bawah hipotesis nol H 0: r k= 0 dan besar n nilai acak

didistribusikan kira-kira menurut hukum normal standar.

40. Hubungan antara sifat-sifat yang diukur dalam skala nominal atau ordinal

Masalah sering muncul dalam memeriksa independensi dua fitur yang diukur pada skala nominal atau ordinal.

Biarkan beberapa objek mengukur dua fitur x dan kamu dengan jumlah level R dan S masing-masing. Hasil pengamatan tersebut dengan mudah disajikan dalam bentuk tabel, yang disebut tabel kontingensi.

Di meja kamu saya(Saya = 1, ..., R) dan v j (J= 1, ..., S) - nilai yang diambil oleh fitur, nilai n ij- jumlah objek dari jumlah total objek yang atributnya x mengambil artinya kamu saya, dan tanda kamu- berarti v j

Kami memperkenalkan variabel acak berikut:

kamu saya


- jumlah objek yang memiliki nilai v j


Selain itu, ada persamaan yang jelas



Variabel acak diskrit x dan kamu independen jika dan hanya jika

untuk semua pasangan Saya, J

Oleh karena itu, dugaan tentang independensi variabel acak diskrit x dan kamu dapat ditulis seperti ini:

Sebagai alternatif, sebagai aturan, mereka menggunakan hipotesis

Validitas hipotesis H 0 harus dinilai berdasarkan frekuensi sampel n ij tabel kontingensi. Sesuai dengan hukum bilangan besar di n→ , frekuensi relatif mendekati probabilitas yang sesuai:



Untuk menguji hipotesis H 0, digunakan statistik

yang, jika hipotesisnya benar, memiliki distribusi χ 2 detik rs − (R + S- 1) derajat kebebasan.

Kriteria kemerdekaan χ 2 menolak hipotesis H 0 dengan taraf signifikansi jika:


41. Analisis regresi. Konsep dasar analisis regresi

Untuk deskripsi matematis dari hubungan statistik antara variabel yang dipelajari, masalah berikut harus diselesaikan:

ü memilih kelas fungsi di mana disarankan untuk mencari yang terbaik (dalam arti tertentu) perkiraan ketergantungan kepentingan;

ü temukan perkiraan nilai yang tidak diketahui dari parameter yang termasuk dalam persamaan ketergantungan yang diperlukan;

ü untuk menetapkan kecukupan persamaan yang diperoleh dari ketergantungan yang diperlukan;

ü untuk mengidentifikasi variabel input yang paling informatif.

Totalitas tugas yang tercantum adalah subjek penelitian dalam analisis regresi.

Fungsi regresi (atau regresi) adalah ketergantungan harapan matematis dari satu variabel acak pada nilai yang diambil oleh variabel acak lain, yang membentuk sistem dua dimensi variabel acak dengan yang pertama.

Misalkan ada sistem variabel acak ( x,kamu), maka fungsi regresi kamu pada x

Dan fungsi regresi x pada kamu

Fungsi regresi F(x) dan φ (kamu) tidak dapat dibalik satu sama lain jika hanya hubungan antara x dan kamu tidak fungsional.

Kapan n-dimensi vektor dengan koordinat x 1 , x 2 ,…, X n Anda dapat mempertimbangkan ekspektasi matematis bersyarat untuk komponen apa pun. Misalnya untuk x 1


disebut regresi x 1 on x 2 ,…, X n.

Untuk definisi lengkap dari fungsi regresi, perlu diketahui distribusi kondisional dari variabel output untuk nilai tetap dari variabel input.

Karena dalam situasi nyata informasi seperti itu tidak tersedia, mereka biasanya terbatas pada pencarian fungsi aproksimasi yang sesuai f a(x) untuk F(x), berdasarkan data statistik berbentuk ( x saya, aku), Saya = 1,…, n... Data ini adalah hasilnya n pengamatan independen kamu 1 ,…, y n variabel acak kamu untuk nilai variabel input x 1 ,…, x n, sedangkan analisis regresi mengasumsikan bahwa nilai-nilai variabel input ditentukan secara akurat.

Masalah memilih fungsi aproksimasi terbaik f a(x), menjadi yang utama dalam analisis regresi, dan tidak memiliki prosedur formal untuk solusinya. Terkadang pilihan ditentukan berdasarkan analisis data eksperimen, lebih sering dari pertimbangan teoritis.

Jika diasumsikan bahwa fungsi regresi cukup halus, maka fungsi aproksimasi f a(x) dapat direpresentasikan sebagai kombinasi linier dari himpunan fungsi basis yang bebas linier k(x), k = 0, 1,…, M 1, yaitu, dalam bentuk


di mana M- jumlah parameter yang tidak diketahui k(dalam kasus umum, nilainya tidak diketahui, disempurnakan selama konstruksi model).

Fungsi seperti itu linier dalam parameter, oleh karena itu, dalam kasus yang dipertimbangkan, kita berbicara tentang model fungsi regresi yang linier dalam parameter.

Kemudian masalah menemukan pendekatan terbaik untuk garis regresi F(x) direduksi untuk menemukan nilai parameter yang f a(x; ) adalah yang paling memadai untuk data yang tersedia. Salah satu cara untuk menyelesaikan masalah ini adalah metode kuadrat terkecil.

42. Metode kuadrat terkecil

Misalkan himpunan titik ( x saya, aku), Saya= 1,…, n terletak di pesawat sepanjang beberapa garis lurus

Kemudian, sebagai fungsi f a(x) mendekati fungsi regresi F(x) = M [kamu|x] wajar untuk mengambil fungsi linier dari argumen x:


Artinya, fungsi dasar di sini dipilih ψ 0 (x) 1 dan ψ 1 (x)≡x... Regresi ini disebut regresi linier sederhana.

Jika himpunan titik ( x saya, aku), Saya= 1,…, n terletak di sepanjang beberapa kurva, maka sebagai f a(x) wajar untuk mencoba memilih keluarga parabola

Fungsi ini non-linier dalam parameter θ 0 dan θ 1, bagaimanapun, dengan transformasi fungsional (dalam hal ini, mengambil logaritma), dapat direduksi menjadi fungsi baru f 'a(x), linier dalam parameter:


43. Regresi Linier Sederhana

Model regresi yang paling sederhana adalah model linier sederhana (satu dimensi, satu faktor, berpasangan), yang memiliki bentuk sebagai berikut:


di mana saya- variabel acak (kesalahan) tidak berkorelasi satu sama lain, memiliki harapan matematis nol dan varians yang sama σ 2 , sebuah dan B- koefisien konstan (parameter) yang perlu diperkirakan dari nilai respons yang diukur aku.

Untuk menemukan estimasi parameter sebuah dan B regresi linier, menentukan garis lurus yang paling memuaskan data eksperimen:


diterapkan metode kuadrat terkecil.

Berdasarkan kuadrat terkecil perkiraan parameter sebuah dan B ditemukan dari kondisi meminimalkan jumlah kuadrat deviasi dari nilai-nilai aku vertikal dari garis regresi "benar":

Biarkan ada sepuluh pengamatan dari variabel acak kamu dengan nilai tetap dari variabel x

Untuk meminimalkan D kita samakan dengan nol turunan parsial terhadap sebuah dan B:



Akibatnya, kami memperoleh sistem persamaan berikut untuk menemukan perkiraan: sebuah dan B:


Memecahkan dua persamaan ini memberikan:



Ekspresi untuk Estimasi Parameter sebuah dan B juga dapat direpresentasikan sebagai:

Maka persamaan empiris dari garis regresi kamu pada x dapat ditulis sebagai:


Estimasi varians tak bias σ 2 penyimpangan nilai aku dari garis lurus regresi yang dipasang diberikan oleh ekspresi

Mari kita hitung parameter persamaan regresi


Dengan demikian, garis regresi terlihat seperti:


Dan estimasi varians deviasi nilai aku dari garis regresi yang dipasang lurus


44. Memeriksa Signifikansi Garis Regresi

Perkiraan yang ditemukan B 0 dapat menjadi realisasi dari variabel acak, harapan matematis yang sama dengan nol, yaitu, mungkin ternyata tidak ada ketergantungan regresi.

Untuk menghadapi situasi ini, Anda harus menguji hipotesis H 0: B= 0 dengan hipotesis bersaing H 1: B ≠ 0.

Pengujian signifikansi garis regresi dapat dilakukan dengan menggunakan analisis varians.

Perhatikan identitas berikut:

besarnya akusaya = saya disebut sisa dan merupakan selisih antara dua besaran:

ü penyimpangan nilai yang diamati (respon) dari total rata-rata respon;

ü penyimpangan dari nilai respons yang diprediksi saya dari rata-rata yang sama

Identitas tertulis dapat ditulis sebagai


Setelah mengkuadratkan kedua bagiannya dan menjumlahkannya Saya, kita mendapatkan:


Di mana besaran diberi nama:

total (total) jumlah kuadrat SC n, yang sama dengan jumlah kuadrat deviasi pengamatan relatif terhadap nilai rata-rata pengamatan

jumlah kuadrat akibat regresi SK p, yang sama dengan jumlah kuadrat simpangan nilai garis regresi relatif terhadap rerata pengamatan.

jumlah sisa kuadrat SK 0. yang sama dengan jumlah kuadrat deviasi pengamatan relatif terhadap nilai garis regresi

Jadi penyebarannya kamu-kov relatif terhadap rata-ratanya dapat dikaitkan sampai batas tertentu dengan fakta bahwa tidak semua pengamatan terletak pada garis regresi. Jika ini masalahnya, maka jumlah kuadrat relatif terhadap regresi akan menjadi nol. Oleh karena itu, regresi akan signifikan jika jumlah kuadrat dari SC p lebih besar dari jumlah kuadrat dari SC 0.

Perhitungan uji signifikansi regresi dilakukan pada tabel ANOVA berikut.

Jika kesalahan saya terdistribusi menurut hukum normal, maka jika hipotesis H 0 valid: B= 0 statistik:


didistribusikan menurut hukum Fisher dengan jumlah derajat kebebasan 1 dan n−2.

Hipotesis nol akan ditolak pada taraf signifikansi jika dihitung nilai statistiknya F akan lebih besar dari poin persentase F 1;n 2; dari distribusi Fisher.

45. Memeriksa kecukupan model regresi. Metode sisa

Kecukupan model regresi yang dibangun dipahami sebagai fakta bahwa tidak ada model lain yang memberikan peningkatan signifikan dalam memprediksi respons.

Jika semua nilai tanggapan diperoleh pada nilai yang berbeda x, yaitu, tidak ada beberapa nilai respons yang diperoleh dengan yang sama x saya, maka hanya uji kecukupan model linier terbatas yang dapat dilakukan. Dasar dari pemeriksaan tersebut adalah sisa makanan:

Penyimpangan dari pola yang ditetapkan:

Sejauh x- variabel satu dimensi, poin ( x saya, aku) dapat diplot pada bidang dalam bentuk yang disebut plot residual. Representasi seperti itu terkadang memungkinkan untuk menemukan beberapa keteraturan dalam perilaku residual. Selain itu, analisis residual memungkinkan Anda untuk menganalisis asumsi mengenai distribusi kesalahan.

Dalam kasus ketika kesalahan didistribusikan menurut hukum normal dan ada perkiraan apriori variansnya σ 2 (perkiraan yang diperoleh berdasarkan pengukuran yang dilakukan sebelumnya), maka penilaian kecukupan model yang lebih akurat dimungkinkan.

Melalui F-Kriteria Fisher dapat digunakan untuk memeriksa apakah varians residual signifikan S 0 2 berbeda dari perkiraan apriori. Jika secara signifikan lebih besar, maka ada kekurangan dan model harus direvisi.

Jika perkiraan sebelumnya σ 2 tidak, tetapi pengukuran respons kamu diulang dua kali atau lebih dengan nilai yang sama x, maka pengamatan berulang ini dapat digunakan untuk mendapatkan perkiraan lain σ 2 (yang pertama adalah varians residual). Perkiraan seperti itu dikatakan mewakili kesalahan "murni", karena jika x sama untuk dua atau lebih pengamatan, maka hanya perubahan acak yang dapat memengaruhi hasil dan menciptakan sebaran di antara keduanya.

Estimasi yang dihasilkan ternyata merupakan estimasi varians yang lebih andal daripada estimasi yang diperoleh dengan metode lain. Karena alasan ini, saat merencanakan eksperimen, masuk akal untuk menyiapkan eksperimen dengan pengulangan.

Misalkan kita memiliki M arti yang berbeda x : x 1 , x 2 , ..., x m... Biarkan untuk masing-masing nilai ini x saya ada dan aku pengamatan tanggapan kamu... Total pengamatan yang diperoleh:

Maka model regresi linier sederhana dapat dituliskan sebagai berikut:


Mari kita cari varians dari kesalahan "murni". Varians ini adalah estimasi gabungan dari varians σ 2, jika kami mewakili nilai tanggapan y ij pada x = x saya sebagai volume sampel dan aku... Akibatnya, varians kesalahan "murni" adalah:

Varians ini berfungsi sebagai perkiraan σ 2 terlepas dari apakah model yang dipasang sudah benar.

Mari kita tunjukkan bahwa jumlah kuadrat dari "kesalahan murni" adalah bagian dari jumlah sisa kuadrat (jumlah kuadrat yang termasuk dalam ekspresi varians residual). Sisa untuk J pengamatan ke x saya dapat ditulis sebagai:

Jika Anda mengkuadratkan kedua sisi persamaan ini dan kemudian menjumlahkannya J dan oleh Saya, kita mendapatkan:

Di sebelah kiri persamaan ini adalah jumlah sisa kuadrat. Suku pertama di sebelah kanan adalah jumlah kuadrat dari kesalahan "murni", suku kedua dapat disebut jumlah kuadrat dari ketidakcukupan. Jumlah terakhir memiliki M 2 derajat kebebasan, oleh karena itu, varians ketidakcukupan

Statistik kriteria pengujian hipotesis H 0 : model linier sederhana memadai, terhadap hipotesis H 1 : model linier sederhana tidak memadai, variabel acak

Jika hipotesis nol benar, nilai F memiliki distribusi Fisher dengan derajat kebebasan M 2 dan nM... Hipotesis linieritas garis regresi harus ditolak dengan tingkat signifikansi , jika nilai statistik yang diperoleh lebih besar dari titik persentase dari distribusi Fisher dengan jumlah derajat kebebasan M 2 dan nM.

46. Memeriksa kecukupan model regresi (lihat 45). ANOVA

47. Memeriksa kecukupan model regresi (lihat 45). Koefisien determinasi

Terkadang, untuk mengkarakterisasi kualitas garis regresi, digunakan koefisien determinasi sampel R 2, menunjukkan bagian (fraksi) apa dari jumlah kuadrat, karena regresi, SK p adalah jumlah total kuadrat SK n:

Lebih dekat R 2 banding satu, semakin baik regresi mendekati data eksperimen, semakin dekat pengamatan yang berdekatan dengan garis regresi. Jika R 2 = 0, maka perubahan respon sepenuhnya karena pengaruh faktor yang tidak diperhitungkan, dan garis regresi sejajar dengan sumbu x-ov. Dalam kasus regresi linier sederhana, koefisien determinasi R 2 sama dengan kuadrat dari koefisien korelasi R 2 .

Nilai maksimum R 2 = 1 hanya dapat dicapai jika pengamatan dilakukan pada nilai x-ov yang berbeda. Jika ada eksperimen berulang dalam data, maka nilai R 2 tidak dapat mencapai kesatuan, tidak peduli seberapa bagus modelnya.

48. Interval Keyakinan untuk Parameter Regresi Linier Sederhana

Sama seperti rata-rata sampel adalah perkiraan dari rata-rata sebenarnya (rata-rata populasi), demikian pula parameter sampel dari persamaan regresi sebuah dan B- tidak lebih dari perkiraan koefisien regresi yang sebenarnya. Sampel yang berbeda memberikan estimasi mean yang berbeda - sama seperti sampel yang berbeda akan memberikan estimasi koefisien regresi yang berbeda.

Dengan asumsi bahwa hukum distribusi kesalahan saya dijelaskan oleh hukum normal, estimasi parameter B akan memiliki distribusi normal dengan parameter:


Karena estimasi parameter sebuah merupakan kombinasi linier dari besaran-besaran yang berdistribusi normal bebas, ia juga akan berdistribusi normal dengan mean dan varians:


Dalam hal ini, interval kepercayaan (1 - ) untuk memperkirakan varians σ 2 dengan mempertimbangkan bahwa rasio ( n−2)S 0 2 /σ 2 didistribusikan oleh hukum χ 2 dengan jumlah derajat kebebasan n 2 akan ditentukan oleh ekspresi


49. Interval kepercayaan untuk garis regresi. Interval kepercayaan untuk nilai variabel dependen

Kami biasanya tidak mengetahui nilai sebenarnya dari koefisien regresi. sebuah dan B... Kami hanya tahu perkiraan mereka. Dengan kata lain, garis regresi yang sebenarnya bisa lebih tinggi atau lebih rendah, lebih curam atau lebih dangkal daripada yang dibangun dari data sampel. Kami menghitung interval kepercayaan untuk koefisien regresi. Anda juga dapat menghitung daerah kepercayaan untuk garis regresi itu sendiri.

Biarkan untuk regresi linier sederhana perlu untuk membangun (1− α ) selang kepercayaan untuk ekspektasi matematis dari respons kamu pada nilai x = x 0. Ekspektasi matematis ini adalah sebuah+bx 0, dan perkiraannya

Dari dulu.

Estimasi ekspektasi matematis yang diperoleh adalah kombinasi linier dari nilai-nilai terdistribusi normal yang tidak berkorelasi dan oleh karena itu juga memiliki distribusi normal yang berpusat pada titik nilai sebenarnya dari ekspektasi dan varians matematis bersyarat.

Oleh karena itu, interval kepercayaan untuk garis regresi pada setiap nilai x 0 dapat direpresentasikan sebagai


Seperti yang Anda lihat, interval kepercayaan minimum diperoleh pada x 0 sama dengan rata-rata dan meningkat sebagai x 0 "bergerak menjauh" dari tengah ke segala arah.

Untuk mendapatkan satu set interval kepercayaan bersama yang cocok untuk seluruh fungsi regresi, sepanjang seluruh panjangnya, dalam ekspresi di atas alih-alih t n −2,α / 2 harus diganti