Kendall sıra korelasyon katsayısı. Excel'de sıra korelasyonu ve sıra korelasyon katsayısı kendall rank korelasyon katsayısı kendall

kısa teori

Kendall korelasyon katsayısı, ilişkili sıra olmaması koşuluyla, değişkenler iki sıralı ölçekle temsil edildiğinde kullanılır. Kendall katsayısının hesaplanması, eşleşmelerin ve inversiyonların sayılmasıyla ilişkilidir.

Bu katsayı, içinde değişir ve aşağıdaki formülle hesaplanır:

Hesaplama için tüm birimler özniteliğe göre sıralanır; diğer bazı özellikler için, her bir sıra için, verileni aşan sonraki sıraların sayısı (bunları ile gösteririz) ve verilenin altındaki sonraki sıraların sayısı (bunları ile ifade ederiz) hesaplanır.

gösterilebilir ki

ve Kendall'ın sıra korelasyon katsayısı şu şekilde yazılabilir:

Rakip hipotez altında Kendall'ın genel sıra korelasyon katsayısının sıfıra eşitliği hakkındaki sıfır hipotezini anlamlılık düzeyinde test etmek için kritik noktayı hesaplamak gerekir:

örneklem büyüklüğü nerede; - Laplace fonksiyonunun tablosundan eşitlikle bulunan iki taraflı kritik bölgenin kritik noktası

Boş hipotezi reddetmek için bir neden yoksa. Özellikler arasındaki sıralama korelasyonu önemsizdir.

ise, sıfır hipotezi reddedilir. İşaretler arasında önemli bir sıralama korelasyonu vardır.

Sorun çözümü örneği

Görev

Açık pozisyonlar için yedi aday işe alınırken, iki test teklif edildi. Test sonuçları (puan olarak) tabloda gösterilmiştir:

Ölçek Aday 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

İki test için test sonuçları arasındaki Kendall derece korelasyon katsayısını hesaplayın ve bir düzeyde önemini değerlendirin.

sorunun çözümü

Kendall katsayısını hesaplayın

Faktör niteliğinin sıraları kesinlikle artan düzende düzenlenir ve etkin niteliğin karşılık gelen sıraları paralel olarak yazılır. Her bir sıra için, onu takip eden sıra sayısından, kendisinden daha büyük olan sıra sayısı (sütununa dahil edilir) ve değer olarak daha küçük olan sıra sayısı (sütununa dahil edilir) sayılır.

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 toplam 16 5

Normallik varsayımına dayalı kriterlerin uygulanmasını sınırlayan faktörlerden biri de örneklem büyüklüğüdür. Örneklem yeterince büyük olduğu sürece (örneğin, 100 veya daha fazla gözlem), değişkenin popülasyondaki dağılımının normal olduğundan emin olmasanız bile, örnek dağılımının normal olduğunu varsayabilirsiniz. Bununla birlikte, örneklem küçükse, bu testler yalnızca değişkenin gerçekten normal dağıldığına dair bir güven varsa kullanılmalıdır. Ancak, bu varsayımı küçük bir örneklem üzerinde test etmenin bir yolu yoktur.

Normallik varsayımına dayalı kriterlerin kullanımı da ölçüm ölçeği ile sınırlıdır (bkz. Veri analizinin temel kavramları bölümü). t-testi, regresyon vb. gibi istatistiksel yöntemler, orijinal verilerin sürekli olduğunu varsayar. Bununla birlikte, verilerin doğru bir şekilde ölçülmek yerine basitçe sıralandığı (sıralı bir ölçekte ölçüldüğü) durumlar vardır.

Tipik bir örnek, İnternet'teki sitelerin derecelendirmeleridir: ilk pozisyon, maksimum ziyaretçi sayısına sahip site tarafından işgal edilir, ikinci pozisyon, kalan siteler arasında (siteler arasında) maksimum ziyaretçi sayısına sahip site tarafından işgal edilir. İlk site kaldırıldı), vb. Derecelendirmeleri bilerek, bir sitenin ziyaretçi sayısının diğerinin ziyaretçi sayısından daha fazla olduğunu söyleyebiliriz, ancak daha ne kadar olduğunu söylemek imkansız. 5 siteniz olduğunu düşünün: A, B, C, D, E, ilk 5 sırada yer alıyor. Mevcut ayda şu düzenlemeye sahip olduğumuzu varsayalım: A, B, C, D, E ve önceki ayda: D, E, A, B, C. Soru şu ki, derecelendirmelerde önemli değişiklikler oldu mu? sitelerin ya da değil? Bu durumda, açıkçası, bu iki veri grubunu karşılaştırmak için bir t-testi kullanamayız ve belirli olasılık hesaplamaları alanına geçiyoruz (ve herhangi bir istatistiksel test olasılıksal bir hesaplama içerir!). Yaklaşık olarak şu şekilde akıl yürütürüz: İki site düzenlemesindeki farkın tamamen rastgele nedenlerden kaynaklanması ne kadar olasıdır veya bu fark çok büyüktür ve tamamen şansla açıklanamaz. Bu tartışmalarda, yalnızca sitelerin sıralarını veya permütasyonlarını kullanıyoruz ve onlara gelen ziyaretçi sayısının belirli bir dağılımını kullanmıyoruz.

Küçük örneklerin analizi ve zayıf ölçeklerde ölçülen veriler için parametrik olmayan yöntemler kullanılır.

Parametrik olmayan prosedürlere kısa bir bakış

Esasen, her parametrik kriter için en az bir parametrik olmayan alternatif vardır.

Genel olarak, bu prosedürler aşağıdaki kategorilerden birine girer:

  • bağımsız örnekler için fark kriterleri;
  • bağımlı örnekler için fark kriterleri;
  • değişkenler arasındaki bağımlılık derecesinin değerlendirilmesi.

Genel olarak, veri analizinde istatistiksel kriterlere yaklaşım pragmatik olmalı ve gereksiz teorik düşüncelerle yüklenmemelidir. Bir STATISTICA bilgisayarı emrinizdeyken, verilerinize kolayca birkaç kriter uygulayabilirsiniz. Yöntemlerin bazı tuzaklarını bilerek, deneyler yoluyla doğru çözümü seçeceksiniz. Arsa gelişimi oldukça doğaldır: iki değişkenin değerlerini karşılaştırmanız gerekiyorsa, t-testini kullanırsınız. Ancak her grupta normallik ve varyansların eşitliği varsayımına dayandığı unutulmamalıdır. Bu varsayımlardan kurtulmak, özellikle küçük örnekler için yararlı olan parametrik olmayan testlere yol açar.

T testinin geliştirilmesi, karşılaştırılan grup sayısı ikiden fazla olduğunda kullanılan varyans analizine yol açar. Parametrik olmayan prosedürlerin karşılık gelen gelişimi, klasik varyans analizinden çok daha zayıf olmasına rağmen, parametrik olmayan varyans analizine yol açar.

Bağımlılığı değerlendirmek için veya biraz görkemli bir şekilde söylemek gerekirse, bağlantının yakınlık derecesi Pearson korelasyon katsayısı hesaplanır. Kesin olarak konuşursak, kullanımı, örneğin verilerin ölçüldüğü ölçek türü ve bağımlılığın doğrusal olmaması ile ilişkili sınırlamalara sahiptir, bu nedenle, alternatif, parametrik olmayan veya sıralı olarak adlandırılan korelasyon katsayıları örneğin sıralanmış veriler için kullanılanlar da kullanılır. Veriler nominal bir ölçekte ölçülürse, bunları doğruluk için çeşitli varyasyonlar ve ayarlamalar ile Pearson'ın ki-kare testini kullanan beklenmedik durum tablolarında sunmak doğaldır.

Bu nedenle, özünde, verilerin özelliklerine bağlı olarak bilmeniz ve kullanabilmeniz gereken yalnızca birkaç tür kriter ve prosedür vardır. Belirli bir durumda hangi kriterin uygulanması gerektiğini belirlemeniz gerekir.

Parametrik olmayan yöntemler, örnek boyutu küçük olduğunda en uygundur. Çok fazla veri varsa (örneğin, n > 100), parametrik olmayan istatistiklerin kullanılması çoğu zaman anlamsızdır.

Örnek boyutu çok küçükse (örneğin, n = 10 veya daha az), normal yaklaşımı kullanan parametrik olmayan testler için anlamlılık seviyeleri yalnızca kaba tahminler olarak kabul edilebilir.

Bağımsız gruplar arasındaki farklar. Ortalama kan basıncı veya beyaz kan hücresi sayısı gibi bazı ortalama değerlere göre karşılaştırılması gereken iki numune (örneğin erkekler ve kadınlar) varsa, bağımsız bir numune t-testi kullanılabilir.

Bu testin parametrik olmayan alternatifleri Wald-Wolfowitz, Mann-Whitney )/n serisi testidir, burada x i i-inci değerdir, n gözlem sayısıdır. Değişken negatif değerler veya sıfır (0) içeriyorsa geometrik ortalama hesaplanamaz.

harmonik ortalama

Harmonik ortalama bazen frekansları ortalamak için kullanılır. Harmonik ortalama şu formülle hesaplanır: HS = n/S(1/x i) burada HS harmonik ortalamadır, n gözlem sayısıdır, x i i numaralı gözlemin değeridir. Değişken sıfır (0) içeriyorsa, harmonik ortalama hesaplanamaz.

Varyans ve standart sapma

Örnek varyansı ve standart sapma, verilerde en sık kullanılan değişkenlik (varyasyon) ölçüleridir. Varyans, değişkenin değerlerinin örnek ortalamasından sapmalarının karelerinin toplamı, n-1'e bölünerek hesaplanır (ancak n ile değil). Standart sapma, varyans tahmininin karekökü olarak hesaplanır.

kapsam

Bir değişkenin aralığı, maksimum eksi minimum olarak hesaplanan bir oynaklık ölçüsüdür.

Çeyrek aralığı

Çeyreklik aralık, tanım gereği şudur: üst çeyrek eksi alt çeyrek (%75 yüzde dilim eksi %25 yüzdelik). %75 yüzdelik dilim (üst çeyrek), gözlemlerin %75'inin olduğu soldaki değer ve %25 yüzdelik dilim (alt çeyrek), gözlemlerin %25'inin olduğu soldaki değer olduğundan, çeyrek aralık, gözlemlerin %50'sini (değişkenin değerleri) içeren medyan çevresindeki aralıktır.

asimetri

Çarpıklık, dağılımın şeklinin bir özelliğidir. Çarpıklık negatif ise dağılım sola çarpıktır. Çarpıklık pozitif ise dağılım sağa çarpıktır. Standart normal dağılımın çarpıklığı 0'dır. Çarpıklık üçüncü an ile ilgilidir ve şu şekilde tanımlanır: çarpıklık = n × M 3 /[(n-1) × (n-2) × s 3 ], burada M 3 şudur: (xi -xmean x) 3 , s 3 - üçüncü güce yükseltilmiş standart sapma, n - gözlem sayısı.

AŞIRI

Basıklık, dağılım şeklinin bir özelliğidir, yani tepe noktasının keskinliğinin bir ölçüsüdür (basıklığı 0 olan normal dağılıma göre). Genel bir kural olarak, normal dağılımdan daha keskin bir tepe noktasına sahip dağılımlar pozitif basıklığa sahiptir; zirvesi normal dağılımın zirvesinden daha az keskin olan dağılımlar negatif basıklığa sahiptir. Basıklık dördüncü an ile ilişkilidir ve aşağıdaki formülle belirlenir:

basıklık = /[(n-1) × (n-2) × (n-3) × s 4 ], burada M j: (xx ortalama x , s 4 dördüncü kuvvetin standart sapmasıdır, n gözlem sayısı.

Sıralanabilirlerse, nicel veya nitel göstergeler arasındaki ilişkiyi belirlemek için kullanılır. X göstergesinin değerleri artan sırada ayarlanır ve sıralara atanır. Y indeksinin değerleri sıralanır ve Kendall korelasyon katsayısı hesaplanır:

nerede S = PQ.

P büyük Y basamaklarının değeri.

Q o zamandan beri mevcut gözlemleri takip eden toplam gözlem sayısıdır. daha küçük Y basamaklarının değeri. (eşit sıralar sayılmaz!)

İncelenen veriler tekrarlanırsa (aynı sıralara sahipse), hesaplamalarda düzeltilmiş Kendall korelasyon katsayısı kullanılır:

T- sırasıyla X ve Y serilerindeki ilgili sıraların sayısı.

19. Çalışmanın konusunu, amacını, konusunu, amacını, amaçlarını ve hipotezini belirlerken çıkış noktası ne olmalıdır?

Araştırma programının kural olarak iki bölümü vardır: metodolojik ve prosedürel. Birincisi, konunun uygunluğunun doğrulanmasını, sorunun formülasyonunu, nesnenin ve konunun tanımını, çalışmanın amaçlarını ve hedeflerini, temel kavramların formülasyonunu (kategorik aparat), çalışma nesnesinin ön sistem analizini ve çalışan bir hipotezin geliştirilmesi. İkinci bölüm, çalışmanın stratejik planının yanı sıra birincil verilerin toplanması ve analiz edilmesi için plan ve temel prosedürleri ortaya koymaktadır.

Her şeyden önce, bir araştırma konusu seçerken, alaka düzeyinden hareket edilmelidir. alaka düzeyi için gerekçe eğitim ve öğretim teori ve pratiğinin daha da geliştirilmesi için problemin incelenmesi ve çözülmesi ihtiyacının ve zamanlılığının bir göstergesini içerir. Mevcut araştırmalar, günümüzün en acil sorularına cevap vermekte, pedagojik bilim için toplumun sosyal düzenini yansıtmakta ve uygulamada yer alan en önemli çelişkileri ortaya koymaktadır. Uygunluk kriteri dinamiktir, hareketlidir, belirli ve özel koşullar dikkate alınarak zamana bağlıdır. En genel biçimiyle, uygunluk, bilimsel fikirlere ve pratik önerilere (belirli bir ihtiyacı karşılamak için) olan talep ile bilim ve pratiğin şu anda sağlayabileceği öneriler arasındaki tutarsızlığın derecesini karakterize eder.

Çalışmanın konusunu belirleyen en inandırıcı temel, acil çözümler gerektiren en akut, sosyal açıdan önemli sorunları yansıtan toplumsal düzendir. Sosyal düzen, belirli bir konunun doğrulanmasını gerektirir. Genellikle bu, konunun bilimdeki gelişme derecesinin bir analizidir.

Toplumsal düzen, pedagojik pratiğin analizinden çıkıyorsa, o zaman bilimsel problem farklı bir düzlemdedir. Bilim yoluyla çözülmesi gereken ana çelişkiyi ifade eder. Bir sorunun çözümü genellikle bu çalışmanın amacı. Amaç, yeniden formüle edilmiş bir sorundur.

Sorunun formülasyonu şunları içerir: nesne seçimi Araştırma. Pedagojik bir süreç, pedagojik gerçeklik alanı veya çelişki içeren bir tür pedagojik ilişki olabilir. Başka bir deyişle, bir nesne, açıkça veya zımnen bir çelişki içeren ve bir sorun durumu oluşturan her şey olabilir. Bir nesne, biliş sürecinin yönlendirildiği bir şeydir. Çalışma konusu - bir cismin parçası, yanı. Bunlar, doğrudan çalışmaya konu olan bir nesnenin özellikleri, yönleri, özellikleri pratik veya teorik açıdan en önemlileridir.

Araştırmanın amacı, konusu ve konusuna uygun olarak araştırma, görevler, genellikle kontrol etmek için kullanılan hipotezler.İkincisi, gerçeği doğrulamaya tabi olan teorik olarak doğrulanmış bir dizi varsayımdır.

kriter bilimsel yenilik tamamlanan çalışmaların kalitesini değerlendirmek için geçerlidir. Bu zamana kadar pedagojik literatürde bilinmeyen ve kaydedilmemiş yeni teorik ve pratik sonuçları, eğitim yasalarını, yapısını ve mekanizmalarını, içeriğini, ilkelerini ve teknolojilerini karakterize eder. Araştırmanın yeniliği hem teorik hem de pratik öneme sahip olabilir. Çalışmanın teorik önemi, bir problem, eğilim, yön belirlemek için bir kavram oluşturma, bir hipotez, düzenlilik, yöntem, model elde etmede yatmaktadır. Çalışmanın pratik önemi, tekliflerin, tavsiyelerin vb. hazırlanmasında yatmaktadır. Yenilik, teorik ve pratik önem kriterleri, araştırmanın türüne bağlı olarak değişir, ayrıca yeni bilgi edinme zamanına da bağlıdır.

KENDALL SIRA KORELASYONU KATSAYISI

İki rastgele değişkenin (özelliklerin) bağımlılığının örnek ölçümlerinden biri X ve Y,örnek elemanların sıralamasına göre (X 1 , Yx), .. ., (Х n, Y n). K. k. r. bu nedenle, şuna atıfta bulunur: sıralama istatistikçileri ve formül tarafından belirlenir

nerede ri- U o çifte ait ( X, Y), hangi Xraven için ben, S = 2N-(n-1)/2, hem j>i hem de rj >r ben. Her zaman K.'ye bağımlılığın seçici bir ölçüsü olarak. to., M. Kendall tarafından yaygın olarak kullanılmıştır (M. Kendall, bkz.).

K. k. r. k. rastgele değişkenlerin bağımsızlığı hipotezini test etmek için kullanılır. Bağımsızlık hipotezi doğruysa, E t =0 ve D t =2(2n+5)/9n(n-1) olur. Küçük bir örneklem büyüklüğü ile istatistiksel olarak kontrol bağımsızlık hipotezleri özel tablolar kullanılarak yapılır (bkz.). n>10 için, m'nin dağılımı için normal yaklaşım kullanılır:

daha sonra bağımsızlık hipotezi reddedilir, aksi takdirde kabul edilir. Burada bir . - anlamlılık düzeyi, u a /2, normal dağılımın yüzde noktasıdır. K. k. r. k., herhangi biri gibi, yalnızca numunenin öğeleri bu özelliklere göre sıralanabiliyorsa, iki nitel özelliğin bağımlılığını tespit etmek için kullanılabilir. Eğer X, Y p korelasyon katsayısına sahip ortak bir normale sahip olmak, daha sonra K. ile arasındaki ilişki. ve forma sahiptir:

Ayrıca bakınız Spearman sıra korelasyonu, Sıra testi.

Aydınlatılmış.: Kendal M., Sıra bağıntıları, çev. İngilizce'den, M., 1975; Van der Waerden B.L., Matematiksel, çev. Almanca'dan, M., 1960; Bolshev L.N., Smirnov N.V., Matematiksel istatistik tabloları, M., 1965.

A.V. Prohorov.


Matematiksel ansiklopedi. - M.: Sovyet Ansiklopedisi. I.M. Vinogradov. 1977-1985.

Diğer sözlüklerde "KENDALL RANK COEFFICIENT" in ne olduğunu görün:

    ingilizce verimli, sıra korelasyonu ile Kendall; Almanca Kendalls Rangkorrelationskoye verimli. Tüm nesne çiftlerinin iki değişken tarafından sıralanmasının yazışma derecesini belirleyen korelasyon katsayısı. Antinazi. Sosyoloji Ansiklopedisi, 2009 ... Sosyoloji Ansiklopedisi

    KENDALL SIRALAMA KATSAYISI- İngilizce. verimli, sıra korelasyonu Kendall; Almanca Kendalls Rangkorrelationskoye verimli. Tüm nesne çiftlerinin iki değişkene göre sıralanmasının yazışma derecesini belirleyen korelasyon katsayısı ... Açıklayıcı Sosyoloji Sözlüğü

    Bağımsız gözlem sonuçlarının (X1, Y1) sıralamasına dayalı olarak iki rastgele değişkenin (özellik) X ve Y'nin bağımlılığının bir ölçüsü. . ., (Xn,Yn). X değerlerinin sıraları doğal sırada ise i=1, . . ., n,a Ri rank Y karşılık gelen … … Matematik Ansiklopedisi

    Korelasyon katsayısı- (Korelasyon katsayısı) Korelasyon katsayısı, iki rastgele değişkenin bağımlılığının istatistiksel bir göstergesidir Korelasyon katsayısının tanımı, korelasyon katsayısı türleri, korelasyon katsayısının özellikleri, hesaplama ve uygulama ... ... yatırımcının ansiklopedisi

    Genel olarak konuşursak, kesinlikle işlevsel bir karaktere sahip olmayan rastgele değişkenler arasındaki bağımlılık. Fonksiyonel bağımlılığın aksine, K., bir kural olarak, niceliklerden birinin yalnızca verilen diğerine değil, aynı zamanda ... ... Matematik Ansiklopedisi

    Korelasyon (korelasyon bağımlılığı), iki veya daha fazla rastgele değişken (veya kabul edilebilir bir doğruluk derecesi ile bu şekilde kabul edilebilecek değişkenler) arasındaki istatistiksel bir ilişkidir. Aynı zamanda, birinin değerlerindeki değişiklikler veya ... ... Wikipedia

    korelasyon- (Korelasyon) Korelasyon, iki veya daha fazla rastgele değişkenin istatistiksel bir ilişkisidir Korelasyon kavramı, korelasyon türleri, korelasyon katsayısı, korelasyon analizi, fiyat korelasyonu, Forex'teki döviz çiftlerinin korelasyonu İçerikler ... ... yatırımcının ansiklopedisi

    S. m.'nin başlangıcı olduğu genel olarak kabul edilir. veya, sıklıkla adlandırıldığı gibi, “küçük n” istatistikleri, 20. yüzyılın ilk on yılında, W. Gosset'in, dünya dağılımına göre varsayılan t dağılımını yerleştirdiği çalışmasının yayınlanmasıyla kuruldu. biraz sonra ... ... Psikolojik Ansiklopedi

    Maurice Kendall Sir Maurice George Kendall Doğum tarihi: 6 Eylül 1907 (1907 09 06) Doğum yeri: Kettering, Birleşik Krallık Ölüm tarihi ... Wikipedia

    Tahmin etmek- (Tahmin) Tahminin tanımı, tahminin görevleri ve ilkeleri Tahminin tanımı, tahminin görevleri ve ilkeleri, tahmin yöntemleri İçindekiler İçindekiler Tanım Tahminin temel kavramları Tahminin görevleri ve ilkeleri ... ... yatırımcının ansiklopedisi

Kendall sıra korelasyon katsayısını hesaplamak için rk verileri, özelliklerden birine göre artan düzende sıralamak ve ikinci özelliğe göre karşılık gelen sıraları belirlemek gerekir. Daha sonra ikinci özelliğin her bir rankı için, alınan ranktan büyük olan sonraki rankların sayısı belirlenir ve bu sayıların toplamı bulunur.

Kendall'ın sıra korelasyon katsayısı şu şekilde verilir:


nerede Ri başlayarak ikinci değişkenin sıra sayısıdır. i+1, büyüklüğü büyüklükten büyük i bu değişkenin th sıralaması.

Katsayı dağılım yüzde puan tabloları vardır rk, korelasyon katsayısının önemi hakkındaki hipotezi test etmeye izin verir.

Büyük numune boyutları için kritik değerler rk tablo haline getirilmemiştir ve sıfır hipotezi H 0 altında: rk=0 ve büyük n rastgele değer

yaklaşık olarak standart normal yasaya göre dağıtılır.

40. Nominal veya sıralı ölçeklerde ölçülen özellikler arasındaki ilişki

Genellikle, nominal veya sıralı ölçekte ölçülen iki özelliğin bağımsızlığını kontrol etme sorunu vardır.

Bazı nesneler için iki özellik ölçülsün x Ve Y seviye sayısı ile r Ve s sırasıyla. Bu tür gözlemlerin sonuçlarını, özellik acil durum tablosu adı verilen bir tablo şeklinde sunmak uygundur.

Tablo sen ben(i = 1, ..., r) Ve vj (J= 1, ..., s) özelliklerin aldığı değerlerdir, değer nijözniteliğe sahip nesnelerin toplam sayısı içindeki nesnelerin sayısıdır. x anlam kazandı sen ben, ve işareti Y- anlam vj

Aşağıdaki rastgele değişkenleri tanıtıyoruz:

sen ben


- değeri olan nesnelerin sayısı vj


Ayrıca, bariz eşitlikler var



Ayrık rastgele değişkenler x Ve Y bağımsız ancak ve ancak

tüm çiftler için i, J

Bu nedenle, kesikli rasgele değişkenlerin bağımsızlığına ilişkin hipotez x Ve Yşöyle yazılabilir:

Alternatif olarak, kural olarak, hipotezi kullanın

H 0 hipotezinin geçerliliği, örnek frekansları temelinde değerlendirilmelidir. nij Ihtimal tabloları. Büyük sayılar yasasına göre, n→∞ bağıl frekanslar karşılık gelen olasılıklara yakındır:



H 0 hipotezini test etmek için istatistikler kullanılır

hangi, hipotezin geçerliliği altında, dağılıma sahip χ 2 sn rs − (r + s− 1) serbestlik derecesi.

Bağımsızlık kriteri χ 2, aşağıdaki durumlarda anlamlılık düzeyi α ile H 0 hipotezini reddeder:


41. Regresyon analizi. Regresyon analizinin temel kavramları

İncelenen değişkenler arasındaki istatistiksel ilişkilerin matematiksel açıklaması için aşağıdaki görevler çözülmelidir:

ü ilgi bağımlılığının en iyi (belli bir anlamda) yaklaşımının aranmasının tavsiye edildiği bir işlevler sınıfı seçin;

ü istenen bağımlılığın denklemlerinde yer alan parametrelerin bilinmeyen değerlerinin tahminlerini bulmak;

ü istenen bağımlılığın elde edilen denkleminin yeterliliğini belirlemek;

ü en bilgilendirici girdi değişkenlerini tanımlayın.

Bu görevlerin toplamı, regresyon analizi araştırmasının konusudur.

Regresyon işlevi (veya regresyon), bir rastgele değişkenin matematiksel beklentisinin, birincisi ile iki boyutlu bir rastgele değişken sistemi oluşturan başka bir rastgele değişken tarafından alınan değere bağımlılığıdır.

Rastgele değişkenlerden oluşan bir sistem olsun ( x,Y), ardından regresyon fonksiyonu Yüzerinde x

ve regresyon fonksiyonu xüzerinde Y

Regresyon fonksiyonları F(x) Ve φ (y), arasındaki ilişki olmadıkça, karşılıklı olarak tersine çevrilemezler. x Ve Y işlevsel değil.

Ne zaman n koordinatlı boyutlu vektör x 1 , x 2 ,…, X n herhangi bir bileşen için koşullu matematiksel beklentiyi düşünmek mümkündür. örneğin, için x 1


regresyon denir x 1 x 2 ,…, X n.

Regresyon fonksiyonunu tam olarak tanımlamak için giriş değişkeninin sabit değerleri için çıkış değişkeninin koşullu dağılımını bilmek gerekir.

Gerçek bir durumda bu tür bilgiler mevcut olmadığından, genellikle kendilerini uygun bir yaklaşıklık fonksiyonu aramakla sınırlarlar. bir(x) için F(x), formun istatistiksel verilerine dayanarak ( x ben, ben), i = 1,…, n. Bu veriler sonuç n bağımsız gözlemler y 1 ,…, y n rastgele değişken Y giriş değişkeninin değerlerinde x 1 ,…, x n, regresyon analizinde ise girdi değişkeninin değerlerinin tam olarak belirtildiği varsayılır.

En iyi yaklaşım fonksiyonunu seçme problemi bir(x), regresyon analizinde ana olandır ve çözümü için resmi prosedürlere sahip değildir. Bazen seçim, deneysel verilerin analizi temelinde, daha sıklıkla teorik değerlendirmelerden belirlenir.

Regresyon fonksiyonunun yeterince düzgün olduğu varsayılırsa, buna yaklaşan fonksiyon bir(x) bazı lineer bağımsız temel fonksiyonların lineer bir kombinasyonu olarak temsil edilebilir. ψ k(x), k = 0, 1,…, m-1, yani formda


nerede m bilinmeyen parametrelerin sayısıdır θ k(genel durumda, değer bilinmez, modelin yapımı sırasında rafine edilir).

Böyle bir fonksiyon parametrelerde doğrusaldır, bu nedenle, söz konusu durumda, parametrelerde doğrusal bir regresyon fonksiyonu modelinden söz edilir.

Ardından, regresyon çizgisi için en iyi yaklaşımı bulma sorunu F(x) bu tür parametre değerlerini bulmaya indirgenir. bir(x;θ) mevcut verilere en uygun olanıdır. Bu problemi çözmenin yollarından biri de en küçük kareler yöntemidir.

42. en küçük kareler yöntemi

Nokta kümesi olsun ( x ben, ben), i= 1,…, n bazı düz çizgi boyunca bir düzlemde yer alan

Daha sonra fonksiyon olarak bir(x) regresyon fonksiyonuna yaklaşma F(x) = m [Y|x] argümanın doğrusal bir fonksiyonunu almak doğaldır x:


Yani burada temel fonksiyonlar olarak seçtik. ψ 0 (x)≡1 ve ψ 1 (x)≡x. Bu regresyona basit lineer regresyon denir.

Eğer nokta kümesi ( x ben, ben), i= 1,…, n bir eğri boyunca yer alır, sonra bir(x) bir parabol ailesi seçmeye çalışmak doğaldır.

Bu fonksiyon parametrelerde doğrusal değildir θ 0 ve θ 1 , ancak fonksiyonel dönüşümle (bu durumda logaritma) yeni bir fonksiyona indirgenebilir f'a(x), parametrelerde doğrusal:


43. Basit Doğrusal Regresyon

En basit regresyon modeli, aşağıdaki forma sahip basit (tek boyutlu, tek faktörlü, ikili) doğrusal bir modeldir:


nerede ben- sıfır matematiksel beklenti ve aynı varyanslarla ilişkisiz rastgele değişkenler (hatalar) σ 2 , a Ve Bölçülen yanıt değerlerinden tahmin edilmesi gereken sabit katsayılardır (parametreler). ben.

Parametre tahminlerini bulmak için a Ve B deneysel verileri en iyi karşılayan düz çizgiyi belirleyen doğrusal regresyon:


en küçük kareler yöntemi uygulanır.

Buna göre en küçük kareler parametre tahminleri a Ve B değerlerin karesel sapmalarının toplamının en küçüklenmesi koşulundan bulunur. ben"doğru" regresyon çizgisinden dikey olarak:

Rastgele bir değişkenin on gözlemi olsun Y değişkenin sabit değerleri için x

En aza indirmek için D göre kısmi türevleri sıfıra eşit a Ve B:



Sonuç olarak, tahminleri bulmak için aşağıdaki denklem sistemini elde ederiz. a Ve B:


Bu iki denklemi çözmek:



Parametre tahminleri için ifadeler a Ve B ayrıca şu şekilde temsil edilebilir:

Daha sonra regresyon çizgisinin ampirik denklemi Yüzerinde xşu şekilde yazılabilir:


Tarafsız varyans tahmincisi σ 2 değer sapması ben Takılan regresyondan düz çizgi ile verilir

Regresyon denkleminin parametrelerini hesaplayın


Böylece, doğrudan regresyon şöyle görünür:


Ve değerlerin sapma dağılımının tahmini ben takılı düz regresyon çizgisinden


44. Regresyon Doğrusunun Öneminin Kontrol Edilmesi

Bulunan tahmin B≠ 0, matematiksel beklentisi sıfıra eşit olan bir rastgele değişkenin gerçekleşmesi olabilir, yani aslında hiçbir regresyon bağımlılığı olmadığı ortaya çıkabilir.

Bu durumla başa çıkmak için H 0 hipotezini test etmelisiniz: B= 0, rekabet eden hipotez H 1 altında: B ≠ 0.

Regresyon çizgisinin önemi, varyans analizi kullanılarak test edilebilir.

Aşağıdaki kimliği göz önünde bulundurun:

Değer benŷ ben = ben kalan denir ve iki miktar arasındaki farktır:

ü gözlemlenen değerin (yanıt) yanıtların genel ortalamasından sapması;

ü öngörülen yanıt değerinin sapması ŷ ben aynı ortalamadan

Yukarıdaki özdeşlik şu şekilde yazılabilir:


Her iki tarafın karesini alarak ve toplayarak i, şunu elde ederiz:


Miktarların adlandırıldığı yer:

gözlemlerin ortalama değerine göre gözlemlerin sapmalarının karelerinin toplamına eşit olan SC n karelerinin tam (toplam) toplamı

gözlemlerin ortalamasına göre regresyon çizgisinin değerlerinin kare sapmalarının toplamına eşit olan SC p'nin gerilemesinden kaynaklanan karelerin toplamı.

kalan kareler toplamı SC 0 . regresyon çizgisinin değerlerine göre gözlemlerin kare sapmalarının toplamına eşittir

Böylece, yayılma Y-kov ortalamalarına göre, bir dereceye kadar, tüm gözlemlerin regresyon çizgisinde yatmadığı gerçeğine atfedilebilir. Durum böyle olsaydı, regresyona göre karelerin toplamı sıfır olurdu. SC p karelerinin toplamı SC 0 karelerinin toplamından büyükse regresyon anlamlı olacaktır.

Regresyonun anlamlılığını test etmek için hesaplamalar, aşağıdaki varyans analizi tablosunda gerçekleştirilir.

eğer hatalar ben normal yasaya göre dağıtılır, o zaman H 0 hipotezi doğruysa: B= 0 istatistik:


Fisher yasasına göre 1 serbestlik derecesi ile dağıtılır ve n−2.

Eğer istatistiğin hesaplanan değeri α anlamlılık düzeyindeyse boş hipotez reddedilecektir. Fα-yüzde noktasından daha büyük olacaktır F 1;n Fisher dağılımının -2;α.

45. Regresyon modelinin yeterliliğinin kontrol edilmesi. artık yöntem

Oluşturulan regresyon modelinin yeterliliği, başka hiçbir modelin yanıtı tahmin etmede önemli bir gelişme sağlamadığı gerçeği olarak anlaşılmaktadır.

Tüm yanıt değerleri farklı değerlerde elde edilirse x, yani aynı için elde edilen birkaç yanıt değeri yok x ben, o zaman lineer modelin yeterliliğinin yalnızca sınırlı bir testi yapılabilir. Böyle bir kontrolün temeli artıklardır:

Yerleşik modelden sapmalar:

kadarıyla x tek boyutlu bir değişkendir, noktalar ( x ben, ben) sözde artık arsa şeklinde bir düzlemde gösterilebilir. Böyle bir temsil bazen artıkların davranışında bir miktar düzenliliğin saptanmasını mümkün kılar. Ek olarak, artıkların analizi, hata dağılımı yasasına ilişkin varsayımı analiz etmemizi sağlar.

Hataların normal yasaya göre dağıtılması ve varyanslarının önceden tahmin edilmesi durumunda σ 2 (önceden gerçekleştirilen ölçümlere dayanarak elde edilen tahmin), daha sonra modelin yeterliliğinin daha doğru bir değerlendirmesi mümkündür.

Üzerinden F-Fischer testi, kalan varyansın anlamlı olup olmadığını kontrol edebilirsiniz. s 0 2 a priori tahminden farklıdır. Önemli ölçüde daha büyükse, yetersizlik vardır ve model revize edilmelidir.

Önsel tahmin ise σ 2 hayır, ancak yanıt ölçümleri Y aynı değerlerde iki veya daha fazla kez tekrarlanır x, daha sonra bu tekrarlanan gözlemler başka bir tahmin elde etmek için kullanılabilir σ 2 (birincisi kalan varyanstır). Böyle bir tahminin "saf" bir hatayı temsil ettiği söylenir, çünkü x iki veya daha fazla gözlem için aynıysa, yalnızca rastgele değişiklikler sonuçları etkileyebilir ve aralarında bir dağılım oluşturabilir.

Ortaya çıkan tahmin, diğer yöntemlerle elde edilen tahminden daha güvenilir bir varyans tahminidir. Bu nedenle deneyleri planlarken tekrarlı deneyler kurmak mantıklıdır.

var olduğunu varsayalım m Farklı anlamlar x : x 1 , x 2 , ..., x m. Bu değerlerin her biri için olsun x ben mevcut ben tepki gözlemleri Y. Toplam gözlem sayısı:

Daha sonra basit doğrusal regresyon modeli şu şekilde yazılabilir:


“Saf” hataların varyansını bulalım. Bu varyans, birleşik varyans tahminidir σ 2 yanıt değerlerini sunarsak yij de x = x benörnekleme hacmi olarak ben. Sonuç olarak, "saf" hataların varyansı şuna eşittir:

Bu varyans bir tahmin işlevi görür σ 2 takılan modelin doğru olup olmadığına bakılmaksızın.

“Saf hataların” karelerinin toplamının, kalan kareler toplamının (artık varyans ifadesine dahil edilen karelerin toplamı) bir parçası olduğunu gösterelim. için kalan J inci gözlem x benşu şekilde yazılabilir:

Bu denklemin her iki tarafını da karelersek ve sonra toplarsak J ve tarafından i, sonra şunu elde ederiz:

Bu denklemin sol tarafında kalan kareler toplamı var. Sağ taraftaki ilk terim “saf” hataların karelerinin toplamıdır, ikinci terim ise yetersizlik karelerinin toplamı olarak adlandırılabilir. son miktar var m-2 serbestlik derecesi, dolayısıyla yetersizlik varyansı

H 0 hipotezini test etmek için test istatistiği: basit doğrusal model yeterlidir, H 1 hipotezine karşı yeterlidir: basit doğrusal model yetersizdir, rastgele bir değişkendir

Boş hipotez doğruysa, değer F serbestlik dereceli bir Fisher dağılımına sahiptir m-2 ve nm. Elde edilen istatistik değeri, serbestlik derecesi sayısı ile Fisher dağılımının α-yüzde noktasından büyükse, regresyon çizgisinin doğrusallığı hipotezi α önem düzeyi ile reddedilmelidir. m-2 ve nm.

46. Regresyon modelinin yeterliliğinin kontrol edilmesi (bkz. 45). varyans analizi

47. Regresyon modelinin yeterliliğinin kontrol edilmesi (bkz. 45). belirleme katsayısı

Bazen, regresyon çizgisinin kalitesini karakterize etmek için örnek bir belirleme katsayısı kullanılır. r 2 , regresyona bağlı kareler toplamının hangi kısmının (payının) olduğunu gösteren SC p, SC n'nin toplam kareler toplamındadır:

daha yakın r 2'ye bir, regresyon deneysel verilere ne kadar yakınsa, gözlemler regresyon çizgisine o kadar yakın olur. Eğer r 2 = 0, o zaman yanıt değişiklikleri tamamen hesaba katılmayan faktörlerin etkisinden kaynaklanmaktadır ve regresyon çizgisi eksene paraleldir. x-ov. Basit bir doğrusal regresyon durumunda, belirleme katsayısı r 2 korelasyon katsayısının karesine eşittir r 2 .

R 2 =1'in maksimum değeri, yalnızca gözlemlerin farklı x-s değerlerinde gerçekleştirilmesi durumunda elde edilebilir. Verilerde tekrarlanan deneyimler varsa, model ne kadar iyi olursa olsun R 2 değeri birliğe ulaşamaz.

48. Basit doğrusal regresyon parametreleri için güven aralıkları

Örnek ortalamanın gerçek ortalamanın (popülasyon ortalaması) bir tahmini olması gibi, regresyon denkleminin örnek parametreleri de öyledir. a Ve B- gerçek regresyon katsayılarının tahminlerinden başka bir şey değil. Tıpkı farklı örneklerin regresyon katsayılarının farklı tahminlerini vermesi gibi, farklı örnekler de ortalamanın farklı tahminlerini verir.

Hata dağıtım yasasının geçerli olduğunu varsayarsak ben normal bir yasa ile tanımlanır, parametre tahmini B parametrelerle normal bir dağılıma sahip olacaktır:


parametre tahmininden beri a bağımsız normal dağılmış değişkenlerin doğrusal bir birleşimidir, ayrıca ortalama ve varyansla normal bir dağılıma sahip olacaktır:


Bu durumda, varyansı tahmin etmek için (1 − α) güven aralığı σ 2, oranı dikkate alarak ( n−2)s 0 2 /σ 2 kanunla dağıtılmış χ 2 serbestlik derecesi sayısı ile n-2 ifadesi ile belirlenir


49. Regresyon doğrusu için güven aralıkları. Bağımlı değişken değerleri için güven aralığı

Genellikle regresyon katsayılarının gerçek değerlerini bilmiyoruz fakat Ve B. Sadece tahminlerini biliyoruz. Başka bir deyişle, gerçek regresyon çizgisi, örnek veriler üzerine inşa edilenden daha yükseğe veya alçağa gidebilir, daha dik veya daha düz olabilir. Regresyon katsayıları için güven aralıklarını hesapladık. Ayrıca, regresyon çizgisinin kendisi için güven bölgesini de hesaplayabilirsiniz.

Basit bir lineer regresyon için (1− α ) yanıtın matematiksel beklentisi için güven aralığı Y değer ile x = x 0 . Bu matematiksel beklenti, a+sevgili 0 ve tahmini

Çünkü o zaman.

Elde edilen matematiksel beklenti tahmini, ilişkisiz normal dağılımlı niceliklerin doğrusal bir birleşimidir ve bu nedenle, koşullu matematiksel beklenti ve varyansın gerçek değeri noktasında ortalanmış bir normal dağılıma sahiptir.

Bu nedenle, her bir değerde regresyon doğrusu için güven aralığı x 0 olarak temsil edilebilir


Gördüğünüz gibi, minimum güven aralığı şu durumlarda elde edilir: x 0, ortalama değere eşittir ve arttıkça artar. x 0 herhangi bir yönde ortalamadan “uzaklaşır”.

Yukarıdaki ifadede yerine, tüm uzunluğu boyunca tüm regresyon fonksiyonu için uygun bir ortak güven aralığı kümesi elde etmek için t n −2,α /2 değiştirilmelidir