Kendallov koeficijent korelacije ranga. Korelacija ranga i Kendallov koeficijent korelacije ranga Kendallov koeficijent korelacije ranga u excelu

Kratka teorija

Kendallov koeficijent korelacije se koristi kada su varijable predstavljene sa dvije ordinalne skale, pod uslovom da nema pridruženih rangova. Izračunavanje Kendalovog koeficijenta uključuje prebrojavanje broja poklapanja i inverzija.

Ovaj koeficijent varira unutar i izračunava se po formuli:

Za proračun, sve jedinice su rangirane po atributu; prema nizu drugih kriterija, za svaki rang se računa broj sljedećih rangova koji premašuju zadati (označavamo ih sa) i broj sljedećih rangova ispod datog (označavamo ih).

To se može pokazati

a Kendallov koeficijent korelacije ranga može se zapisati kao

Da bi se testirala nulta hipoteza na nivou značajnosti da je generalni Kendallov koeficijent korelacije ranga jednak nuli pod konkurentskom hipotezom, potrebno je izračunati kritičnu tačku:

gdje je veličina uzorka; Je kritična tačka dvostranog kritičnog područja, koja se nalazi iz tablice Laplaceove funkcije jednakošću

Ako - nema razloga za odbacivanje nulte hipoteze. Korelacija ranga između karakteristika je beznačajna.

Ako - nulta hipoteza se odbacuje. Postoji značajna rang korelacija između karakteristika.

Primjer rješavanja problema

Zadatak

Prilikom zapošljavanja sedam kandidata za upražnjena radna mjesta ponuđena su dva testa. Rezultati testa (u bodovima) prikazani su u tabeli:

Test Kandidat 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Izračunajte Kendallov koeficijent korelacije ranga između rezultata testa za dva testa i procijenite njegovu važnost na nivou.

Rješenje problema

Izračunajte Kendallov koeficijent

Rangovi faktorskog atributa su raspoređeni striktno u rastućem redosledu, a odgovarajući rangovi efektivnog atributa se snimaju paralelno. Za svaki rang od sledećih rangova računa se broj viših rangova (upisuje se u kolonu) i broj nižih rangova (upisuje se u kolonu).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Suma 16 5

Jedan od faktora koji ograničavaju primenu kriterijuma zasnovanih na pretpostavci normalnosti je veličina uzorka. Sve dok je uzorak dovoljno velik (na primjer, 100 ili više opservacija), možete pretpostaviti da je distribucija uzorka normalna, čak i ako niste sigurni da je distribucija varijable u populaciji normalna. Međutim, ako je uzorak mali, ove kriterije treba koristiti samo ako postoji povjerenje da je varijabla zaista normalno distribuirana. Međutim, ne postoji način da se testira ova pretpostavka na malom uzorku.

Upotreba kriterijuma zasnovanih na pretpostavci normalnosti takođe je ograničena na skalu merenja (vidi poglavlje Osnovni koncepti analize podataka). Statističke metode kao što su t-test, regresija, itd. pretpostavljaju da su originalni podaci kontinuirani. Međutim, postoje situacije u kojima su podaci jednostavno rangirani (mjereni na ordinalnoj skali), a ne precizno mjereni.

Tipičan primjer daju ocjene stranica na Internetu: prvo mjesto zauzima stranica s maksimalnim brojem posjetitelja, drugu poziciju zauzima stranica s maksimalnim brojem posjetitelja među preostalim stranicama (među stranicama sa kojeg je prvi sajt uklonjen) itd. Poznavajući ocene, možemo reći da je broj posetilaca jednog sajta veći od broja posetilaca drugog, ali koliko više, nemoguće je reći. Zamislite da imate 5 lokacija: A, B, C, D, E, koje su na prvih 5 mjesta. Pretpostavimo da smo u tekućem mjesecu imali sljedeći aranžman: A, B, C, D, E, au prethodnom mjesecu: D, E, A, B, C. Pitanje je da je došlo do značajnih promjena u ocjenama sajtova ili ne? U ovoj situaciji, očito, ne možemo koristiti t-test da uporedimo ove dvije grupe podataka, i prijeđemo na područje specifičnih vjerojatnosnih proračuna (a svaki statistički kriterij sadrži vjerojatnostnu kalkulaciju!). Razmišljamo ovako: koliko je vjerovatno da je razlika u izgledu dva sajta nastala zbog čisto slučajnih razloga, ili da je razlika prevelika i da se ne može objasniti čistom slučajnošću. U ovom obrazloženju koristimo samo rangove ili permutacije stranica i ni na koji način ne koristimo specifičan oblik distribucije broja posjetitelja na njima.

Za analizu malih uzoraka i za podatke mjerene na lošim skalama koriste se neparametarske metode.

Kratki obilazak neparametarskih procedura

U suštini, za svaki parametarski kriterijum postoji barem jedna neparametarska alternativa.

Općenito, ovi postupci spadaju u jednu od sljedećih kategorija:

  • kriterijumi razlikovanja nezavisnih uzoraka;
  • kriteriji razlikovanja zavisnih uzoraka;
  • procjena stepena zavisnosti između varijabli.

Općenito, pristup statističkim kriterijumima u analizi podataka treba da bude pragmatičan i ne opterećen nepotrebnim teorijskim obrazloženjem. Sa STATISTICA računarom koji vam je na raspolaganju, možete lako primijeniti nekoliko kriterija na svoje podatke. Znajući za neke od zamki metoda, eksperimentiranjem ćete odabrati pravo rješenje. Razvoj dijagrama je sasvim prirodan: ako trebate uporediti vrijednosti dvije varijable, onda koristite t-test. Međutim, treba imati na umu da se zasniva na pretpostavci normalnosti i jednakosti varijansi u svakoj grupi. Oslobađanje od ovih pretpostavki rezultira neparametarskim testovima koji su posebno korisni za male uzorke.

Razvoj t-testa dovodi do analize varijanse, koja se koristi kada je broj upoređenih grupa veći od dvije. Odgovarajući razvoj neparametarskih procedura dovodi do neparametarske analize varijanse, iako je znatno lošija od klasične analize varijanse.

Da bi se procijenila zavisnost, ili, donekle pompezno rečeno, stepen čvrstoće veze, izračunava se Pearsonov koeficijent korelacije. Strogo govoreći, njegova primjena ima ograničenja povezana, na primjer, sa vrstom skale na kojoj se podaci mjere i nelinearnošću zavisnosti, pa se, alternativno, koriste i neparametrijski, ili tzv. rang koeficijenti korelacije, koji su koristi se, na primjer, za rangirane podatke. Ako se podaci mjere na nominalnoj skali, onda je prirodno predstaviti ih u kontingentnim tabelama koje koriste Pearsonov hi-kvadrat test sa različitim varijacijama i korekcijama za tačnost.

Dakle, u suštini postoji samo nekoliko tipova kriterijuma i procedura koje morate znati i umeti da koristite, u zavisnosti od specifičnosti podataka. Morate odrediti koji kriterij treba primijeniti u određenoj situaciji.

Neparametarske metode su najprikladnije kada su uzorci male. Ako postoji mnogo podataka (na primjer, n> 100), često nema smisla koristiti neparametarsku statistiku.

Ako je veličina uzorka vrlo mala (na primjer, n = 10 ili manje), tada se nivoi značajnosti za one neparametarske testove koji koriste normalnu aproksimaciju mogu smatrati samo grubim procjenama.

Razlike između nezavisnih grupa... Ako postoje dva uzorka (na primjer, muškarci i žene) koje je potrebno uporediti s obzirom na neku prosječnu vrijednost, na primjer, srednji tlak ili broj leukocita u krvi, tada se t-test može koristiti za neovisnu uzorci.

Neparametarske alternative ovom testu su kriterijum Val'd-Wolfowitz, Mann-Whitney serije)/n, gdje je x i i-ta vrijednost, n je broj opservacija. Ako varijabla sadrži negativne vrijednosti ili nulu (0), geometrijska sredina se ne može izračunati.

Harmonična sredina

Harmonski prosjek se ponekad koristi za prosječenje frekvencija. Harmonička sredina se izračunava po formuli: GS = n / S (1 / x i) gdje je GS harmonijska sredina, n je broj opažanja, h i je vrijednost zapažanja sa brojem i. Ako varijabla sadrži nulu (0), harmonijska sredina se ne može izračunati.

Disperzija i standardna devijacija

Varijanca uzorka i standardna devijacija su najčešće korištene mjere varijabilnosti (varijacije) podataka. Varijanca se izračunava kao zbir kvadrata odstupanja vrijednosti varijable od srednje vrijednosti uzorka, podijeljenih sa n-1 (ali ne sa n). Standardna devijacija se izračunava kao kvadratni korijen procjene varijanse.

Swing

Raspon varijable je indikator volatilnosti, izračunat kao maksimum minus minimum.

Kvartilni opseg

Kvartalni raspon, po definiciji, je: gornji kvartil minus donji kvartil (75% percentil minus 25% percentil). Budući da je 75% percentil (gornji kvartil) vrijednost lijevo od koje se nalazi 75% slučajeva, a 25% percentil (donji kvartil) je vrijednost lijevo od koje se nalazi 25% slučajeva, kvartil raspon je interval oko medijane koji sadrži 50% slučajeva (vrijednosti varijabli).

Asimetrija

Asimetrija je karakteristika oblika distribucije. Distribucija je nagnuta ulijevo ako je vrijednost iskrivljenosti negativna. Raspodjela je nagnuta udesno ako je asimetrija pozitivna. Kosina standardne normalne distribucije je 0. Kosa je povezana s trećim momentom i definirana je kao: kosina = n × M 3 / [(n-1) × (n-2) × s 3], gdje je M 3 je: (xi -x srednja vrijednost x) 3, s 3 je standardna devijacija podignuta na treći stepen, n je broj opservacija.

Višak

Kurtoza je karakteristika oblika distribucije, naime, mjera ozbiljnosti njenog vrha (u odnosu na normalnu distribuciju, čija je ekscesnost jednaka 0). Po pravilu, distribucije sa oštrijim vrhom od normalnog imaju pozitivan eksces; distribucije čiji je vrh manje akutan od vrha normalne distribucije imaju negativan eksces. Višak je povezan s četvrtim momentom i određen je formulom:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], gdje je M j: (xx srednja vrijednost x, s 4 je standardna devijacija na četvrtu potenciju, n je broj zapažanja...

Koristi se za identifikaciju odnosa između kvantitativnih ili kvalitativnih indikatora, ako se mogu rangirati. Vrijednosti indikatora X postavljaju se uzlaznim redoslijedom i dodjeljuju im se rangovi. Vrijednosti Y indikatora se rangiraju i izračunava se Kendall koeficijent korelacije:

gdje S = PQ.

P veliki vrijednost ranga Y.

Q- ukupan broj zapažanja nakon tekućih zapažanja sa manji vrijednost ranga Y. (jednaki rangovi se ne računaju!)

Ako se proučavani podaci ponavljaju (imaju iste rangove), tada se u proračunima koristi Kendallov korigirani koeficijent korelacije:

t- broj povezanih činova u redu X i Y, respektivno.

19. Šta treba da bude polazna tačka pri definisanju teme, objekta, predmeta, cilja, ciljeva i hipoteze istraživanja?

Program istraživanja, po pravilu, ima dva dijela: metodološki i proceduralni. Prvi uključuje potkrepljivanje relevantnosti teme, formulisanje problema, definisanje objekta i predmeta, ciljeva i zadataka istraživanja, formulisanje osnovnih pojmova (kategorijalni aparat), preliminarnu sistematsku analizu objekta istraživanja i postavljanje radne hipoteze. Drugi dio otkriva strateški plan istraživanja, kao i plan i osnovne procedure za prikupljanje i analizu primarnih podataka.

Prije svega, pri odabiru teme istraživanja, mora se polaziti od relevantnosti. Obrazloženje relevantnosti uključuje ukazivanje na potrebu i blagovremenost proučavanja i rješavanja problema za dalji razvoj teorije i prakse nastave i odgoja. Aktualna istraživanja pružaju odgovore na najhitnija pitanja u ovom trenutku, odražavaju društveni poredak društva pedagoškoj nauci i otkrivaju najvažnije kontradikcije koje se dešavaju u praksi. Kriterijum relevantnosti je dinamičan, mobilan, zavisi od vremena, uzimajući u obzir specifične i specifične okolnosti. U svom najopštijem obliku, relevantnost karakteriše stepen nesklada između potražnje za naučnim idejama i praktičnim preporukama (za zadovoljavanje određene potrebe) i predloga koje nauka i praksa mogu da daju u ovom trenutku.

Najuvjerljivija osnova koja definira temu istraživanja je društveni poredak, koji odražava najakutnije, društveno značajne probleme koji zahtijevaju hitna rješenja. Društveni poredak zahtijeva obrazloženje određene teme. Obično je ovo analiza stepena razrađenosti nekog pitanja u nauci.

Ako društveni poredak slijedi iz analize pedagoške prakse, onda on sam naučni problem je u drugoj ravni. Ona izražava glavnu kontradikciju koja se mora riješiti pomoću nauke. Rješenje problema je obično svrha studije. Cilj je preformulisani problem.

Formulacija problema podrazumijeva odabir objekta istraživanja. To može biti pedagoški proces, područje pedagoške stvarnosti ili neka vrsta pedagoškog stava koji sadrži kontradiktornost. Drugim riječima, objekt može biti bilo šta što eksplicitno ili implicitno sadrži kontradikciju i stvara problemsku situaciju. Objekt je ono na što je usmjeren proces spoznaje. Predmet studija - dio, strana objekta. To su najznačajnija sa praktične ili teorijske tačke gledišta, svojstva, aspekti, karakteristike predmeta koji su predmet neposrednog proučavanja.

U skladu sa svrhom, objektom i predmetom istraživanja, istraživanje zadaci, koji su po pravilu usmjereni na provjeru hipoteze. Potonji je skup teorijski zasnovanih pretpostavki, čija je istinitost podložna provjeri.

Kriterijum naučna novina može se koristiti za procjenu kvaliteta završenih studija. Karakterizira nove teorijske i praktične zaključke, obrasce obrazovanja, njegovu strukturu i mehanizme, sadržaje, principe i tehnologije, koji u ovom trenutku nisu bili poznati i nisu zabilježeni u pedagoškoj literaturi. Novost istraživanja može imati i teorijski i praktični značaj. Teorijska vrijednost istraživanja je u kreiranju koncepta, dobijanju hipoteze, pravilnosti, metode, modela za identifikaciju problema, tendencije, smjera. Praktični značaj istraživanja je u pripremi prijedloga, preporuka i sl. Kriterijumi novine, teorijske i praktične važnosti mijenjaju se u zavisnosti od vrste istraživanja, a zavise i od vremena sticanja novih znanja.

KENDALLA KOEFICIJENT KORELACIJE RANGA

Jedna od mjera uzorka ovisnosti dvije slučajne varijable (obilježja) X i Y, na osnovu rangiranja uzoraka stavki (X 1, Y x), .. ., (X n, Y n). K. do R. odnosi se, dakle, na rang statističara a određuje se formulom

gdje r i- Vi pripadate tom paru ( X, Y), za roj Xravena i, S = 2N- (n-1) / 2, N je broj elemenata uzorka, za koje je istovremeno j> i i r j> r i... Uvijek je Kao selektivna mjera zavisnosti od To. To. R. do. je naširoko koristio M. Kendall (M. Kendall, vidi).

K. do R. K. se koristi za testiranje hipoteze o nezavisnosti slučajnih varijabli. Ako je hipoteza nezavisnosti tačna, onda je E t = 0 i D t = 2 (2n + 5) / 9n (n-1). Uz malu veličinu uzorka, provjera je statistička. hipoteza nezavisnosti je napravljena pomoću posebnih tabela (vidi). Za n> 10, normalna aproksimacija se koristi za distribuciju m: if

tada se hipoteza nezavisnosti odbacuje, inače se prihvata. Evo a . - nivo značajnosti, u a / 2 je procentualni poen normalne distribucije. K. do R. Jer, kao i svaki drugi, može se koristiti za otkrivanje zavisnosti dvaju kvalitativnih karakteristika, ako se samo elementi uzorka mogu poredati u odnosu na ove karakteristike. Ako X, Y imaju zajedničku normalu sa koeficijentom korelacije p, zatim odnos između K. do. p. do. i ima oblik:

vidi takođe Spearmanova korelacija ranga, rang test.

Lit.: Kendal M., Korelacije ranga, trans. s engleskog, M., 1975; Van der Waerden B.L., Matematika, trans. iz nje, M., 1960; Bol'shev L.N., Smirnov N.V., Tabele matematičke statistike, Moskva, 1965.

A. V. Prokhorov.


Enciklopedija matematike. - M .: Sovjetska enciklopedija... I. M. Vinogradov. 1977-1985.

Pogledajte šta je "KOEFICIJENT KENDALLA RANK KORELACIJE" u drugim rječnicima:

    engleski. s efikasna, rang korelacija Kendall; njemački Kendalls Rangkorrelationskoeffizient. Koeficijent korelacije, koji određuje stepen korespondencije uređenja svih parova objekata u dve varijable. Antinazi. Enciklopedija sociologije, 2009 ... Enciklopedija sociologije

    KENDALLOV KOEFICIJENT KORELACIJE RANGA- Engleski. efikasna, rang korelacija Kendall; njemački Kendalls Rangkorrelationskoeffizient. Koeficijent korelacije, koji određuje stepen korespondencije uređenja svih parova objekata u dve varijable... Eksplanatorni rečnik sociologije

    Mjera zavisnosti dvije slučajne varijable (obilježja) X i Y, zasnovana na rangiranju rezultata nezavisnih posmatranja (X1, Y1). ... ., (Xn, Yn). Ako se rangovi vrijednosti X nalaze u prirodnom redu i = 1,. ... ., n, i Ri rang Y koji odgovara ... ... Enciklopedija matematike

    Koeficijent korelacije- (Koeficijent korelacije) Koeficijent korelacije je statistički pokazatelj zavisnosti dve slučajne varijable.Određivanje koeficijenta korelacije, vrste koeficijenata korelacije, svojstva koeficijenta korelacije, proračun i primena ... ... Enciklopedija investitora

    Odnos između slučajnih varijabli, koji, općenito govoreći, nije striktno funkcionalan. Za razliku od funkcionalne zavisnosti, K. se po pravilu smatra kada jedna od veličina zavisi ne samo od ove druge, već i ... ... Enciklopedija matematike

    Korelacija (korelaciona zavisnost) je statistički odnos dve ili više slučajnih varijabli (ili veličina koje se kao takve mogu smatrati sa nekim prihvatljivim stepenom tačnosti). U ovom slučaju, promjene vrijednosti jedne ili ... ... Wikipedije

    Korelacija- (Korelacija) Korelacija je statistički odnos dve ili više slučajnih varijabli.Koncept korelacije, vrste korelacije, koeficijent korelacije, analiza korelacije, korelacija cena, korelacija valutnih parova na Forex sadržaju ... ... Enciklopedija investitora

    Općenito je prihvaćeno da je početak S. m. stoljeća. ili, kako se to često naziva, statistika "malog n", postavljena je u prvoj deceniji XX veka objavljivanjem dela W. Gosseta, u koje je postavio t raspodelu, postuliranu od strane onih koji su primili svet malo kasnije..... Psihološka enciklopedija

    Maurice Kendall Sir Maurice George Kendall Datum rođenja: 6. septembar 1907 (1907 09 06) Mjesto rođenja: Kettering, UK Datum smrti ... Wikipedia

    Prognoza- (Prognoza) Definicija prognoze, zadaci i principi prognoziranja Definicija prognoze, zadaci i principi prognoziranja, metode predviđanja Sadržaj Sadržaj Definicija Osnovni pojmovi prognoze Zadaci i principi prognoziranja ... ... Enciklopedija investitora

Izračunati Kendallov koeficijent korelacije ranga r k potrebno je rangirati podatke za jedan od atributa uzlaznim redoslijedom i odrediti odgovarajuće rangove za drugi atribut. Zatim se za svaki rang drugog obilježja određuje broj sljedećih rangova, koji su po veličini veći od preuzetog ranga, i pronalazi se zbir ovih brojeva.

Kendallov koeficijent korelacije ranga određen je formulom


gdje R i- broj rangova druge varijable, počevši od i+1, čija je veličina veća od magnitude i rang ove varijable.

Postoje tabele procentnih poena distribucije koeficijenta r k, što vam omogućava da testirate hipotezu o značaju koeficijenta korelacije.

Za velike veličine uzoraka, kritične vrijednosti r k nisu tabelarno prikazani i moraju se izračunati pomoću približnih formula, koje se zasnivaju na činjenici da je pod nultom hipotezom H 0: r k= 0 i velika n slučajna vrijednost

raspoređeno približno prema standardnom normalnom zakonu.

40. Odnos između osobina mjerenih nominalnim ili rednim skalama

Često se javlja problem provjere nezavisnosti dvije karakteristike mjerene na nominalnoj ili ordinalnoj skali.

Neka neki objekti mjere dvije karakteristike X i Y sa brojem nivoa r i s respektivno. Rezultati takvih zapažanja su prikladno predstavljeni u obliku tabele, koja se zove tabela kontingencije.

U tabeli u i(i = 1, ..., r) i v j (j= 1, ..., s) - vrijednosti koje uzimaju karakteristike, vrijednost n ij- broj objekata od ukupnog broja objekata za koje je atribut X poprimilo značenje u i, i znak Y- značenje v j

Uvodimo sljedeće slučajne varijable:

u i


- broj objekata koji imaju vrijednost v j


Osim toga, postoje očigledne jednakosti



Diskretne slučajne varijable X i Y nezavisno ako i samo ako

za sve parove i, j

Dakle, pretpostavka o nezavisnosti diskretnih slučajnih varijabli X i Y može se napisati ovako:

Kao alternativu, po pravilu, koriste hipotezu

Valjanost hipoteze H 0 treba suditi na osnovu učestalosti uzorka n ij tabele za nepredviđene situacije. U skladu sa zakonom velikih brojeva pri n→ ∞, relativne frekvencije su bliske odgovarajućim vjerovatnoćama:



Za testiranje hipoteze H 0 koristi se statistika

koja, ako je hipoteza tačna, ima distribuciju χ 2 sek rs − (r + s- 1) stepeni slobode.

Kriterijum nezavisnosti χ 2 odbacuje hipotezu H 0 sa nivoom značajnosti α ako:


41. Regresiona analiza. Osnovni koncepti regresione analize

Za matematički opis statističkih odnosa između proučavanih varijabli treba riješiti sljedeće probleme:

ü izabrati klasu funkcija u kojoj je preporučljivo tražiti najbolju (u određenom smislu) aproksimaciju zavisnosti od interesa;

ü pronaći procjene nepoznatih vrijednosti parametara uključenih u jednadžbe tražene zavisnosti;

ü utvrditi adekvatnost dobijene jednačine tražene zavisnosti;

ü za identifikaciju najinformativnijih ulaznih varijabli.

Ukupnost navedenih zadataka predmet je istraživanja u regresionoj analizi.

Funkcija regresije (ili regresija) je ovisnost matematičkog očekivanja jedne slučajne varijable o vrijednosti koju uzima druga slučajna varijabla, koja formira dvodimenzionalni sistem slučajnih varijabli sa prvom.

Neka postoji sistem slučajnih varijabli ( X,Y), zatim funkciju regresije Y on X

I funkcija regresije X on Y

Regresijske funkcije f(x) i φ (y) nisu međusobno reverzibilni ako je samo odnos između X i Y nije funkcionalan.

Kada n-dimenzionalni vektor sa koordinatama X 1 , X 2 ,…, X n možete uzeti u obzir uslovno matematičko očekivanje za bilo koju komponentu. Na primjer, za X 1


nazvana regresija X 1 on X 2 ,…, X n.

Za potpunu definiciju funkcije regresije potrebno je znati uvjetnu distribuciju izlazne varijable za fiksne vrijednosti ulazne varijable.

Budući da u stvarnoj situaciji takve informacije nisu dostupne, one su obično ograničene na traženje odgovarajuće aproksimativne funkcije f a(x) za f(x), na osnovu statističkih podataka oblika ( x i, y i), i = 1,…, n... Ovi podaci su rezultat n nezavisna zapažanja y 1 ,…, y n slučajna varijabla Y za vrijednosti ulazne varijable x 1 ,…, x n, dok regresiona analiza pretpostavlja da su vrijednosti ulazne varijable točno navedene.

Problem izbora najbolje aproksimativne funkcije f a(x), koji je glavni u regresionoj analizi i nema formalizovane procedure za njeno rešavanje. Ponekad se izbor utvrđuje na osnovu analize eksperimentalnih podataka, češće iz teorijskih razmatranja.

Ako se pretpostavi da je funkcija regresije dovoljno glatka, onda je aproksimirajuća funkcija f a(x) može se predstaviti kao linearna kombinacija skupa linearno nezavisnih baznih funkcija ψ k(x), k = 0, 1,…, m−1, tj. u obliku


gdje m- broj nepoznatih parametara θ k(u opštem slučaju, vrednost je nepoznata, prečišćena tokom izgradnje modela).

Takva funkcija je linearna po parametrima, stoga u razmatranom slučaju govorimo o modelu regresijske funkcije koji je linearan po parametrima.

Zatim problem pronalaženja najbolje aproksimacije za regresijsku liniju f(x) se svodi na pronalaženje takvih vrijednosti parametara za koje f a(x; θ) je najadekvatniji dostupnim podacima. Jedna od metoda za rješavanje ovog problema je metoda najmanjih kvadrata.

42. Metoda najmanjeg kvadrata

Neka skup tačaka ( x i, y i), i= 1,…, n nalazi na ravni duž neke prave linije

Zatim, kao funkcija f a(x) aproksimirajući funkciju regresije f(x) = M [Y|x] prirodno je uzeti linearnu funkciju argumenta x:


To jest, ovdje se biraju osnovne funkcije ψ 0 (x) ≡1 i ψ 1 (x)≡x... Ova regresija se naziva jednostavna linearna regresija.

Ako je skup tačaka ( x i, y i), i= 1,…, n se nalazi duž neke krive, a zatim kao f a(x) prirodno je pokušati odabrati familiju parabola

Ova funkcija je nelinearna u parametrima θ 0 i θ 1, međutim, funkcionalnom transformacijom (u ovom slučaju, uzimajući logaritam), može se svesti na novu funkciju f 'a(x), linearni u parametrima:


43. Jednostavna linearna regresija

Najjednostavniji regresijski model je jednostavan (jednodimenzionalni, jednofaktorski, upareni) linearni model, koji ima sljedeći oblik:


gdje ε i- slučajne varijable (greške) koje nisu u korelaciji jedna s drugom, imaju nula matematičkih očekivanja i iste varijanse σ 2 , a i b- konstantni koeficijenti (parametri) koje je potrebno procijeniti iz izmjerenih vrijednosti odziva y i.

Da biste pronašli procjene parametara a i b linearna regresija, određivanje prave linije koja najviše zadovoljava eksperimentalne podatke:


primjenjuje se metoda najmanjih kvadrata.

Prema najmanjih kvadrata procjene parametara a i b nalaze se iz uslova minimiziranja zbira kvadrata odstupanja vrijednosti y i okomito od "prave" linije regresije:

Neka postoji deset opservacija slučajne varijable Y sa fiksnim vrijednostima varijable X

Da se minimizira D izjednačavamo sa nulom parcijalne derivacije u odnosu na a i b:



Kao rezultat, dobijamo sljedeći sistem jednačina za pronalaženje procjena a i b:


Rješavanje ove dvije jednačine daje:



Izrazi za procjene parametara a i b takođe može biti predstavljen kao:

Zatim empirijska jednačina regresijske linije Y on X može se napisati kao:


Nepristrasna procjena varijanse σ 2 odstupanja vrijednosti y i od postavljene prave linije regresije dat je izrazom

Izračunajmo parametre regresijske jednačine


Dakle, linija regresije izgleda ovako:


I procjena varijanse odstupanja vrijednosti y i od postavljene prave linije regresije


44. Provjera značaja linije regresije

Pronađena procjena b≠ 0 može biti realizacija slučajne varijable čije je matematičko očekivanje jednako nuli, odnosno može se ispostaviti da zapravo ne postoji regresijska zavisnost.

Da biste riješili ovu situaciju, trebali biste testirati hipotezu H 0: b= 0 sa konkurentskom hipotezom H 1: b ≠ 0.

Test značajnosti linije regresije može se provesti analizom varijanse.

Razmotrite sljedeći identitet:

Magnituda y iŷ i = ε i naziva se ostatak i predstavlja razliku između dvije veličine:

ü odstupanje posmatrane vrijednosti (odgovora) od ukupnog prosječnog odgovora;

ü odstupanje od predviđene vrijednosti odgovora ŷ i od istog proseka

Pisani identitet se može napisati kao


Poravnavši oba njegova dijela na kvadrat i zbrojivši i, dobijamo:


Gdje su navedene količine:

ukupni (ukupni) zbir kvadrata SC n, koji je jednak zbiru kvadrata odstupanja opažanja u odnosu na srednju vrijednost zapažanja

zbir kvadrata zbog regresije SK p, koji je jednak zbiru kvadrata odstupanja vrijednosti regresijske linije u odnosu na srednju vrijednost opažanja.

rezidualni zbir kvadrata SK 0. što je jednako zbroju kvadrata odstupanja zapažanja u odnosu na vrijednosti linije regresije

Dakle, širenje Y-kov u odnosu na njihovu srednju vrijednost može se donekle pripisati činjenici da ne leže sva zapažanja na liniji regresije. Da je to slučaj, tada bi zbir kvadrata u odnosu na regresiju bio nula. Iz toga slijedi da će regresija biti značajna ako je zbir kvadrata SC p veći od zbira kvadrata SC 0.

Proračuni testa značajnosti regresije su izvedeni u sljedećoj ANOVA tabeli.

Ako greške ε i distribuirano prema normalnom zakonu, onda ako je hipoteza H 0 važeća: b= 0 statistika:


raspoređeno prema Fišerovom zakonu sa brojem stepeni slobode 1 i n−2.

Nul hipoteza će biti odbačena na nivou značajnosti α ako je izračunata statistička vrijednost Fće biti veći od α procentnog poena f 1;n−2, α Fisherove distribucije.

45. Provjera adekvatnosti regresijskog modela. Rezidualna metoda

Adekvatnost konstruisanog regresijskog modela se shvata kao činjenica da nijedan drugi model ne daje značajno poboljšanje u predviđanju odgovora.

Ako se sve vrijednosti odgovora dobiju na različitim vrijednostima x, tj. nema više vrijednosti odgovora dobijenih s istim x i, tada se može provesti samo ograničen test adekvatnosti linearnog modela. Osnova za takvu provjeru su ostaci:

Odstupanja od ustaljenog obrasca:

Ukoliko X- jednodimenzionalna varijabla, bodovi ( x i, d i) može se iscrtati na ravni u obliku takozvanog rezidualnog dijagrama. Takva reprezentacija ponekad omogućava pronalaženje neke pravilnosti u ponašanju reziduala. Osim toga, analiza reziduala vam omogućava da analizirate pretpostavke u vezi sa distribucijom grešaka.

U slučaju kada su greške raspoređene po normalnom zakonu i postoji a priori procjena njihove varijanse σ 2 (procjena dobijena na osnovu prethodno izvršenih mjerenja), onda je moguća preciznija procjena adekvatnosti modela.

Korišćenjem F-Fisherov kriterijum se može koristiti za provjeru da li je rezidualna varijansa značajna s 0 2 razlikuje se od apriorne procjene. Ako je znatno veći, onda postoji neadekvatnost i model treba revidirati.

Ako je prethodna procjena σ 2 ne, ali mjerenja odgovora Y ponovljeno dva ili više puta sa istim vrijednostima X, onda se ova ponovljena zapažanja mogu koristiti za dobijanje druge procjene σ 2 (prva je rezidualna varijansa). Za takvu procjenu se kaže da predstavlja “čistu” grešku, jer ako x su isti za dva ili više opažanja, tada samo nasumične promjene mogu utjecati na rezultate i stvoriti rascjep između njih.

Dobijena procjena se ispostavi da je pouzdanija procjena varijanse od procjene dobivene drugim metodama. Iz tog razloga, prilikom planiranja eksperimenata, ima smisla postaviti eksperimente s ponavljanjima.

Pretpostavimo da imamo m različita značenja X : x 1 , x 2 , ..., x m... Neka za svaku od ovih vrijednosti x i tu je n i zapažanja odgovora Y... Dobijena su ukupna zapažanja:

Tada se model jednostavne linearne regresije može zapisati kao:


Hajde da pronađemo varijansu “čistih” grešaka. Ova varijansa je kombinovana procjena varijanse σ 2, ako predstavljamo vrijednosti odgovora y ij at x = x i kao zapremina uzorka n i... Kao rezultat toga, varijansa "čistih" grešaka je:

Ova varijansa služi kao procjena σ 2 bez obzira na to da li je ugrađeni model ispravan.

Pokažimo da je zbir kvadrata “čistih grešaka” dio preostalog zbira kvadrata (zbir kvadrata uključenih u izraz za zaostalu varijansu). Ostalo za j th observation at x i može se napisati kao:

Ako kvadrirate obje strane ove jednakosti, a zatim ih zbrojite j i po i, dobijamo:

Na lijevoj strani ove jednakosti nalazi se rezidualni zbir kvadrata. Prvi član desno je zbir kvadrata “čistih” grešaka, drugi član se može nazvati zbirom kvadrata neadekvatnosti. Zadnji iznos ima m−2 stepena slobode, dakle, varijansa neadekvatnosti

Statistika kriterija za testiranje hipoteze H 0: jednostavan linearni model je adekvatan, naspram hipoteze H 1: jednostavan linearni model je neadekvatan, slučajna varijabla je

Ako je nulta hipoteza tačna, vrijednost F ima Fisherovu distribuciju sa stupnjevima slobode m−2 i nm... Hipotezu o linearnosti linije regresije treba odbaciti sa nivoom značajnosti α, ako je dobijena vrednost statistike veća od α-procentne tačke Fisherove distribucije sa brojem stepeni slobode m−2 i nm.

46. Provjera adekvatnosti regresijskog modela (vidjeti 45). ANOVA

47. Provjera adekvatnosti regresijskog modela (vidjeti 45). Koeficijent determinacije

Ponekad se za karakterizaciju kvaliteta regresione linije koristi koeficijent determinacije uzorka R 2, koji pokazuje koji je dio (razlomak) zbira kvadrata, zbog regresije, SK p u ukupnom zbiru kvadrata SK n:

Što bliže R 2 prema jedan, što regresija bolje aproksimira eksperimentalne podatke, to su opažanja bliže liniji regresije. Ako R 2 = 0, onda su promjene u odgovoru u potpunosti posljedica utjecaja neuračunatih faktora, a linija regresije je paralelna s osom x-ov. U slučaju jednostavne linearne regresije, koeficijent determinacije R 2 je jednako kvadratu koeficijenta korelacije r 2 .

Maksimalna vrijednost R 2 = 1 može se postići samo u slučaju kada su promatranja obavljena na različitim vrijednostima x-ov. Ako postoje ponovljeni eksperimenti u podacima, tada vrijednost R 2 ne može dostići jedinicu, bez obzira koliko je model dobar.

48. Intervali pouzdanosti za parametre jednostavne linearne regresije

Kao što je srednja vrijednost uzorka procjena prave srednje vrijednosti (srednja vrijednost populacije), tako su i parametri uzorka regresione jednadžbe a i b- ništa više od procjene pravih koeficijenata regresije. Različiti uzorci daju različite procjene srednje vrijednosti – baš kao što će različiti uzorci dati različite procjene koeficijenata regresije.

Pod pretpostavkom da je zakon raspodjele grešaka ε i opisani su normalnim zakonom, procjena parametara b imaće normalnu distribuciju sa parametrima:


Od procjene parametara a je linearna kombinacija nezavisnih normalno raspoređenih veličina, takođe će imati normalnu distribuciju sa srednjom vrednošću i varijansom:


U ovom slučaju, (1 - α) interval pouzdanosti za procjenu varijanse σ 2 uzimajući u obzir da je omjer ( n−2)s 0 2 /σ 2 distribuiraju po zakonu χ 2 sa brojem stepeni slobode n−2 će biti određen izrazom


49. Intervali povjerenja za liniju regresije. Interval pouzdanosti za vrijednosti zavisne varijable

Obično ne znamo prave vrijednosti koeficijenata regresije. a i b... Znamo samo njihove procjene. Drugim riječima, prava regresijska linija može ići više ili niže, biti strmija ili plića od one konstruirane iz podataka uzorka. Izračunali smo intervale povjerenja za koeficijente regresije. Takođe možete izračunati region pouzdanosti za samu liniju regresije.

Neka je za jednostavnu linearnu regresiju potrebno konstruisati (1− α ) interval povjerenja za matematičko očekivanje odgovora Y po vrijednosti NS = NS 0. Ovo matematičko očekivanje je a+bx 0 i njegovu procjenu

Od tada.

Dobivena procjena matematičkog očekivanja je linearna kombinacija nekoreliranih normalno raspoređenih vrijednosti i stoga također ima normalnu distribuciju centriranu u tački prave vrijednosti uvjetnog matematičkog očekivanja i varijanse

Dakle, interval pouzdanosti za regresijsku liniju za svaku vrijednost x 0 se može predstaviti kao


Kao što vidite, minimalni interval pouzdanosti se dobija na x 0 jednako srednjoj i raste kao x 0 se „udaljava“ od sredine u bilo kojem smjeru.

Da bi se dobio skup zajedničkih intervala pouzdanosti pogodnih za cijelu funkciju regresije, duž cijele njene dužine, u gornjem izrazu umjesto t n −2,α / 2 mora biti zamijenjeno