Kendallův koeficient pořadové korelace. Hodnostní korelace a Kendallův koeficient hodnostní korelace Kendallův koeficient hodnostní korelace v excelu

Stručná teorie

Kendallův korelační koeficient se používá, když jsou proměnné reprezentovány dvěma ordinálními stupnicemi, za předpokladu, že neexistují žádné asociované úrovně. Výpočet Kendallova koeficientu zahrnuje počítání počtu shod a inverzí.

Tento koeficient se mění v rámci a vypočítává se podle vzorce:

Pro výpočet jsou všechny jednotky seřazeny podle atributu; podle řady dalších kritérií se pro každou hodnost počítá počet následných hodností převyšujících danou (označujeme je) a počet následných hodností pod danou (označujeme je).

Dá se to ukázat

a Kendallův korelační koeficient hodnosti lze zapsat jako

Abychom mohli otestovat nulovou hypotézu na hladině významnosti, že obecný Kendallův korelační koeficient pořadí je roven nule za konkurenční hypotézy, je nutné vypočítat kritický bod:

kde je velikost vzorku; Je kritickým bodem oboustranné kritické oblasti, která se zjistí z tabulky Laplaceovy funkce pomocí rovnosti

Pokud - není důvod zamítat nulovou hypotézu. Pořadová korelace mezi znaky je nevýznamná.

Pokud - je nulová hypotéza zamítnuta. Mezi rysy existuje významná korelace pořadí.

Příklad řešení problému

Úkol

Při náboru sedmi uchazečů na volná místa byly nabídnuty dva testy. Výsledky testu (v bodech) jsou uvedeny v tabulce:

Test Kandidát 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Vypočítejte Kendallův koeficient pořadové korelace mezi výsledky testů pro dva testy a zhodnoťte jeho významnost na úrovni.

Řešení problému

Vypočítejte Kendallův koeficient

Pořadí atributu faktoru jsou uspořádány přísně ve vzestupném pořadí a odpovídající úrovně efektivního atributu jsou zaznamenány paralelně. Pro každou hodnost z následujících hodností se vypočítá počet vyšších hodností (zadaných do sloupce) a počet nižších hodností (zapsaných do sloupce).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Součet 16 5

Jedním z faktorů omezujících použití kritérií založených na předpokladu normality je velikost vzorku. Pokud je vzorek dostatečně velký (například 100 nebo více pozorování), můžete předpokládat, že rozložení vzorku je normální, i když si nejste jisti, že rozložení proměnné v populaci je normální. Pokud je však vzorek malý, měla by se tato kritéria použít pouze v případě, že existuje jistota, že proměnná je skutečně normálně rozdělena. Neexistuje však způsob, jak tento předpoklad otestovat na malém vzorku.

Použití kritérií založených na předpokladu normality je rovněž omezeno na škálu měření (viz kapitola Základní pojmy analýzy dat). Statistické metody jako t-test, regrese atd. předpokládají, že původní data jsou spojitá. Existují však situace, kdy jsou data jednoduše řazena (měřena na ordinální stupnici), spíše než přesně měřena.

Typickým příkladem je hodnocení stránek na internetu: na prvním místě se umístil web s maximálním počtem návštěvníků, na druhém místě se umístil web s maximálním počtem návštěvníků mezi zbývajícími weby (mezi weby ze kterého byla odstraněna první stránka) atd. Při znalosti hodnocení můžeme říci, že počet návštěvníků jednoho webu je větší než počet návštěvníků druhého, ale o kolik více, nelze říci. Představte si, že máte 5 webů: A, B, C, D, E, které jsou na prvních 5 místech. Předpokládejme, že v aktuálním měsíci jsme měli toto uspořádání: A, B, C, D, E a v předchozím měsíci: D, E, A, B, C. Otázkou je, zda došlo k významným změnám v hodnocení stránek nebo ne? V této situaci samozřejmě nemůžeme použít t-test k porovnání těchto dvou skupin dat a přejít do oblasti specifických pravděpodobnostních výpočtů (a každé statistické kritérium obsahuje pravděpodobnostní výpočet!). Uvažujeme takto: jak pravděpodobné je, že rozdíl v rozložení dvou stránek je způsoben čistě náhodnými důvody nebo že rozdíl je příliš velký a nelze jej vysvětlit čirou náhodou. V této úvaze používáme pouze hodnocení nebo permutace stránek a v žádném případě nepoužíváme konkrétní formu rozdělení počtu návštěvníků na ně.

Pro analýzu malých vzorků a pro data naměřená na špatném měřítku se používají neparametrické metody.

Rychlá prohlídka neparametrických postupů

V podstatě pro každé parametrické kritérium existuje alespoň jedna neparametrická alternativa.

Obecně tyto postupy spadají do jedné z následujících kategorií:

  • rozlišovací kritéria pro nezávislé vzorky;
  • rozlišovací kritéria pro závislé vzorky;
  • posouzení míry závislosti mezi proměnnými.

Obecně by měl být přístup ke statistickým kritériím při analýze dat pragmatický a nezatížený zbytečným teoretickým uvažováním. S počítačem STATISTICA, který máte k dispozici, můžete na svá data snadno aplikovat několik kritérií. S vědomím některých úskalí metod si vyberete správné řešení pomocí experimentování. Vývoj grafu je zcela přirozený: pokud potřebujete porovnat hodnoty dvou proměnných, použijte t-test. Je však třeba připomenout, že je založen na předpokladu normality a rovnosti rozptylů v každé skupině. Oprostit se od těchto předpokladů vede k neparametrickým testům, které jsou zvláště užitečné pro malé vzorky.

Vývoj t-testu vede k analýze rozptylu, která se používá při počtu porovnávaných skupin větších než dvě. Odpovídající rozvoj neparametrických postupů vede k neparametrické analýze rozptylu, i když je výrazně horší než klasická analýza rozptylu.

Pro posouzení závislosti, nebo, poněkud pompézně řečeno, míry těsnosti spoje se vypočítá Pearsonův korelační koeficient. Přísně vzato má její aplikace omezení spojená například s typem škály, ve které jsou data měřena, a nelinearitou závislosti, proto se alternativně používají i neparametrické, tzv. rank, korelační koeficienty, které jsou používá se například pro hodnocená data. Pokud jsou data měřena v nominálním měřítku, pak je přirozené je prezentovat v kontingenčních tabulkách, které využívají Pearsonův chí-kvadrát test s různými variacemi a korekcemi přesnosti.

V podstatě tedy existuje jen několik typů kritérií a postupů, které musíte znát a umět je používat, v závislosti na specifikách dat. Musíte určit, jaké kritérium by se mělo v konkrétní situaci použít.

Neparametrické metody jsou nejvhodnější, pokud je velikost vzorku malá. Pokud je dat hodně (například n> 100), často nemá smysl používat neparametrické statistiky.

Pokud je velikost vzorku velmi malá (například n = 10 nebo méně), lze hladiny významnosti pro ty neparametrické testy, které používají normální aproximaci, považovat pouze za hrubé odhady.

Rozdíly mezi nezávislými skupinami... Pokud existují dva vzorky (například muži a ženy), které je třeba porovnat s ohledem na nějakou průměrnou hodnotu, například střední tlak nebo počet leukocytů v krvi, pak lze t-test použít pro nezávislé Vzorky.

Neparametrické alternativy k tomuto testu jsou kritériem řady Val'd-Wolfowitz, Mann-Whitney) / n, kde x i je i-tá hodnota, n je počet pozorování. Pokud proměnná obsahuje záporné hodnoty nebo nulu (0), geometrický průměr nelze vypočítat.

Harmonický průměr

Harmonický průměr se někdy používá k průměrování frekvencí. Harmonický průměr se vypočítá podle vzorce: ГС = n / S (1 / x i) kde ГС je harmonický průměr, n je počet pozorování, х i je hodnota pozorování s číslem i. Pokud proměnná obsahuje nulu (0), nelze harmonický průměr vypočítat.

Rozptyl a směrodatná odchylka

Výběrový rozptyl a směrodatná odchylka jsou nejčastěji používanými měřítky variability (variací) v datech. Rozptyl se vypočítá jako součet druhých mocnin odchylek hodnot proměnné od výběrového průměru dělený n-1 (ale ne n). Směrodatná odchylka se vypočítá jako druhá odmocnina odhadu rozptylu.

Houpačka

Rozpětí proměnné je indikátorem volatility, počítá se jako maximum mínus minimum.

Kvartilový rozsah

Čtvrtletní rozmezí podle definice je: horní kvartil mínus dolní kvartil (75% percentil mínus 25% percentil). Vzhledem k tomu, že 75% percentil (horní kvartil) je hodnota nalevo, od které se nachází 75 % případů, a 25% percentil (dolní kvartil) je hodnota nalevo od níž se nachází 25 % případů, kvartil rozsah je interval kolem mediánu, který obsahuje 50 % případů (proměnné hodnoty).

Asymetrie

Asymetrie je charakteristická pro tvar distribuce. Pokud je hodnota šikmosti záporná, je rozdělení zkoseno doleva. Pokud je asymetrie kladná, je rozdělení zkoseno doprava. Šikmost standardního normálního rozdělení je 0. Šikmost je spojena s třetím momentem a je definována jako: šikmost = n × M 3 / [(n-1) × (n-2) × s 3], kde M 3 je: (xi -x průměr x) 3, s 3 je standardní odchylka zvýšená na třetí mocninu, n je počet pozorování.

Přebytek

Kurtóza je charakteristika tvaru rozdělení, konkrétně míra závažnosti jeho vrcholu (ve vztahu k normálnímu rozdělení, jehož špičatost je rovna 0). Distribuce s ostřejším vrcholem než normální mají zpravidla kladnou špičatost; distribuce, jejichž vrchol je méně ostrý než vrchol normálního rozdělení, mají negativní špičatost. Přebytek je spojen se čtvrtým momentem a je určen vzorcem:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], kde M j je: (xx průměr x, s 4 je standardní odchylka od čtvrté mocniny, n je počet pozorování...

Používá se k identifikaci vztahu mezi kvantitativními nebo kvalitativními ukazateli, pokud je lze seřadit. Hodnoty indikátoru X jsou nastaveny ve vzestupném pořadí a přiřazeny pořadí. Hodnoty indikátoru Y jsou seřazeny a je vypočítán Kendallův korelační koeficient:

kde S = PQ.

P velký hodnota pořadí Y.

Q- celkový počet pozorování po aktuálních pozorováních s menší hodnota pořadí Y. (stejné pozice se nepočítají!)

Pokud se studovaná data opakují (mají stejné pořadí), pak se ve výpočtech použije Kendallův korigovaný korelační koeficient:

t- počet souvisejících pozic v řádku X a Y.

19.Co by mělo být výchozím bodem při definování tématu, objektu, předmětu, cíle, cílů a hypotézy výzkumu?

Výzkumný program má zpravidla dvě části: metodickou a procedurální. První zahrnuje zdůvodnění relevance tématu, formulaci problému, vymezení objektu a předmětu, cílů a cílů výzkumu, formulaci základních pojmů (kategoriální aparát), předběžnou systematickou analýzu zkoumaného objektu a předložení pracovní hypotézy. Druhá část odhaluje strategický plán výzkumu a také plán a základní postupy pro sběr a analýzu primárních dat.

V první řadě je třeba při výběru výzkumného tématu vycházet z relevance. Odůvodnění relevance zahrnuje uvedení potřeby a aktuálnosti studia a řešení problému pro další rozvoj teorie a praxe vyučování a výchovy. Aktuální výzkumy dávají odpověď na nejpalčivější otázky současnosti, reflektují společenské uspořádání společnosti až po pedagogickou vědu a odhalují nejdůležitější rozpory, které se v praxi odehrávají. Kritérium relevance je dynamické, mobilní, závisí na čase, s přihlédnutím ke konkrétním a specifickým okolnostem. Relevance ve své nejobecnější podobě charakterizuje míru nesrovnalosti mezi poptávkou po vědeckých nápadech a praktických doporučeních (k uspokojení konkrétní potřeby) a návrhy, které věda a praxe mohou v současné době poskytnout.

Nejpřesvědčivějším základem vymezujícím téma výzkumu je společenský řád, reflektující nejakutnější, společensky významné problémy, které vyžadují naléhavá řešení. Společenská objednávka vyžaduje zdůvodnění konkrétního tématu. Obvykle se jedná o analýzu stupně rozpracování otázky ve vědě.

Pokud z rozboru pedagogické praxe vyplývá společenská objednávka, pak sama sebe vědecký problém je v jiné rovině. Vyjadřuje hlavní rozpor, který je třeba řešit pomocí vědy. Řešením problému je obvykle účel studia. Cílem je přeformulovaný problém.

Formulace problému obnáší výběr objektu výzkum. Může to být pedagogický proces, oblast pedagogické reality nebo nějaký druh pedagogického postoje, který obsahuje rozpor. Jinými slovy, objekt může být cokoli, co explicitně nebo implicitně obsahuje rozpor a vytváří problémovou situaci. Objekt je to, k čemu směřuje proces poznání. Předmět studia -část, strana objektu. Jedná se o nejvýznamnější z praktického nebo teoretického hlediska, vlastnosti, aspekty, znaky předmětu, které jsou předmětem přímého studia.

V souladu s účelem, předmětem a předmětem zkoumání výzkum úkoly, které jsou zpravidla zaměřeny na kontrolu hypotézy. Ten je souborem teoreticky podložených předpokladů, jejichž pravdivost podléhá ověření.

Kritérium vědecká novinka lze použít k posouzení kvality ukončeného studia. Charakterizuje nové teoretické a praktické závěry, zákonitosti vzdělávání, jeho strukturu a mechanismy, obsah, principy a technologie, které v této době nebyly známy a nebyly zaznamenány v pedagogické literatuře. Novost výzkumu může mít teoretický i praktický význam. Teoretická hodnota výzkumu spočívá ve vytvoření konceptu, získání hypotézy, zákonitosti, metody, modelu pro identifikaci problému, tendence, směru. Praktický význam výzkumu spočívá v přípravě návrhů, doporučení atp. Kritéria novosti, teoretického a praktického významu se mění v závislosti na typu výzkumu, závisí také na době získávání nových poznatků.

KENDALLA KORELAČNÍ KORELAČNÍ KOEFICIENT

Jedno z výběrových měření závislosti dvou náhodných veličin (znaků) X a Y, na základě pořadí položek vzorku (X 1, Y x), .. ., (X n, Y n). K. až R. k. odkazuje tedy k hodnost statistiků a je určen vzorcem

kde r i- U patřící k tomuto páru ( X, Y), pro roj Xravenů i, S = 2N- (n-1) / 2, N je počet prvků vzorku, pro které je současně j> i a r j> r i... Je vždy Jako selektivní měřítko závislosti To. To. R. to. hojně používal M. Kendall (M. Kendall, viz).

K. až R. K. slouží k testování hypotézy nezávislosti náhodných veličin. Pokud je hypotéza nezávislosti pravdivá, pak Et = 0 a Dt = 2 (2n + 5) / 9n (n-1). Při malé velikosti vzorku je kontrola statistická. hypotéza nezávislosti se provádí pomocí speciálních tabulek (viz). Pro n> 10 se používá normální aproximace pro rozdělení m: if

pak je hypotéza nezávislosti zamítnuta, jinak je přijata. Zde a . - hladina významnosti, u a / 2 je procentní bod normálního rozdělení. K. až R. Protože jako každý jiný jej lze použít k detekci závislosti dvou kvalitativních znaků, pokud lze s ohledem na tyto znaky řadit pouze prvky vzorku. Li X, Y mají společnou normálu s korelačním koeficientem p, pak vztah mezi K. k. p. to. a má tvar:

viz také Spearmanova hodnostní korelace, hodnostní test.

Lit.: Kendal M., Rank correlations, přel. z angličtiny, M., 1975; Van der Waerden B.L., Matematický, přel. z it., M., 1960; Bol'shev L.N., Smirnov N.V., Tabulky matematické statistiky, Moskva, 1965.

A. V. Prochorov.


Encyklopedie matematiky. - M .: Sovětská encyklopedie... I. M. Vinogradov. 1977-1985.

Podívejte se, co je "KENDALLA RANK CORRELATION COEFFICIENT" v jiných slovnících:

    Angličtina. с efektivní, hodnostní korelace Kendall; Němec Kendalls Rangkorrelationskoeffizient. Korelační koeficient, který určuje míru korespondence řazení všech dvojic objektů ve dvou proměnných. antinacistické. Encyklopedie sociologie, 2009 ... Encyklopedie sociologie

    KENDALLŮV KORELAČNÍ KOEFICIENT POŘADÍ- Angličtina. efektivní, hodnostní korelace Kendall; Němec Kendalls Rangkorrelationskoeffizient. Korelační koeficient, který určuje míru shody řazení všech dvojic objektů ve dvou proměnných ... Výkladový slovník sociologie

    Míra závislosti dvou náhodných proměnných (znaků) X a Y na základě pořadí nezávislých výsledků pozorování (X1, Y1). ... (Xn, Yn). Pokud jsou řady hodnot X umístěny v přirozeném pořadí i = 1,. ... ., n a Ri hodnost Y odpovídající ... ... Encyklopedie matematiky

    Korelační koeficient- (Korelační koeficient) Korelační koeficient je statistický ukazatel závislosti dvou náhodných veličin Stanovení korelačního koeficientu, typy korelačních koeficientů, vlastnosti korelačního koeficientu, výpočet a aplikace ... ... Investorská encyklopedie

    Vztah mezi náhodnými proměnnými, který, obecně řečeno, není striktně funkční. Na rozdíl od funkční závislosti se K. zpravidla uvažuje, když jedna z veličin závisí nejen na této druhé, ale také ... ... Encyklopedie matematiky

    Korelace (korelační závislost) je statistický vztah dvou nebo více náhodných veličin (nebo veličin, které lze za takové považovat s určitou přijatelnou mírou přesnosti). V tomto případě změny hodnot jednoho nebo ... ... Wikipedie

    Korelace- (Korelace) Korelace je statistický vztah dvou nebo více náhodných proměnných Pojem korelace, typy korelace, korelační koeficient, korelační analýza, cenová korelace, korelace měnových párů na Forexu Obsah ... ... Investorská encyklopedie

    Všeobecně se uznává, že počátek S. z m. Století. nebo, jak se často říká, statistika „malého n“, byla zasazena do prvního desetiletí XX století publikací práce W. Gosseta, do které umístil distribuci t, postulovanou těmi, kteří obdrželi svět o něco později ... ... Psychologická encyklopedie

    Maurice Kendall Sir Maurice George Kendall Datum narození: 6. září 1907 (1907 09 06) Místo narození: Kettering, Spojené království Datum úmrtí ... Wikipedia

    Předpověď- (Forecast) Definice prognózy, úkoly a principy prognózování Definice prognózy, úkoly a principy prognózování, metody prognóz Obsah Obsah Definice Základní pojmy prognózování Úkoly a principy prognózování ... ... Investorská encyklopedie

Vypočítat Kendallův korelační koeficient pořadí r k je nutné seřadit data pro jeden z atributů vzestupně a určit odpovídající pořadí pro druhý atribut. Potom se pro každou hodnost druhého znaku určí počet následných hodností, jejichž velikost je větší než přijatá hodnost, a zjistí se součet těchto čísel.

Kendallův koeficient pořadové korelace je určen vzorcem


kde R i- počet úrovní druhé proměnné, počínaje i+1, jehož velikost je větší než velikost i hodnost této proměnné.

Existují tabulky procentuálních bodů rozdělení koeficientu r k, což vám umožní testovat hypotézu o významnosti korelačního koeficientu.

Pro velké velikosti vzorků kritické hodnoty r k nejsou tabelovány a je třeba je vypočítat pomocí přibližných vzorců, které jsou založeny na skutečnosti, že podle nulové hypotézy H 0: r k= 0 a velké n náhodná hodnota

rozděleno přibližně podle standardního normálního zákona.

40. Vztah mezi znaky měřenými v nominální nebo ordinální škále

Problém často vzniká při kontrole nezávislosti dvou znaků měřených na nominální nebo ordinální stupnici.

Nechte některé předměty měřit dva rysy X a Y s počtem úrovní r a s resp. Výsledky takových pozorování jsou vhodně prezentovány ve formě tabulky, nazývané kontingenční tabulka.

Ve stole u i(i = 1, ..., r) a v j (j= 1, ..., s) - hodnoty převzaté funkcemi, hodnota n ij- počet objektů z celkového počtu objektů, pro které je atribut X nabralo význam u i a znamení Y- význam v j

Zavádíme následující náhodné proměnné:

u i


- počet objektů, které mají hodnotu v j


Kromě toho existují zjevné rovnosti



Diskrétní náhodné veličiny X a Y nezávislý tehdy a jen tehdy

pro všechny páry i, j

Proto ta domněnka o nezávislosti diskrétních náhodných veličin X a Y lze napsat takto:

Jako alternativu zpravidla používají hypotézu

Platnost hypotézy H 0 by měla být posouzena na základě vzorových četností n ij kontingenční tabulky. V souladu se zákonem velkých čísel at n→ ∞, relativní četnosti jsou blízké odpovídajícím pravděpodobnostem:



K testování hypotézy H 0 se používá statistika

který, pokud je hypotéza pravdivá, má rozdělení χ 2 sec rs − (r + s- 1) stupně volnosti.

Kritérium nezávislosti χ 2 zamítá hypotézu H 0 s hladinou významnosti α, pokud:


41. Regresní analýza. Základní pojmy regresní analýzy

Pro matematický popis statistických vztahů mezi studovanými proměnnými by měly být vyřešeny následující problémy:

ü zvolit třídu funkcí, ve které je vhodné hledat nejlepší (v určitém smyslu) aproximaci závislosti zájmu;

ü najít odhady neznámých hodnot parametrů zahrnutých v rovnicích požadované závislosti;

ü stanovit přiměřenost získané rovnice požadované závislosti;

ü k identifikaci nejinformativnějších vstupních proměnných.

Souhrn uvedených úloh je předmětem zkoumání v regresní analýze.

Regresní funkce (neboli regrese) je závislost matematického očekávání jedné náhodné veličiny na hodnotě přijaté jinou náhodnou veličinou, která s první tvoří dvourozměrný systém náhodných veličin.

Nechť existuje systém náhodných proměnných ( X,Y), pak regresní funkce Y na X

A regresní funkce X na Y

Regresní funkce F(X) a φ (y) nejsou vzájemně vratné, pokud jde pouze o vztah mezi X a Y není funkční.

Když n-rozměrný vektor se souřadnicemi X 1 , X 2 ,…, X n můžete zvážit podmíněné matematické očekávání pro kteroukoli komponentu. Například pro X 1


tzv. regrese X 1 na X 2 ,…, X n.

Pro úplnou definici regresní funkce je nutné znát podmíněné rozdělení výstupní proměnné pro pevné hodnoty vstupní proměnné.

Protože v reálné situaci takové informace nejsou k dispozici, omezují se většinou na hledání vhodné aproximační funkce f a(X) pro F(X), na základě statistických údajů formuláře ( x i, y i), i = 1,…, n... Tato data jsou výsledkem n nezávislá pozorování y 1 ,…, y n náhodná proměnná Y pro hodnoty vstupní proměnné X 1 ,…, x n, zatímco regresní analýza předpokládá, že hodnoty vstupní proměnné jsou specifikovány přesně.

Problém výběru nejlepší aproximační funkce f a(X), která je hlavní v regresní analýze a nemá formalizované postupy pro její řešení. Někdy je výběr určen na základě analýzy experimentálních dat, častěji z teoretických úvah.

Pokud se předpokládá, že regresní funkce je dostatečně hladká, pak aproximační funkce f a(X) lze reprezentovat jako lineární kombinaci množiny lineárně nezávislých bázových funkcí ψ k(X), k = 0, 1,…, m−1, tedy ve tvaru


kde m- počet neznámých parametrů θ k(obecně je hodnota neznámá, upřesňuje se při konstrukci modelu).

Taková funkce je v parametrech lineární, proto v posuzovaném případě hovoříme o modelu regresní funkce, který je v parametrech lineární.

Pak problém najít nejlepší aproximaci pro regresní přímku F(X) se redukuje na nalezení takových hodnot parametrů, pro které f a(X; θ) je vzhledem k dostupným údajům nejvhodnější. Jednou z metod řešení tohoto problému je metoda nejmenších čtverců.

42. Metoda nejmenších čtverců

Nechte množinu bodů ( x i, y i), i= 1,…, n umístěný v rovině podél nějaké přímky

Pak jako funkce f a(X) aproximující regresní funkci F(X) = M [Y|X] je přirozené vzít lineární funkci argumentu X:


To znamená, že se zde volí základní funkce ψ 0 (X) ≡1 a ψ 1 (X)≡X... Tato regrese se nazývá jednoduchá lineární regrese.

Pokud soubor bodů ( x i, y i), i= 1,…, n se nachází podél nějaké křivky, pak jako f a(X) je přirozené pokusit se vybrat rodinu parabol

Tato funkce je v parametrech nelineární θ 0 a θ 1, ale funkční transformací (v tomto případě logaritmováním) ji lze redukovat na novou funkci f 'a(X), lineární v parametrech:


43. Jednoduchá lineární regrese

Nejjednodušší regresní model je jednoduchý (jednorozměrný, jednofaktorový, párový) lineární model, který má následující podobu:


kde ε i- náhodné proměnné (chyby) vzájemně nekorelované, mající nulová matematická očekávání a stejné rozptyly σ 2 , A a b- konstantní koeficienty (parametry), které je třeba odhadnout z naměřených hodnot odezvy y i.

Chcete-li najít odhady parametrů A a b lineární regrese, určující přímku, která nejlépe vyhovuje experimentálním datům:


používá se metoda nejmenších čtverců.

Podle nejmenší čtverce odhady parametrů A a b se zjistí z podmínky minimalizace součtu čtverců odchylek hodnot y i svisle od „skutečné“ regresní přímky:

Nechť existuje deset pozorování náhodné veličiny Y s pevnými hodnotami proměnné X

Chcete-li minimalizovat D parciální derivace s ohledem na rovnáme nule A a b:



Ve výsledku získáme následující soustavu rovnic pro nalezení odhadů A a b:


Řešení těchto dvou rovnic dává:



Výrazy pro odhady parametrů A a b může být také reprezentován jako:

Potom empirická rovnice regresní přímky Y na X lze napsat jako:


Nestranný odhad rozptylu σ 2 odchylky hodnot y i z proložené přímky regrese je dán výrazem

Vypočítejme parametry regresní rovnice


Regresní přímka tedy vypadá takto:


A odhad rozptylu odchylek hodnot y i z proložené přímky regrese


44. Kontrola významnosti regresní linie

Nalezený odhad b≠ 0 může být realizací náhodné veličiny, jejíž matematické očekávání je nulové, to znamená, že se může ukázat, že vlastně žádná regresní závislost neexistuje.

Abyste se s touto situací vypořádali, měli byste otestovat hypotézu H 0: b= 0 s konkurenční hypotézou H 1: b ≠ 0.

Test významnosti regresní přímky lze provést pomocí analýzy rozptylu.

Zvažte následující identitu:

Velikost y iŷ i = ε i nazývá se zbytek a je rozdílem mezi dvěma veličinami:

ü odchylka pozorované hodnoty (odezvy) od celkové průměrné odezvy;

ü odchylka předpokládané hodnoty odezvy ŷ i ze stejného průměru

Písemná identita může být zapsána jako


Po umocnění obou jeho částí a sečtení i, dostaneme:


Kde jsou pojmenována množství:

celkový (celkový) součet druhých mocnin SC n, který se rovná součtu druhých mocnin odchylek pozorování vzhledem ke střední hodnotě pozorování

součet čtverců v důsledku regrese SK p, který se rovná součtu čtverců odchylek hodnot regresní přímky vzhledem k průměru pozorování.

zbytkový součet čtverců SK 0. což se rovná součtu čtverců odchylek pozorování vzhledem k hodnotám regresní přímky

Takže pomazánka Y-kov vzhledem k jejich průměru lze do určité míry přičíst skutečnosti, že ne všechna pozorování leží na regresní přímce. Pokud by tomu tak bylo, pak by součet čtverců vzhledem k regresi byl nulový. Z toho vyplývá, že regrese bude významná, pokud součet druhých mocnin SC p je větší než součet druhých mocnin SC 0.

Výpočty testu regresní významnosti jsou provedeny v následující tabulce ANOVA.

Pokud chyby ε i rozdělené podle normálního zákona, pak je-li hypotéza H 0 platná: b= 0 statistika:


rozdělené podle Fisherova zákona s počtem stupňů volnosti 1 a n−2.

Nulová hypotéza bude zamítnuta na hladině významnosti α, pokud je vypočtena statistická hodnota F bude větší než procentní bod α F 1;n−2, α Fisherova rozdělení.

45. Kontrola adekvátnosti regresního modelu. Zbytková metoda

Adekvátnost konstruovaného regresního modelu je chápána jako skutečnost, že žádný jiný model neposkytuje významné zlepšení v predikci odezvy.

Pokud jsou všechny hodnoty odpovědí získány při různých hodnotách X, tj. neexistuje několik hodnot odezvy získaných se stejnou x i, pak lze provést pouze omezený test přiměřenosti lineárního modelu. Základem pro takovou kontrolu jsou zbytky:

Odchylky od zavedeného vzoru:

Pokud X- jednorozměrná proměnná, body ( x i, d i) lze zakreslit do roviny ve formě tzv. zbytkového pozemku. Takové znázornění někdy umožňuje najít určitou pravidelnost v chování reziduí. Kromě toho vám analýza zbytků umožňuje analyzovat předpoklad týkající se rozložení chyb.

V případě, kdy jsou chyby rozděleny podle normálního zákona a existuje apriorní odhad jejich rozptylu σ 2 (odhad získaný na základě dříve provedených měření), pak je možné přesnější posouzení přiměřenosti modelu.

Přes F-Fisherovo kritérium lze použít ke kontrole, zda je zbytkový rozptyl významný s 0 2 se liší od apriorního odhadu. Pokud je výrazně větší, jedná se o nedostatečnost a model by měl být revidován.

Pokud předchozí odhad σ 2 ne, ale měření odezvy Y opakovat dvakrát nebo vícekrát se stejnými hodnotami X, pak lze tato opakovaná pozorování použít k získání dalšího odhadu σ 2 (první je zbytkový rozptyl). O takovém odhadu se říká, že představuje „čistou“ chybu, protože pokud X jsou stejné pro dvě nebo více pozorování, pak pouze náhodné změny mohou ovlivnit výsledky a vytvořit mezi nimi rozptyl.

Výsledný odhad se ukazuje jako spolehlivější odhad rozptylu než odhad získaný jinými metodami. Z tohoto důvodu má při plánování experimentů smysl nastavit experimenty s opakováním.

Předpokládejme, že máme m různé významy X : X 1 , X 2 , ..., x m... Nechť pro každou z těchto hodnot x i tady je n i pozorování odezvy Y... Celková pozorování jsou získána:

Pak lze jednoduchý lineární regresní model zapsat jako:


Pojďme najít rozptyl „čistých“ chyb. Tento rozptyl je kombinovaným odhadem rozptylu σ 2, pokud reprezentujeme hodnoty odpovědí y ij na X = x i jako objem vzorku n i... V důsledku toho je rozptyl „čistých“ chyb:

Tento rozptyl slouží jako odhad σ 2 bez ohledu na to, zda je osazený model správný.

Ukažme, že součet čtverců „čistých chyb“ je součástí zbytkového součtu čtverců (součet čtverců zahrnutých ve výrazu pro zbytkový rozptyl). Zbývá pro j pozorování v x i lze napsat jako:

Pokud odmocníte obě strany této rovnosti a pak je sečtete j a podle i, dostaneme:

Nalevo od této rovnosti je zbytkový součet čtverců. První člen vpravo je součet čtverců „čistých“ chyb, druhý člen lze nazvat součtem čtverců nedostatečnosti. Poslední částka má m−2 stupně volnosti, tedy rozptyl neadekvátnosti

Statistika kritéria pro testování hypotézy H 0: jednoduchý lineární model je adekvátní, proti hypotéze H 1: jednoduchý lineární model je nedostatečný, náhodná veličina je

Pokud je nulová hypotéza pravdivá, hodnota F má Fisherovo rozdělení se stupni volnosti m−2 a nm... Hypotéza linearity regresní přímky by měla být zamítnuta s hladinou významnosti α, pokud je získaná hodnota statistiky větší než α-procentní bod Fisherova rozdělení s počtem stupňů volnosti. m−2 a nm.

46. Kontrola adekvátnosti regresního modelu (viz 45). ANOVA

47. Kontrola adekvátnosti regresního modelu (viz 45). Koeficient determinace

Někdy se pro charakterizaci kvality regresní přímky používá výběrový koeficient determinace R 2, který ukazuje, jaká část (zlomek) součtu čtverců je v důsledku regrese SK p v celkovém součtu čtverců SK n:

Blíže R 2 ku jedné, čím lépe se regrese blíží experimentálním datům, tím blíže jsou pozorování k regresní přímce. Li R 2 = 0, pak jsou změny v reakci zcela způsobeny vlivem nezapočtených faktorů a regresní přímka je rovnoběžná s osou X-ov. V případě jednoduché lineární regrese koeficient determinace R 2 se rovná druhé mocnině korelačního koeficientu r 2 .

Maximální hodnoty R 2 = 1 lze dosáhnout pouze v případě, kdy byla pozorování provedena při různých hodnotách x-ov. Pokud jsou v datech opakované experimenty, pak hodnota R 2 nemůže dosáhnout jednoty, bez ohledu na to, jak dobrý je model.

48. Intervaly spolehlivosti pro parametry jednoduché lineární regrese

Stejně jako je výběrový průměr odhadem skutečného průměru (střední hodnota populace), tak jsou i výběrové parametry regresní rovnice A a b- nic víc než odhad skutečných regresních koeficientů. Různé vzorky poskytují různé odhady střední hodnoty – stejně jako různé vzorky poskytují různé odhady regresních koeficientů.

Za předpokladu, že zákon o rozdělení chyb ε i jsou popsány normálním zákonem, odhadem parametru b bude mít normální rozdělení s parametry:


Od odhadu parametru A je lineární kombinací nezávislých normálně rozdělených veličin, bude mít také normální rozdělení se střední hodnotou a rozptylem:


V tomto případě (1 - α) interval spolehlivosti pro odhad rozptylu σ 2 s přihlédnutím k tomu, že poměr ( n−2)s 0 2 /σ 2 distribuované ze zákona χ 2 s počtem stupňů volnosti n−2 bude určeno výrazem


49. Intervaly spolehlivosti pro regresní přímku. Interval spolehlivosti pro hodnoty závislé proměnné

Obvykle neznáme skutečné hodnoty regresních koeficientů. A a b... Známe pouze jejich odhady. Jinými slovy, skutečná regresní přímka může jít výše nebo níže, být strmější nebo mělčí než ta, která byla vytvořena z dat vzorku. Vypočítali jsme intervaly spolehlivosti pro regresní koeficienty. Můžete také vypočítat oblast spolehlivosti pro samotnou regresní přímku.

Nechť pro jednoduchou lineární regresi je nutné sestrojit (1− α ) interval spolehlivosti pro matematické očekávání odezvy Y v hodnotě X = X 0 Toto matematické očekávání je A+bx 0 a její odhad

Od té doby.

Získaný odhad matematického očekávání je lineární kombinací nekorelovaných normálně rozdělených hodnot, a proto má také normální rozdělení se středem v bodě skutečné hodnoty podmíněného matematického očekávání a rozptylu.

Proto interval spolehlivosti pro regresní přímku u každé hodnoty X 0 může být reprezentováno jako


Jak vidíte, minimální interval spolehlivosti se získá při X 0 se rovná průměru a roste jako X 0 se „vzdálí“ od středu v libovolném směru.

Chcete-li získat sadu společných intervalů spolehlivosti vhodných pro celou regresní funkci, po celé její délce, ve výše uvedeném výrazu namísto t n −2,α / 2 musí být nahrazeny