Kendallov koeficient poradovej korelácie. poradová korelácia a poradový korelačný koeficient kendall poradový korelačný koeficient kendall v exceli

Stručná teória

Kendallov korelačný koeficient sa používa, keď sú premenné reprezentované dvoma ordinálnymi škálami za predpokladu, že neexistujú žiadne súvisiace poradia. Výpočet Kendallovho koeficientu je spojený s počítaním počtu zhôd a inverzií.

Tento koeficient sa mení v rámci a vypočítava sa podľa vzorca:

Pre výpočet sú všetky jednotky zoradené podľa atribútu; pre množstvo ďalších znakov sa pre každú hodnosť počíta počet nasledujúcich hodností presahujúcich danú hodnosť (označíme ich ) a počet nasledujúcich hodností pod danou hodnosťou (označíme ich ).

Dá sa to ukázať

a Kendallov koeficient poradovej korelácie možno zapísať ako

Aby bolo možné otestovať nulovú hypotézu o rovnosti Kendallovho všeobecného koeficientu poradovej korelácie na nulu podľa konkurenčnej hypotézy na hladine významnosti , je potrebné vypočítať kritický bod:

kde je veľkosť vzorky; - kritický bod obojstrannej kritickej oblasti, ktorý sa zistí z tabuľky Laplaceovej funkcie podľa rovnosti

Ak nie je dôvod zamietnuť nulovú hypotézu. Ranková korelácia medzi znakmi je nevýznamná.

Ak, nulová hypotéza je zamietnutá. Medzi znakmi existuje významná korelácia poradia.

Príklad riešenia problému

Úloha

Pri prijímaní siedmich kandidátov na voľné pozície boli ponúknuté dva testy. Výsledky testu (v bodoch) sú uvedené v tabuľke:

Test Kandidát 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Vypočítajte Kendallov koeficient poradovej korelácie medzi výsledkami testov pre dva testy a posúďte jeho významnosť na úrovni.

Riešenie problému

Vypočítajte Kendallov koeficient

Hodnoty atribútu faktora sú usporiadané striktne vo vzostupnom poradí a zodpovedajúce úrovne efektívneho atribútu sú zapísané paralelne. Pre každú hodnosť sa z počtu hodností, ktoré za ňou nasledujú, započítava počet vyšších hodností, ako je on, (zahrnuté v stĺpci ) a počet hodností, ktoré majú menšiu hodnotu (zahrnuté v stĺpci ).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Sum 16 5

Jedným z faktorov obmedzujúcich uplatňovanie kritérií založených na predpoklade normality je veľkosť vzorky. Pokiaľ je vzorka dostatočne veľká (napríklad 100 alebo viac pozorovaní), môžete predpokladať, že rozdelenie vzorky je normálne, aj keď si nie ste istí, že rozdelenie premennej v populácii je normálne. Ak je však vzorka malá, tieto testy by sa mali použiť len vtedy, ak existuje istota, že premenná je skutočne normálne rozložená. Neexistuje však spôsob, ako otestovať tento predpoklad na malej vzorke.

Použitie kritérií založených na predpoklade normality je limitované aj mierou merania (pozri kapitolu Základné pojmy analýzy dát). Štatistické metódy ako t-test, regresia atď. predpokladajú, že pôvodné dáta sú spojité. Existujú však situácie, keď sú údaje jednoducho zoradené (merané na ordinálnej stupnici), a nie presne merané.

Typickým príkladom sú hodnotenia stránok na internete: prvú pozíciu obsadila stránka s maximálnym počtom návštevníkov, druhú pozíciu obsadila stránka s maximálnym počtom návštevníkov spomedzi ostatných stránok (medzi stránkami, z ktorých prvá stránka bola odstránená) atď. Keď poznáme hodnotenia, môžeme povedať, že počet návštevníkov jednej stránky je väčší ako počet návštevníkov inej stránky, ale o koľko viac, to sa nedá povedať. Predstavte si, že máte 5 stránok: A, B, C, D, E, ktoré sa nachádzajú na prvých 5 miestach. Predpokladajme, že v aktuálnom mesiaci sme mali nasledovné usporiadanie: A, B, C, D, E a v predchádzajúcom mesiaci: D, E, A, B, C. Otázkou je, či došlo k výrazným zmenám v hodnotení stránok alebo nie? V tejto situácii samozrejme nemôžeme použiť t-test na porovnanie týchto dvoch súborov údajov a presúvame sa do sféry špecifických pravdepodobnostných výpočtov (a každý štatistický test obsahuje pravdepodobnostný výpočet!). Uvažujeme približne takto: aká je pravdepodobnosť, že rozdiel v usporiadaní dvoch lokalít je spôsobený čisto náhodnými dôvodmi, alebo je tento rozdiel príliš veľký a nedá sa vysvetliť čistou náhodou. V týchto diskusiách používame iba hodnotenia alebo permutácie stránok a nepoužívame špecifický typ rozloženia počtu návštevníkov na nich.

Na analýzu malých vzoriek a na údaje namerané na slabých mierkach sa používajú neparametrické metódy.

Stručný prehľad neparametrických postupov

V podstate pre každé parametrické kritérium existuje aspoň jedna neparametrická alternatíva.

Vo všeobecnosti tieto postupy patria do jednej z nasledujúcich kategórií:

  • rozdielové kritériá pre nezávislé vzorky;
  • rozdielové kritériá pre závislé vzorky;
  • posúdenie miery závislosti medzi premennými.

Vo všeobecnosti by mal byť prístup k štatistickým kritériám pri analýze údajov pragmatický a nemal by byť zaťažený zbytočnými teoretickými úvahami. S počítačom STATISTICA, ktorý máte k dispozícii, môžete na svoje údaje jednoducho aplikovať niekoľko kritérií. Keď viete o niektorých úskaliach metód, pomocou experimentovania si vyberiete správne riešenie. Vývoj grafu je celkom prirodzený: ak potrebujete porovnať hodnoty dvoch premenných, potom použite t-test. Treba však pripomenúť, že vychádza z predpokladu normality a rovnosti rozptylov v každej skupine. Oslobodenie sa od týchto predpokladov vedie k neparametrickým testom, ktoré sú užitočné najmä pre malé vzorky.

Vývoj t-testu vedie k analýze rozptylu, ktorý sa používa, keď je počet porovnávaných skupín väčší ako dve. Zodpovedajúci vývoj neparametrických postupov vedie k neparametrickej analýze rozptylu, hoci je oveľa horšia ako klasická analýza rozptylu.

Na posúdenie závislosti, alebo, trochu veľkolepo povedané, miery blízkosti súvislosti sa vypočíta Pearsonov korelačný koeficient. Presnejšie povedané, jeho použitie má obmedzenia spojené napríklad s typom škály, v ktorej sa údaje merajú a nelinearitou závislosti, preto ako alternatívu možno použiť neparametrické, alebo takzvané poradové, korelačné koeficienty. sa používajú aj, ktoré sa používajú napríklad na zoradené dáta. Ak sú údaje merané v nominálnej mierke, potom je prirodzené prezentovať ich v kontingenčných tabuľkách, ktoré využívajú Pearsonov chí-kvadrát test s rôznymi variáciami a úpravami pre presnosť.

V podstate teda existuje len niekoľko typov kritérií a postupov, ktoré musíte poznať a vedieť ich používať v závislosti od špecifík údajov. Musíte určiť, ktoré kritérium by sa malo použiť v konkrétnej situácii.

Neparametrické metódy sú najvhodnejšie, keď je veľkosť vzorky malá. Ak existuje veľa údajov (napríklad n > 100), často nemá zmysel používať neparametrické štatistiky.

Ak je veľkosť vzorky veľmi malá (napríklad n = 10 alebo menej), potom hladiny významnosti pre tie neparametrické testy, ktoré používajú normálnu aproximáciu, možno považovať len za hrubé odhady.

Rozdiely medzi nezávislými skupinami. Ak existujú dve vzorky (napr. muži a ženy), ktoré je potrebné porovnať s ohľadom na nejakú strednú hodnotu, ako je priemerný krvný tlak alebo počet bielych krviniek, potom možno použiť nezávislý vzorkový t-test.

Neparametrickými alternatívami tohto testu sú Wald-Wolfowitz, Mann-Whitney )/n séria test, kde x i je i-tá hodnota, n je počet pozorovaní. Ak premenná obsahuje záporné hodnoty alebo nulu (0), geometrický priemer nemožno vypočítať.

Harmonický priemer

Harmonický priemer sa niekedy používa na spriemerovanie frekvencií. Harmonický priemer sa vypočíta podľa vzorca: HS = n/S(1/x i) kde HS je harmonický priemer, n je počet pozorovaní, x i je hodnota pozorovania s číslom i. Ak premenná obsahuje nulu (0), harmonický priemer sa nedá vypočítať.

Rozptyl a štandardná odchýlka

Vzorový rozptyl a štandardná odchýlka sú najčastejšie používané miery variability (variácie) v údajoch. Rozptyl sa vypočíta ako súčet štvorcových odchýlok hodnôt premennej od priemeru vzorky vydelený n-1 (ale nie n). Smerodajná odchýlka sa vypočíta ako druhá odmocnina odhadu rozptylu.

rozsah

Rozsah premennej je mierou volatility, vypočítanej ako maximum mínus minimum.

Kvartilový rozsah

Štvrťročný rozsah podľa definície je: horný kvartil mínus dolný kvartil (75 % percentil mínus 25 % percentil). Keďže percentil 75 % (horný kvartil) je hodnota naľavo, od ktorej je 75 % pozorovaní, a percentil 25 % (dolný kvartil) je hodnota naľavo od ktorej je 25 % pozorovaní, kvartil rozsah je interval okolo mediánu, ktorý obsahuje 50 % pozorovaní (hodnoty premennej).

Asymetria

Šikmosť je charakteristická pre tvar distribúcie. Distribúcia je skosená doľava, ak je zošikmenie záporné. Distribúcia je skosená doprava, ak je zošikmenie kladné. Šikmosť štandardného normálneho rozdelenia je 0. Šikmosť súvisí s tretím momentom a je definovaná ako: šikmosť = n × M 3 /[(n-1) × (n-2) × s 3 ], kde M 3 je: (x i -xpriemer x) 3, s 3 - štandardná odchýlka zvýšená na tretiu mocninu, n - počet pozorovaní.

Prebytok

Kurtóza je charakteristika tvaru rozloženia, konkrétne miera ostrosti jeho vrcholu (vo vzťahu k normálnemu rozdeleniu, ktorého špičatosť je 0). Vo všeobecnosti platí, že distribúcie s ostrejším vrcholom ako normálne rozdelenie majú kladnú špičatosť; distribúcie, ktorých vrchol je menej ostrý ako vrchol normálneho rozdelenia, majú negatívnu špičatosť. Kurtóza je spojená so štvrtým momentom a je určená vzorcom:

špičatosť = /[(n-1) × (n-2) × (n-3) × s 4 ], kde M j je: (x-x priemer x, s 4 je štandardná odchýlka od štvrtej mocniny, n je počet pozorovaní.

Používa sa na identifikáciu vzťahu medzi kvantitatívnymi alebo kvalitatívnymi ukazovateľmi, ak ich možno zoradiť. Hodnoty indikátora X sú nastavené vo vzostupnom poradí a sú priradené hodnosti. Hodnoty indexu Y sú zoradené a vypočíta sa Kendallov korelačný koeficient:

kde S = PQ.

P veľký hodnotu Y radov.

Q je celkový počet pozorovaní po súčasných pozorovaniach od r menšie hodnotu Y radov. (rovnaké pozície sa nepočítajú!)

Ak sa študované údaje opakujú (majú rovnaké poradie), potom sa vo výpočtoch použije upravený Kendallov korelačný koeficient:

t- počet súvisiacich hodností v rade X a Y.

19. Čo by malo byť východiskom pri určovaní témy, predmetu, predmetu, cieľa, cieľov a hypotézy štúdia?

Výskumný program má spravidla dve časti: metodickú a procedurálnu. Prvá zahŕňa zdôvodnenie relevantnosti témy, formuláciu problému, definíciu predmetu a predmetu, ciele a zámery štúdia, formuláciu hlavných pojmov (kategoriálny aparát), predbežnú systémovú analýzu predmetu štúdia a vypracovanie pracovnej hypotézy. Druhá časť odhaľuje strategický plán štúdie, ako aj plán a základné postupy zberu a analýzy primárnych údajov.

V prvom rade treba pri výbere výskumnej témy vychádzať z relevantnosti. Zdôvodnenie relevantnosti zahŕňa označenie potreby a aktuálnosti štúdia a riešenia problému pre ďalší rozvoj teórie a praxe výcviku a výchovy. Súčasný výskum dáva odpoveď na najpálčivejšie otázky súčasnosti, reflektuje pre pedagogickú vedu spoločenské usporiadanie spoločnosti a odhaľuje najdôležitejšie rozpory, ktoré sa odohrávajú v praxi. Kritérium relevantnosti je dynamické, mobilné, závisí od času, berúc do úvahy špecifické a špecifické okolnosti. Relevantnosť vo svojej najvšeobecnejšej podobe charakterizuje mieru nesúladu medzi dopytom po vedeckých nápadoch a praktických odporúčaniach (na uspokojenie konkrétnej potreby) a návrhmi, ktoré môže veda a prax v súčasnosti poskytnúť.

Najpresvedčivejším základom, ktorý určuje tému štúdie, je spoločenská objednávka, ktorá odráža najakútnejšie, spoločensky najvýznamnejšie problémy, ktoré si vyžadujú urgentné riešenia. Spoločenská objednávka si vyžaduje zdôvodnenie konkrétnej témy. Zvyčajne ide o analýzu stupňa rozvoja danej problematiky vo vede.

Ak z rozboru pedagogickej praxe vyplýva spoločenská objednávka, potom sa o vedecký problém je v inej rovine. Vyjadruje hlavný rozpor, ktorý treba vyriešiť prostriedkami vedy. Riešenie problému je zvyčajne účel štúdie. Cieľom je preformulovaný problém.

Formulácia problému obnáša výber objektu výskumu. Môže to byť pedagogický proces, oblasť pedagogickej reality alebo nejaký druh pedagogického vzťahu, ktorý obsahuje rozpor. Inými slovami, objektom môže byť všetko, čo explicitne alebo implicitne obsahuje rozpor a generuje problémovú situáciu. Predmet je niečo, na čo smeruje proces poznania. Predmet štúdia -časť, strana objektu. Ide o najvýznamnejšie z praktického alebo teoretického hľadiska vlastnosti, aspekty, vlastnosti objektu, ktoré sú predmetom priameho štúdia.

V súlade s účelom, objektom a predmetom štúdia, výskumu úlohy, ktoré sa zvyčajne používajú na kontrolu hypotéz. Ten je súborom teoreticky podložených predpokladov, ktorých pravdivosť podlieha overeniu.

Kritérium vedecká novinka použiteľné na hodnotenie kvality ukončeného štúdia. Charakterizuje nové teoretické a praktické závery, zákonitosti výchovy, jej štruktúru a mechanizmy, obsah, princípy a technológie, ktoré dovtedy neboli v pedagogickej literatúre známe a zaznamenané. Novosť výskumu môže mať teoretický aj praktický význam. Teoretický význam štúdia spočíva vo vytvorení konceptu, získaní hypotézy, zákonitosti, metódy, modelu identifikácie problému, trendu, smeru. Praktický význam štúdie spočíva v príprave návrhov, odporúčaní a pod. Kritériá novosti, teoretického a praktického významu sa líšia v závislosti od typu výskumu, závisia aj od času získania nových poznatkov.

KENDALLOV KOEFICIENT KORELOVANIA HODNOTI

Jedna zo vzorových mier závislosti dvoch náhodných premenných (znakov) X a Y, na základe poradia prvkov vzorky (X 1 , Y x), .. ., (Á n, Y n). K. k. r. odkazuje teda na rebríčkových štatistikov a je určený vzorcom

kde RI- U patríte k tomuto páru ( X, Y), pre ktoré Xraven i, S = 2N-(n-1)/2, N-počet prvkov vzorky, pre ktoré platí j>i aj rj >r i. Je vždy Ako selektívne meradlo závislosti K. na. to. široko používal M. Kendall (M. Kendall, pozri).

K. k. r. k. sa používa na testovanie hypotézy nezávislosti náhodných premenných. Ak je hypotéza nezávislosti pravdivá, potom Et =0 a Dt =2(2n+5)/9n(n-1). S malou veľkosťou vzorky, kontrola štatistiky hypotézy nezávislosti sa robia pomocou špeciálnych tabuliek (pozri). Pre n>10 sa používa normálna aproximácia pre rozdelenie m: ak

potom je hypotéza nezávislosti zamietnutá, inak je prijatá. Tu a . - hladina významnosti, u a /2 je percentuálny bod normálneho rozdelenia. K. k. r. k., ako ktorýkoľvek , možno použiť na zistenie závislosti dvoch kvalitatívnych znakov, ak sa dajú usporiadať iba prvky vzorky vzhľadom na tieto znaky. Ak X, Y majú spoločnú normálu s korelačným koeficientom p, potom vzťah medzi K. až. do. a má tvar:

pozri tiež Korelácia hodnotenia Spearmana, test hodnotenia.

Lit.: Kendal M., Rank correlations, trans. z angličtiny, M., 1975; Van der Waerden B. L., Mathematical, trans. z nemčiny, M., 1960; Bolshev L. N., Smirnov N. V., Tabuľky matematickej štatistiky, M., 1965.

A. V. Prochorov.


Matematická encyklopédia. - M.: Sovietska encyklopédia. I. M. Vinogradov. 1977-1985.

Pozrite sa, čo je „KENDALL RANK COEFFICIENT“ v iných slovníkoch:

    Angličtina s efektívnou, hodnotovou koreláciou Kendall; nemecký Kendalls Rangkorrelationskoeffizient. Korelačný koeficient, ktorý určuje mieru zhody zoradenia všetkých dvojíc objektov podľa dvoch premenných. antinacistický. Encyklopédia sociológie, 2009 ... Encyklopédia sociológie

    KENDALL RANK KOEFICIENT- Angličtina. efektívna, korelácia hodnosti Kendall; nemecký Kendalls Rangkorrelationskoeffizient. Korelačný koeficient, ktorý určuje mieru zhody zoradenia všetkých párov objektov podľa dvoch premenných ... Výkladový slovník sociológie

    Miera závislosti dvoch náhodných premenných (znakov) X a Y na základe poradia výsledkov nezávislých pozorovaní (X1, Y1), . . (Xn,Yn). Ak sú rady hodnôt X v prirodzenom poradí i=1, . . ., n,a Ri poradie Y zodpovedajúce… … Matematická encyklopédia

    Korelačný koeficient- (Korelačný koeficient) Korelačný koeficient je štatistický ukazovateľ závislosti dvoch náhodných veličín Definícia korelačného koeficientu, typy korelačných koeficientov, vlastnosti korelačného koeficientu, výpočet a aplikácia ... ... Encyklopédia investora

    Závislosť medzi náhodnými premennými, ktorá vo všeobecnosti nemá striktne funkčný charakter. Na rozdiel od funkčnej závislosti sa K. spravidla zvažuje, keď jedna z veličín závisí nielen od danej druhej, ale aj ... ... Matematická encyklopédia

    Korelácia (korelačná závislosť) je štatistický vzťah medzi dvoma alebo viacerými náhodnými premennými (alebo premennými, ktoré možno za také považovať s určitou prijateľnou mierou presnosti). Súčasne sa menia hodnoty jedného alebo ... ... Wikipedia

    Korelácia- (Korelácia) Korelácia je štatistický vzťah dvoch alebo viacerých náhodných premenných Pojem korelácie, typy korelácií, korelačný koeficient, korelačná analýza, cenová korelácia, korelácia menových párov na Forexe Obsah ... ... Encyklopédia investora

    Všeobecne sa uznáva, že začiatok S. m. alebo, ako sa to často nazýva, štatistika „malého n“, bola založená v prvom desaťročí 20. storočia publikovaním práce W. Gosseta, v ktorej umiestnil distribúciu t predpokladanú svetovou distribúciou, ktorá bola postulovaná trochu neskôr ... ... Psychologická encyklopédia

    Maurice Kendall Sir Maurice George Kendall Dátum narodenia: 6. september 1907 (1907 09 06) Miesto narodenia: Kettering, Spojené kráľovstvo Dátum úmrtia ... Wikipedia

    Predpoveď- (Forecast) Definícia prognózy, úlohy a princípy prognózovania Definícia prognózy, úlohy a princípy prognózovania, metódy prognózovania Obsah Obsah Definícia Základné pojmy prognózovania Úlohy a princípy prognózovania ... ... Encyklopédia investora

Na výpočet Kendallovho poradového korelačného koeficientu rk je potrebné zoradiť údaje podľa jedného z prvkov vo vzostupnom poradí a určiť zodpovedajúce poradia podľa druhého prvku. Potom sa pre každú hodnosť druhého znaku určí počet nasledujúcich hodností, ktoré sú vyššie ako prevzatá hodnosť, a nájde sa súčet týchto čísel.

Kendallov koeficient poradovej korelácie je daný podľa


kde RI je počet úrovní druhej premennej, počnúc od i+1, ktorého veľkosť je väčšia ako veľkosť i poradie tejto premennej.

Existujú tabuľky rozdelenia koeficientov v percentách rk, čo umožňuje testovať hypotézu o významnosti korelačného koeficientu.

Pre veľké veľkosti vzoriek sú kritické hodnoty rk nie sú tabuľkové a musia sa vypočítať pomocou približných vzorcov na základe skutočnosti, že podľa nulovej hypotézy H 0: rk=0 a veľké n náhodná hodnota

rozdelené približne podľa štandardného normálneho zákona.

40. Vzťah medzi znakmi meranými v nominálnych alebo ordinálnych mierkach

Často sa vyskytuje problém kontroly nezávislosti dvoch znakov meraných na nominálnej alebo ordinálnej stupnici.

Nech sa pre niektoré objekty zmerajú dve vlastnosti X a Y s počtom úrovní r a s resp. Je vhodné prezentovať výsledky takýchto pozorovaní vo forme tabuľky nazývanej kontingenčná tabuľka prvkov.

Tabuľka u i(i = 1, ..., r) a vj (j= 1, ..., s) sú hodnoty, ktoré nadobúdajú vlastnosti, hodnota nij je počet objektov z celkového počtu objektov, ktoré majú atribút X nadobudol význam u i a znamenie Y- význam vj

Zavádzame nasledujúce náhodné premenné:

u i


- počet predmetov, ktoré majú hodnotu vj


Okrem toho existujú zjavné rovnosti



Diskrétne náhodné premenné X a Y nezávislý vtedy a len vtedy

pre všetky páry i, j

Preto hypotéza o nezávislosti diskrétnych náhodných premenných X a Y možno napísať takto:

Ako alternatívu spravidla použite hypotézu

Platnosť hypotézy H 0 by sa mala posudzovať na základe vzorových frekvencií nij kontingenčné tabuľky. Podľa zákona veľkých čísel, n→∞ relatívne frekvencie sú blízke zodpovedajúcim pravdepodobnostiam:



Na testovanie hypotézy H 0 sa používa štatistika

ktorý pri platnosti hypotézy má rozdelenie χ 2 s rs − (r + s− 1) stupne voľnosti.

Kritérium nezávislosti χ 2 zamieta hypotézu H 0 s hladinou významnosti α, ak:


41. Regresná analýza. Základné pojmy regresnej analýzy

Pre matematický popis štatistických vzťahov medzi skúmanými premennými je potrebné vyriešiť nasledujúce úlohy:

ü zvoliť triedu funkcií, v ktorej je vhodné hľadať najlepšiu (v určitom zmysle) aproximáciu závislosti záujmu;

ü nájsť odhady neznámych hodnôt parametrov zahrnutých v rovniciach požadovanej závislosti;

ü stanoviť primeranosť získanej rovnice požadovanej závislosti;

ü identifikovať najinformatívnejšie vstupné premenné.

Súhrn týchto úloh je predmetom výskumu regresnej analýzy.

Regresná funkcia (alebo regresia) je závislosť matematického očakávania jednej náhodnej premennej od hodnoty inej náhodnej premennej, ktorá tvorí s prvou dvojrozmernou sústavou náhodných premenných.

Nech existuje systém náhodných premenných ( X,Y), potom regresná funkcia Y na X

A regresná funkcia X na Y

Regresné funkcie f(X) a φ (r), nie sú vzájomne reverzibilné, pokiaľ vzťah medzi X a Y nie je funkčný.

Kedy n-rozmerný vektor so súradnicami X 1 , X 2 ,…, X n je možné uvažovať o podmienenom matematickom očakávaní pre ktorýkoľvek komponent. Napríklad pre X 1


nazývaná regresia X 1 na X 2 ,…, X n.

Pre úplnú definíciu regresnej funkcie je potrebné poznať podmienené rozdelenie výstupnej premennej pre pevné hodnoty vstupnej premennej.

Keďže v reálnej situácii takéto informácie nie sú dostupné, väčšinou sa obmedzia na hľadanie vhodnej aproximačnej funkcie f a(X) pre f(X), na základe štatistických údajov formulára ( x i, y i), i = 1,…, n. Tieto údaje sú výsledkom n nezávislé pozorovania r 1 ,…, y n náhodná premenná Y pri hodnotách vstupnej premennej X 1 ,…, x n, pričom pri regresnej analýze sa predpokladá, že hodnoty vstupnej premennej sú špecifikované presne.

Problém výberu najlepšej aproximačnej funkcie f a(X), ktorá je hlavnou v regresnej analýze a nemá formalizované postupy na jej riešenie. Niekedy sa výber určuje na základe analýzy experimentálnych údajov, častejšie z teoretických úvah.

Ak sa predpokladá, že regresná funkcia je dostatočne hladká, potom funkcia, ktorá ju aproximuje f a(X) môže byť reprezentovaná ako lineárna kombinácia nejakej množiny lineárne nezávislých bázových funkcií ψ k(X), k = 0, 1,…, m−1, teda vo forme


kde m je počet neznámych parametrov θ k(vo všeobecnom prípade je hodnota neznáma, spresňuje sa počas konštrukcie modelu).

Takáto funkcia je v parametroch lineárna, preto v posudzovanom prípade hovoríme o modeli regresnej funkcie lineárne v parametroch.

Potom problém nájsť najlepšiu aproximáciu pre regresnú priamku f(X) sa redukuje na nájdenie takých hodnôt parametrov, pre ktoré f a(X;θ) je najprimeranejšie k dostupným údajom. Jednou z metód riešenia tohto problému je metóda najmenších štvorcov.

42. Metóda najmenších štvorcov

Nechajte množinu bodov ( x i, y i), i= 1,…, n umiestnené v rovine pozdĺž nejakej priamky

Potom ako funkcia f a(X) aproximácia regresnej funkcie f(X) = M [Y|X] je prirodzené prevziať lineárnu funkciu argumentu X:


To znamená, že sme tu zvolili základné funkcie ψ 0 (X)≡1 a ψ 1 (X)≡X. Táto regresia sa nazýva jednoduchá lineárna regresia.

Ak súbor bodov ( x i, y i), i= 1,…, n umiestnené pozdĺž nejakej krivky, potom ako f a(X) je prirodzené pokúsiť sa vybrať rodinu parabol

Táto funkcia je v parametroch nelineárna θ 0 a θ 1, avšak funkčnou transformáciou (v tomto prípade logaritmovaním) sa môže zredukovať na novú funkciu f'a(X), lineárne v parametroch:


43. Jednoduchá lineárna regresia

Najjednoduchší regresný model je jednoduchý (jednorozmerný, jednofaktorový, párový) lineárny model, ktorý má nasledujúci tvar:


kde ε i- nekorelované náhodné premenné (chyby) s nulovými matematickými očakávaniami a rovnakými rozptylmi σ 2 , a a b sú konštantné koeficienty (parametre), ktoré je potrebné odhadnúť z nameraných hodnôt odozvy y i.

Ak chcete nájsť odhady parametrov a a b lineárna regresia, ktorá určuje priamku, ktorá najlepšie vyhovuje experimentálnym údajom:


používa sa metóda najmenších štvorcov.

Podľa najmenších štvorcov odhady parametrov a a b sa zistí z podmienky minimalizácie súčtu kvadrátov odchýlok hodnôt y i vertikálne od „skutočnej“ regresnej priamky:

Nech existuje desať pozorovaní náhodnej premennej Y pre pevné hodnoty premennej X

Na minimalizáciu D rovnajú nule parciálne derivácie vzhľadom na a a b:



V dôsledku toho získame nasledujúci systém rovníc na nájdenie odhadov a a b:


Vyriešenie týchto dvoch rovníc dáva:



Výrazy pre odhady parametrov a a b môže byť tiež reprezentovaný ako:

Potom empirická rovnica regresnej priamky Y na X možno napísať ako:


Nestranný odhad rozptylu σ 2 odchýlky hodnôt y i z preloženej regresnej priamky je daná

Vypočítajte parametre regresnej rovnice


Priama regresia teda vyzerá takto:


A odhad rozptylu odchýlok hodnôt y i z prispôsobenej priamej regresnej priamky


44. Kontrola významnosti regresnej čiary

Nájdené skóre b≠ 0 môže byť realizácia náhodnej premennej, ktorej matematické očakávanie sa rovná nule, t.j. môže sa ukázať, že v skutočnosti neexistuje žiadna regresná závislosť.

Na zvládnutie tejto situácie by ste mali otestovať hypotézu H 0: b= 0 podľa konkurenčnej hypotézy H1: b ≠ 0.

Významnosť regresnej priamky možno testovať pomocou analýzy rozptylu.

Zvážte nasledujúcu identitu:

Hodnota y iŷi = ε i sa nazýva zvyšok a predstavuje rozdiel medzi týmito dvoma veličinami:

ü odchýlka pozorovanej hodnoty (odozvy) od všeobecného priemeru odpovedí;

ü odchýlka predpokladanej hodnoty odozvy ŷi z rovnakého priemeru

Vyššie uvedená identita môže byť napísaná ako


Umocnením oboch strán a sčítaním i, dostaneme:


Kde sú uvedené množstvá:

úplný (celkový) súčet druhých mocnín SC n, ktorý sa rovná súčtu druhých mocnín odchýlok pozorovaní vo vzťahu k strednej hodnote pozorovaní

súčet štvorcov v dôsledku regresie SC p, ktorý sa rovná súčtu štvorcových odchýlok hodnôt regresnej čiary vo vzťahu k priemeru pozorovaní.

zvyškový súčet štvorcov SC 0 . čo sa rovná súčtu štvorcových odchýlok pozorovaní vo vzťahu k hodnotám regresnej priamky

Teda šírenie Y-kov vo vzťahu k ich priemeru možno do určitej miery pripísať skutočnosti, že nie všetky pozorovania ležia na regresnej priamke. Ak by to tak bolo, potom by súčet štvorcov vzhľadom na regresiu bol nula. Z toho vyplýva, že regresia bude významná, ak súčet štvorcov SC p je väčší ako súčet druhých mocnín SC 0 .

Výpočty na testovanie významnosti regresie sa vykonávajú v nasledujúcej analýze tabuľky rozptylov

Ak chyby ε i rozdelené podľa normálneho zákona, potom ak je hypotéza H 0 pravdivá: b= 0 štatistiky:


rozdelené podľa Fisherovho zákona s počtom stupňov voľnosti 1 a n−2.

Nulová hypotéza bude zamietnutá na hladine významnosti α, ak je vypočítaná hodnota štatistiky F bude väčší ako α-percentuálny bod f 1;n−2;α Fisherovho rozdelenia.

45. Kontrola primeranosti regresného modelu. Reziduálna metóda

Adekvátnosť skonštruovaného regresného modelu sa chápe ako skutočnosť, že žiadny iný model neposkytuje výrazné zlepšenie predikcie odozvy.

Ak sú všetky hodnoty odozvy získané pri rôznych hodnotách X, t. j. pre to isté sa nezískalo niekoľko hodnôt odozvy x i, potom je možné vykonať len obmedzený test primeranosti lineárneho modelu. Základom takejto kontroly sú zvyšky:

Odchýlky od zavedeného vzoru:

Pretože X je jednorozmerná premenná, body ( x i, d i) možno znázorniť na rovine vo forme takzvaného zvyškového grafu. Takáto reprezentácia niekedy umožňuje odhaliť určitú pravidelnosť v správaní zvyškov. Okrem toho nám analýza zvyškov umožňuje analyzovať predpoklad týkajúci sa zákona o rozdelení chýb.

V prípade, keď sú chyby rozdelené podľa bežného zákona a existuje apriórny odhad ich rozptylu σ 2 (odhad získaný na základe predtým vykonaných meraní), potom je možné presnejšie posúdenie primeranosti modelu.

Používaním F-Fischerov test, môžete skontrolovať, či je zvyškový rozptyl významný s 0 2 sa líši od apriórneho odhadu. Ak je výrazne väčší, ide o nedostatočnosť a model by sa mal prepracovať.

Ak apriórny odhad σ 2 nie, ale merania odozvy Y opakovať dva alebo viackrát pri rovnakých hodnotách X, potom sa tieto opakované pozorovania môžu použiť na získanie ďalšieho odhadu σ 2 (prvý je reziduálny rozptyl). O takomto odhade sa hovorí, že predstavuje „čistú“ chybu, pretože ak urobíme X to isté pre dve alebo viac pozorovaní, potom len náhodné zmeny môžu ovplyvniť výsledky a vytvoriť medzi nimi rozptyl.

Výsledný odhad sa ukazuje ako spoľahlivejší odhad rozptylu ako odhad získaný inými metódami. Z tohto dôvodu má pri plánovaní experimentov zmysel nastaviť experimenty s opakovaniami.

Predpokladajme, že existuje m rôzne významy X : X 1 , X 2 , ..., x m. Nech pre každú z týchto hodnôt x i k dispozícii n i pozorovania odozvy Y. Celkový počet pozorovaní je:

Potom možno jednoduchý lineárny regresný model napísať ako:


Poďme nájsť rozptyl „čistých“ chýb. Tento rozptyl je odhadom kombinovaného rozptylu σ 2, ak uvedieme hodnoty odozvy yij pri X = x i ako vzorkovací objem n i. V dôsledku toho sa rozptyl „čistých“ chýb rovná:

Tento rozptyl slúži ako odhad σ 2 bez ohľadu na to, či je osadený model správny.

Ukážme, že súčet druhých mocnín „čistých chýb“ je súčasťou zvyškového súčtu druhých mocnín (súčet druhých mocnín zahrnutých vo výraze pre zvyškový rozptyl). Zostáva pre j pozorovanie v x i možno napísať ako:

Ak odmocníme obe strany tejto rovnice a potom ich spočítame j a podľa i, potom dostaneme:

Na ľavej strane tejto rovnice je zvyškový súčet štvorcov. Prvý člen na pravej strane je súčet štvorcov „čistých“ chýb, druhý člen možno nazvať súčtom druhých mocnín nedostatočnosti. Posledná suma má m−2 stupne voľnosti, teda nedostatočný rozptyl

Testovacia štatistika na testovanie hypotézy H 0: jednoduchý lineárny model je adekvátny, oproti hypotéze H 1: jednoduchý lineárny model je neadekvátny, je náhodná veličina

Ak je pravdivá nulová hypotéza, hodnota F má Fisherovo rozdelenie so stupňami voľnosti m−2 a nm. Hypotéza linearity regresnej priamky by mala byť zamietnutá s hladinou významnosti α, ak je výsledná štatistická hodnota väčšia ako α-percentuálny bod Fisherovho rozdelenia s počtom stupňov voľnosti. m−2 a nm.

46. Kontrola primeranosti regresného modelu (pozri 45). Analýza rozptylu

47. Kontrola primeranosti regresného modelu (pozri 45). Koeficient determinácie

Niekedy sa na charakterizáciu kvality regresnej priamky používa výberový koeficient determinácie. R 2, ktorý ukazuje, aká časť (podiel) súčtu druhých mocnín v dôsledku regresie, SC p je v celkovom súčte druhých mocnín SC n:

Bližšie R 2 k jednej, čím lepšie sa regresia približuje experimentálnym údajom, tým bližšie sú pozorovania k regresnej priamke. Ak R 2 = 0, potom zmeny odozvy sú úplne spôsobené vplyvom nezohľadnených faktorov a regresná čiara je rovnobežná s osou X-ov. V prípade jednoduchej lineárnej regresie koeficient determinácie R 2 sa rovná druhej mocnine korelačného koeficientu r 2 .

Maximálnu hodnotu R 2 = 1 je možné dosiahnuť iba v prípade, keď boli pozorovania uskutočnené pri rôznych hodnotách x-s. Ak sú v údajoch opakované skúsenosti, potom hodnota R 2 nemôže dosiahnuť jednotu, bez ohľadu na to, aký dobrý je model.

48. Intervaly spoľahlivosti pre jednoduché lineárne regresné parametre

Tak ako je priemer vzorky odhadom skutočného priemeru (priemer populácie), tak sú aj parametre vzorky regresnej rovnice a a b- nič viac ako odhady skutočných regresných koeficientov. Rôzne vzorky poskytujú rôzne odhady priemeru, rovnako ako rôzne vzorky poskytujú rôzne odhady regresných koeficientov.

Za predpokladu, že zákon o rozdelení chýb ε i sú opísané normálnym zákonom, odhadom parametra b bude mať normálne rozdelenie s parametrami:


Od odhadu parametrov a je lineárna kombinácia nezávislých normálne rozdelených veličín, bude mať tiež normálne rozdelenie so strednou hodnotou a rozptylom:


V tomto prípade (1 − α) interval spoľahlivosti pre odhad rozptylu σ 2, berúc do úvahy, že pomer ( n−2)s 0 2 /σ 2 distribuované zo zákona χ 2 s počtom stupňov voľnosti n−2 bude určené výrazom


49. Intervaly spoľahlivosti pre regresnú priamku. Interval spoľahlivosti pre hodnoty závislej premennej

Zvyčajne nepoznáme skutočné hodnoty regresných koeficientov a a b. Poznáme len ich odhady. Inými slovami, skutočná regresná čiara môže ísť vyššie alebo nižšie, byť strmšia alebo plochejšia ako tá, ktorá je postavená na vzorových údajoch. Vypočítali sme intervaly spoľahlivosti pre regresné koeficienty. Môžete tiež vypočítať oblasť spoľahlivosti pre samotnú regresnú čiaru.

Pre jednoduchú lineárnu regresiu je potrebné zostrojiť (1− α ) interval spoľahlivosti pre matematické očakávanie odpovede Y s hodnotou X = X 0 Toto matematické očakávanie je a+bx 0 a jeho odhad

Pretože teda.

Získaný odhad matematického očakávania je lineárnou kombináciou nekorelovaných normálne rozdelených veličín, a preto má tiež normálne rozdelenie sústredené v bode skutočnej hodnoty podmieneného matematického očakávania a rozptylu.

Preto interval spoľahlivosti pre regresnú čiaru pri každej hodnote X 0 môže byť reprezentovaná ako


Ako vidíte, minimálny interval spoľahlivosti sa získa, keď X 0 sa rovná priemernej hodnote a zvyšuje sa ako X 0 sa „pohybuje“ od priemeru v akomkoľvek smere.

Získať súbor spoločných intervalov spoľahlivosti vhodných pre celú regresnú funkciu v celej jej dĺžke vo vyššie uvedenom výraze namiesto t n −2,α /2 treba nahradiť