Coeficientul de corelare a rangului lui Kendall. Corelația rangului și coeficientul de corelare a rangului lui Kendall Coeficientul de corelare a rangului lui Kendall în Excel

Scurtă teorie

Coeficientul de corelație al lui Kendall este utilizat atunci când variabilele sunt reprezentate de două scale ordinale, cu condiția să nu existe ranguri asociate. Calculul coeficientului lui Kendall presupune numărarea numărului de potriviri și inversări.

Acest coeficient variază în interiorul și este calculat prin formula:

Pentru calcul, toate unitățile sunt clasate după atribut; după o serie de alte criterii, pentru fiecare rang se calculează numărul de ranguri ulterioare care îl depășesc pe cel dat (le notăm cu) și numărul de ranguri ulterioare sub cel dat (le vom nota prin).

Se poate arăta că

iar coeficientul de corelare a rangului lui Kendall poate fi scris ca

Pentru a testa ipoteza nulă la nivelul de semnificație în care coeficientul de corelație general al rangului Kendall este egal cu zero în cadrul unei ipoteze concurente, este necesar să se calculeze punctul critic:

unde este dimensiunea eșantionului; Este punctul critic al regiunii critice cu două fețe, care se găsește din tabelul funcției Laplace prin egalitate

Dacă - nu există niciun motiv pentru a respinge ipoteza nulă. Corelația de rang între caracteristici este nesemnificativă.

Dacă - ipoteza nulă este respinsă. Există o corelație semnificativă de rang între caracteristici.

Un exemplu de rezolvare a problemei

Sarcina

La recrutarea a șapte candidați pentru posturi vacante au fost oferite două teste. Rezultatele testului (în puncte) sunt prezentate în tabel:

Test Candidat 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Calculați coeficientul de corelație de rang al lui Kendall între rezultatele testelor pentru două teste și evaluați semnificația acestuia la nivel.

Rezolvarea problemei

Calculați coeficientul lui Kendall

Rangurile atributului factorului sunt aranjate strict în ordine crescătoare, iar rangurile corespunzătoare ale atributului efectiv sunt înregistrate în paralel. Pentru fiecare rang din rândurile care îl urmează, se calculează numărul de ranguri superioare (introduse în coloană) și numărul de ranguri inferioare (introduse în coloană).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Sumă 16 5

Unul dintre factorii care limitează aplicarea criteriilor bazate pe ipoteza normalității este dimensiunea eșantionului. Atâta timp cât eșantionul este suficient de mare (de exemplu, 100 sau mai multe observații), puteți presupune că distribuția eșantionului este normală, chiar dacă nu sunteți sigur că distribuția variabilei în populație este normală. Cu toate acestea, dacă eșantionul este mic, aceste criterii ar trebui utilizate numai dacă există încredere că variabila este într-adevăr distribuită normal. Cu toate acestea, nu există nicio modalitate de a testa această ipoteză într-un eșantion mic.

Utilizarea criteriilor bazate pe ipoteza normalității se limitează și la o scară de măsurători (vezi capitolul Concepte de bază ale analizei datelor). Metodele statistice precum testul t, regresia etc. presupun că datele originale sunt continue. Cu toate acestea, există situații în care datele sunt pur și simplu clasate (măsurate pe o scară ordinală) mai degrabă decât măsurate cu acuratețe.

Un exemplu tipic este dat de evaluările site-urilor de pe Internet: prima poziție este ocupată de site-ul cu numărul maxim de vizitatori, a doua poziție este ocupată de site-ul cu numărul maxim de vizitatori dintre site-urile rămase (dintre site-uri din care a fost eliminat primul site), etc. Cunoscând ratingurile, putem spune că numărul de vizitatori pe un site este mai mare decât numărul de vizitatori pe altul, dar cât mai mult este imposibil de spus. Imaginați-vă că aveți 5 site-uri: A, B, C, D, E, care sunt în primele 5 locuri. Să presupunem că în luna curentă am avut următorul aranjament: A, B, C, D, E, iar în luna anterioară: D, E, A, B, C. Întrebarea este că au existat modificări semnificative în evaluările site-ului sau nu? În această situație, evident, nu putem folosi testul t pentru a compara aceste două grupuri de date și trece la zona calculelor probabilistice specifice (și orice criteriu statistic conține un calcul probabilistic!). Raționăm astfel: cât de probabil este ca diferența dintre cele două aspecte ale site-ului să se datoreze unor motive pur aleatorii sau că diferența este prea mare și nu poate fi explicată prin pură întâmplare. În acest raționament, folosim doar rangurile sau permutările site-urilor și nu folosim în niciun fel o formă specifică de distribuție a numărului de vizitatori ai acestora.

Pentru analiza eșantioanelor mici și pentru datele măsurate pe scale slabe se folosesc metode neparametrice.

Un tur rapid al procedurilor neparametrice

În esență, pentru fiecare criteriu parametric, există cel puțin o alternativă neparametrică.

În general, aceste proceduri se încadrează în una dintre următoarele categorii:

  • criterii de distincție pentru mostre independente;
  • criterii de distincție pentru eșantioanele dependente;
  • evaluarea gradului de dependenţă dintre variabile.

În general, abordarea criteriilor statistice în analiza datelor ar trebui să fie pragmatică și să nu fie împovărată cu raționamente teoretice inutile. Cu un computer STATISTICA la dispoziția dumneavoastră, puteți aplica cu ușurință mai multe criterii datelor dumneavoastră. Cunoscând unele dintre capcanele metodelor, veți alege soluția potrivită prin experimentare. Dezvoltarea complotului este destul de naturală: dacă trebuie să comparați valorile a două variabile, atunci utilizați testul t. Cu toate acestea, trebuie amintit că se bazează pe ipoteza normalității și egalității varianțelor în fiecare grup. Eliberarea de aceste ipoteze are ca rezultat teste neparametrice care sunt utile în special pentru eșantioanele mici.

Dezvoltarea testului t conduce la analiza varianței, care este utilizată atunci când numărul de grupuri comparate este mai mare de două. Dezvoltarea corespunzătoare a procedurilor neparametrice conduce la o analiză neparametrică a varianței, deși este semnificativ mai slabă decât analiza clasică a varianței.

Pentru a aprecia dependența, sau, ca să spunem oarecum pompos, gradul de etanșeitate al conexiunii, se calculează coeficientul de corelație Pearson. Strict vorbind, aplicarea sa are limitări asociate, de exemplu, cu tipul de scară în care sunt măsurate datele și cu neliniaritatea dependenței; de aceea, alternativ, se folosesc și coeficienți de corelație neparametrici, sau așa-numitul rang, care sunt folosit, de exemplu, pentru date clasificate. Dacă datele sunt măsurate la o scară nominală, atunci este firesc să le prezentăm în tabele de contingență care utilizează testul chi-pătrat al lui Pearson cu diferite variații și corecții pentru acuratețe.

Deci, în esență, există doar câteva tipuri de criterii și proceduri pe care trebuie să le cunoașteți și să le puteți utiliza, în funcție de specificul datelor. Trebuie să determinați ce criteriu ar trebui aplicat într-o anumită situație.

Metodele neparametrice sunt cele mai potrivite atunci când dimensiunile eșantionului sunt mici. Dacă există o mulțime de date (de exemplu, n> 100), adesea nu are sens să folosești statistici neparametrice.

Dacă dimensiunea eșantionului este foarte mică (de exemplu, n = 10 sau mai puțin), atunci nivelurile de semnificație pentru acele teste neparametrice care utilizează aproximarea normală pot fi considerate doar estimări brute.

Diferențele între grupuri independente... Dacă există două probe (de exemplu, bărbați și femei) care trebuie comparate cu o valoare medie, de exemplu, presiunea medie sau numărul de leucocite din sânge, atunci testul t poate fi utilizat pentru independent mostre.

Alternativele neparametrice la acest test sunt criteriul seriei Val'd-Wolfowitz, Mann-Whitney) / n, unde x i este valoarea i-a, n este numărul de observații. Dacă variabila conține valori negative sau zero (0), media geometrică nu poate fi calculată.

Mijloc armonic

Media armonică este uneori folosită pentru a media frecvențele. Media armonică se calculează prin formula: ГС = n / S (1 / x i) unde ГС este media armonică, n este numărul de observații, х i este valoarea observației cu numărul i. Dacă variabila conține zero (0), media armonică nu poate fi calculată.

Dispersia și deviația standard

Varianța eșantionului și abaterea standard sunt cele mai utilizate măsuri de variabilitate (variație) în date. Varianța se calculează ca suma pătratelor abaterilor valorilor variabilei de la media eșantionului, împărțită la n-1 (dar nu la n). Abaterea standard este calculată ca rădăcină pătrată a estimării varianței.

Leagăn

Intervalul unei variabile este un indicator al volatilității, calculat ca maxim minus minim.

Domeniul de aplicare a quartilei

Intervalul trimestrial, prin definiție, este: quartila superioară minus quartila inferioară (75% percentila minus 25% percentila). Deoarece percentila de 75% (cuartila superioară) este valoarea din stânga căreia se află 75% din cazuri, iar percentila de 25% (quartilă inferioară) este valoarea din stânga căreia se află 25% din cazuri, quartila intervalul este intervalul din jurul mediei.care conține 50% din cazuri (valori variabile).

Asimetrie

Asimetria este o caracteristică a formei distribuției. Distribuția este oblică spre stânga dacă valoarea asimetriei este negativă. Distribuția este înclinată spre dreapta dacă asimetria este pozitivă. Asimetria distribuției normale standard este 0. Asimetria este asociată cu al treilea moment și este definită ca: asimetrie = n × M 3 / [(n-1) × (n-2) × s 3], unde M 3 este: (xi -x medie x) 3, s 3 este abaterea standard ridicată la a treia putere, n este numărul de observații.

Exces

Kurtoza este o caracteristică a formei unei distribuții, și anume, o măsură a severității vârfului său (față de o distribuție normală, a cărei curtoză este egală cu 0). De regulă, distribuțiile cu un vârf mai ascuțit decât în ​​mod normal au o curtoză pozitivă; distribuțiile al căror vârf este mai puțin acut decât vârful distribuției normale au curtoză negativă. Excesul este asociat cu al patrulea moment și este determinat de formula:

curtoză = / [(n-1) × (n-2) × (n-3) × s 4], unde M j este: (xx medie x, s 4 este abaterea standard la a patra putere, n este numarul de observatii...

Este folosit pentru a identifica relația dintre indicatorii cantitativi sau calitativi, dacă aceștia pot fi clasați. Valorile indicatorului X sunt stabilite în ordine crescătoare și sunt atribuite ranguri. Valorile indicatorului Y sunt clasate și se calculează coeficientul de corelație Kendall:

Unde S = PQ.

P mare valoarea rangului Y.

Q- numarul total de observatii in urma observatiilor curente cu mai mica valoarea rangului Y. (Rangurile egale nu contează!)

Dacă datele studiate sunt repetate (au aceleași ranguri), atunci în calcule se utilizează coeficientul de corelație corectat al lui Kendall:

t- numărul de ranguri înrudite în rândul X, respectiv Y.

19.Care ar trebui să fie punctul de plecare în definirea temei, obiectului, subiectului, scopului, obiectivelor și ipotezei cercetării?

Programul de cercetare, de regulă, are două secțiuni: metodologică și procedurală. Prima include fundamentarea relevanței temei, formularea problemei, definirea obiectului și subiectului, a scopurilor și obiectivelor cercetării, formularea conceptelor de bază (aparatul categorial), analiza sistematică preliminară a obiectului cercetării și formularea unei ipoteze de lucru. A doua secțiune dezvăluie planul strategic de cercetare, precum și planul și procedurile de bază pentru colectarea și analizarea datelor primare.

În primul rând, atunci când alegeți o temă de cercetare, trebuie să pornim de la relevanță. Justificarea relevanței include o indicație privind necesitatea și actualitatea studiului și soluționării problemei pentru dezvoltarea ulterioară a teoriei și practicii predării și creșterii. Cercetarea de actualitate oferă un răspuns la cele mai presante întrebări din acest moment, reflectă ordinea socială a societății față de știința pedagogică și dezvăluie cele mai importante contradicții care au loc în practică. Criteriul de relevanță este dinamic, mobil, depinde de timp, ținând cont de circumstanțe specifice și specifice. În forma sa cea mai generală, relevanța caracterizează gradul de discrepanță între cererea de idei științifice și recomandări practice (pentru a satisface o anumită nevoie) și propunerile pe care știința și practica le pot oferi în prezent.

Cea mai convingătoare bază care definește tema de cercetare este ordinea socială, reflectând problemele cele mai acute, semnificative din punct de vedere social, care necesită soluții urgente. Ordinea socială necesită o fundamentare a unei teme specifice. De obicei, aceasta este o analiză a gradului de elaborare a unei întrebări în știință.

Dacă ordinea socială decurge din analiza practicii pedagogice, atunci ea însăși problema stiintifica este într-un alt plan. Ea exprimă principala contradicție care trebuie rezolvată prin intermediul științei. Soluția la problemă este de obicei scopul studiului. Scopul este o problemă reformulată.

Formularea problemei presupune selecția obiectelor cercetare. Poate fi un proces pedagogic, o zonă a realității pedagogice sau un fel de atitudine pedagogică care conține o contradicție. Cu alte cuvinte, un obiect poate fi orice conține în mod explicit sau implicit o contradicție și generează o situație problemă. Obiectul este spre care este îndreptat procesul de cunoaștere. Subiect de studiu - parte, parte a obiectului. Acestea sunt cele mai semnificative din punct de vedere practic sau teoretic, proprietățile, aspectele, trăsăturile unui obiect care fac obiectul unui studiu direct.

În conformitate cu scopul, obiectul și subiectul cercetării, cercetării sarcini, care, de regulă, au drept scop verificarea ipoteze. Acesta din urmă este un set de ipoteze bazate teoretic, al căror adevăr este supus verificării.

Criteriu noutate științifică poate fi folosit pentru a evalua calitatea studiilor finalizate. Caracterizează noi concluzii teoretice și practice, modele de educație, structura și mecanismele sale, conținutul, principiile și tehnologiile, care la acest moment nu erau cunoscute și nu au fost consemnate în literatura pedagogică. Noutatea cercetării poate avea semnificație atât teoretică, cât și practică. Valoarea teoretică a cercetării constă în crearea unui concept, obținerea unei ipoteze, regularitate, metodă, model de identificare a unei probleme, tendință, direcție. Semnificația practică a cercetării constă în pregătirea propunerilor, recomandărilor etc. Criteriile de noutate, semnificația teoretică și practică se modifică în funcție de tipul cercetării, ele depind și de momentul obținerii de noi cunoștințe.

KENDALLA COEFICIENT DE CORELARE RANG

Una dintre eșantionul măsoară dependența a două variabile aleatoare (trăsături) X și Y, pe baza ierarhizării elementelor eșantionului (X 1, Y x), .. ., (X n, Y n). K. către R. la.se referă, prin urmare, la rang statisticieni si este determinata de formula

Unde r i- Tu aparținând acelei perechi ( X Y), pentru un roi de Xraven i, S = 2N- (n-1) / 2, N este numărul de elemente eșantion, pentru care simultan j> i și r j> r i... Este mereu Ca măsură selectivă a dependenței de To. To. R. to. a fost folosit pe scară largă de către M. Kendall (M. Kendall, vezi).

K. către R. K. este folosit pentru a testa ipoteza independenţei variabilelor aleatoare. Dacă ipoteza independenței este adevărată, atunci E t = 0 și D t = 2 (2n + 5) / 9n (n-1). Cu o dimensiune mică a eșantionului, verificarea este statistică. ipoteza independenţei se face folosind tabele speciale (vezi). Pentru n> 10, se folosește aproximarea normală pentru distribuția lui m: dacă

atunci se respinge ipoteza independenței, în caz contrar se acceptă. Aici a . - nivelul de semnificație, u a / 2 este punctul procentual al distribuției normale. K. către R. Pentru că, ca oricare altul, poate fi folosit pentru a detecta dependența a două caracteristici calitative, dacă doar elementele eșantionului pot fi ordonate în raport cu aceste caracteristici. Dacă X Y au o normală comună cu coeficientul de corelație p, apoi relația dintre K. la p. to. și are forma:

Vezi si Corelația rangului lui Spearman, testul de rang.

Lit.: Kendal M., Rank corelations, trad. din engleză., M., 1975; Van der Waerden B.L., Matematică, trad. din ea., M., 1960; Bol'shev L.N., Smirnov N.V., Tabele de statistică matematică, Moscova, 1965.

A. V. Prohorov.


Enciclopedia de matematică. - M .: Enciclopedia sovietică... I. M. Vinogradov. 1977-1985.

Vedeți ce este „COEFICIENTUL DE CORELARE A RANGULUI KENDALLA” în alte dicționare:

    Engleză. с eficient, corelație de rang Kendall; limba germana Kendalls Rangkorrelationskoeffizient. Coeficientul de corelație, care determină gradul de corespondență al ordonării tuturor perechilor de obiecte în două variabile. antinazi. Enciclopedia de Sociologie, 2009... Enciclopedia Sociologiei

    COEFICIENTUL DE CORELARE A RANGULUI KENDALL- Engleză. eficient, corelație de rang Kendall; limba germana Kendalls Rangkorrelationskoeffizient. Coeficientul de corelație, care determină gradul de corespondență al ordonării tuturor perechilor de obiecte în două variabile ... Dicţionar explicativ de sociologie

    O măsură a dependenței a două variabile aleatoare (trăsături) X și Y, bazată pe clasarea rezultatelor observației independente (X1, Y1),. ... ., (Xn, Yn). Dacă rangurile valorilor lui X sunt situate în ordinea naturală i = 1,. ... ., n și Ri rangul Y corespunzător lui ... ... Enciclopedia de matematică

    Coeficient de corelație- (Coeficientul de corelație) Coeficientul de corelație este un indicator statistic al dependenței a două variabile aleatoare.Determinarea coeficientului de corelație, tipuri de coeficienți de corelație, proprietăți ale coeficientului de corelație, calcul și aplicare... ... Enciclopedia investitorilor

    Relația dintre variabile aleatoare, care, în general, nu este strict funcțională. Spre deosebire de dependența funcțională, K., de regulă, este considerată atunci când una dintre cantități depinde nu numai de aceasta, ci și ... ... Enciclopedia de matematică

    Corelația (dependența de corelație) este o relație statistică a două sau mai multe variabile aleatoare (sau cantități care pot fi considerate ca atare cu un grad acceptabil de acuratețe). În acest caz, modificări ale valorilor unuia sau ...... Wikipedia

    Corelație- (Corelația) Corelația este o relație statistică a două sau mai multe variabile aleatoare.Conceptul de corelație, tipuri de corelație, coeficient de corelație, analiză de corelație, corelație de preț, corelarea perechilor valutare pe Conținutul Forex... ... Enciclopedia investitorilor

    Se admite în general că începutul S. al m. Secolului. sau, așa cum este adesea numită, statistica „n mic”, a fost pusă în primul deceniu al secolului XX prin publicarea lucrării lui W. Gosset, în care a plasat distribuția t, postulată de cei care au primit lumea putin mai tarziu...... Enciclopedie psihologică

    Maurice Kendall Sir Maurice George Kendall Data nașterii: 6 septembrie 1907 (1907 09 06) Locul nașterii: Kettering, Marea Britanie Data morții... Wikipedia

    Prognoza- (Prognoza) Definirea prognozei, sarcinile și principiile previziunii Definirea prognozei, sarcinile și principiile prognozei, metodele de prognoză Conținutul Conținutului Definiția Concepte de bază ale prognozei Sarcini și principii ale prognozei ... ... Enciclopedia investitorilor

Pentru a calcula coeficientul de corelație de rang al lui Kendall r k este necesar să se ierarhească datele pentru unul dintre atribute în ordine crescătoare și să se determine rangurile corespunzătoare pentru al doilea atribut. Apoi, pentru fiecare rang al celei de-a doua trăsături, se determină numărul de ranguri ulterioare, mai mare ca mărime decât rangul luat, și se află suma acestor numere.

Coeficientul de corelare a rangului lui Kendall este determinat de formulă


Unde R i- numărul de ranguri ale celei de-a doua variabile, începând de la i+1, a cărui mărime este mai mare decât magnitudinea i rangul acestei variabile.

Există tabele cu puncte procentuale ale distribuției coeficientului r k, permițându-vă să testați ipoteza despre semnificația coeficientului de corelație.

Pentru dimensiuni mari ale eșantioanelor, valori critice r k nu sunt tabulate și trebuie calculate folosind formule aproximative, care se bazează pe faptul că în ipoteza nulă H 0: r k= 0 și mare n valoare aleatorie

distribuite aproximativ conform legii normale standard.

40. Relația dintre trăsăturile măsurate în scale nominale sau ordinale

Problema se pune adesea în verificarea independenței a două caracteristici măsurate la scară nominală sau ordinală.

Lasă unele obiecte să măsoare două caracteristici Xși Y cu numărul de niveluri rși s respectiv. Rezultatele unor astfel de observații sunt prezentate convenabil sub forma unui tabel, numit tabel de contingență.

In masa tu i(i = 1, ..., r) și v j (j= 1, ..., s) - valorile luate de caracteristici, valoarea n ij- numărul de obiecte din numărul total de obiecte pentru care este atribuit X a căpătat sensul tu i, și semnul Y- sens v j

Introducem următoarele variabile aleatoare:

tu i


- numărul de obiecte care au o valoare v j


În plus, există egalități evidente



Variabile aleatoare discrete Xși Y independent dacă și numai dacă

pentru toate cuplurile i, j

Prin urmare, conjectura despre independența variabilelor aleatoare discrete Xși Y se poate scrie asa:

Ca alternativă, de regulă, ei folosesc ipoteza

Valabilitatea ipotezei H 0 ar trebui judecată pe baza frecvențelor de eșantionare n ij tabele de contingență. În conformitate cu legea numerelor mari la n→ ∞, frecvențele relative sunt apropiate de probabilitățile corespunzătoare:



Pentru a testa ipoteza H 0 se folosesc statistici

care, dacă ipoteza este adevărată, are distribuția χ 2 sec rs − (r + s- 1) grade de libertate.

Criteriul de independență χ 2 respinge ipoteza H 0 cu nivelul de semnificație α dacă:


41. Analiza regresiei. Concepte de bază ale analizei de regresie

Pentru o descriere matematică a relațiilor statistice dintre variabilele studiate trebuie rezolvate următoarele probleme:

ü alegeți o clasă de funcții în care este indicat să căutați cea mai bună (într-un anumit sens) aproximare a dependenței de interes;

ü găsiți estimări ale valorilor necunoscute ale parametrilor incluși în ecuațiile dependenței necesare;

ü să stabilească caracterul adecvat al ecuaţiei obţinute a dependenţei cerute;

ü să identifice cele mai informative variabile de intrare.

Totalitatea sarcinilor enumerate face obiectul cercetării în analiza regresiei.

Funcția de regresie (sau regresia) este dependența așteptării matematice a unei variabile aleatoare de valoarea luată de o altă variabilă aleatoare, care formează un sistem bidimensional de variabile aleatoare cu prima.

Să existe un sistem de variabile aleatoare ( X,Y), apoi funcția de regresie Y pe X

Și funcția de regresie X pe Y

Funcții de regresie f(X) și φ (y) nu sunt reciproc reversibile dacă doar relația dintre Xși Y nu este functionala.

Cand n-vector dimensional cu coordonate X 1 , X 2 ,…, X n puteți lua în considerare așteptările matematice condiționate pentru orice componentă. De exemplu, pentru X 1


numită regresie X 1 pe X 2 ,…, X n.

Pentru o definiție completă a funcției de regresie, este necesar să se cunoască distribuția condiționată a variabilei de ieșire pentru valorile fixe ale variabilei de intrare.

Deoarece într-o situație reală astfel de informații nu sunt disponibile, ele sunt de obicei limitate la căutarea unei funcții de aproximare adecvate f a(X) pentru f(X), pe baza datelor statistice din formularul ( x i, y eu), i = 1,…, n... Aceste date sunt rezultatul n observatii independente y 1 ,…, y n variabilă aleatorie Y pentru valorile variabilei de intrare X 1 ,…, x n, în timp ce analiza de regresie presupune că valorile variabilei de intrare sunt specificate cu precizie.

Problema alegerii celei mai bune funcții de aproximare f a(X), fiind principalul în analiza regresiei, și nu dispune de proceduri formalizate pentru rezolvarea acesteia. Uneori alegerea este determinată pe baza analizei datelor experimentale, de cele mai multe ori din considerente teoretice.

Dacă se presupune că funcția de regresie este suficient de netedă, atunci funcția de aproximare f a(X) poate fi reprezentat ca o combinație liniară a unui set de funcții de bază liniar independente ψ k(X), k = 0, 1,…, m−1, adică sub forma


Unde m- numărul de parametri necunoscuți θ k(în cazul general, valoarea este necunoscută, rafinată în timpul construcției modelului).

O astfel de funcție este liniară în parametri, de aceea, în cazul luat în considerare, vorbim de un model de funcție de regresie liniar în parametri.

Apoi problema găsirii celei mai bune aproximări pentru dreapta de regresie f(X) se reduce la găsirea unor astfel de valori ale parametrilor pentru care f a(X; θ) este cel mai adecvat datelor disponibile. Una dintre metodele de rezolvare a acestei probleme este metoda celor mai mici pătrate.

42. Metoda celor mai mici pătrate

Lăsați setul de puncte ( x i, y eu), i= 1,…, n situat pe un plan de-a lungul unei linii drepte

Apoi, ca o funcție f a(X) aproximând funcţia de regresie f(X) = M [Y|X] este firesc să luăm o funcție liniară a argumentului X:


Adică aici sunt alese funcțiile de bază ψ 0 (X) ≡1 și ψ 1 (X)≡X... Această regresie se numește regresie liniară simplă.

Dacă setul de puncte ( x i, y eu), i= 1,…, n este situat de-a lungul unei curbe, apoi ca f a(X) este firesc să încercăm să alegem familia de parabole

Această funcție este neliniară în parametri θ 0 și θ 1, totuși, prin transformare funcțională (în acest caz, luând logaritmul), poate fi redusă la o nouă funcție f ’a(X), liniară în parametri:


43. Regresia liniară simplă

Cel mai simplu model de regresie este un model liniar simplu (unidimensional, cu un singur factor, pereche), care are următoarea formă:


Unde ε i- variabile aleatoare (erori) necorelate între ele, având zero așteptări matematice și aceleași variații σ 2 , Ași b- coeficienți (parametri) constanți care trebuie estimați din valorile de răspuns măsurate y eu.

Pentru a găsi estimările parametrilor Ași b regresie liniară, determinând linia dreaptă care satisface cel mai mult datele experimentale:


se aplică metoda celor mai mici pătrate.

Conform cele mai mici pătrate estimări ale parametrilor Ași b se găsesc din condiţia minimizării sumei pătratelor abaterilor valorilor y eu vertical de la linia de regresie „adevărată”:

Să fie zece observații ale unei variabile aleatorii Y cu valori fixe ale variabilei X

Pentru a minimiza D egalăm cu zero derivatele parțiale în raport cu Ași b:



Ca rezultat, obținem următorul sistem de ecuații pentru găsirea estimărilor Ași b:


Prin rezolvarea acestor două ecuații rezultă:



Expresii pentru estimarea parametrilor Ași b mai poate fi reprezentat ca:

Apoi ecuația empirică a dreptei de regresie Y pe X poate fi scris ca:


Estimarea varianței imparțial σ 2 abateri de valori y eu din linia dreaptă de regresie ajustată este dată de expresia

Să calculăm parametrii ecuației de regresie


Astfel, linia de regresie arată astfel:


Și estimarea varianței abaterilor de valori y eu de la linia dreaptă ajustată de regresie


44. Verificarea semnificației dreptei de regresie

Estimare gasita b≠ 0 poate fi o realizare a unei variabile aleatoare, a cărei așteptare matematică este egală cu zero, adică se poate dovedi că de fapt nu există nicio dependență de regresie.

Pentru a face față acestei situații, ar trebui să testați ipoteza H 0: b= 0 cu o ipoteză concurentă H 1: b ≠ 0.

Testul semnificației dreptei de regresie poate fi efectuat folosind analiza varianței.

Luați în considerare următoarea identitate:

Magnitudinea y euŷ i = ε i numit rest și este diferența dintre două mărimi:

ü abaterea valorii (răspunsului) observată de la răspunsul mediu total;

ü abaterea valorii răspunsului prezis ŷ i din aceeași medie

Identitatea scrisă poate fi scrisă ca


După ce am pătrat ambele părți și am însumat peste i, primim:


Unde sunt denumite cantitățile:

suma totală (totală) a pătratelor SC n, care este egală cu suma pătratelor abaterilor observațiilor relativ la valoarea medie a observațiilor

suma pătratelor datorată regresiei lui SK p, care este egală cu suma pătratelor abaterilor valorilor liniilor de regresie raportate la media observațiilor.

suma reziduală a pătratelor SK 0. care este egală cu suma pătratelor abaterilor observațiilor față de valorile dreptei de regresie

Deci răspândirea Y-kov în raport cu media lor poate fi atribuită într-o oarecare măsură faptului că nu toate observațiile se află pe linia de regresie. Dacă acesta ar fi cazul, atunci suma pătratelor în raport cu regresia ar fi zero. Rezultă că regresia va fi semnificativă dacă suma pătratelor SC p este mai mare decât suma pătratelor SC 0.

Calculele testului de semnificație ale regresiei sunt efectuate în următorul tabel ANOVA.

Dacă erori ε i distribuite conform legii normale, atunci dacă ipoteza H 0 este valabilă: b= 0 statistici:


distribuite conform legii lui Fisher cu numărul de grade de libertate 1 şi n−2.

Ipoteza nulă va fi respinsă la nivelul de semnificație α dacă valoarea statistică calculată F va fi mai mare decât punctul procentual α f 1;n−2, α din distribuția Fisher.

45. Verificarea adecvării modelului de regresie. Metoda reziduală

Adecvarea modelului de regresie construit este înțeleasă ca fiind faptul că niciun alt model nu oferă o îmbunătățire semnificativă în prezicerea răspunsului.

Dacă toate valorile răspunsurilor sunt obținute la valori diferite X, adică nu există mai multe valori de răspuns obținute cu același x i, atunci poate fi efectuată doar un test limitat de adecvare a modelului liniar. Baza pentru o astfel de verificare o reprezintă resturile:

Abateri de la modelul stabilit:

În măsura în care X- variabilă unidimensională, puncte ( x i, d i) pot fi trasate pe un plan sub forma așa-numitei diagrame reziduale. O astfel de reprezentare face uneori posibilă găsirea unei anumite regularități în comportamentul reziduurilor. În plus, analiza reziduurilor vă permite să analizați ipoteza privind distribuția erorilor.

În cazul în care erorile sunt distribuite conform legii normale și există o estimare a priori a varianței lor σ 2 (o estimare obținută pe baza măsurătorilor efectuate anterior), atunci este posibilă o evaluare mai precisă a adecvării modelului.

Prin utilizarea F- Criteriul lui Fisher poate fi folosit pentru a verifica dacă varianța reziduală este semnificativă s 0 2 diferă de estimarea a priori. Dacă este semnificativ mai mare, atunci există o inadecvare și modelul ar trebui revizuit.

Dacă estimarea prealabilă σ 2 nu, dar măsurători de răspuns Y repetate de două sau mai multe ori cu aceleași valori X, atunci aceste observații repetate pot fi folosite pentru a obține o altă estimare σ 2 (prima este varianța reziduală). Se spune că o astfel de estimare reprezintă o eroare „pură”, deoarece dacă X sunt aceleași pentru două sau mai multe observații, atunci numai modificări aleatorii pot afecta rezultatele și pot crea o împrăștiere între ele.

Estimarea rezultată se dovedește a fi o estimare mai fiabilă a varianței decât estimarea obținută prin alte metode. Din acest motiv, atunci când planificați experimente, este logic să configurați experimente cu repetări.

Să presupunem că avem m sensuri diferite X : X 1 , X 2 , ..., x m... Fie pentru fiecare dintre aceste valori x i există n i observații de răspuns Y... Se obțin observații totale:

Atunci modelul de regresie liniară simplă poate fi scris astfel:


Să găsim varianța erorilor „pure”. Această varianță este estimarea combinată a varianței σ 2, dacă reprezentăm valorile răspunsurilor y ij la X = x i ca volum de probă n i... Ca rezultat, varianța erorilor „pure” este:

Această variație servește ca estimare σ 2 indiferent dacă modelul montat este corect.

Să arătăm că suma pătratelor „erorilor pure” este o parte a sumei reziduale a pătratelor (suma pătratelor inclusă în expresia pentru varianța reziduală). A ramas pentru j a-a observație la x i poate fi scris ca:

Dacă pătrați ambele părți ale acestei egalități și apoi le însumați jși prin i, primim:

În stânga acestei egalități se află suma reziduală a pătratelor. Primul termen din dreapta este suma pătratelor erorilor „pure”, al doilea termen poate fi numit suma pătratelor de inadecvare. Ultima sumă are m−2 grade de libertate, prin urmare, varianța inadecvării

Statistica criteriului de testare a ipotezei H 0: modelul liniar simplu este adecvat, față de ipoteza H 1: modelul liniar simplu este inadecvat, variabila aleatoare este

Dacă ipoteza nulă este adevărată, valoarea F are o distribuție Fisher cu grade de libertate m−2 și nm... Ipoteza liniarității dreptei de regresie trebuie respinsă cu un nivel de semnificație α, dacă valoarea obținută a statisticii este mai mare decât punctul α-procent al distribuției Fisher cu numărul de grade de libertate. m−2 și nm.

46. Verificarea adecvării modelului de regresie (vezi 45). ANOVA

47. Verificarea adecvării modelului de regresie (vezi 45). Coeficient de determinare

Uneori, pentru a caracteriza calitatea dreptei de regresie, se folosește un coeficient de determinare eșantion R 2, care arată ce parte (fracție) din suma pătratelor, datorită regresiei, SK p este în suma totală a pătratelor SK n:

Aproape R 2 la unu, cu cât regresia aproximează mai bine datele experimentale, cu atât observațiile sunt mai aproape de linia de regresie. Dacă R 2 = 0, atunci modificările răspunsului se datorează complet influenței factorilor necontabilizați, iar linia de regresie este paralelă cu axa X-ov. În cazul regresiei liniare simple, coeficientul de determinare R 2 este egal cu pătratul coeficientului de corelație r 2 .

Valoarea maximă R 2 = 1 poate fi atinsă numai în cazul în care observațiile au fost efectuate la diferite valori ale x-ov. Dacă există experimente repetate în date, atunci valoarea lui R 2 nu poate ajunge la unitate, indiferent cât de bun este modelul.

48. Intervale de încredere pentru parametrii de regresie liniară simplă

Așa cum media eșantionului este o estimare a mediei adevărate (media populației), la fel sunt și parametrii eșantionului ai ecuației de regresie Ași b- nimic mai mult decât o estimare a adevăraților coeficienți de regresie. Eșantioane diferite dau estimări diferite ale mediei - la fel cum eșantioane diferite vor da estimări diferite ale coeficienților de regresie.

Presupunând că legea distribuirii erorilor ε i sunt descrise de legea normală, estimarea parametrilor b va avea o distribuție normală cu parametrii:


Din moment ce estimarea parametrului A este o combinație liniară de mărimi independente distribuite normal, va avea și o distribuție normală cu medie și varianță:


În acest caz, intervalul de încredere (1 - α) pentru estimarea varianței σ 2 ținând cont de faptul că raportul ( n−2)s 0 2 /σ 2 distribuite prin lege χ 2 cu numărul de grade de libertate n−2 va fi determinat de expresia


49. Intervale de încredere pentru linia de regresie. Interval de încredere pentru valorile variabilelor dependente

De obicei, nu cunoaștem adevăratele valori ale coeficienților de regresie. Ași b... Știm doar estimările lor. Cu alte cuvinte, adevărata linie de regresie poate merge mai sus sau mai jos, poate fi mai abruptă sau mai mică decât cea construită din datele eșantionului. Am calculat intervalele de încredere pentru coeficienții de regresie. De asemenea, puteți calcula regiunea de încredere pentru linia de regresie în sine.

Fie că pentru regresia liniară simplă este necesar să se construiască (1− α ) interval de încredere pentru așteptarea matematică a răspunsului Y la valoare NS = NS 0. Această așteptare matematică este A+bx 0 și estimarea acestuia

De atunci.

Estimarea obținută a așteptărilor matematice este o combinație liniară de valori distribuite normal necorelate și, prin urmare, are și o distribuție normală centrată în punctul valorii adevărate a așteptării și a varianței matematice condiționate.

Prin urmare, intervalul de încredere pentru linia de regresie la fiecare valoare X 0 poate fi reprezentat ca


După cum puteți vedea, intervalul minim de încredere se obține la X 0 egal cu media și crește ca X 0 „se îndepărtează” de mijloc în orice direcție.

Pentru a obține un set de intervale de încredere comune potrivite pentru întreaga funcție de regresie, pe toată lungimea acesteia, în expresia de mai sus în loc de t n −2,α / 2 trebuie înlocuit