Kendala ranga korelācijas koeficients. Ranga korelācija un Kendala ranga korelācijas koeficients Kendala ranga korelācijas koeficients programmā Excel

Īsa teorija

Kendala korelācijas koeficientu izmanto, ja mainīgie tiek attēloti ar divām kārtas skalām, ar nosacījumu, ka nav saistītu rangu. Kendala koeficienta aprēķināšana ietver sakritību un inversiju skaita skaitīšanu.

Šis koeficients mainās robežās un tiek aprēķināts pēc formulas:

Aprēķiniem visas vienības ir sakārtotas pēc atribūta; pēc vairākiem citiem kritērijiem katrai pakāpei tiek aprēķināts nākamo pakāpju skaits, kas pārsniedz doto (tās apzīmējam ar) un nākamo pakāpju skaits zem dotās (apzīmējam ar).

To var parādīt

un Kendala ranga korelācijas koeficientu var uzrakstīt kā

Lai pārbaudītu nulles hipotēzi nozīmības līmenī, ka vispārējais Kendala ranga korelācijas koeficients ir vienāds ar nulli saskaņā ar konkurējošu hipotēzi, ir jāaprēķina kritiskais punkts:

kur ir izlases lielums; Vai ir divpusējā kritiskā apgabala kritiskais punkts, kas tiek atrasts no Laplasa funkcijas tabulas ar vienādību

Ja - nav pamata noraidīt nulles hipotēzi. Ranga korelācija starp pazīmēm ir nenozīmīga.

Ja - nulles hipotēze tiek noraidīta. Starp pazīmēm pastāv ievērojama rangu korelācija.

Problēmas risināšanas piemērs

Uzdevums

Pieņemot darbā septiņus kandidātus uz vakantajiem amatiem, tika piedāvāti divi testi. Pārbaudes rezultāti (punktos) ir parādīti tabulā:

Pārbaude Kandidāts 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Aprēķiniet Kendala ranga korelācijas koeficientu starp testa rezultātiem diviem testiem un novērtējiet tā nozīmīgumu līmenī.

Problēmas risinājums

Aprēķiniet Kendala koeficientu

Faktoru atribūta rindas ir sakārtotas stingri augošā secībā, un paralēli tiek reģistrētas atbilstošās efektīvā atribūta rindas. Katrai pakāpei no tālāk norādītajām pakāpēm tiek aprēķināts augstāko kārtu skaits (ievadīts ailē) un zemāko rangu skaits (ievadīts ailē).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Summa 16 5

Viens no faktoriem, kas ierobežo kritēriju piemērošanu, pamatojoties uz pieņēmumu par normālu, ir izlases lielums. Kamēr izlase ir pietiekami liela (piemēram, 100 vai vairāk novērojumu), var pieņemt, ka izlases sadalījums ir normāls, pat ja neesat pārliecināts, ka mainīgā lieluma sadalījums populācijā ir normāls. Tomēr, ja izlase ir maza, šie kritēriji jāizmanto tikai tad, ja ir pārliecība, ka mainīgais patiešām ir normāli sadalīts. Tomēr nav iespējams pārbaudīt šo pieņēmumu nelielā izlasē.

Kritēriju izmantošana, pamatojoties uz pieņēmumu par normālu, arī aprobežojas ar mērījumu skalu (sk. nodaļu Datu analīzes pamatjēdzieni). Tādas statistikas metodes kā t-tests, regresija utt. pieņem, ka sākotnējie dati ir nepārtraukti. Tomēr ir situācijas, kad datus vienkārši sarindo (mēra pēc kārtas), nevis mēra precīzi.

Tipisks piemērs ir vietņu reitingi internetā: pirmo vietu ieņem vietne ar maksimālo apmeklētāju skaitu, otro vietu ieņem vietne ar maksimālo apmeklētāju skaitu starp atlikušajām vietnēm (starp vietnēm no kuras ir noņemta pirmā vietne) u.c. Zinot vērtējumus, varam teikt, ka vienas vietnes apmeklētāju skaits ir lielāks nekā citas vietnes apmeklētāju skaits, bet cik vēl nav iespējams pateikt. Iedomājieties, ka jums ir 5 vietnes: A, B, C, D, E, kas ir 5 vietās. Pieņemsim, ka pašreizējā mēnesī mums bija šāda kārtība: A, B, C, D, E un iepriekšējā mēnesī: D, E, A, B, C. Jautājums ir par to, ka vietņu vērtējumos ir notikušas būtiskas izmaiņas. vai nē? Šajā situācijā, protams, mēs nevaram izmantot t-testu, lai salīdzinātu šīs divas datu grupas un pārietu uz konkrētu varbūtības aprēķinu apgabalu (un jebkurš statistikas kritērijs satur varbūtības aprēķinu!). Mēs domājam šādi: cik liela ir iespējamība, ka atšķirības abos vietņu izkārtojumos ir radušās tīri nejaušu iemeslu dēļ vai ka atšķirība ir pārāk liela un to nevar izskaidrot ar nejaušību. Šajā argumentācijā mēs izmantojam tikai vietņu rindas vai permutācijas un nekādā veidā neizmantojam īpašu to apmeklētāju skaita sadalījuma veidu.

Nelielu paraugu analīzei un datiem, kas mērīti vājās skalās, tiek izmantotas neparametriskas metodes.

Ātra neparametrisko procedūru apskate

Būtībā katram parametriskajam kritērijam ir vismaz viena neparametriska alternatīva.

Kopumā šīs procedūras ietilpst vienā no šīm kategorijām:

  • neatkarīgu paraugu atšķiršanas kritēriji;
  • atkarīgo paraugu atšķiršanas kritēriji;
  • mainīgo lielumu atkarības pakāpes novērtējums.

Kopumā pieejai statistikas kritērijiem datu analīzē jābūt pragmatiskai, un tai nevajadzētu būt apgrūtinātai ar nevajadzīgu teorētisku argumentāciju. Izmantojot STATISTICA datoru, kas ir jūsu rīcībā, jūs varat viegli piemērot vairākus kritērijus saviem datiem. Zinot par dažām metožu nepilnībām, jūs eksperimentējot izvēlēsities pareizo risinājumu. Diagrammas attīstība ir diezgan dabiska: ja jums ir jāsalīdzina divu mainīgo vērtības, tad izmantojiet t-testu. Tomēr jāatceras, ka tas ir balstīts uz pieņēmumu par normālu un dispersiju vienādību katrā grupā. Atbrīvojoties no šiem pieņēmumiem, tiek veikti neparametriski testi, kas ir īpaši noderīgi maziem paraugiem.

T-testa izstrāde noved pie dispersijas analīzes, ko izmanto, ja salīdzināmo grupu skaits ir lielāks par divām. Atbilstoša neparametrisko procedūru attīstība noved pie neparametriskas dispersijas analīzes, lai gan tā ir ievērojami sliktāka nekā klasiskā dispersijas analīze.

Lai novērtētu atkarību jeb, nedaudz pompozi sakot, savienojuma blīvuma pakāpi, tiek aprēķināts Pīrsona korelācijas koeficients. Stingri sakot, tā pielietojumam ir ierobežojumi, kas saistīti, piemēram, ar datu mērīšanas skalas veidu un atkarības nelinearitāti, tāpēc alternatīvi tiek izmantoti arī neparametriskie jeb tā sauktie ranga korelācijas koeficienti, kas ir izmanto, piemēram, ranžētiem datiem. Ja dati tiek mērīti pēc nominālās skalas, tad dabiski tos uzrādīt nejaušības tabulās, kurās tiek izmantots Pīrsona hī kvadrāta tests ar dažādām variācijām un precizitātes korekcijām.

Tātad būtībā ir tikai daži kritēriju un procedūru veidi, kas jāzina un jāprot izmantot atkarībā no datu specifikas. Jums ir jānosaka, kurš kritērijs ir jāpiemēro konkrētā situācijā.

Neparametriskās metodes ir vispiemērotākās, ja izlases lielums ir mazs. Ja datu ir daudz (piemēram, n> 100), bieži vien nav jēgas izmantot neparametrisko statistiku.

Ja izlases lielums ir ļoti mazs (piemēram, n = 10 vai mazāks), tad nozīmīguma līmeņus tiem neparametriskiem testiem, kuros izmanto parasto tuvinājumu, var uzskatīt tikai par aptuveniem aprēķiniem.

Atšķirības starp neatkarīgām grupām... Ja ir divi paraugi (piemēram, vīrieši un sievietes), kas jāsalīdzina ar kādu vidējo vērtību, piemēram, vidējo spiedienu vai leikocītu skaitu asinīs, tad t-testu var izmantot neatkarīgiem. paraugi.

Šī testa neparametriskās alternatīvas ir Vald-Wolfowitz, Mann-Whitney sērijas kritērijs) / n, kur x i ir i-tā vērtība, n ir novērojumu skaits. Ja mainīgais satur negatīvas vērtības vai nulle (0), ģeometrisko vidējo nevar aprēķināt.

Harmoniskais vidējais

Harmonisko vidējo dažreiz izmanto vidējo frekvenču noteikšanai. Vidējo harmonisko vērtību aprēķina pēc formulas: ГС = n / S (1 / x i) kur ГС ir vidējais harmoniskais, n ir novērojumu skaits, х i ir novērojuma vērtība ar skaitli i. Ja mainīgais satur nulli (0), harmonisko vidējo nevar aprēķināt.

Dispersija un standartnovirze

Izlases dispersija un standarta novirze ir visbiežāk izmantotie datu mainīguma (variācijas) rādītāji. Dispersija tiek aprēķināta kā mainīgā lieluma vērtību noviržu kvadrātu summa no parauga vidējās vērtības, dalīta ar n-1 (bet ne ar n). Standartnovirzi aprēķina kā dispersijas aplēses kvadrātsakni.

Šūpoles

Mainīgā lieluma diapazons ir svārstīguma rādītājs, kas aprēķināts kā maksimums mīnus minimums.

Kvartiļu tvērums

Ceturkšņa diapazons pēc definīcijas ir: augšējā kvartile mīnus apakšējā kvartile (75% procentile mīnus 25% procentile). Tā kā 75% procentile (augšējā kvartile) ir vērtība, no kuras pa kreisi atrodas 75% gadījumu, un 25% procentile (apakšējā kvartile) ir vērtība, no kuras pa kreisi atrodas 25% gadījumu, kvartile diapazons ir intervāls ap mediānu.kas satur 50% gadījumu (mainīgās vērtības).

Asimetrija

Asimetrija ir sadalījuma formas īpašība. Ja šķībuma vērtība ir negatīva, sadalījums ir šķībs pa kreisi. Ja asimetrija ir pozitīva, sadalījums ir šķībs pa labi. Standarta normālā sadalījuma šķībums ir 0. Šķibums ir saistīts ar trešo momentu un tiek definēts šādi: šķībums = n × M 3 / [(n-1) × (n-2) × s 3], kur M 3 ir: (xi -x vidējais x) 3, s 3 ir standartnovirze, kas palielināta līdz trešajai pakāpei, n ir novērojumu skaits.

Pārmērīgs

Kurtoze ir sadalījuma formas pazīme, proti, tā maksimuma smaguma mērs (attiecībā pret normālo sadalījumu, kura kurtoze ir vienāda ar 0). Parasti sadalījumiem ar asāku maksimumu nekā parasti ir pozitīva kurtoze; sadalījumiem, kuru maksimums ir mazāk akūts nekā normālā sadalījuma maksimums, ir negatīva kurtoze. Pārsniegums ir saistīts ar ceturto brīdi un tiek noteikts pēc formulas:

kurtosis = / [(n-1) × (n-2) × (n-3) × s 4], kur M j ir: (xx vidējais x, s 4 ir standartnovirze līdz ceturtajai pakāpei, n ir novērojumu skaits...

To izmanto, lai noteiktu attiecības starp kvantitatīviem vai kvalitatīviem rādītājiem, ja tos var sarindot. X indikatora vērtības tiek iestatītas augošā secībā un piešķirtas pakāpes. Y indikatora vērtības tiek sarindotas un tiek aprēķināts Kendall korelācijas koeficients:

kur S = PJ.

P liels ranga vērtība Y.

J- kopējais novērojumu skaits pēc pašreizējiem novērojumiem ar mazāks ranga vērtība Y. (vienādas pakāpes neskaitās!)

Ja pētītie dati atkārtojas (ar vienādām rindām), tad aprēķinos tiek izmantots Kendalas koriģētais korelācijas koeficients:

t- saistīto rindu skaits attiecīgi X un Y rindā.

19.Kam vajadzētu būt sākumpunktam, definējot pētījuma tēmu, objektu, priekšmetu, mērķi, uzdevumus un hipotēzi?

Pētījuma programmai, kā likums, ir divas sadaļas: metodiskā un procesuālā. Pirmajā ietilpst tēmas atbilstības pamatojums, problēmas formulēšana, pētījuma objekta un priekšmeta, mērķu un uzdevumu formulēšana, pamatjēdzienu formulēšana (kategoriskā aparāts), pētāmā objekta iepriekšēja sistemātiska analīze un darba hipotēzes izvirzīšana. Otrajā sadaļā ir atklāts stratēģiskais izpētes plāns, kā arī primāro datu vākšanas un analīzes plāns un pamatprocedūras.

Pirmkārt, izvēloties pētījuma tēmu, ir jāvadās pēc atbilstības. Atbilstības pamatojums ietver norādi par problēmas izpētes un risināšanas nepieciešamību un savlaicīgumu mācību un audzināšanas teorijas un prakses tālākai attīstībai. Aktuālā izpēte sniedz atbildi uz šī brīža aktuālākajiem jautājumiem, atspoguļo sabiedrības sociālo sakārtojumu līdz pedagoģijas zinātnei un atklāj būtiskākās praksē notiekošās pretrunas. Atbilstības kritērijs ir dinamisks, mobils, atkarīgs no laika, ņemot vērā konkrētus un specifiskus apstākļus. Vispārīgākajā formā atbilstība raksturo neatbilstības pakāpi starp pieprasījumu pēc zinātniskām idejām un praktiskiem ieteikumiem (lai apmierinātu konkrētu vajadzību) un priekšlikumiem, ko zinātne un prakse šobrīd var sniegt.

Pārliecinošākā pētījuma tēmu definējošā bāze ir sociālā kārtība, kas atspoguļo akūtākās, sabiedriski nozīmīgākās problēmas, kurām nepieciešami neatliekami risinājumi. Sociālā kārtība prasa konkrētas tēmas pamatojumu. Parasti tā ir zinātnes jautājuma izstrādātības pakāpes analīze.

Ja no pedagoģiskās prakses analīzes izriet sociālā kārtība, tad pati zinātniska problēma atrodas citā plaknē. Tas pauž galveno pretrunu, kas jāatrisina ar zinātnes līdzekļiem. Problēmas risinājums parasti ir pētījuma mērķis. Mērķis ir pārformulēta problēma.

Problēmas formulējums ietver objektu atlase pētījumiem. Tas var būt pedagoģisks process, pedagoģiskās realitātes joma vai kāda veida pedagoģiskā attieksme, kas satur pretrunas. Citiem vārdiem sakot, objekts var būt jebkas, kas tieši vai netieši satur pretrunu un rada problēmsituāciju. Objekts ir tas, uz ko tiek virzīts izziņas process. Studiju priekšmets - objekta daļa, puse. Tie ir nozīmīgākie no praktiskā vai teorētiskā viedokļa, objekta īpašības, aspekti, pazīmes, kas ir pakļautas tiešai izpētei.

Atbilstoši pētījuma, izpētes mērķim, objektam un priekšmetam uzdevumi, kuru mērķis parasti ir pārbaudīt hipotēzes. Pēdējais ir teorētiski pamatotu pieņēmumu kopums, kuru patiesums ir pakļauts pārbaudei.

Kritērijs zinātniskais jaunums var izmantot, lai novērtētu pabeigto studiju kvalitāti. Tas raksturo jaunus teorētiskos un praktiskos secinājumus, izglītības modeļus, tās struktūru un mehānismus, saturu, principus un tehnoloģijas, kas šajā brīdī nebija zināmi un netika fiksēti pedagoģiskajā literatūrā. Pētījuma novitātei var būt gan teorētiska, gan praktiska nozīme. Pētījuma teorētiskā vērtība slēpjas koncepcijas izveidē, hipotēzes iegūšanā, likumsakarības, metodes, modeļa problēmas identificēšanai, tendences, virziena. Pētījuma praktiskā nozīme slēpjas priekšlikumu, ieteikumu u.c. sagatavošanā. Jaunuma, teorētiskās un praktiskās nozīmes kritēriji mainās atkarībā no pētījuma veida, tie ir atkarīgi arī no jaunu zināšanu iegūšanas laika.

KENDALLAS RANGA KORELĀCIJAS KOEFICIENTS

Viens no divu gadījuma lielumu (iezīmju) atkarības izlases mēriem X un Y, pamatojoties uz izlases vienumu ranžēšanu (X 1, Y x), .. ., (X n, Y n). K. līdz R. tātad attiecas uz ranga statistiķi un to nosaka pēc formulas

kur r i- Jūs piederat šim pārim ( X, Y), par Xraven baru i, S = 2N- (n-1) / 2, N ir to izlases elementu skaits, kuriem vienlaikus j> i un r j> r i... Ir vienmēr Kā selektīvs atkarības mērs No. To. R. to plaši izmantoja M. Kendals (M. Kendall, sk.).

K. līdz R. K. izmanto, lai pārbaudītu gadījuma lielumu neatkarības hipotēzi. Ja neatkarības hipotēze ir patiesa, tad E t = 0 un D t = 2 (2n + 5) / 9n (n-1). Ar nelielu izlases lielumu pārbaude ir statistiska. neatkarības hipotēze tiek izvirzīta, izmantojot īpašas tabulas (sk.). Ja n> 10, m sadalījumam izmanto normālu tuvinājumu: ja

tad neatkarības hipotēze tiek noraidīta, pretējā gadījumā tā tiek pieņemta. Šeit a . - nozīmīguma līmenis, u a / 2 ir normālā sadalījuma procentpunkts. K. līdz R. Jo, tāpat kā jebkuru citu, ar to var noteikt divu kvalitatīvu pazīmju atkarību, ja tikai parauga elementus var sakārtot attiecībā uz šīm pazīmēm. Ja X, Y ir kopīgs normāls ar korelācijas koeficientu p, tad attiecības starp K. līdz p. un ir šāda forma:

Skatīt arī Spīrmena ranga korelācija, ranga tests.

Lit.: Kendal M., Ranga korelācijas, trans. no angļu val., M., 1975; Van der Vērdens B.L., Matemātika, tulk. no tā., M., 1960; Bol'shev L.N., Smirnov N.V., Matemātiskās statistikas tabulas, Maskava, 1965.

A. V. Prohorovs.


Matemātikas enciklopēdija. - M .: Padomju enciklopēdija... I. M. Vinogradovs. 1977-1985.

Skatiet, kas ir "KENDALLAS RANKA KORRELĀCIJAS KOEFICIENTS" citās vārdnīcās:

    Angļu. с efektīva, rangu korelācija Kendall; vāciski Kendalls Rangkorrelationskoeffizient. Korelācijas koeficients, kas nosaka visu objektu pāru sakārtotības atbilstības pakāpi divos mainīgajos. Antinazi. Socioloģijas enciklopēdija, 2009... Socioloģijas enciklopēdija

    KENDALLA RANGA KORELĀCIJAS KOEFICIENTS- Angļu. efektīva, rangu korelācija Kendall; vāciski Kendalls Rangkorrelationskoeffizient. Korelācijas koeficients, kas nosaka visu objektu pāru secības atbilstības pakāpi divos mainīgajos... Socioloģijas skaidrojošā vārdnīca

    Divu gadījuma lielumu (iezīmju) X un Y atkarības mērs, pamatojoties uz neatkarīgu novērojumu rezultātu sakārtošanu (X1, Y1). ... ., (Xn, Yn). Ja X vērtību rindas atrodas dabiskā secībā i = 1,. ... ., n un Ri rangs Y, kas atbilst ... ... Matemātikas enciklopēdija

    Korelācijas koeficients- (Korelācijas koeficients) Korelācijas koeficients ir divu nejaušu lielumu atkarības statistiskais rādītājs Korelācijas koeficienta noteikšana, korelācijas koeficientu veidi, korelācijas koeficienta īpašības, aprēķins un pielietojums ... ... Investoru enciklopēdija

    Attiecības starp nejaušajiem mainīgajiem, kas, vispārīgi runājot, nav stingri funkcionālas. Atšķirībā no funkcionālās atkarības, K., kā likums, tiek uzskatīts, ja viens no daudzumiem ir atkarīgs ne tikai no šī otra, bet arī ... ... Matemātikas enciklopēdija

    Korelācija (korelācijas atkarība) ir divu vai vairāku gadījuma lielumu (vai lielumu, kurus var uzskatīt par tādiem ar zināmu pieņemamu precizitātes pakāpi) statistiska sakarība. Šajā gadījumā vienas vai ... ... Wikipedia vērtību izmaiņas

    Korelācija- (Korelācija) Korelācija ir divu vai vairāku nejaušu mainīgo statistiskā sakarība. Korelācijas jēdziens, korelācijas veidi, korelācijas koeficients, korelācijas analīze, cenu korelācija, valūtu pāru korelācija Forex saturā ... ... Investoru enciklopēdija

    Ir vispāratzīts, ka sākumā S. gadsimtā. jeb, kā mēdz saukt, "mazā n" statistika tika ievietota XX gadsimta pirmajā desmitgadē, publicējot V. Goseta darbu, kurā viņš ievietoja t sadalījumu, ko postulēja tie, kuri saņēma pasaule nedaudz vēlāk...... Psiholoģiskā enciklopēdija

    Moriss Kendels Sers Moriss Džordžs Kendels Dzimšanas datums: 1907. gada 6. septembris (1907 09 06) Dzimšanas vieta: Keteringa, Apvienotā Karaliste Miršanas datums ... Wikipedia

    Prognoze- (Prognoze) Prognozes definīcija, uzdevumi un prognozēšanas principi Prognozes definīcija, prognozēšanas uzdevumi un principi, prognozēšanas metodes Saturs Saturs Definīcija Prognozēšanas pamatjēdzieni Uzdevumi un prognozēšanas principi ... ... Investoru enciklopēdija

Aprēķināt Kendala ranga korelācijas koeficientu r k nepieciešams sarindot datus vienam no atribūtiem augošā secībā un noteikt atbilstošās rangas otrajam atribūtam. Pēc tam katrai otrās pazīmes pakāpei tiek noteikts nākamo pakāpju skaits, kas ir lielāks par ņemto pakāpi, un tiek atrasta šo skaitļu summa.

Kendala ranga korelācijas koeficientu nosaka pēc formulas


kur R i- otrā mainīgā lieluma rindu skaits, sākot no i+1, kura lielums ir lielāks par lielumu išī mainīgā lieluma rangs.

Ir izveidotas koeficienta sadalījuma procentpunktu tabulas r k, ļaujot pārbaudīt hipotēzi par korelācijas koeficienta nozīmīgumu.

Lieliem paraugu izmēriem kritiskās vērtības r k nav tabulas, un tie ir jāaprēķina, izmantojot aptuvenas formulas, kuru pamatā ir fakts, ka saskaņā ar nulles hipotēzi H 0: r k= 0 un liels n nejauša vērtība

sadalīti aptuveni saskaņā ar standarta parasto likumu.

40. Attiecības starp pazīmēm, kas mērītas nominālajā vai kārtas skalā

Problēma bieži rodas, pārbaudot divu pazīmju neatkarību, ko mēra nominālā vai kārtas skalā.

Ļaujiet dažiem objektiem izmērīt divas pazīmes X un Y ar līmeņu skaitu r un s attiecīgi. Šādu novērojumu rezultāti ir ērti parādīti tabulas veidā, ko sauc par neparedzētu situāciju tabulu.

Tabulā tu i(i = 1, ..., r) un v j (j= 1, ..., s) - pazīmju ņemtās vērtības, vērtība n ij- objektu skaits no kopējā objektu skaita, kuriem atribūts X ieguva jēgu tu i, un zīme Y- nozīme v j

Mēs ieviešam šādus nejaušos mainīgos:

tu i


- objektu skaits, kuriem ir vērtība v j


Turklāt ir acīmredzamas vienlīdzības



Diskrēti nejauši mainīgie X un Y neatkarīgs tad un tikai tad

visiem pāriem i, j

Tāpēc minējums par diskrēto gadījuma lielumu neatkarību X un Y var uzrakstīt šādi:

Kā alternatīvu, kā likums, viņi izmanto hipotēzi

Hipotēzes H 0 pamatotība jāvērtē, pamatojoties uz izlases biežumu n ij neparedzētu gadījumu tabulas. Saskaņā ar lielo skaitļu likumu plkst n→ ∞, relatīvās frekvences ir tuvas attiecīgajām varbūtībām:



Lai pārbaudītu hipotēzi H 0, tiek izmantota statistika

kurai, ja hipotēze ir patiesa, ir sadalījums χ 2 sek rs − (r + s- 1) brīvības pakāpes.

Neatkarības kritērijs χ 2 noraida hipotēzi H 0 ar nozīmīguma līmeni α, ja:


41. Regresijas analīze. Regresijas analīzes pamatjēdzieni

Lai matemātiski aprakstītu statistiskās sakarības starp pētītajiem mainīgajiem, jāatrisina šādas problēmas:

ü izvēlēties funkciju klasi, kurā vēlams meklēt labāko (noteiktā nozīmē) interešu atkarības tuvinājumu;

ü atrast vajadzīgās atkarības vienādojumos iekļauto parametru nezināmo vērtību aplēses;

ü noteikt iegūtā vajadzīgās atkarības vienādojuma atbilstību;

ü lai identificētu informatīvākos ievades mainīgos.

Uzskaitīto uzdevumu kopums ir regresijas analīzes pētījuma priekšmets.

Regresijas funkcija (jeb regresija) ir viena gadījuma lieluma matemātiskās cerības atkarība no cita gadījuma lieluma iegūtās vērtības, kas veido divdimensiju gadījuma lielumu sistēmu ar pirmo.

Lai pastāv nejaušu mainīgo sistēma ( X,Y), tad regresijas funkcija Y uz X

Un regresijas funkcija X uz Y

Regresijas funkcijas f(x) un φ (y) nav savstarpēji atgriezeniskas, ja tikai attiecības starp X un Y nav funkcionāls.

Kad n-dimensiju vektors ar koordinātām X 1 , X 2 ,…, X n varat apsvērt jebkura komponenta nosacīto matemātisko cerību. Piemēram, priekš X 1


sauc par regresiju X 1 uz X 2 ,…, X n.

Lai pilnībā definētu regresijas funkciju, ir jāzina izejas mainīgā nosacījuma sadalījums ieejas mainīgā fiksētajām vērtībām.

Tā kā reālā situācijā šāda informācija nav pieejama, tā parasti aprobežojas ar piemērotas tuvināšanas funkcijas meklēšanu f a(x) priekš f(x), pamatojoties uz veidlapas statistikas datiem ( x i, y i), i = 1,…, n... Šie dati ir rezultāts n neatkarīgi novērojumi y 1 ,…, g n izlases lielums Y ievades mainīgā vērtībām x 1 ,…, x n, savukārt regresijas analīzē tiek pieņemts, ka ievades mainīgā vērtības ir norādītas precīzi.

Labākās aproksimējošās funkcijas izvēles problēma f a(x), kas ir galvenais regresijas analīzē, un tai nav formalizētas procedūras tās risināšanai. Dažkārt izvēle tiek noteikta, pamatojoties uz eksperimentālo datu analīzi, biežāk no teorētiskiem apsvērumiem.

Ja pieņem, ka regresijas funkcija ir pietiekami gluda, tad aproksimējošā funkcija f a(x) var attēlot kā lineāri neatkarīgu bāzes funkciju kopas lineāru kombināciju ψ k(x), k = 0, 1,…, m−1, t.i., formā


kur m- nezināmo parametru skaits θ k(vispārējā gadījumā vērtība nav zināma, precizēta modeļa konstruēšanas laikā).

Šāda funkcija ir lineāra parametros, tāpēc aplūkojamajā gadījumā runa ir par regresijas funkcijas modeli, kas ir lineārs parametros.

Tad problēma, kā atrast labāko regresijas taisnes tuvinājumu f(x) tiek reducēts līdz tādu parametru vērtību atrašanai, kurām f a(x; θ) ir vispiemērotākais pieejamajiem datiem. Viena no šīs problēmas risināšanas metodēm ir mazāko kvadrātu metode.

42. Mazākā kvadrāta metode

Ļaujiet punktu kopai ( x i, y i), i= 1,…, n atrodas plaknē pa kādu taisnu līniju

Pēc tam kā funkcija f a(x) tuvinot regresijas funkciju f(x) = M [Y|x] ir dabiski pieņemt argumenta lineāru funkciju x:


Tas ir, šeit ir izvēlētas pamata funkcijas ψ 0 (x) ≡1 un ψ 1 (x)≡x... Šo regresiju sauc par vienkāršu lineāro regresiju.

Ja punktu kopa ( x i, y i), i= 1,…, n atrodas pa kādu līkumu, tad kā f a(x) ir dabiski mēģināt izvēlēties parabolu saimi

Šīs funkcijas parametri ir nelineāri θ 0 un θ 1, taču ar funkcionālu transformāciju (šajā gadījumā ņemot logaritmu) to var reducēt uz jaunu funkciju f’a(x), lineāri parametros:


43. Vienkārša lineārā regresija

Vienkāršākais regresijas modelis ir vienkāršs (viendimensijas, viena faktora, pāra) lineārais modelis, kuram ir šāda forma:


kur ε i- nejauši mainīgie (kļūdas), kas nav savstarpēji saistīti, ar nulles matemātiskām cerībām un vienādām novirzēm σ 2 , a un b- nemainīgie koeficienti (parametri), kas jānovērtē no izmērītajām atbildes vērtībām y i.

Lai atrastu parametru aplēses a un b lineārā regresija, nosakot taisni, kas visvairāk atbilst eksperimentālajiem datiem:


tiek piemērota mazāko kvadrātu metode.

Saskaņā ar mazākie kvadrāti parametru aplēses a un b tiek atrasti no nosacījuma, ka vērtību noviržu kvadrātu summa tiek samazināta līdz minimumam y i vertikāli no “patiesās” regresijas līnijas:

Lai ir desmit nejauša lieluma novērojumi Y ar fiksētām mainīgā vērtībām X

Lai samazinātu D mēs pielīdzinām nullei daļējos atvasinājumus attiecībā uz a un b:



Rezultātā aprēķinu atrašanai iegūstam šādu vienādojumu sistēmu a un b:


Atrisinot šos divus vienādojumus, tiek iegūts:



Izteiksmes parametru aplēsēm a un b var attēlot arī kā:

Tad regresijas taisnes empīriskais vienādojums Y uz X var rakstīt šādi:


Neobjektīvs dispersijas novērtējums σ 2 vērtību novirzes y i no pielāgotās regresijas taisnes tiek dota ar izteiksmi

Aprēķināsim regresijas vienādojuma parametrus


Tādējādi regresijas līnija izskatās šādi:


Un vērtību noviržu dispersijas novērtējums y i no pielāgotās regresijas taisnes


44. Regresijas līnijas nozīmes pārbaude

Atrasts aprēķins b≠ 0 var būt gadījuma lieluma realizācija, kura matemātiskā cerība ir vienāda ar nulli, tas ir, var izrādīties, ka regresijas atkarības faktiski nav.

Lai risinātu šo situāciju, jums jāpārbauda hipotēze H 0: b= 0 ar konkurējošu hipotēzi H 1: b ≠ 0.

Regresijas līnijas nozīmīguma pārbaudi var veikt, izmantojot dispersijas analīzi.

Apsveriet šādu identitāti:

Lielums y iŷ i = ε i sauc par atlikumu un ir starpība starp diviem lielumiem:

ü novērotās vērtības (atbildes) novirze no kopējās vidējās atbildes reakcijas;

ü prognozētās atbildes vērtības novirze ŷ i no tā paša vidējā

Rakstisko identitāti var uzrakstīt kā


Saliekot kvadrātā abas tā daļas un summējot i, mēs iegūstam:


Kur ir nosaukti daudzumi:

kopējā (kopējā) SC n kvadrātu summa, kas ir vienāda ar novērojumu noviržu kvadrātu summu attiecībā pret novērojumu vidējo vērtību

kvadrātu summa SK p regresijas dēļ, kas ir vienāda ar regresijas līnijas vērtību noviržu kvadrātu summu attiecībā pret novērojumu vidējo vērtību.

atlikuma kvadrātu summa SK 0. kas ir vienāda ar novērojumu noviržu kvadrātu summu attiecībā pret regresijas taisnes vērtībām

Tātad izplatība Y-kov attiecībā pret to vidējo var zināmā mērā saistīt ar to, ka ne visi novērojumi atrodas uz regresijas taisnes. Ja tas tā būtu, tad kvadrātu summa attiecībā pret regresiju būtu nulle. No tā izriet, ka regresija būs nozīmīga, ja SC p kvadrātu summa ir lielāka par SC 0 kvadrātu summu.

Regresijas nozīmīguma testa aprēķini tiek veikti šajā ANOVA tabulā.

Ja kļūdas ε i sadalīts saskaņā ar parasto likumu, tad, ja hipotēze H 0 ir spēkā: b= 0 statistika:


sadalīts pēc Fišera likuma ar brīvības pakāpju skaitu 1 un n−2.

Nulles hipotēze tiks noraidīta nozīmīguma līmenī α, ja aprēķinātā statistiskā vērtība F būs lielāks par α procentu punktu f 1;n−2; Fišera sadalījuma α.

45. Regresijas modeļa atbilstības pārbaude. Atlikušā metode

Konstruētā regresijas modeļa atbilstība tiek saprasta kā fakts, ka neviens cits modelis nedod būtisku uzlabojumu atbildes prognozēšanā.

Ja visas atbilžu vērtības tiek iegūtas dažādās vērtībās x, t.i., ar vienu un to pašu nav iegūtas vairākas atbildes vērtības x i, tad var veikt tikai ierobežotu lineārā modeļa atbilstības pārbaudi. Šādas pārbaudes pamatā ir pārpalikumi:

Atkāpes no noteiktā modeļa:

Ciktāl X- viendimensijas mainīgais, punkti ( x i, d i) var attēlot plaknē tā sauktā atlikuma diagrammas veidā. Šāds attēlojums dažkārt ļauj atrast kādu likumsakarību atlieku uzvedībā. Turklāt atlikumu analīze ļauj analizēt pieņēmumu par kļūdu sadalījumu.

Gadījumā, ja kļūdas tiek sadalītas saskaņā ar parasto likumu un ir a priori to dispersijas novērtējums σ 2 (novērtējums iegūts, pamatojoties uz iepriekš veiktajiem mērījumiem), tad iespējams precīzāks modeļa atbilstības novērtējums.

Caur F-Fišera kritēriju var izmantot, lai pārbaudītu, vai atlikušā dispersija ir nozīmīga s 0 2 atšķiras no a priori aplēses. Ja tas ir ievērojami lielāks, tad ir neatbilstība un modelis ir jāpārskata.

Ja iepriekšēja tāme σ 2 nē, bet atbildes mērījumi Y atkārto divas vai vairākas reizes ar vienādām vērtībām X, tad šos atkārtotos novērojumus var izmantot, lai iegūtu citu novērtējumu σ 2 (pirmais ir atlikušā dispersija). Tiek uzskatīts, ka šāds novērtējums ir “tīra” kļūda, jo, ja x ir vienādas diviem vai vairākiem novērojumiem, tad tikai nejaušas izmaiņas var ietekmēt rezultātus un radīt izkliedi starp tiem.

Rezultātā iegūtais novērtējums izrādās ticamāks dispersijas novērtējums nekā novērtējums, kas iegūts ar citām metodēm. Šī iemesla dēļ, plānojot eksperimentus, ir lietderīgi iestatīt eksperimentus ar atkārtojumiem.

Pieņemsim, ka mums ir m dažādas nozīmes X : x 1 , x 2 , ..., x m... Ļaujiet katrai no šīm vērtībām x i tur ir n i atbildes novērojumi Y... Kopējie novērojumi tiek iegūti:

Tad vienkāršo lineārās regresijas modeli var uzrakstīt šādi:


Atradīsim “tīro” kļūdu dispersiju. Šī dispersija ir dispersijas kombinētais novērtējums σ 2, ja mēs attēlojam atbilžu vērtības y ij plkst x = x i kā parauga tilpums n i... Rezultātā “tīro” kļūdu dispersija ir:

Šī dispersija kalpo kā aprēķins σ 2 neatkarīgi no tā, vai uzstādītais modelis ir pareizs.

Parādīsim, ka “tīro kļūdu” kvadrātu summa ir daļa no atlikušās kvadrātu summas (atlikušās dispersijas izteiksmē iekļautā kvadrātu summa). Atlikušais j novērojums plkst x i var rakstīt šādi:

Ja jūs kvadrātā abas šīs vienādības puses un pēc tam tās summējat j un līdz i, mēs iegūstam:

Kreisajā pusē no šīs vienādības ir atlikušā kvadrātu summa. Pirmais vārds labajā pusē ir “tīro” kļūdu kvadrātu summa, otro vārdu var saukt par neatbilstības kvadrātu summu. Pēdējā summa ir m−2 brīvības pakāpes, tātad neatbilstības dispersija

Hipotēzes H 0 pārbaudes kritērija statistika: vienkāršais lineārais modelis ir adekvāts, pret hipotēzi H 1: vienkāršais lineārais modelis ir neadekvāts, nejaušais mainīgais ir

Ja nulles hipotēze ir patiesa, vērtība F ir Fišera sadalījums ar brīvības pakāpēm m−2 un nm... Regresijas taisnes linearitātes hipotēze jānoraida ar nozīmības līmeni α, ja iegūtā statistikas vērtība ir lielāka par Fišera sadalījuma α-procentpunktu ar brīvības pakāpju skaitu. m−2 un nm.

46. Regresijas modeļa atbilstības pārbaude (sk. 45). ANOVA

47. Regresijas modeļa atbilstības pārbaude (sk. 45). Determinācijas koeficients

Dažreiz, lai raksturotu regresijas taisnes kvalitāti, tiek izmantots determinācijas koeficients R 2, kas parāda, kāda kvadrātu summas daļa (daļdaļa) regresijas dēļ ir SK p kopējā kvadrātu summā SK n:

Tuvāk R 2 pret vienu, jo labāk regresija tuvinās eksperimentālajiem datiem, jo ​​tuvāk novērojumi atrodas blakus regresijas līnijai. Ja R 2 = 0, tad reakcijas izmaiņas ir pilnībā saistītas ar neuzskaitītu faktoru ietekmi, un regresijas taisne ir paralēla asij x-ov. Vienkāršas lineārās regresijas gadījumā determinācijas koeficients R 2 ir vienāds ar korelācijas koeficienta kvadrātu r 2 .

Maksimālo vērtību R 2 = 1 var sasniegt tikai tad, ja novērojumi tika veikti ar dažādām x-ov vērtībām. Ja datos ir atkārtoti eksperimenti, tad R2 vērtība nevar sasniegt vienību, lai cik labs būtu modelis.

48. Uzticības intervāli vienkāršiem lineārās regresijas parametriem

Tāpat kā izlases vidējais lielums ir patiesā vidējā (populācijas vidējā) aprēķins, tā ir arī regresijas vienādojuma izlases parametri. a un b- nekas vairāk kā patieso regresijas koeficientu novērtējums. Dažādas izlases sniedz dažādus vidējo aprēķinus – tāpat kā dažādas izlases sniegs dažādus regresijas koeficientu aprēķinus.

Pieņemot, ka kļūdu sadales likums ε i ir aprakstīti ar parasto likumu, parametru novērtējumu b būs normāls sadalījums ar parametriem:


Kopš parametru aplēses a ir neatkarīgu normāli sadalītu lielumu lineāra kombinācija, tai būs arī normāls sadalījums ar vidējo un dispersiju:


Šajā gadījumā (1 - α) ticamības intervāls dispersijas novērtēšanai σ 2, ņemot vērā, ka attiecība ( n−2)s 0 2 /σ 2 izplatīts ar likumu χ 2 ar brīvības pakāpju skaitu n−2 tiks noteikts pēc izteiksmes


49. Regresijas līnijas ticamības intervāli. Atkarīgo mainīgo vērtību ticamības intervāls

Mēs parasti nezinām regresijas koeficientu patiesās vērtības. a un b... Mēs zinām tikai viņu aplēses. Citiem vārdiem sakot, patiesā regresijas līnija var būt augstāka vai zemāka, stāvāka vai seklāka nekā tā, kas izveidota no izlases datiem. Mēs aprēķinājām regresijas koeficientu ticamības intervālus. Varat arī aprēķināt ticamības reģionu pašai regresijas līnijai.

Vienkāršai lineārai regresijai ir nepieciešams konstruēt (1− α ) atbildes matemātiskās sagaidāmās ticamības intervāls Y vērtībā X = X 0. Šī matemātiskā cerība ir a+bx 0 un tā aplēse

Kopš tā laika.

Iegūtais matemātiskās cerības novērtējums ir nekorelētu normāli sadalītu vērtību lineāra kombinācija, un tāpēc tai ir arī normāls sadalījums, kas centrēts nosacītās matemātiskās cerības un dispersijas patiesās vērtības punktā.

Tāpēc ticamības intervāls regresijas līnijai pie katras vērtības x 0 var attēlot kā


Kā redzat, minimālais ticamības intervāls tiek iegūts plkst x 0 vienāds ar vidējo un palielinās kā x 0 “attālinās” no vidus jebkurā virzienā.

Lai iegūtu kopīgu ticamības intervālu kopu, kas piemērota visai regresijas funkcijai visā tās garumā, iepriekš minētajā izteiksmē, nevis t n −2,α / 2 jāaizstāj