Coeficienții de corelație ai lui Spearman, rangurile lui Kendall, coeficientul lui Fechner. Coeficienții de corelare a rangului Kendall și Spearman Coeficienții de corelare a rangului Spearman și Spearman

Este folosit pentru a identifica relația dintre indicatorii cantitativi sau calitativi, dacă aceștia pot fi clasați. Valorile indicatorului X sunt stabilite în ordine crescătoare și sunt atribuite ranguri. Valorile indicatorului Y sunt clasate și se calculează coeficientul de corelație Kendall:

Unde S = PQ.

P mare valoarea rangului Y.

Q- numarul total de observatii in urma observatiilor curente cu mai mic valoarea rangului Y. (Rangurile egale nu contează!)

Dacă datele studiate sunt repetate (au aceleași ranguri), atunci în calcule se utilizează coeficientul de corelație corectat al lui Kendall:

t- numărul de ranguri înrudite în rândul X, respectiv Y.

19.Care ar trebui să fie punctul de plecare în definirea temei, obiectului, subiectului, scopului, obiectivelor și ipotezei cercetării?

Programul de cercetare, de regulă, are două secțiuni: metodologică și procedurală. Prima include fundamentarea relevanței temei, formularea problemei, definirea obiectului și subiectului, a scopurilor și obiectivelor cercetării, formularea conceptelor de bază (aparatul categorial), analiza sistematică preliminară a obiectului cercetării și formularea unei ipoteze de lucru. A doua secțiune dezvăluie planul strategic de cercetare, precum și planul și procedurile de bază pentru colectarea și analizarea datelor primare.

În primul rând, atunci când alegeți o temă de cercetare, trebuie să pornim de la relevanță. Justificarea relevanței include o indicație a necesității și oportunității studiului și soluționării problemei pentru dezvoltarea ulterioară a teoriei și practicii predării și educației. Cercetarea de actualitate oferă un răspuns la cele mai presante întrebări din acest moment, reflectă ordinea socială a societății față de știința pedagogică și dezvăluie cele mai importante contradicții care au loc în practică. Criteriul de relevanță este dinamic, mobil, depinde de timp, ținând cont de circumstanțe specifice și specifice. În forma sa cea mai generală, relevanța caracterizează gradul de discrepanță între cererea de idei științifice și recomandări practice (pentru a satisface o anumită nevoie) și propunerile pe care știința și practica le pot oferi în prezent.

Cea mai convingătoare bază care definește tema de cercetare este ordinea socială, reflectând problemele cele mai acute, semnificative din punct de vedere social, care necesită soluții urgente. Ordinea socială necesită o fundamentare a unei teme specifice. De obicei, aceasta este o analiză a gradului de elaborare a unei întrebări în știință.

Dacă ordinea socială decurge din analiza practicii pedagogice, atunci ea însăși problema stiintifica este într-un alt plan. Ea exprimă principala contradicție care trebuie rezolvată prin intermediul științei. Soluția la problemă este de obicei scopul studiului. Scopul este o problemă reformulată.

Formularea problemei presupune selecția obiectelor cercetare. Poate fi un proces pedagogic, o zonă a realității pedagogice sau un fel de atitudine pedagogică care conține o contradicție. Cu alte cuvinte, un obiect poate fi orice conține în mod explicit sau implicit o contradicție și generează o situație problemă. Obiectul este spre care este îndreptat procesul de cunoaștere. Subiect de studiu - parte, parte a obiectului. Acestea sunt cele mai semnificative din punct de vedere practic sau teoretic, proprietățile, aspectele, trăsăturile unui obiect care fac obiectul unui studiu direct.

În conformitate cu scopul, obiectul și subiectul cercetării, cercetării sarcini, care, de regulă, au drept scop verificarea ipoteze. Acesta din urmă este un set de ipoteze bazate teoretic, al căror adevăr este supus verificării.

Criteriu noutate științifică poate fi folosit pentru a evalua calitatea studiilor finalizate. Caracterizează noi concluzii teoretice și practice, modele de educație, structura și mecanismele sale, conținutul, principiile și tehnologiile, care la acest moment nu erau cunoscute și nu au fost consemnate în literatura pedagogică. Noutatea cercetării poate avea semnificație atât teoretică, cât și practică. Valoarea teoretică a cercetării constă în crearea unui concept, obținerea unei ipoteze, regularitate, metodă, model de identificare a unei probleme, tendință, direcție. Semnificația practică a cercetării constă în pregătirea propunerilor, recomandărilor etc. Criteriile de noutate, semnificația teoretică și practică se modifică în funcție de tipul cercetării, ele depind și de momentul obținerii de noi cunoștințe.

Coeficientul de corelare a rangului caracterizează natura generală a dependenței neliniare: o creștere sau scădere a trăsăturii efective cu o creștere a factorului. Acesta este un indicator al strângerii unei relații monotone neliniare.

Scopul serviciului... Acest calculator online calculează Coeficientul de corelare a rangului lui Kendall conform tuturor formulelor de bază, precum și o evaluare a semnificației sale.

Instruire. Indicați cantitatea de date (numărul de linii). Soluția rezultată este salvată într-un fișier Word.

Coeficientul propus de Kendall este construit pe baza unor relații de tip „mai-mai puțin”, a căror validitate a fost stabilită la construirea scalelor.
Să selectăm câteva obiecte și să le comparăm rangurile într-un atribut și în altul. Dacă, după acest criteriu, rândurile formează o ordine directă (adică ordinea seriei naturale), atunci perechii i se atribuie +1, dacă este invers, atunci –1. Pentru perechea selectată, unitățile corespunzătoare plus - minus (după atributul X și prin atributul Y) sunt înmulțite. Rezultatul este evident +1; dacă rândurile unei perechi de ambele caracteristici sunt situate în aceeași secvență și –1 dacă este invers.
Dacă ordinele rangurilor sunt aceleași pentru toate perechile după ambele criterii, atunci suma unităților alocate tuturor perechilor de obiecte este maximă și este egală cu numărul de perechi. Dacă ordinele de rang ale tuturor perechilor sunt inversate, atunci –C 2 N. În cazul general, C 2 N = P + Q, unde P este numărul de pozitive și Q este numărul de negative atribuite perechilor atunci când se compară rangurile acestora pentru ambele criterii.
Mărimea se numește coeficientul lui Kendall.
Din formula se poate observa că coeficientul τ este diferența dintre proporția perechilor de obiecte în care ordinea este aceeași în ambele criterii (în raport cu numărul tuturor perechilor) și proporția perechilor de obiecte în care ordinea nu este aceeași.
De exemplu, o valoare a coeficientului de 0,60 înseamnă că 80% dintre perechi au aceeași ordine a obiectelor, în timp ce 20% nu o au (80% + 20% = 100%; 0,80 - 0,20 = 0,60). Acestea. τ poate fi interpretat ca diferența dintre probabilitățile de coincidență și non-coincidență a ordinelor din ambele semne pentru o pereche de obiecte selectată aleatoriu.
În cazul general, calculul lui τ (mai precis, P sau Q) chiar și pentru N de ordinul a 10 se dovedește a fi greoi.
Să arătăm cum să simplificăm calculele.


Un exemplu. Relația dintre volumul producției industriale și investițiile în active fixe în 10 regiuni ale unuia dintre districtele federale ale Federației Ruse în 2003 este caracterizată de următoarele date:


Calculați coeficienții de corelare a rangului Spearman și Kendal. Verificați semnificația lor la α = 0,05. Formulați o concluzie despre relația dintre volumul producției industriale și investițiile în active fixe în regiunile Federației Ruse luate în considerare.

Soluţie... Să atribuim ranguri atributului Y și factorului X.


Să sortăm datele după X.
În rândul Y din dreapta lui 3 există 7 ranguri care depășesc 3, prin urmare, 3 va genera un termen 7 în P.
În dreapta lui 1 sunt 8 ranguri care depășesc 1 (acestea sunt 2, 4, 6, 9, 5, 10, 7, 8), adică. 8 va introduce P și așa mai departe. Ca rezultat, Р = 37 și folosind formulele avem:

XYrangul X, d xrangul Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Prin formule simplificate:




unde n este dimensiunea eșantionului; z kp este punctul critic al regiunii critice bilaterale, care se găsește din tabelul funcției Laplace prin egalitatea Ф (z kp) = (1-α) / 2.
Dacă | τ |< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - ipoteza nulă este respinsă. Există o corelație semnificativă de rang între caracteristicile calitative.
Aflați punctul critic z kp
Ф (z kp) = (1-α) / 2 = (1 - 0,05) / 2 = 0,475

Să găsim punctul critic:

Deoarece τ> T kp - respingem ipoteza nulă; corelația de rang între scorurile la cele două teste este semnificativă.

Un exemplu. Pe baza datelor privind volumul lucrărilor de construcție și instalare efectuate pe cont propriu și numărul de angajați din 10 companii de construcții dintr-unul dintre orașele Federației Ruse, determinați relația dintre aceste semne folosind coeficientul Kendal.

Soluţie găsiți cu un calculator.
Să atribuim ranguri atributului Y și factorului X.
Să aranjam obiectele astfel încât rangurile lor X să reprezinte o serie naturală. Deoarece estimările atribuite fiecărei perechi din această serie sunt pozitive, valorile „+1” incluse în P vor fi generate numai de acele perechi ale căror ranguri în Y formează o ordine directă.
Ele sunt ușor de calculat comparând secvențial rangurile fiecărui obiect din rândul Y cu cele din oțel.
coeficientul Kendall.

În cazul general, calculul lui τ (mai precis, P sau Q) chiar și pentru N de ordinul a 10 se dovedește a fi greoi. Să arătăm cum să simplificăm calculele.

sau

Soluţie.
Să sortăm datele după X.
În rândul Y din dreapta lui 2 există 8 ranguri care depășesc 2, prin urmare, 2 va genera un termen 8 în P.
În dreapta lui 4 sunt 6 ranguri care depășesc 4 (acestea sunt 7, 5, 6, 8, 9, 10), adică. 6 va introduce P și așa mai departe. Ca rezultat, P = 29 și folosind formulele avem:

XYrangul X, d xrangul Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Prin formule simplificate:


Pentru a testa ipoteza nulă despre egalitatea coeficientului de corelație a rangului general al lui Kendall la zero la un nivel de semnificație α cu o ipoteză concurentă H 1: τ ≠ 0, este necesar să se calculeze punctul critic:

unde n este dimensiunea eșantionului; z kp este punctul critic al regiunii critice cu două fețe, care se găsește din tabelul funcției Laplace prin egalitatea Ф (z kp) = (1 - α) / 2.
Dacă | τ | T kp - ipoteza nulă este respinsă. Există o corelație semnificativă de rang între caracteristicile calitative.
Aflați punctul critic z kp
Ф (z kp) = (1 - α) / 2 = (1 - 0,05) / 2 = 0,475
Folosind tabelul Laplace, găsim z kp = 1,96
Să găsim punctul critic:

Din moment ce τ

Nevoile practicii economice și sociale impun dezvoltarea unor metode de descriere cantitativă a proceselor care să permită înregistrarea precisă a factorilor nu numai cantitativi, ci și calitativi. Cu condiția ca valorile caracteristicilor calitative să poată fi ordonate sau variate în funcție de gradul de scădere (creștere) a caracteristicii, este posibil să se evalueze strânsoarea relației dintre caracteristicile calitative. Calitativ înseamnă o caracteristică care nu poate fi măsurată cu precizie, dar vă permite să comparați obiectele între ele și, prin urmare, să le aranjați în ordine descrescătoare sau crescătoare a calității. Iar conținutul real al măsurătorilor în scalele de rang este ordinea în care obiectele sunt aranjate în funcție de severitatea caracteristicii măsurate.

În scopuri practice, utilizarea corelației de rang este foarte utilă. De exemplu, dacă se stabilește o corelație de rang înalt între două caracteristici calitative ale produselor, atunci este suficient să controlezi produsele doar printr-una dintre caracteristici, ceea ce face controlul mai ieftin și mai rapid.

Ca exemplu, putem lua în considerare existența unei legături între disponibilitatea produselor comerciale a unui număr de întreprinderi și costurile generale pentru vânzări. În cursul a 10 observații s-a obținut următorul tabel:

Să aranjam valorile lui X în ordine crescătoare, fiecare valoare atribuind numărul său ordinal (rangul) fiecărei valori:

În acest fel,

Să construim următorul tabel, în care sunt scrise perechile X și Y, obținute în urma observării cu rangurile lor:

Notând diferența de ranguri ca, scriem formula pentru calcularea coeficientului de corelație al eșantionului lui Spearman:

unde n este numărul de observații, este și numărul de perechi de rânduri.

Coeficientul lui Spearman are următoarele proprietăți:

Dacă există o relație completă directă între trăsăturile calitative X și Y în sensul că rangurile obiectelor coincid pentru toate valorile lui i, atunci coeficientul de corelație al eșantionului lui Spearman este 1. Într-adevăr, înlocuindu-l în formulă, obținem 1.

Dacă există o relație inversă completă între caracteristicile calitative X și Y în sensul că rangul corespunde rangului, atunci coeficientul de corelație al eșantionului lui Spearman este -1.

Într-adevăr, dacă

Înlocuind valoarea din formula coeficientului de corelație Spearman, obținem -1.

Dacă nu există nici un feedback complet, direct, nici complet între caracteristicile calitative, atunci coeficientul de corelație al eșantionului lui Spearman este între -1 și 1 și, cu cât valoarea sa este mai aproape de 0, cu atât este mai puțină conexiunea între caracteristici.

Conform exemplului de mai sus, vom găsi valoarea lui P, pentru aceasta vom completa tabelul cu valorile și:

Coeficientul de corelație al eșantionului Kendall. Puteți evalua relația dintre două caracteristici calitative folosind coeficientul de corelație de rang al lui Kendall.

Fie rândurile obiectelor eșantionului de dimensiune n egale:

pe baza lui X:

pe baza lui Y:. Să presupunem că la dreapta sunt rânduri, mari, la dreapta sunt rânduri, mari, la dreapta sunt rânduri, mari. Să introducem notația pentru suma rangurilor

În mod similar, introducem notația ca sumă a numărului de ranguri situate la dreapta, dar mai puțin.

Coeficientul de corelație al eșantionului lui Kendall este scris prin formula:

Unde n este dimensiunea eșantionului.

Coeficientul lui Kendall are aceleași proprietăți ca și coeficientul lui Spearman:

Dacă există o relație completă directă între caracteristicile calitative X și Y în sensul că rangurile obiectelor coincid pentru toate valorile lui i, atunci coeficientul de corelație al eșantionului lui Kendall este 1. Într-adevăr, în dreapta există n-1 ranguri, mari, prin urmare, în același mod stabilim, ce. Atunci. Iar coeficientul lui Kendall este:.

Dacă există o relație inversă completă între caracteristicile calitative X și Y în sensul că rangul corespunde rangului, atunci coeficientul de corelație al eșantionului Kendall este -1. În dreapta nu sunt rânduri, mari, așadar. De asemenea. Înlocuind valoarea R + = 0 în formula coeficientului Kendall, obținem -1.

Cu o dimensiune a eșantionului suficient de mare și cu valorile coeficienților de corelare a rangului nu apropiate de 1, are loc o egalitate aproximativă:

Oferă coeficientul lui Kendall o estimare mai conservatoare a corelației decât coeficientul lui Spearman? (valoarea numerică? este întotdeauna mai mică decât). La calculul coeficientului? mai puțin laborioasă decât calcularea coeficientului, acesta din urmă este mai ușor de recalculat dacă se adaugă un nou termen în serie.

Un avantaj important al coeficientului este că poate fi utilizat pentru a determina coeficientul de corelare a rangului parțial, ceea ce face posibilă evaluarea gradului de interconectare „pură” a două caracteristici de rang, eliminând influența celui de-al treilea:

Semnificația coeficienților de corelație de rang. Atunci când se determină puterea corelației de rang pe baza datelor din eșantion, este necesar să se ia în considerare următoarea întrebare: cu ce grad de fiabilitate se poate baza pe concluzia că există o corelație în populația generală dacă un anumit coeficient de corelare a rangului de eșantion este obținut. Cu alte cuvinte, semnificația corelațiilor de rang observate ar trebui verificată pe baza ipotezei că cele două clasamente luate în considerare sunt independente statistic.

Cu o dimensiune a eșantionului n relativ mare, semnificația coeficienților de corelație de rang poate fi verificată folosind tabelul de distribuție normală (Tabelul 1 din Anexa). Pentru a testa semnificația coeficientului Spearman? (pentru n> 20) calculați valoarea

și pentru a testa semnificația coeficientului Kendall? (pentru n> 10) calculați valoarea

unde S = R + - R-, n este dimensiunea eșantionului.

În continuare, se stabilește nivelul de semnificație, valoarea critică a tcr (?, K) este determinată din tabelul de puncte critice ale distribuției Student și valoarea calculată sau este comparată cu aceasta. Se presupune că numărul de grade de libertate este k = n-2. Dacă or> tcr, atunci valorile sau sunt considerate semnificative.

Coeficientul de corelație al lui Fechner.

În sfârșit, trebuie menționat coeficientul Fechner, care caracterizează gradul elementar de etanșeitate al unei conexiuni, pe care este indicat să îl folosiți pentru stabilirea faptului unei conexiuni atunci când există o cantitate mică de informații inițiale. Baza calculului său este luarea în considerare a direcției abaterilor de la media aritmetică a variantelor fiecărei serii de variații și determinarea consistenței semnelor acestor abateri pentru două serii, relația dintre care este măsurată.

Acest coeficient este determinat de formula:

unde na este numărul de coincidențe ale semnelor de abateri ale valorilor individuale de la media lor aritmetică; nb - respectiv numărul de nepotriviri.

Coeficientul lui Fechner poate varia între -1,0<= Кф<= +1,0.

Aspecte aplicate ale corelării rangurilor. După cum sa menționat deja, coeficienții de corelație de rang pot fi utilizați nu numai pentru o analiză calitativă a relației dintre două caracteristici de rang, ci și pentru a determina puterea relației dintre rang și caracteristicile cantitative. În acest caz, valorile caracteristicii cantitative sunt sortate și li se atribuie rangurile corespunzătoare.

Există o serie de situații în care calcularea coeficienților de corelare a rangului este de asemenea recomandabilă atunci când se determină puterea relației dintre două caracteristici cantitative. Deci, cu o abatere semnificativă a distribuției unuia dintre ele (sau ambelor) de la distribuția normală, determinarea nivelului de semnificație al coeficientului de corelație al eșantionului r devine incorectă, în timp ce coeficienții de rang? și? nu sunt supuse unor astfel de restricții la determinarea nivelului de semnificație.

O altă situație de acest fel apare atunci când relația dintre două trăsături cantitative este neliniară (dar monotonă). Dacă numărul de obiecte din eșantion este mic sau dacă semnul conexiunii este important pentru cercetător, atunci utilizarea raportului de corelație? poate fi inadecvat aici. Calcularea coeficientului de corelare a rangului permite ocolirea dificultăților indicate.

Partea practică

Sarcina 1. Analiza corelației-regresiune

Enunțarea și formalizarea problemei:

Se oferă un eșantion empiric, compilat pe baza unei serii de observații privind starea echipamentului (pentru defecțiune) și numărul de produse fabricate. Eșantionul caracterizează implicit relația dintre cantitatea de echipamente care s-a defectat și numărul de articole fabricate. După semnificația eșantionului, este clar că produsele fabricate sunt produse pe echipamentul care rămâne în funcțiune, deoarece cu cât mai multe % din echipamentele care au defectat, cu atât mai puține produse fabricate. Este necesar să se efectueze un studiu al eșantionului pentru dependența corelație-regresie, adică să se stabilească forma dependenței, să se evalueze funcția de regresie (analiza de regresie), precum și să se identifice relația dintre variabilele aleatoare și să se aprecieze strângerea acesteia. (analiza corelației). O sarcină suplimentară a analizei corelației este de a estima ecuația de regresie a unei variabile pentru alta. În plus, este necesar să se prezică numărul de produse fabricate cu o defecțiune a echipamentului de 30%.

Să formalizăm eșantionul dat în tabel, desemnând datele „Eșec echipament,%” ca X, datele „Număr de produse” ca Y:

Datele inițiale. tabelul 1

Conform semnificației fizice a problemei, se poate observa că numărul de produse fabricate Y depinde direct de procentul de defecțiuni ale echipamentului, adică există o dependență a lui Y de X. La efectuarea analizei de regresie, este necesar să se găsiți o relație matematică (regresie) care conectează valorile lui X și Y. În acest caz, analiza de regresie, în Spre deosebire de corelație, presupune că valoarea X acționează ca o variabilă independentă, sau un factor, valoarea Y - ca o dependentă de el sau un semn eficient. Astfel, se cere sintetizarea unui model economic și matematic adecvat, adică. determinați (găsiți, selectați) funcția Y = f (X), care caracterizează relația dintre valorile lui X și Y, cu ajutorul căreia se va putea prezice valoarea lui Y la X = 30. Această problemă poate fi rezolvată cu ajutorul analizei de corelație-regresie.

O scurtă prezentare a metodelor de rezolvare a problemelor de corelație-regresie și rațiunea metodei de soluție aleasă.

Metodele de analiză de regresie sunt împărțite în unul și multi-factor pe baza numărului de factori care afectează trăsătura eficientă. Univariat - numărul de factori independenți = 1, i.e. Y = F (X)

multifactorial - numarul de factori> 1, i.e.

În funcție de numărul de variabile dependente investigate (indicatori eficienți), problemele de regresie pot fi, de asemenea, împărțite în sarcini cu unul sau mai mulți indicatori eficienți. În general, o sarcină cu multe caracteristici eficiente poate fi scrisă:

Metoda analizei de corelație-regresie constă în găsirea parametrilor dependenței aproximative (aproximative) a formei

Deoarece o singură variabilă independentă apare în problema dată, adică dependența de un singur factor care influențează rezultatul este investigată, ar trebui aplicat un studiu pentru dependența unidirecțională sau regresia perechilor.

Dacă există un singur factor, dependența este definită ca:

Forma de scriere a unei anumite ecuații de regresie depinde de alegerea funcției care afișează relația statistică dintre factor și indicatorul efectiv și include următoarele:

regresie liniară, ecuația formei,

parabolic, ecuația formei

cubic, ecuația formei

hiperbolic, ecuația formei

semilogaritmică, ecuația formei

exponențial, ecuația formei

putere-lege, ecuația formei.

Găsirea funcției se reduce la determinarea parametrilor ecuației de regresie și la evaluarea fiabilității ecuației în sine. Pentru a determina parametrii, puteți utiliza atât metoda celor mai mici pătrate, cât și metoda celui mai mic modul.

Prima dintre ele este că suma pătratelor abaterilor valorilor empirice Yi de la media calculată Yi este minimă.

Metoda modulului minim constă în minimizarea sumei modulelor diferenței dintre valorile empirice Yi și mediile calculate Yi.

Pentru a rezolva problema, vom alege metoda celor mai mici pătrate, deoarece este cea mai simplă și oferă estimări bune din punct de vedere al proprietăților statistice.

Tehnologia de rezolvare a problemei analizei regresiei folosind metoda celor mai mici pătrate.

Este posibil să se determine tipul de dependență (liniară, pătratică, cubică etc.) dintre variabile prin evaluarea abaterii valorii efective a lui y de la cea calculată:

unde - valori empirice, - valori calculate prin funcția de aproximare. Estimând valorile Si pentru diverse funcții și alegând cea mai mică dintre ele, selectăm o funcție de aproximare.

Tipul unei funcții este determinat prin găsirea coeficienților care se găsesc pentru fiecare funcție ca soluție a unui anumit sistem de ecuații:

regresie liniară, ecuația formei, sistemul -

parabolic, ecuația formei, sistem -

cubic, ecuația formei, sistem -

După rezolvarea sistemului, găsim, cu ajutorul căruia ajungem la o expresie specifică a funcției analitice, având în vedere că găsim valorile calculate. În plus, există toate datele pentru a găsi o estimare a valorii abaterii S și pentru a analiza pentru un minim.

Pentru o relație liniară, estimăm apropierea relației dintre factorul X și indicatorul efectiv Y sub forma unui coeficient de corelație r:

Valoarea medie a indicatorului;

Valoarea medie a factorului;

y este valoarea experimentală a indicatorului;

x este valoarea experimentală a factorului;

Abaterea standard în x;

Abaterea standard în y.

Dacă coeficientul de corelație r = 0, atunci se crede că relația dintre caracteristici este nesemnificativă sau absentă, dacă r = 1, atunci există o relație funcțională foarte mare între caracteristici.

Folosind tabelul Chaddock, puteți evalua calitativ strânsoarea corelației dintre semne:

Masa Chaddock Tabelul 2.

Pentru o dependență neliniară se determină raportul de corelație (0 1) și indicele de corelație R, care se calculează din următoarele dependențe.

unde valoare este valoarea indicatorului calculată prin dependența de regresie.

Ca o estimare a preciziei de calcul, folosim valoarea erorii relative medii de aproximare

Cu o precizie ridicată, se află în intervalul 0-12%.

Pentru a evalua selecția dependenței funcționale, folosim coeficientul de determinare

Coeficientul de determinare este folosit ca măsură „generalizată” a calității selecției unui model funcțional, deoarece exprimă raportul dintre varianța factorială și totală, sau mai degrabă ponderea varianței factoriale în total.

Pentru a evalua semnificația indicelui de corelație R se folosește testul F Fisher. Valoarea reală a criteriului este determinată de formula:

unde m este numărul de parametri ai ecuației de regresie, n este numărul de observații. Valoarea este comparată cu valoarea critică, care este determinată conform tabelului cu criterii F, ținând cont de nivelul de semnificație acceptat și de numărul de grade de libertate și. Dacă, atunci valoarea indicelui de corelație R este considerată semnificativă.

Pentru forma selectată de regresie, se calculează coeficienții ecuației de regresie. Pentru comoditate, rezultatele calculului sunt incluse în tabelul următoarei structuri (în general, numărul de coloane și aspectul acestora se modifică în funcție de tipul de regresie):

Tabelul 3

Rezolvarea problemei.

S-au făcut observații asupra fenomenului economic - dependența eliberării produselor de procentul de defecțiuni ale echipamentelor. Se obține un set de valori.

Valorile selectate sunt descrise în tabelul 1.

Construim un grafic al dependenței empirice pentru eșantionul dat (Fig. 1)

După tipul graficului, determinăm că dependența analitică poate fi reprezentată ca o funcție liniară:

Să calculăm coeficientul de corelație pe perechi pentru a evalua relația dintre X și Y:

Să construim un tabel auxiliar:

Tabelul 4

Rezolvăm sistemul de ecuații pentru a găsi coeficienții și:

din prima ecuație, înlocuind valoarea

în a doua ecuație, obținem:

Găsim

Obținem forma ecuației de regresie:

9. Pentru a evalua strângerea relației găsite, folosim coeficientul de corelație r:

Conform tabelului Chaddock, stabilim că pentru r = 0,90 relația dintre X și Y este foarte mare, prin urmare, fiabilitatea ecuației de regresie este și ea mare. Pentru a estima acuratețea calculelor, folosim valoarea erorii relative medii de aproximare:

Considerăm că valoarea oferă un grad ridicat de fiabilitate a ecuației de regresie.

Pentru o relație liniară între X și Y, indicele de determinare este egal cu pătratul coeficientului de corelație r:. În consecință, 81% din variația totală se explică printr-o modificare a caracteristicii factorului X.

Pentru a evalua semnificația indicelui de corelație R, care în cazul unei relații liniare este egal în valoare absolută cu coeficientul de corelație r, se utilizează testul F Fisher. Determinăm valoarea reală folosind formula:

unde m este numărul de parametri ai ecuației de regresie, n este numărul de observații. Adică n = 5, m = 2.

Ținând cont de nivelul de semnificație acceptat = 0,05 și de numărul de grade de libertate, obținem valoarea tabelară critică. Deoarece, valoarea indicelui de corelație R este recunoscută ca fiind semnificativă.

Să calculăm valoarea prezisă Y la X = 30:

Să construim un grafic al funcției găsite:

11. Determinați eroarea coeficientului de corelație cu valoarea abaterii standard

iar apoi determinăm valoarea abaterii normalizate

Din raportul> 2 cu o probabilitate de 95% se poate vorbi despre semnificația coeficientului de corelație obținut.

Problema 2. Optimizare liniară

Opțiunea 1.

Planul de dezvoltare al regiunii ar trebui să pună în funcțiune 3 câmpuri petroliere cu un volum total de producție de 9 milioane de tone. La primul câmp, volumul producției este de cel puțin 1 milion de tone, la al doilea - 3 milioane de tone, la al treilea - 5 milioane de tone. Pentru a obține această productivitate, este necesar să forați cel puțin 125 de puțuri. Pentru implementarea acestui plan, au fost alocate 25 de milioane de ruble. investiții de capital (indicatorul K) și 80 km de conducte (indicatorul L).

Este necesar să se determine numărul optim (maxim) de puțuri pentru a asigura productivitatea planificată a fiecărui câmp. Datele inițiale despre sarcină sunt date în tabel.

Datele inițiale

Declarația problemei este dată mai sus.

Să formalizăm condițiile și constrângerile specificate în problemă. Scopul rezolvării acestei probleme de optimizare este de a găsi valoarea maximă a producției de petrol cu ​​numărul optim de sonde pentru fiecare câmp, ținând cont de constrângerile existente asupra problemei.

Funcția obiectivă, în conformitate cu cerințele sarcinii, va lua forma:

unde este numărul de puțuri pentru fiecare câmp.

Restricții existente privind sarcina pentru:

lungimea de pozare a conductei:

numărul de puțuri în fiecare câmp:

costul construcției unui puț:

Problemele de optimizare liniară sunt rezolvate, de exemplu, prin următoarele metode:

Grafic

Metoda simplex

Utilizarea metodei grafice este convenabilă numai atunci când se rezolvă probleme de optimizare liniară cu două variabile. Cu un număr mai mare de variabile este necesară utilizarea unui aparat algebric. Luați în considerare o metodă generală de rezolvare a problemelor de optimizare liniară numită metoda simplex.

Metoda simplex este un exemplu tipic de calcule iterative utilizate pentru a rezolva majoritatea problemelor de optimizare. Se au în vedere procedee iterative de acest fel, care asigură rezolvarea problemelor cu ajutorul modelelor de cercetare operațională.

Pentru a rezolva problema de optimizare folosind metoda simplex, este necesar ca numărul de necunoscute Xi să fie mai mare decât numărul de ecuații, adică. sistem de ecuații

satisface relatia m

A = a fost egal cu m.

Să notăm coloana matricei A ca și coloana de termeni liberi ca

O soluție de bază a sistemului (1) este un set de m necunoscute care sunt o soluție a sistemului (1).

Pe scurt, algoritmul metodei simplex este descris după cum urmează:

Constrângerea originală scrisă ca o inegalitate ca<= (=>) poate fi reprezentat ca egalitate prin adăugarea variabilei reziduale în partea stângă a constrângerii (scăderea variabilei redundante din partea stângă).

De exemplu, în stânga constrângerii inițiale

se introduce o variabilă reziduală, în urma căreia inegalitatea inițială se transformă în egalitate

Dacă limitarea inițială determină debitul conductei, atunci variabila trebuie interpretată ca restul sau partea neutilizată a acestei resurse.

Maximizarea funcției obiectiv echivalează cu minimizarea aceleiași funcție, luată cu semnul opus. Adică în cazul nostru

echivalentă cu

Un tabel simplex este compilat pentru soluția de bază a următoarei forme:

În acest tabel, se indică faptul că după rezolvarea problemei din aceste celule va exista o soluție de bază. - coeficienti din impartirea unei coloane la una dintre coloane; - multiplicatori suplimentari pentru reducerea la zero a valorilor din celulele tabelului aferente coloanei de rezolvare. - valoarea minimă a funcției obiectiv -Z, - valorile coeficienților din funcția obiectiv cu necunoscute.

Orice valoare pozitivă se găsește printre semnificații. Dacă nu este cazul, atunci problema este considerată rezolvată. Orice coloană a tabelului care se află în el este selectată, această coloană se numește coloana „permisivă”. Dacă nu există numere pozitive între elementele coloanei de rezolvare, atunci problema este de nerezolvat din cauza nelimității funcției obiectiv pe mulțimea soluțiilor sale. Dacă în coloana de rezolvare sunt prezente numere pozitive, treceți la pasul 5.

Coloana este umplută cu fracții, în numărătorul cărora sunt elementele coloanei, iar la numitor - elementele corespunzătoare ale coloanei de rezoluție. Este selectată cea mai mică dintre toate valorile. Linia cu cel mai mic rezultat se numește linia „activare”. La intersecția liniei de rezolvare și a coloanei de rezolvare se găsește un element de rezolvare, care este evidențiat într-un fel, de exemplu, cu culoare.

Pe baza primului tabel simplex, sunt compilate următoarele, în care:

Înlocuiește vectorul rând cu vectorul coloană

linia permisivă se înlocuiește cu aceeași linie împărțită la elementul permisiv

fiecare dintre celelalte rânduri ale tabelului se înlocuiește cu suma acestui rând cu cel de rezoluție, înmulțit cu un factor suplimentar special selectat pentru a obține 0 în celula coloanei de rezoluție.

Cu noul tabel, trecem la punctul 4.

Rezolvarea problemei.

Pe baza formulării problemei, avem următorul sistem de inegalități:

și funcția obiectivă

Transformăm sistemul de inegalități într-un sistem de ecuații introducând variabile suplimentare:

Să reducem funcția obiectiv la echivalentul ei:

Să construim tabelul simplex original:

Să alegem o coloană permisivă. Să calculăm coloana:

Introducem valorile în tabel. Pentru cel mai mic dintre ele = 10, determinăm linia de rezolvare:. La intersecția dreptei de rezolvare și a coloanei de rezolvare, găsim elementul de rezoluție = 1. Umplem partea tabelului cu factori suplimentari, astfel încât: rândul de rezolvare înmulțit cu ei, adăugat la restul rândurilor de tabel, formează 0 în elementele coloanei de rezolvare.

Compunem al doilea tabel simplex:

Luăm coloana de rezolvare în ea, calculăm valorile, le introducem în tabel. La minimum, obținem linia de rezolvare. Elementul de rezolvare va fi 1. Găsiți factori suplimentari, completați coloanele.

Creăm următorul tabel simplex:

În mod similar, găsim coloana de rezolvare, rândul de rezolvare și elementul de rezolvare = 2. Construim următorul tabel simplex:

Deoarece nu există valori pozitive în linia -Z, acest tabel este finit. Prima coloană oferă valorile dorite ale necunoscutelor, adică. soluție de bază optimă:

În acest caz, valoarea funcției obiectiv este -Z = -8000, ceea ce este echivalent cu Zmax = 8000. Problema este rezolvată.

Sarcina 3. Analiza cluster

Formularea problemei:

Împărțiți obiectele pe baza datelor din tabel. Alegerea metodei soluției trebuie efectuată independent, pentru a construi un grafic al dependenței de date.

Opțiunea 1.

Datele inițiale

Revizuirea metodelor de rezolvare a acestui tip de probleme. Justificarea metodei de rezolvare.

Sarcinile de analiză a clusterelor sunt rezolvate folosind următoarele metode:

Metoda de unire sau de grupare a arborilor este folosită pentru a forma grupuri de „diferențe” sau „distanță între obiecte”. Aceste distanțe pot fi definite în spațiu unidimensional sau multidimensional.

Combinarea în două sensuri este utilizată (relativ rar) în circumstanțe în care datele sunt interpretate nu în termeni de „obiecte” și „proprietăți ale obiectelor”, ci în termeni de observații și variabile. Se așteaptă ca ambele observații și variabile să contribuie la detectarea clusterelor semnificative în același timp.

Metoda K-means. Folosit atunci când există deja o ipoteză privind numărul de clustere. Puteți spune sistemului să formeze exact, de exemplu, trei grupuri, astfel încât acestea să fie cât mai diferite posibil. În general, metoda K-means construiește exact K grupuri diferite situate la distanțe cât mai mari unele de altele.

Există următoarele moduri de măsurare a distanțelor:

Distanta euclidiana. Acesta este cel mai comun tip de distanță. Este pur și simplu distanța geometrică în spațiul multidimensional și se calculează după cum urmează:

Rețineți că distanța euclidiană (și pătratul său) este calculată din datele originale, nu standardizate.

Distanța blocurilor orașului (distanța Manhattan). Această distanță este pur și simplu media diferențelor de coordonate. În cele mai multe cazuri, această măsură a distanței duce la aceleași rezultate ca pentru distanța euclidiană obișnuită. Rețineți, totuși, că pentru această măsură influența diferențelor mari individuale (outliers) scade (deoarece nu sunt pătrate). Distanța Manhattan este calculată folosind formula:

distanta lui Cebyshev. Această distanță poate fi utilă atunci când doriți să definiți două obiecte ca „diferite” dacă diferă în orice coordonată (orice dimensiune). Distanța Chebyshev se calculează cu formula:

Distanța de putere. Uneori se dorește să crească sau să scadă progresiv greutatea aferentă unei dimensiuni pentru care obiectele corespunzătoare sunt foarte diferite. Acest lucru poate fi realizat folosind o distanță a legii puterii. Distanța putere-lege este calculată prin formula:

unde r și p sunt parametri definiți de utilizator. Câteva exemple de calcul pot arăta cum „funcționează” această măsură. Parametrul p este responsabil pentru ponderarea treptată a diferențelor de coordonate individuale, parametrul r este responsabil pentru ponderarea progresivă a distanțelor mari dintre obiecte. Dacă ambii parametri - r și p, sunt egali cu doi, atunci această distanță coincide cu distanța euclidiană.

Procent de dezacord. Această măsură este utilizată atunci când datele sunt categorice. Această distanță se calculează cu formula:

Pentru a rezolva problema, vom alege metoda de unificare (tree-like clustering) ca cea care întrunește cel mai bine condițiile și formularea problemei (pentru a împărți obiectele). La rândul său, metoda unirii poate folosi mai multe variante de reguli de comunicare:

Legătură unică (metoda celui mai apropiat vecin). În această metodă, distanța dintre două grupuri este determinată de distanța dintre cele mai apropiate două obiecte (cei mai apropiati vecini) în grupuri diferite. Adică, oricare două obiecte din două grupuri sunt mai aproape unul de celălalt decât distanța de legătură corespunzătoare. Această regulă ar trebui, într-un fel, să însireze obiectele împreună pentru a forma grupuri, iar grupurile rezultate tind să fie „lanțuri” lungi.

Comunicare deplină (metoda celor mai îndepărtați vecini). În această metodă, distanța dintre clustere este determinată de cea mai mare distanță dintre oricare două caracteristici din clustere diferite (adică, „cei mai îndepărtați vecini”).

Există, de asemenea, multe alte metode de grupare ca acestea (de exemplu, împerechere neponderată, împerechere ponderată etc.).

Tehnologia metodei soluției. Calculul indicatorilor.

În primul pas, când fiecare obiect este un grup separat, distanțele dintre aceste obiecte sunt determinate de măsura selectată.

Deoarece sarcina nu specifică unitățile de măsură pentru caracteristici, se presupune că acestea sunt aceleași. Prin urmare, nu este nevoie să normalizăm datele inițiale, așa că trecem imediat la calcularea matricei distanțelor.

Rezolvarea problemei.

Să construim un grafic al dependenței în funcție de datele inițiale (Fig. 2)

Vom lua distanța euclidiană obișnuită ca distanță dintre obiecte. Apoi, după formula:

unde l - semne; k este numărul de caracteristici, distanța dintre obiectele 1 și 2 este egală cu:

Continuăm să calculăm distanțele rămase:

Să construim un tabel din valorile obținute:

Cea mai mică distanță. Aceasta înseamnă că combinăm elementele 3, 6 și 5 într-un singur grup. Obținem următorul tabel:

Cea mai mică distanță. Elementele 3, 6, 5 și 4 sunt combinate într-un singur cluster. Obținem un tabel cu două clustere:

Distanța minimă dintre articolele 3 și 6 este. Aceasta înseamnă că elementele 3 și 6 sunt combinate într-un singur grup. Alegem distanța maximă dintre clusterul nou format și restul elementelor. De exemplu, distanța dintre clusterul 1 și clusterul 3.6 este maximă (13.34166, 13.60147) = 13.34166. Să compunem următorul tabel:

În ea, distanța minimă este distanța dintre clusterele 1 și 2. Combinând 1 și 2 într-un singur cluster, obținem:

Astfel, prin metoda „vecinului îndepărtat” s-au obținut două clustere: 1,2 și 3,4,5,6, distanța dintre care este de 13,60147.

Problema a fost rezolvată.

Aplicații. Rezolvarea problemelor folosind pachete software (MS Excel 7.0)

Problema analizei corelației și regresiei.

Introducem datele inițiale în tabel (Fig. 1)

Selectați meniul „Serviciu/Analiza datelor”. În fereastra care apare, selectați linia „Regresie” (Fig. 2).

Să setăm în fereastra următoare intervalele de intrare pentru X și Y, nivelul de fiabilitate va fi de 95%, iar datele de ieșire vor fi plasate pe o foaie separată „Foaie de raport” (Fig. 3)

După efectuarea calculului, obținem datele finale ale analizei de regresie pe foaia „Report Sheet”:

De asemenea, afișează un grafic cu puncte al funcției de aproximare sau „Grafic de selecție”:


Valorile și abaterile calculate sunt afișate în tabel în coloanele „Y estimat” și, respectiv, „Solduri”.

Pe baza datelor inițiale și a abaterilor, este trasat un grafic rezidual:

Sarcina de optimizare


Introducem datele inițiale după cum urmează:

Necunoscutele necunoscute X1, X2, X3 sunt introduse în celulele C9, D9, respectiv E9.

Coeficienții funcției obiectiv pentru X1, X2, X3 sunt introduși în C7, D7, respectiv E7.

Introduceți funcția obiectiv în celula B11 ca formulă: = C7 * C9 + D7 * D9 + E7 * E9.

Restricții de sarcini existente

Pentru lungimea de pozare a conductelor:

adăugăm la celulele C5, D5, E5, F5, G5

Numărul de puțuri din fiecare câmp:

X3 Ј 100; adăugăm la celulele C8, D8, E8.

Costul construcției unui puț:

adăugăm la celulele C6, D6, E6, F6, G6.

Formula de calcul a lungimii totale C5 * C9 + D5 * D9 + E5 * E9 este plasată în celula B5, formula de calcul a costului total C6 * C9 + D6 * D9 + E6 * E9 este plasată în celula B6.


Selectăm în meniul „Service / Search for a solution”, introducem parametrii pentru găsirea unei soluții în conformitate cu datele inițiale (Fig. 4):

Folosind butonul „Parametri”, setați următorii parametri pentru găsirea unei soluții (Fig. 5):


După căutarea unei soluții, obținem un raport cu rezultatele:

Raport de rezultate Microsoft Excel 8.0e

Raport Creat: 17.11.2002 01:28:30

Celulă țintă (maximum)

Rezultat

Pradă totală

Celulele modificabile

Rezultat

Numărul puțurilor

Numărul puțurilor

Numărul puțurilor

Restricții

Sens

Lungime

Legate de

Costul proiectului

nu are legătură.

Numărul puțurilor

nu are legătură.

Numărul puțurilor

Legate de

Numărul puțurilor

Legate de

Primul tabel prezintă valoarea inițială și finală (optimă) a celulei țintă, unde a fost plasată funcția obiectivă a problemei care se rezolvă. În al doilea tabel vedem valorile inițiale și finale ale variabilelor de optimizat, care sunt conținute în celulele modificate. Al treilea tabel din raportul de rezultate conține informații despre constrângeri. Coloana „Valoare” conține valorile optime ale resurselor necesare și variabilele de optimizat. Coloana „Formulă” conține limite ale resurselor consumate și variabilelor de optimizat, scrise sub formă de referințe la celulele care conțin aceste date. Coloana „Stare” determină dacă aceste sau acele constrângeri sunt legate sau nu. Aici „legate” sunt constrângeri implementate în soluția optimă sub formă de egalități rigide. Coloana „Diferență” pentru constrângerile de resurse determină restul resurselor utilizate, adică diferența dintre cantitatea necesară de resurse și disponibilitatea acestora.

În mod similar, notând rezultatul căutării unei soluții în formularul „Raport de sustenabilitate”, vom primi următoarele tabele:

Raport de rezistență Microsoft Excel 8.0e

Fișă de lucru: [Solution of the optimization problem.xls] Rezolvarea problemei de optimizare

Raport Creat: 17.11.2002 01:35:16

Celulele modificabile

Permis

Permis

sens

Preț

Coeficient

Crește

Scădea

Numărul puțurilor

Numărul puțurilor

Numărul puțurilor

Restricții

Prescripţie

Permis

Permis

sens

Partea dreaptă

Crește

Scădea

Lungime

Costul proiectului

Raportul de sustenabilitate conține informații despre variabilele modificabile (optimizate) și constrângerile modelului. Această informație este asociată cu metoda simplex utilizată în optimizarea problemelor liniare, descrisă mai sus în ceea ce privește rezolvarea problemei. Vă permite să estimați cât de sensibilă este soluția optimă obținută la posibilele modificări ale parametrilor modelului.

Prima parte a raportului conține informații despre celulele modificate care conțin valori despre numărul de godeuri din câmpuri. Coloana „Valoarea rezultată” indică valorile optime ale variabilelor de optimizat. Coloana „Coeficient țintă” conține datele inițiale ale valorilor coeficienților funcției obiectiv. Următoarele două coloane ilustrează creșterea și scăderea permisă a acestor coeficienți fără a modifica soluția optimă găsită.

A doua parte a raportului de sustenabilitate conține informații despre constrângerile impuse variabilelor care sunt optimizate. Prima coloană arată cerințele de resurse pentru soluția optimă. Al doilea conține valorile prețurilor umbră pentru tipurile de resurse utilizate. Ultimele două coloane conțin date despre posibile creșteri sau scăderi ale cantității de resurse disponibile.

Problemă de grupare.

Metoda pas cu pas pentru rezolvarea problemei este prezentată mai sus. Iată tabele Excel care ilustrează progresul rezolvării problemei:

Metoda celui mai apropiat vecin

Rezolvarea problemei analizei cluster - „METODA CEL MAI APROPIAT VECIN”

Datele inițiale

unde x1 este volumul produselor;

х2 - costul mediu anual al principalului

Active de producție industrială

Metoda vecinului îndepărtat

Rezolvarea problemei analizei cluster - „METODA DISTANCE NEIGHBOR”

Datele inițiale

unde x1 este volumul produselor;

х2 - costul mediu anual al principalului

Active de producție industrială

Depunerea și preprocesarea evaluărilor experților

În practică, sunt utilizate mai multe tipuri de evaluări:

- de înaltă calitate (deseori-rar, mai rău-mai bine, da-nu),

- estimări de scară (interval de valori 50-75, 76-90, 91-120 etc.),

Scor dintr-un interval dat (de la 2 la 5, 1 -10), independent reciproc,

Clasat (obiectele sunt aranjate de un expert într-o anumită ordine și fiecăruia i se atribuie un număr de serie - rang),

Comparativ, obținut prin una dintre metodele de comparație

metoda de comparare secventiala

metoda de comparare perechi a factorilor.

La următorul pas de procesare a opiniilor experților, este necesar să se evalueze gradul de consecvență al acestor opinii.

Estimările obținute de la experți pot fi considerate ca o variabilă aleatoare, a cărei distribuție reflectă opiniile experților cu privire la probabilitatea unei anumite alegeri a unui eveniment (factor). Prin urmare, pentru a analiza dispersarea și consistența estimărilor experților, sunt utilizate caracteristici statistice generalizate - medii și măsuri de dispersie:

Eroare pătratică medie,

Interval variațional min - max,

- coeficientul de variație V = abaterea pătratică medie / aritmul mediu. (potrivit pentru orice tip de evaluare)

V i = σ i / x i avg

Pentru rata măsuri de similaritate ci pareri fiecare pereche de experți pot fi folosite o varietate de metode:

coeficienții de asociere, cu ajutorul căruia se ia în considerare numărul de răspunsuri potrivite și nepotrivite,

coeficienți de inconsecvență opiniile experților,

Toate aceste măsuri pot fi folosite fie pentru a compara opiniile a doi experți, fie pentru a analiza relația dintre seria de evaluări pe două temeiuri.

Coeficientul de corelare a rangului perechii lui Spearman:

unde n este numărul de experți,

c k - diferența dintre estimările experților i-lea și j-lea pentru toți factorii T

Coeficientul de corelare a rangului al lui Kendall (coeficientul de concordanță) oferă o evaluare generală a coerenței opiniilor tuturor experților cu privire la toți factorii, dar numai pentru cazurile în care au fost utilizate estimări de rang.

Se dovedește că valoarea lui S, atunci când toți experții dau aceleași estimări ale tuturor factorilor, are o valoare maximă egală cu

unde n este numărul de factori,

m este numărul de experți.

Coeficientul de concordanță este egal cu raportul

în plus, dacă W este aproape de 1, atunci toți experții au dat estimări suficient de consistente, altfel opiniile lor nu sunt de acord.

Formula de calcul a lui S este prezentată mai jos:

unde r ij sunt estimările de rang ale factorului i de către expertul j-lea,

r cf este rangul mediu pe întreaga matrice de estimări și este egal cu

Și, prin urmare, formula pentru calcularea lui S poate lua forma:

Dacă evaluările individuale ale unui expert coincid și au fost standardizate în timpul procesării, atunci se utilizează o formulă diferită pentru a calcula coeficientul de concordanță:



unde T j se calculează pentru fiecare expert (în cazul în care aprecierile sale au fost repetate pentru diferite obiecte), luând în considerare repetările conform următoarelor reguli:

unde t j este numărul de grupuri de ranguri egale pentru al-lea expert și

h k - numărul de ranguri egale din grupa k de ranguri înrudite ale expertului j.

EXEMPLU. Lăsați 5 experți în șase factori să răspundă în clasament, așa cum se arată în tabelul 3:

Tabelul 3 - Răspunsurile experților

Experți О1 О2 O3 О4 O5 O6 Suma rangurilor de către expert
E1
E2
E3
E4
E5

Datorită faptului că nu a fost obținută o clasare strictă (evaluările de la experți se repetă, iar sumele rangurilor nu sunt egale), vom transforma estimările și vom obține rangurile aferente (Tabelul 4):

Tabelul 4 – Rangurile aferente evaluărilor experților

Experți О1 О2 O3 О4 O5 O6 Suma rangurilor de către expert
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Suma rangurilor obiectului 7,5 9,5 23,5 29,5

Acum să determinăm gradul de consistență al opiniilor experților folosind coeficientul de concordanță. Deoarece rangurile sunt legate, vom calcula W prin formula (**).

Atunci r cf = 7 * 5/2 = 17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Să trecem la calculele lui W. Pentru aceasta, calculăm separat valorile lui T j. În exemplu, evaluările sunt special selectate, astfel încât fiecare expert să aibă evaluări repetate: primul are două, al doilea are trei, al treilea are două grupuri de două evaluări, iar al patrulea are două evaluări identice. Prin urmare:

T 1 = 2 3 - 2 = 6 T 5 = 6

T 2 = 3 3 - 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Vedem că acordul opiniilor experților este destul de mare și putem trece la următoarea etapă a studiului - fundamentarea și adoptarea alternativei deciziei recomandate de experți.

În caz contrar, trebuie să reveniți la pașii 4-8.

KENDALLA COEFICIENT DE CORELARE RANG

Una dintre eșantionul măsoară dependența a două variabile aleatoare (trăsături) X și Y, pe baza ierarhizării elementelor eșantionului (X 1, Y x), .. ., (X n, Y n). K. către R. la.se referă, prin urmare, la rang statisticieni si este determinata de formula

Unde r i- Tu aparținând acelei perechi ( X Y), pentru un roi de Xraven i, S = 2N- (n-1) / 2, N este numărul de elemente eșantion, pentru care simultan j> i și r j> r i... Este mereu Ca măsură selectivă a dependenței de To. To. R. to. a fost folosit pe scară largă de către M. Kendall (M. Kendall, vezi).

K. către R. K. este folosit pentru a testa ipoteza independenţei variabilelor aleatoare. Dacă ipoteza independenței este adevărată, atunci E t = 0 și D t = 2 (2n + 5) / 9n (n-1). Cu o dimensiune mică a eșantionului, verificarea este statistică. ipoteza independenţei se face folosind tabele speciale (vezi). Pentru n> 10 se folosește aproximarea normală pentru distribuția lui m: dacă

atunci se respinge ipoteza independenței, în caz contrar se acceptă. Aici a . - nivelul de semnificație, u a / 2 este punctul procentual al distribuției normale. K. către R. Pentru că, ca oricare altul, poate fi folosit pentru a detecta dependența a două caracteristici calitative, dacă doar elementele eșantionului pot fi ordonate în raport cu aceste caracteristici. Dacă X Y au o normală comună cu coeficientul de corelație p, apoi relația dintre K. la p. to. și are forma:

Vezi si Corelația rangului lui Spearman, testul de rang.

Lit.: Kendal M., Rank corelations, trad. din engleză., M., 1975; Van der Waerden B.L., Matematică, trad. din ea., M., 1960; Bol'shev L.N., Smirnov N.V., Tabele de statistică matematică, Moscova, 1965.

A. V. Prohorov.


Enciclopedia de matematică. - M .: Enciclopedia sovietică... I. M. Vinogradov. 1977-1985.

Vedeți ce este „COEFICIENTUL DE CORELARE A RANGULUI KENDALLA” în alte dicționare:

    Engleză. с eficient, corelație de rang Kendall; limba germana Kendalls Rangkorrelationskoeffizient. Coeficientul de corelație, care determină gradul de corespondență al ordonării tuturor perechilor de obiecte în două variabile. antinazi. Enciclopedia de Sociologie, 2009... Enciclopedia Sociologiei

    COEFICIENTUL DE CORELARE A RANGULUI KENDALL- Engleză. eficient, corelație de rang Kendall; limba germana Kendalls Rangkorrelationskoeffizient. Coeficientul de corelație, care determină gradul de corespondență al ordonării tuturor perechilor de obiecte în două variabile ... Dicţionar explicativ de sociologie

    O măsură a dependenței a două variabile aleatoare (trăsături) X și Y, bazată pe clasarea rezultatelor observației independente (X1, Y1),. ... ., (Xn, Yn). Dacă rangurile valorilor lui X sunt situate în ordinea naturală i = 1,. ... ., n și Ri rangul Y corespunzător lui ... ... Enciclopedia de matematică

    Coeficient de corelație- (Coeficientul de corelație) Coeficientul de corelație este un indicator statistic al dependenței a două variabile aleatoare.Determinarea coeficientului de corelație, tipuri de coeficienți de corelație, proprietăți ale coeficientului de corelație, calcul și aplicare... ... Enciclopedia investitorilor

    Relația dintre variabile aleatoare, care, în general, nu este strict funcțională. Spre deosebire de dependența funcțională, K., de regulă, este considerată atunci când una dintre cantități depinde nu numai de aceasta, ci și ... ... Enciclopedia de matematică

    Corelația (dependența de corelație) este o relație statistică a două sau mai multe variabile aleatoare (sau cantități care pot fi considerate ca atare cu un grad acceptabil de acuratețe). În acest caz, modificări ale valorilor unuia sau ...... Wikipedia

    Corelație- (Corelația) Corelația este o relație statistică a două sau mai multe variabile aleatoare.Conceptul de corelație, tipuri de corelație, coeficient de corelație, analiză de corelație, corelație de preț, corelarea perechilor valutare pe Conținutul Forex... ... Enciclopedia investitorilor

    Se admite în general că începutul S. al m. Secolului. sau, așa cum este adesea numită, statistica „n mic”, a fost pusă în primul deceniu al secolului XX prin publicarea lucrării lui W. Gosset, în care a plasat distribuția t, postulată de cei care au primit lumea putin mai tarziu...... Enciclopedie psihologică

    Maurice Kendall Sir Maurice George Kendall Data nașterii: 6 septembrie 1907 (1907 09 06) Locul nașterii: Kettering, Marea Britanie Data morții... Wikipedia

    Prognoza- (Prognoza) Definirea prognozei, sarcinile și principiile previziunii Definirea prognozei, sarcinile și principiile prognozei, metodele de prognoză Conținutul Conținutului Definiția Concepte de bază ale prognozei Sarcini și principii ale prognozei ... ... Enciclopedia investitorilor