Mida tähendab kvaliteedimõõdik masinõppes? Edetabeli koolitus

GoTo suvekooli sisseastumiskatse ülesande koostamise käigus leidsime, et vene keeles praktiliselt puudub põhiliste edetabelimõõdikute kvalitatiivne kirjeldus (ülesanne puudutas järjestusprobleemi erijuhtu - soovitaja algoritmi koostamist) . Meie E-Contentas kasutame aktiivselt erinevaid järjestusmõõdikuid, mistõttu otsustasime selle arusaamatuse selle artikli kirjutamisega parandada.

Edetabeli ülesanne kerkib nüüd üles igal pool: veebilehtede sorteerimine etteantud otsingupäringu järgi, uudistevoo isikupärastamine, videote, kaupade, muusika soovitamine... Ühesõnaga teema on kuum. Masinõppes on isegi spetsiaalne valdkond, mis tegeleb iseõppimisvõimeliste järjestamisalgoritmide uurimisega – järjestamise õppimisega. Algoritmide ja lähenemisviiside hulgast parima valimiseks on vaja osata nende kvaliteeti kvantifitseerida. Kõige tavalisemaid järjestamise kvaliteedimõõdikuid käsitletakse allpool.

Lühidalt pingerea probleemist

Edetabel – komplekti sorteerimise ülesanne elemendid nende jaoks asjakohasust. Kõige sagedamini mõistetakse asjakohasust kellegi suhtes. objektiks. Näiteks infootsingu ülesandes on objektiks päring, elementideks kõikvõimalikud dokumendid (nende lingid) ja asjakohasus on dokumendi vastavus päringule, soovituste ülesandes on objekt on kasutaja, elementideks on üks või teine soovitatud sisu (tooted, videod, muusika ) ja asjakohasus on tõenäosus, et kasutaja seda sisu kasutab (osta/meeldib/vaatab).

Vormiliselt kaaluge N objekti ja M elementi. Objekti elementide järjestamise algoritmi väljundiks on vastendus, mis määrab igale elemendile kaalu, mis iseloomustab elemendi asjakohasuse astet objekti suhtes (mida suurem kaal, seda asjakohasem on objekt). Samal ajal määrab kaalude komplekt elementide elementide hulga permutatsiooni (eeldame, et elementide hulk on järjestatud), mis põhineb nende sorteerimisel kaalu kahanevas järjekorras.

Pingerea kvaliteedi hindamiseks on vaja mingit "referentsi", millega algoritmi tulemusi võrrelda. Mõelge - asjakohasuse võrdlusfunktsioonile, mis iseloomustab elementide "tegelikku" asjakohasust antud objekti jaoks ( - element sobib ideaalselt, - täiesti ebaoluline), samuti sellele vastavat permutatsiooni (kahanevas järjekorras).

Saadaval on kaks peamist viisi:
1. Põhineb ajaloolistel andmetel. Näiteks sisusoovituste puhul saab võtta kasutaja vaated (meeldimised, ostud) ja määrata asjakohaste elementide vaadatud kaalud 1-le () ja ülejäänutele 0.
2. Vastastikuse eksperdihinnangu põhjal. Näiteks saate otsinguülesandes iga päringu jaoks kaasata hindajate meeskonna, kes hindab käsitsi dokumentide asjakohasust päringu jaoks.

Väärib märkimist, et kui see võtab ainult äärmuslikud väärtused: 0 ja 1, siis permutatsiooni tavaliselt ei arvestata ja võetakse arvesse ainult asjakohaste elementide komplekt, mille puhul .

Kvaliteedi mõõdiku järjestamise eesmärk- teha kindlaks, kuidas vastavad algoritmi ja vastava permutatsiooniga saadud asjakohasuse hinnangud tõsi asjakohasuse väärtused. Mõelge peamistele näitajatele.

Keskmine keskmine täpsus

Keskmine keskmine täpsus K ( [e-postiga kaitstud]) on üks enimkasutatavaid järjestamise kvaliteedimõõdikuid. Et mõista, kuidas see toimib, alustame "põhitõdedest".

Märkus. Mõõdikut "*täpsus" kasutatakse kahendülesannetes, kus see võtab ainult kaks väärtust: 0 ja 1.

Täpsus K-s

Täpsus K ( [e-postiga kaitstud]) - täpsus K elementide puhul - põhiline järjestuskvaliteedi mõõdik ühe objekti jaoks. Oletame, et meie järjestamise algoritm andis iga üksuse jaoks asjakohasuse hinded. Olles valinud nende hulgast esimesed suurimad elemendid, saame arvutada asjakohaste osakaalu. Täpselt seda teeb K täpsus:

Märkus: elementi peetakse permutatsiooni tulemusel -ndal positsioonil. Niisiis, kas element on suurima , on suuruselt teise element jne.

Keskmine täpsus K juures

Precision at K on mõõdik, mida on lihtne mõista ja rakendada, kuid millel on oluline puudus – see ei võta arvesse elementide järjekorda "ülaosas". Seega, kui arvasime kümnest elemendist vaid ühe, siis pole vahet, kus see oli: kas esimesel või igal juhul viimases. On ilmne, et esimene variant on palju parem.

Seda puudujääki kompenseerib järjestuse mõõdik keskmine täpsus K ( [e-postiga kaitstud]) , mis on võrdne summaga [e-postiga kaitstud] indeksite k järgi 1-st K-ni ainult asjakohaste esemete jaoks jagatud K-ga:

Seega, kui kolmest elemendist osutus asjakohaseks ainult viimasel kohal olev, siis kui arvati ainult esimesel kohal olev, siis , ja kui arvati kõik, siis .

nüüd ja [e-postiga kaitstud] meile hambus.

Keskmine keskmine täpsus K juures

Keskmine keskmine täpsus K ( [e-postiga kaitstud]) on üks enimkasutatavaid järjestamise kvaliteedimõõdikuid. V [e-postiga kaitstud] ja [e-postiga kaitstud] pingerea kvaliteeti hinnatakse ühe objekti (kasutaja, otsingupäring) puhul. Praktikas on objekte palju: tegemist on sadade tuhandete kasutajatega, miljonite otsingupäringutega jne. Idee [e-postiga kaitstud] on arvutada [e-postiga kaitstud] iga objekti ja keskmise kohta:

Märkus: see idee on üsna loogiline, eeldades, et kõik kasutajad on võrdselt vajalikud ja võrdselt olulised. Kui see nii ei ole, võite lihtsa keskmistamise asemel kasutada kaalutud väärtust, korrutades [e-postiga kaitstud] iga objekti vastava "olulisuse" kaalu järgi.

Normaliseeritud diskonteeritud kumulatiivne kasum

Normaliseeritud diskonteeritud kumulatiivne kasum (nDCG) on teine levinud järjestuse kvaliteedimõõdik. Nagu puhul [e-postiga kaitstud] Alustame põhitõdedest.

Kumulatiivne kasum K

Vaatleme uuesti ühte objekti ja suurimaid elemente. Kumulatiivne võimendus K ( [e-postiga kaitstud]) - põhiline järjestusmõõdik, mis kasutab lihtsat ideed: mida asjakohasemad üksused selles edetabelis on, seda parem:

Sellel mõõdikul on ilmsed puudused: see ei ole normaliseeritud ega võta arvesse asjakohaste elementide asukohta.

Pange tähele, et erinevalt [e-postiga kaitstud], [e-postiga kaitstud] saab kasutada ka mittebinaarsete referentsväärtuste puhul.

Allahinnatud kumulatiivne kasum K-s

Diskonteeritud kumulatiivne kasum K ( [e-postiga kaitstud]) - K kumulatiivse võimenduse muutmine, võttes arvesse loendis olevate elementide järjekorda, korrutades elemendi asjakohasuse kaaluga, mis on võrdne positsiooninumbri pöördlogaritmiga:

Märkus: kui see võtab ainult väärtused 0 ja 1, siis , ja valem on lihtsamal kujul:

Logaritmi kasutamine allahindlusfunktsioonina on seletatav järgmiste intuitiivsete kaalutlustega: järjestuse poolest erinevad loendi alguses olevad positsioonid palju rohkem kui positsioonid selle lõpus. Seega on otsingumootori puhul 1. ja 11. positsiooni vahel terve kuristik (ainult mõnel juhul sajast jõuab kasutaja otsingutulemuste esimesest leheküljest kaugemale) ja vahet pole eriti positsioonid 101 ja 111 – nendeni jõuavad vähesed. Need subjektiivsed kaalutlused on kaunilt väljendatud logaritmi abil:

Diskonteeritud kumulatiivne võimendus lahendab asjakohaste elementide asukoha arvessevõtmise probleemi, kuid ainult süvendab probleemi normaliseerimise puudumise tõttu: kui see varieerub piires, võtab see juba väärtused segmendil, mis pole täiesti selge. Selle probleemi lahendamiseks on loodud järgmine mõõdik.

Normaliseeritud diskonteeritud kumulatiivne kasum K juures

Nagu pealkirjast võib arvata, normaliseeritud diskonteeritud kumulatiivne kasum K ( [e-postiga kaitstud]) - ei midagi muud kui normaliseeritud versioon [e-postiga kaitstud]:

kus on maksimaalne (I - ideaalne) väärtus. Kuna leppisime kokku, et see võtab väärtused sisse, siis .

Seega pärib see loendis olevate elementide asukoha arvessevõtmisest ja võtab samal ajal väärtused vahemikus 0 kuni 1.

Märkus: sarnane [e-postiga kaitstud] saab arvutada, keskmistada kõigi objektide kohta.

Keskmine vastastikune auaste

Keskmine vastastikune auaste (MRR) on teine sageli kasutatav järjestuse kvaliteedimõõdik. See antakse järgmise valemiga:

kus - vastastikune auaste -nda objekti jaoks - oma olemuselt väga lihtne väärtus, võrdne esimese õigesti arvatud elemendi vastupidises järjekorras.

Keskmine vastastikune aste varieerub vahemikus ja võtab arvesse elementide asukohta. Kahjuks teeb ta seda ainult ühe elemendi puhul – 1. õigesti ennustatud, ignoreerides kõiki järgnevaid.

Auaste korrelatsioonil põhinevad mõõdikud

Eraldi tasub esile tõsta pingerea kvaliteedimõõdikuid ühe koefitsiendi alusel astme korrelatsioon. Statistikas on järgu korrelatsioonikordaja korrelatsioonikordaja, mis ei võta arvesse väärtusi endid, vaid ainult nende auastet (järjekorda). Mõelge kahele kõige levinumale astme korrelatsioonikoefitsiendile: Spearmani ja Kendalli koefitsientidele.

Kendalli astme korrelatsioonikordaja

Esimene neist on Kendalli korrelatsioonikoefitsient, mis põhineb sobitute loendamisel
(ja ebajärjekindlad) permutatsioonipaarid – elementide paarid, millele permutatsioonid määrasid sama (erineva) järjekorra:

Spearmani astme korrelatsioonikordaja

Teine – Spearmani järgu korrelatsioonikoefitsient – pole sisuliselt midagi muud kui Pearsoni korrelatsioon, mis on arvutatud auastme väärtuste põhjal. Seal on üsna mugav valem, mis väljendab seda otse ridadest:

kus on Pearsoni korrelatsioonikordaja.

Auaste korrelatsioonil põhinevatel mõõdikutel on puudus, mida me juba teame: need ei võta arvesse elementide asukohta (isegi hullem kui [e-postiga kaitstud], sest korrelatsioon arvutatakse kõigi elementide, mitte kõrgeima järjestusega K elementide üle). Seetõttu kasutatakse neid praktikas harva.

Juga käitumismudelil põhinevad mõõdikud

Siiani pole me süvenenud sellesse, kuidas kasutaja (hiljem käsitleme objekti erijuhtumit - kasutajat) talle pakutavaid elemente uurib. Tegelikult eeldasime kaudselt, et iga elemendi vaatamine sõltumatu muude elementide vaadetest - omamoodi "naivism". Praktikas vaatab elemente sageli kasutaja kordamööda ning see, kas kasutaja vaatab järgmist elementi, sõltub tema rahulolust eelmistega. Vaatleme näidet: vastuseks otsingupäringule pakkus järjestamise algoritm kasutajale mitu dokumenti. Kui positsioonidel 1 ja 2 olevad dokumendid on äärmiselt olulised, on tõenäosus, et kasutaja vaatab dokumenti positsioonil 3, väike, kuna kahe esimesega jääb ta päris rahule.

Nimetatakse sarnaseid kasutaja käitumise mudeleid, kus talle pakutavate elementide uurimine toimub järjestikku ja elemendi vaatamise tõenäosus sõltub eelnevate asjakohasusest. kaskaadne.

Eeldatav vastastikune auaste

Eeldatav vastastikune auaste (ERR) on näide kosemudelil põhinevast järjestuse kvaliteedimõõdikust. See antakse järgmise valemiga:

kus auastet mõistetakse kahanevas järjekorras. Kõige huvitavam selle mõõdiku juures on tõenäosused. Nende arvutamisel kasutatakse kaskaadmudeli eeldusi:

kus on tõenäosus, et kasutaja jääb auastmega objektiga rahule. Need tõenäosused arvutatakse väärtuste põhjal. Kuna meie puhul võime kaaluda lihtsat võimalust:

mida saab lugeda järgmiselt: positsioonil oleva üksuse tegelik asjakohasus Lõpuks on siin mõned kasulikud lingid.

Iga loendi elementide kohta. Osaline järjestus antakse tavaliselt iga üksuse hinde määramisega (nt "asjakohane" või "pole asjakohane"; võimalik on rohkem kui kaks gradatsiooni). Pingerea mudeli eesmärk on kõige paremini (teatud mõttes) ligikaudselt lähendada ja üldistada seda, kuidas koolituskomplektis olevad pingeread uutele andmetele sobivad.

Järjestusõpe on veel üsna noor, kiiresti arenev uurimisvaldkond, mis tekkis 2000. aastatel, kui tekkis huvi infootsingu valdkonna vastu masinõppemeetodite rakendamise vastu järjestamise probleemide lahendamisel.

Entsüklopeediline YouTube

1 / 5
Järjestusmudeli väljaõppe ja selle töö käigus tõlgitakse iga dokumendi-päringu paar järjestamise tunnuste (nimetatakse ka järjestusteguriteks või signaalideks) numbriliseks vektoriks, mis iseloomustavad dokumendi omadusi, päringut ja nende seost. Need märgid võib jagada kolme rühma:

Järgnevalt on toodud mõned näited selles valdkonnas tuntud LETOR-andmekogumis kasutatavatest järjestamisfunktsioonidest.
- Mõõtude väärtused TF, TF-IDF , BM25 ja keelemudel erinevate dokumenditsoonide päringu sobitamiseks (pealkiri, URL, kehatekst, lingi tekst);
- Dokumenditsoonide pikkused ja IDF-i summad;
- Linkide järjestamise algoritmide (nt PageRank ja HITS) erinevate variatsioonidega saadud dokumentide järjestused.
Kvaliteedimõõtjate järjestamine

On mitmeid mõõdikuid, mis hindavad ja võrdlevad valimi järjestamisalgoritmide toimivust kolleegide hinnangutega. Tihti kiputakse järjestusmudeli parameetreid kohandama nii, et ühe sellise mõõdiku väärtus oleks maksimaalne.
Näited mõõdikutest:

Algoritmide klassifikatsioon

Tai-Yan Liu Microsoft Research Asiast analüüsis oma artiklis "Learning to Rank for Information Retrieval" ja temaatilistel konverentsidel peetud kõnedes praegu olemasolevaid meetodeid järjestamise õppimise probleemi lahendamiseks ja pakkus välja nende liigitamise kolme lähenemisviisi, olenevalt sisendist. kasutatud andmete esitus ja funktsioon trahvi:

Punktipõhine lähenemine

Märkmed
1. Tie Yan Liu (2009) Teabe otsimise jaoks järjestamise õppimine, Infootsingu alused ja suundumused: Vol. 3: nr 3, lk. 225-331, ISBN 978-1-60198-244-5, DOI 10.1561/1500000016. Saadaval on slaidid T. Lew’ WWW 2009 konverentsil peetud kõnest.
Tere Habr!

Masinõppe ülesannetes kasutatakse mõõdikuid mudelite kvaliteedi hindamiseks ja erinevate algoritmide võrdlemiseks ning nende valik ja analüüs on andmeteadlase töö asendamatu osa.

Käesolevas artiklis vaatleme mõningaid klassifikatsiooniprobleemide kvaliteedikriteeriume, arutame, mis on mõõdiku valimisel oluline ja mis võib valesti minna.

Mõõdikud klassifikatsiooniprobleemides

Kasulike funktsioonide demonstreerimiseks sklearn ja mõõdikute visuaalset esitust, kasutame oma telekommunikatsioonioperaatori kliendivahetuse andmestikku, mida kohtasime kursuse esimeses artiklis.

Laadige alla vajalikud raamatukogud ja vaadake andmeid
Import pandad pd-na import matplotlib.pyplot plt-na saidist matplotlib.pylab import rc, graafik import seaborn kui sns saidilt sklearn.preprocessing import LabelEncoder, OneHotEncoder saidilt sklearn.model_selection import cross_val_score alates sklearn.linear_model from sklearn.linear_model from import sklearn.linear_model from sklearn.linear_model from import sklearn.linear_model from import sklearn. saidilt sklearn.metrics import precision_recall_curve, classification_report saidilt sklearn.model_selection import train_test_split df = pd.read_csv("../../data/telecom_churn.csv")
Df.head(5)
Andmete eeltöötlus
# Kahendveergude # kaardistamine ja oleku näivkodeerimine (lihtsuse huvides on puitmudelite puhul parem seda mitte teha) d = ("Jah" : 1, "Ei" : 0) df["Rahvusvaheline plaan"] = df[ " Rahvusvaheline plaan"].map(d) df["Kõnepostiplaan"] = df["Kõnepostiplaan"].map(d) df["Churn"] = df["Churn"].astype("int64" " ) le = LabelEncoder() df["Olek"] = le.fit_transform(df["Olek"]) ohe = OneHotEncoder(sparse=False) encoded_state = ohe.fit_transform(df["Olek"].values.reshape( - 1, 1)) tmp = pd.DataFrame(kodeeritud_olek, veerud=["olek" + str(i) i jaoks vahemikus(kodeeritud_olek.kuju)]) df = pd.concat(, telg=1)

Täpsus, täpsus ja meeldejäävus

Enne mõõdikute endi juurde liikumist tuleb tutvustada olulist kontseptsiooni, et kirjeldada neid mõõdikuid klassifitseerimisvigade osas - segaduse maatriks(veamaatriks).
Oletame, et meil on kaks klassi ja algoritm, mis ennustab, kas iga objekt kuulub ühte klassi, siis näeb klassifitseerimisvea maatriks välja järgmine:

Tõeliselt positiivne (TP) Valepositiivne (FP)
Valenegatiivne (FN) Tõeline negatiivne (TN)
on algoritmi vastus objektile ja

Selle objekti tõeline klassi silt.
Seega on klassifitseerimisvigu kahte tüüpi: valenegatiivne (FN) ja valepositiivne (FP).

Algoritmi koolitus ja veamaatriksi koostamine
X = df.drop("Churn", axis=1) y = df["Churn"] # Jagage valim rongiks ja testimiseks. Kõiki mõõdikuid hinnatakse testiandmestiku X_train, X_test, y_train, y_test = train_test_split( X, y , stratify=y, test_size=0.33, random_state=42) # Treenige loomulikku logistilist regressiooni lr = LogisticRegression(random_state=42) lr.fit(X_train, y_train) # Kasutage funktsiooni sklearnist veamaatriksi koostamiseks dokumentatsioon def plot_confusion_matrix(cm, classes , normalize=False, title="(!LANG:Segadusmaatriks", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="Segadusmaatriks") plt.savefig("conf_matrix.png") plt.show()!}

Täpsus

Intuitiivne, ilmne ja peaaegu kasutamata mõõdik on täpsus - algoritmi õigete vastuste protsent:

See mõõdik on ebavõrdsete klassidega seotud probleemide korral kasutu ja seda on lihtne näitega näidata.

Oletame, et tahame hinnata rämpspostifiltri toimivust. Meil on 100 mitterämpsposti, millest 90 meie klassifikaator määras õigesti (tõene negatiivne = 90, valepositiivne = 10) ja 10 rämpsposti, millest 5 määras ka klassifikaator õigesti (tõene positiivne = 5, valenegatiivne = 5).
Siis täpsus:

Kui aga ennustame kõik kirjad mitterämpspostiks, saame suurema täpsuse:

Samal ajal pole meie mudelil üldse mingit ennustamisjõudu, kuna algselt tahtsime rämpsposti tuvastada. Üleminek kõigi klasside ühiselt mõõdikult klassi kvaliteedi individuaalsetele näitajatele aitab meil sellest üle saada.

Täpsus, tagasikutsumine ja F-mõõt

Algoritmi kvaliteedi hindamiseks igas klassis eraldi tutvustame mõõdikute täpsust (täpsust) ja tagasikutsumist (täielikkus).

Täpsust saab tõlgendada kui klassifikaatori poolt positiivseks nimetatud ja samal ajal tõeliselt positiivsete objektide osakaalu ning meenutamine näitab, kui suure osa positiivse klassi objekte kõigist positiivse klassi objektidest algoritm leidis.

Just täpsuse juurutamine ei võimalda meil kõiki objekte ühte klassi kirjutada, kuna sel juhul saame valepositiivse taseme tõusu. Meenutamine näitab algoritmi võimet antud klassi üldse tuvastada, samas kui täpsus näitab võimet seda klassi teistest klassidest eristada.

Nagu me varem märkisime, on klassifitseerimisvigu kahte tüüpi: valepositiivsed ja valenegatiivsed. Statistikas nimetatakse esimest tüüpi viga I tüüpi veaks ja teist tüüpi II tüüpi veaks. Meie ülesandes tellijate väljavoolu kindlaksmääramisel on esimest tüüpi viga lojaalse tellija eksimus väljuva tellijaga, kuna meie nullhüpotees on, et ükski tellija ei voola välja, ja me lükkame selle hüpoteesi ümber. Sellest tulenevalt on teist tüüpi viga väljuva abonendi "läbilaskmine" ja nullhüpoteesi ekslik aktsepteerimine.

Täpsus ja tagasikutsumine ei sõltu erinevalt täpsusest klasside suhtest ja on seetõttu rakendatavad tasakaalustamata proovide tingimustes.
Sageli on tegelikus praktikas ülesandeks leida nende kahe mõõdiku vahel optimaalne (kliendi jaoks) tasakaal. Klassikaline näide on klientide väljavoolu määramise probleem.
On selge, et me ei leia kõik kloppides kliente ja ainult nende. Kuid pärast klientide hoidmise strateegia ja ressursi kindlaksmääramist saame valida täpsuse ja tagasikutsumise jaoks vajalikud läved. Näiteks saame keskenduda ainult kõrge marginaaliga klientide või nende klientide hoidmisele, kes suurema tõenäosusega loobuvad, kuna kõnekeskuse ressursid on meid piiratud.

Tavaliselt algoritmi hüperparameetrite optimeerimisel (näiteks ruudustiku iteratsiooni korral GridSearchCV) kasutab ühte mõõdikut, mille paranemist ootame testvalimis näha.
On mitmeid erinevaid viise, kuidas ühendada täpsus ja meeldetuletus koondkvaliteedi mõõtmiseks. F-mõõt (üldiselt

) - keskmine harmooniline täpsus ja meeldetuletus:

määrab sel juhul mõõdiku täpsuse kaalu ja millal

see on harmooniline keskmine (teguriga 2, nii et täpsuse = 1 ja tagasikutsumise korral = 1

)
F-mõõt saavutab maksimumi tagasikutsumisel ja täpsusega, mis on võrdne ühega, ning on nullilähedane, kui üks argumentidest on nullilähedane.
sklearnil on mugav funktsioon _metrics.classification aruanne mis tagastab iga klassi meeldetuletuse, täpsuse ja F-mõõdu, samuti iga klassi esinemisjuhtude arvu.
Aruanne = classification_report(y_test, lr.predict(X_test), target_names=["Mitte katkestatud", "Churned"]) print(aruanne)
klass täpsus tagasikutsumine f1 skoor toetus
Mitte klopitud 0.88 0.97 0.93 941
Kärbitud 0.60 0.25 0.35 159
keskmine/kokku 0.84 0.87 0.84 1100
Siinkohal tuleb märkida, et reaalses praktikas domineerivate tasakaalustamata klassidega ülesannete puhul on sageli vaja klasside suhte võrdsustamiseks kasutada andmestiku kunstliku muutmise tehnikaid. Neid on palju ja me ei puuduta neid, võite vaadata mõnda meetodit ja valida oma ülesandele sobiva.

AUC-ROC ja AUC-PR

Algoritmi tegeliku vastuse (tavaliselt klassi kuulumise tõenäosuse, vt SVM eraldi) teisendamisel binaarseks sildiks, peame valima mingi läve, mille juures 0 muutub 1-ks. Lävi 0,5 tundub loomulik ja lähedane, kuid see on alati ei osutu optimaalseks, näiteks eelmainitud klassitasakaalu puudumisel.

Üks viis mudeli kui terviku hindamiseks, ilma et see oleks seotud kindla lävega, on AUC-ROC (või ROC AUC) - ala ( A rea U nder C urve) veakõvera all ( R vastuvõtja O perating C iseloomulik kõver). See kõver on joon vahemikus (0,0) kuni (1,1) tõelise positiivse kiiruse (TPR) ja valepositiivse määra (FPR) koordinaatides:

Me juba teame TPR-i, see on täielikkus ja FPR näitab, kui palju negatiivse klassi objekte algoritm ennustas valesti. Ideaaljuhul, kui klassifikaator ei tee vigu (FPR = 0, TPR = 1), saame kõveraaluse pindala võrdseks ühega, vastasel juhul, kui klassifikaator tekitab juhuslikult klassi tõenäosused, kaldub AUC-ROC 0,5, kuna klassifikaator väljastab sama koguse TP ja FP.
Iga punkt graafikul vastab mõne lävendi valikule. Kõveraalune pindala näitab sel juhul algoritmi kvaliteeti (mida rohkem, seda parem), lisaks on oluline ka kõvera enda järskus – me tahame maksimeerida TPR-i, minimeerides samal ajal FPR-i, mis tähendab, et meie kõver peaks ideaalis kalduma punkt (0,1).

ROC-kõvera joonise kood
sns.set(font_scale=1.5) sns.set_color_codes("vaigistatud") plt.figure(figsize=(10, 8)) fpr, tpr, thresholds = roc_curve(y_test, lr.predict_proba(X_test)[:,1], pos_label=1) lw = 2 plt.plot(fpr, tpr, lw=lw, label="ROC curve ") plt.plot(, ) plt.xlim() plt.ylim() plt.xlabel("Valepositiivne määr ") plt.ylabel("Tõeline positiivne määr") plt.title("ROC kõver") plt.savefig("ROC.png") plt.show()

AUC-ROC kriteerium on vastupidav tasakaalustamata klassidele (spoiler: paraku pole kõik nii lihtne) ja seda saab tõlgendada kui tõenäosust, et juhuslikult valitud positiivne objekt järjestab klassifikaatori poolt kõrgemale (selle tõenäosus on suurem positiivne) kui juhuslikult valitud negatiivne objekt.

Mõelge järgmisele probleemile: peame 1 miljoni dokumendi hulgast valima 100 asjakohast dokumenti. Oleme masinõppinud kaks algoritmi:
- Algoritm 1 tagastab 100 dokumenti, millest 90 on asjakohased. Sellel viisil,
- Algoritm 2 tagastab 2000 dokumenti, millest 90 on asjakohased. Sellel viisil,
Tõenäoliselt valiksime esimese algoritmi, mis annab konkurendiga võrreldes väga vähe valepositiivseid tulemusi. Kuid valepositiivse määra erinevus nende kahe algoritmi vahel äärmiselt väike - ainult 0,0019. See on tingitud asjaolust, et AUC-ROC mõõdab valepositiivse osakaalu tõelise negatiivse suhtes ning ülesannetes, kus teine (suurem) klass ei ole meile nii oluline, ei pruugi see algoritmide võrdlemisel anda täiesti adekvaatset pilti. .

Olukorra parandamiseks pöördume tagasi täielikkuse ja täpsuse juurde:
- Algoritm 1
- Algoritm 2
Kahe algoritmi vahel on juba märkimisväärne erinevus – 0,855 täpsusega!

Täpsust ja tagasikutsumist kasutatakse ka kõvera joonistamiseks ja sarnaselt AUC-ROC-ga selle all oleva ala leidmiseks.

Siinkohal võib märkida, et väikeste andmehulkade puhul võib PR-kõvera alune pindala olla liiga optimistlik, kuna see arvutatakse trapetsimeetodil, kuid tavaliselt on selliste ülesannete puhul andmeid piisavalt. Lisateavet AUC-ROC ja AUC-PR seoste kohta leiate siit.

Logistiline kaotus

Eraldamine on logistilise kao funktsioon, mis on määratletud järgmiselt:

on algoritmi vastus

ohm objekt,

tõeline klassi silt peal

ohm objekt ja

näidissuurus.

Logistilise kaofunktsiooni matemaatilise tõlgendamise üksikasjad on juba kirjutatud lineaarsete mudelite postituses.
Seda mõõdikut ei kuvata sageli ärinõuetes, vaid sageli kaggle ülesannetes.
Intuitiivselt võib loglossi minimeerimist pidada täpsuse maksimeerimise probleemiks, karistades valede prognooside eest. Siiski tuleb märkida, et logloss karistab rängalt klassifikaatori usaldust vale vastuse vastu.

Kaaluge näidet:
Def logloss_crutch(y_true, y_pred, eps=1e-15): return - (y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred)) print("Ebakindla klassifikatsiooniga logiloss %f " % logloss_crutch(1, 0.5)) >> Logloss ebakindla klassifikatsiooniga 0.693147 print("Loogloss kindla klassifikatsiooni ja õige vastusega %f" % logloss_crutch(1, 0.9)) >> Logloss kindla klassifikatsiooni ja õige vastusega 0.105361 print(" Logloss kindla klassifikatsiooni ja vale vastuse jaoks %f" % logloss_crutch(1, 0.1)) >> Logloss kindla klassifikatsiooni ja vale vastuse jaoks 2.302585
Pange tähele, kui järsult suurenes logloss vale vastuse ja enesekindla klassifikatsiooni korral!
Seetõttu võib ühe objekti viga anda proovi üldise vea olulise halvenemise. Sellised objektid on sageli kõrvalekalded, mida tuleb meeles pidada, et neid filtreerida või eraldi arvesse võtta.
Kõik loksub paika, kui joonistate loglossi graafiku:

On näha, et mida lähemale nullile on algtõe = 1 algoritmi vastus, seda suurem on vea väärtus ja seda järsemaks kõver kasvab.

Summeerida:
- Mitme klassi klassifikatsiooni korral peate hoolikalt jälgima iga klassi mõõdikuid ja järgima lahenduse loogikat ülesandeid, selle asemel, et mõõdikut optimeerida
- Ebavõrdsete klasside korral on vaja valida koolituseks klasside tasakaal ja mõõdik, mis kajastab õigesti klassifikatsiooni kvaliteeti
- Mõõdiku valimisel tuleks keskenduda teemavaldkonnale, andmete eeltöötlemisele ja võimaluse korral segmenteerimisele (nagu rikasteks ja vaesteks klientideks jagamisel)
Kasulikud lingid
1. Jevgeni Sokolovi kursus: Seminar mudelite valikust (seal on teave regressiooniülesannete mõõdikute kohta)
2. Probleemid AUC-ROC jaoks, autor A.G. Dyakonova
3. Lisateavet kaggle'i muude mõõdikute kohta saate lugeda. Iga mõõdiku kirjeldusse on lisatud link konkursile, kus seda kasutati
4. Bogdan Melnyki ehk ld86 ettekanne tasakaalustamata proovidel õppimisest
UDC 519.816

S. V. SEMENIHIN L. A. DENISOVA

Omski Riiklik Tehnikaülikool

MASINÕPPEMEETOD EDETAMISEKS

PÕHINEB URCO-MEETRIA MUUDETUD GENEETILISEL ALGORITMIL

Käsitletakse dokumentide järjestamise probleemi teabeotsingu tulemuste lehel ja masinõppe järjestamise küsimusi. Pakutakse välja lähenemisviis järjestamise funktsiooni optimeerimiseks, kasutades modifitseeritud geneetilisel algoritmil põhinevat kvaliteedimeetrit LOCO. Väljatöötatud algoritme on uuritud (LETO^ testkollektsioonides) ja näidatud nende tõhusust masinõppes järjestamisel.

Märksõnad: teabeotsing, masinõppe järjestus, asjakohasus, optimeerimine, geneetilised algoritmid.

1. Sissejuhatus. Kaasaegsetes teabeotsingusüsteemides (IRS) on süsteemis kasutatavate andmete maht nii suur, et põhiülesanne on asjakohaste dokumentide järjestamine vastuseks kasutaja otsingupäringule. IPS-i arendamise praeguses etapis pakub kõige suuremat huvi järjestamise masinõpe (ML). Olemasolevatel arvulistel meetoditel (eelkõige gradientmeetoditel) või analüütilistel arvutustel põhinevatel ML-i lähenemisviisidel on mitmeid puudusi, mis mõjutavad oluliselt teabe hankimise kvaliteeti ja asjakohaste dokumentide järjestamiseks kuluvat aega.

Uurimistöö alguses kaaluti masinõppe järjestamise loendipõhiseid lähenemisviise, millest enamik kasutab gradiendi laskumise meetodit. Vaadeldavates töödes on ML taandatud otsingukvaliteedi mõõdikute (QM) optimeerimisele, kuid kasutatakse ainult pidevate funktsioonidega esindatud mõõdikuid. See piirang viib sageli selleni, et optimeerimise tulemusel on järjestamise funktsioonil madalamad hinded paljude oluliste aktsepteeritud näitajate (DCG, nDCG, Graded Mean Reciprocal Rank jne) puhul, mis on diskreetsed funktsioonid. Dokumendis tehakse ettepanek kasutada õppimise järjestamisel geneetilisi algoritme (GA), et minimeerida Huberi kadufunktsiooni, kasutades võrdlusväärtustena ekspertide asjakohasuse hinnanguid. Samuti pakuti välja diskreetsete teabeotsingu kvaliteedimõõdikute optimeerimisel põhinev lähenemine ML-ile.

2. Masinõppe järjestamise probleemi väide. Enamikus kaasaegsetes teabeotsingusüsteemides on järjestamise funktsioon üles ehitatud n lihtsa järjestusfunktsiooni (PRF) alusel ja seda saab kirjutada järgmiselt:

kus SRF¡ on dokumendi d ja päringu d ¡as lihtne järjestusfunktsioon, WCi on ¡nda lihtsa järjestusfunktsiooni kaalutegur, n on järjestussüsteemi FRP-de arv.

Masinõppe käigus järjestamiseks kasutati testkogu LBTOT otsingudokumentide B komplekti ja päringuid O. Kõigi deO taotluste jaoks moodustatakse paar iga deD dokumendiga. Iga sellise paari jaoks määrab IPS asjakohasuse väärtused, mida kasutatakse SERP järjestamiseks. Pingerea kvaliteedi hindamiseks vajab süsteem iga dokumendi-päringu paari t, e jaoks asjakohasuse võrdlusväärtusi E). Sel eesmärgil kasutatakse asjakohasuse eksperthinnanguid.

Uuringu läbiviimiseks kasutati IPS-i, milles järjestus põhineb N = 5 lihtsal järjestusfunktsioonil SRFi(WC)l r = 1, N, mis moodustavad vektori optimaalsuse kriteeriumi:

kus WCе (WC) - muutuvate parameetrite vektor; (SHS), (YB) on vastavalt parameetrite ja vektorikriteeriumide ruumid.

Geneetiliste algoritmide kasutamine MO järjestamisel võimaldab maksimeerida diskreetseid kvaliteedimõõdikuid, nagu nDCG. nDCG mõõdik dokumentide järjestamiseks otsingumootoris määratakse vastavalt väljendile:

DCG@n=X2---

RF(q, d)=XWC. ■ SRF., i=1 1 1

kus hinne(p) on ekspertide poolt tulemuste loetelus positsioonil p olevale dokumendile antud keskmine asjakohasuse hinne, hinne ; 1/log2(2 + p) - koefitsient olenevalt dokumendi positsioonidest (esimestel dokumentidel on suurem kaal).

Seejärel kirjutatakse vormile NDCG normaliseeritud versioon

N000 @ n = RSD @ n / r,

kus r on normaliseerimistegur, mis on võrdne maksimaalse võimaliku väärtusega 0C [e-postiga kaitstud] n antud päringu puhul (st võrdub ideaalse järjestuse OOO-ga).

Seega, SFR-i mõõdikute optimeerimiseks (maksimeerimiseks) kirjutatakse sihtfunktsioon (JM) järgmisel kujul

3. Otsingutulemuste järjestuse kvaliteedimõõdikud. Dokumentide järjestamisel otsingutulemustes toimivad kriteeriumidena kvaliteedimõõdikud. Infootsingusüsteemide kvaliteedi hindamise üldtunnustatud mõõdikute loetelust on välja valitud kolm põhilist, mis hindavad infootsingu täpsust, asjakohasust ja täielikkust.

1. Infootsingu täpsuskriteerium

kus a on leitud asjakohaste dokumentide arv, b on asjakohastena valesti tuvastatud dokumentide arv.

2. Kriteerium Bpref, mis hindab teabeotsingu asjakohasust, kasutatakse ülesande töötlemiseks R asjakohaste dokumentidega ja arvutatakse valemiga

Bpref = - ^ (1 - Non Re ¡Before(r)/ R). (4)

Siin r tähistab teadaolevat asjakohast dokumenti ja NonRelBefore(r) on teadaolevate ebaoluliste dokumentide arv, mis on järjestatud kõrgemale kui r (arvutuses võetakse arvesse ainult esimest R hinnatud ebaolulisi dokumente).

3. Otsingutulemuste täielikkuse kriteerium

r = a / (a + c),

kus a on leitud asjakohaste dokumentide arv, c on leidmata asjakohaste dokumentide arv.

4. Testikogud. Masinõppeülesande puhul on järjestamiseks vaja dokumentide ja päringute komplekti, mille asjakohasusskoorid on ekspertide määratud. Neid andmeid kasutatakse järjestamise funktsiooni masinõppeks ja ka kvaliteedi hindamiseks.

otsingutulemuste järjestamine süsteemi järgi. ML-protsessis kasutatakse treeningkomplektina testikogusid ja seetõttu on neil tulemustele oluline mõju. Uurimiseks kasutati LETOR-dokumentide ja päringute testkogu. Seda kollektsiooni kasutab Microsoft Research teabeotsingu uuringutes. Tabelis. 1 näitab LETORi testikogude omadusi.

5. Modifitseeritud geneetiline algoritm. Et kasutada järjestamisel masinõppes geneetilisi algoritme, tuleb ülesanne sõnastada nii, et lahendus oleks kodeeritud vektorina (genotüübina), kus iga geen võib olla bitt, arv või mõni muu objekt. Sel juhul esindab genotüüp vastavate järjestustegurite kaalude vektorit. Geneetilise algoritmi täitmise peatamise tingimuseks on optimaalse lahenduse leidmine, põlvkondade arvu või evolutsioonile ette nähtud aja ammendumine.

Tuleb märkida, et GA-d on globaalse ekstreemumipiirkonna leidmisel kõige tõhusamad, kuid need võivad olla aeglased, kui on vaja leida selles piirkonnas kohalik miinimum. Pakutud viis selle puuduse vältimiseks on luua modifitseeritud geneetiline algoritm (MGA), mis lülitub kohalikule (kiirele) optimeerimisalgoritmile pärast globaalse optimaalse ala leidmist baas-GA abil. Töös välja pakutud MGA on hübriidmeetod, mis põhineb klassikalisel GA-l ja Nelder-Meadi meetodil (simpleksalgoritm). Nelder-Meadi meetod, sageli kasutatav mittelineaarne optimeerimisalgoritm, on numbriline meetod eesmärgifunktsiooni miinimumi leidmiseks mitmemõõtmelises ruumis. Selles artiklis pakutud hübriid-MGA-algoritm lülitub Nelder-Meadi meetodile pärast seda, kui GA peatamise tingimused on täidetud. MGA algoritmi plokkskeem on näidatud joonisel fig. üks.

Uurimistöö tegemisel võeti globaalse ekstreemumipiirkonna otsimisel vastu objektiivsete funktsioonide arvutuste arvu limiit (Nrf = 16 000) ja tingimus Nelder-Meadi meetodil põhinevale lokaalsele optimeerimisalgoritmile üleminekuks (pärast geneetilist põhialgoritmi sooritab 75% Nrf operatsioonidest).

6. Tulemused. Masinõppe algoritmi kasutades läbiviidud uurimistöö tulemusena

Tabel 1

Dokumentide ja päringute arv testkogudes

Testkogu nimi Alamsüsteemi nimi Päringute arv Dokumentide arv

LETOR 4.0 MQ2007 1692 69623

LETOR 4.0 MQ2008 784 15211

LETOR 3.0 OHSUMED 106 16140

LETOR 3.0 Gov03td 50 49058

LETOR 3.0 Gov03np 150 148657

LETOR 3.0 Gov03hp 150 147606

LETOR 3.0 Gov04td 75 74146

LETOR 3.0 Gov04np 75 73834

LETOR 3.0 Gov04hp 75 74409

Riis. 1. Geneetilistel algoritmidel ja Nelder-Meadi meetodil põhineva hübriid-MVL-algoritmi plokkskeem

LTR-MGA paremusjärjestus sai järjestamise funktsiooni jaoks kaalukoefitsientide vektori WC*. Edasi hinnati LETOY testikogu andmete põhjal pingerea kvaliteeti, mille kohta arvutati kvaliteedimõõdikud. Diskreetne järjestuse kvaliteedimõõdik [e-postiga kaitstud] hindab süsteemi vastuse esimese n dokumendi kvaliteeti. Üldtunnustatud mõõdikud pingerea kvaliteedi hindamiseks on [e-postiga kaitstud], [e-postiga kaitstud] ja [e-postiga kaitstud] Mõõdiku väärtustest sõltuvate muutuste üksikasjalikumaks käsitlemiseks võeti siiski arvesse [e-postiga kaitstud] kõigile n-le 1 kuni 10. Väljatöötatud algoritmi efektiivsuse võrdlemiseks olemasolevate lahendustega viidi läbi võrdlev analüüs, kasutades LETOM 3.0 kogudes toodud järjestamisalgoritme. NDCG mõõdiku testkogude TB2003 ja TB2004 algoritmide täitmise tulemused on näidatud joonisel fig. 2. Tulemused näitavad, et LTR-MGA algoritm ületab testalgoritme, kõrgeimate väärtustega

jaoks on [e-postiga kaitstud](esimese dokumendi tasemel). LTR-MGA algoritmi paremus tuleneb asjaolust, et erinevalt katsetes vaadeldud testide järjestamise funktsioonidest kasutatakse järjestamise funktsiooni optimeerimiseks pakutud lähenemisviisis eesmärgifunktsioonina NDCG mõõdikut.

Pakutud LTR-MGA algoritmi kasutamisel järjestamise kvaliteedi hindamiseks arvutati välja kvaliteedimõõdikute väärtused dokumentide järjestamiseks otsingutulemustes (joonis 3). Pingerida tulemuste võrdlus (tabel 2), kasutades põhilist järjestusfunktsiooni, LTR-GA põhialgoritmi ja modifitseeritud LTR-MGA algoritmi, näitab viimase eelist.

Lisaks hinnati uuringus MO järjestamiseks kuluvat aega. See on vajalik kinnitamaks, et väljapakutud LTR-MGA meetod on selle näitaja osas parem kui traditsioonilisel meetodil põhinev lähenemisviis.

Riis. 2. Masinõppe algoritmide võrdlus järjestamiseks

NDCG mõõdiku järgi testkogude jaoks: vasakul - Gov03td andmestik, paremal - Gov04td andmestik

Riis. 3. Põhilise järjestamise valemi ja õppealgoritmide LTR-GA ja LTR-MGA järjestamise kvaliteedimõõdikute hindamine

Erinevate masinõppe algoritmide järjestamise kvaliteedimõõdikud

tabel 2

Kvaliteedivahemiku mõõdik Põhiline järjestusfunktsioon LTR-GA LTR-MGA Mõõdiku suurenemine, %

Täpsus 0,201 0,251 0,267 26,81

[e-postiga kaitstud](esimesed 5 dokumenti) 0,149 0,31 0,339 90,47

[e-postiga kaitstud](esimesed 10 dokumenti) 0,265 0,342 0,362 29,14

Bpref 0,303 0,316 0,446 51,49

Täielikkus 0,524 0,542 0,732 39,03

* Vastava mõõdiku parimad väärtused on esile tõstetud halliga

geneetiline algoritm (NTL-OL). LTN-OL ja LTN-MOL algoritmide täitmisele kulunud aja võrdlemise tulemused on toodud tabelis. 3.

7. Järeldus. Seega on läbiviidud uuringud näidanud, et pakutud lähenemisviisi kasutamisel suurenevad IRS-is vaadeldud järjestusmõõdikute väärtused (keskmiselt 19,55% võrreldes LTR-OL algoritmiga). See kinnitab, et LTR-MOL töötab korrektselt ja parandab oluliselt järjestamise funktsiooni ehk teisisõnu lahendab edukalt optimeerimisprobleemi. Muudetud algoritmiga

seoses lokaalse optimeerimise meetodi rakendamisega ja kehtestatud piirangutega sihtfunktsiooni arvutuste arvule vähenes masinõppe aeg (keskmiselt 17,71% võrreldes traditsioonilise geneetilise algoritmi LTNOL kasutamisega).

LTN-MOL-i järjestamiseks väljatöötatud masinõppe algoritmi saab kasutada IS-ides, kasutades järjestusmudelit, mis põhineb lihtsate järjestamisfunktsioonide kombinatsioonil. Siiski tuleks arvesse võtta mõningaid pakutud lähenemisviisi piiranguid. Põhineb

Masinõppe järjestuse täitmisaja hindamine sõltuvalt koolitusvalimi suurusest

Tabel 3

Dokumendi tekstikogu suurus

Tööaeg LTR-GA

Kestus LTR-MGA

Täitmisaja vähenemine, %

Tähendab

* Vastava testikogu suuruse parimad väärtused on esile tõstetud halliga.

saadud tulemustest selgus, et MO järel on kõige suurem tõus pingerea kvaliteedimõõdikus, mille väärtus võeti sihtfunktsiooniks. Samal ajal ei pruugi teised mõõdikud oluliselt paraneda ja mõnel juhul isegi halvendada nende väärtusi. Ühe võimaliku lähenemisena selle puuduse kõrvaldamiseks peaks optimeerimisprobleem lahendama mitme eesmärgiga: ühe optimeerimise asemel ühtselt parandada mitut otsingutulemuste põhilist järjestusmõõdikut. Lisaks on edasistes uuringutes plaanis infootsingu protsessi parendamiseks välja töötada metoodika eesmärgifunktsiooni konstrueerimiseks, mis põhineb põhijärjestuse kvaliteedimõõdikute lineaarsel konvolutsioonil.

Bibliograafiline loetelu

1. Tie-Yan Liu. Infootsingu jaoks järjestamise õppimine // Teabeotsingu alused ja suundumused. Vol. 3, number 3. märts 2009. Lk 225-331.

2. Christopher J. C. Burges, Tal Shaked, Erin Renshaw. Learning to Rank using Gradient Descent // Proceeding ICML "05 Proceedings of the 22nd international Conference on Machine learning. 2005. P. 89-96.

3. Semenikhin, S. V. Masinõppe lähenemisviiside uurimine dokumentide järjestamiseks geneetilistel algoritmidel põhineva otsingusüsteemi abil / S. V. Semenikhin // Noor Venemaa: arenenud tehnoloogiad tööstusele. - 2013. - nr 2. - S. 82 - 85.

4. Mitmekriteeriumiline optimeerimine geneetilistel algoritmidel juhtimissüsteemide sünteesil: monograafia. / L. A. Denisova. - Omsk: OmGTU kirjastus, 2014. - 170 lk. - ISBN 978-5-8149-1822-2.

5. Denisova, L. A., Meshcheryakov, V. A. Juhtsüsteemi parameetrilise sünteesi automatiseerimine geneetilise algoritmi abil. - 2012. - nr 7. - S. 34 - 38.

6. Huber, Peter J. Asukohaparameetri robustne hinnang // Annals of Statistics. - 1964. - nr 53. - Lk 73-101.

7. Semenikhin, S. V. Infootsingu automatiseerimine mitme kriteeriumi optimeerimisel ja geneetilistel algoritmidel / S. V. Semenikhin, L. A. Denisova // Süsteemide, mehhanismide ja masinate dünaamika. - 2014. - nr 3. - S. 224 - 227.

8. Tie-Yan Liu, Jun Xu, Tao Qin, Wenying Xiong ja Hang Li. LETOR: Infootsingu jaoks järjestamise õppimise võrdlusandmekogum // SIGIR 2007 Workshop on Learning to Rank for Information Retrieval. - 2007. - S. 3-10.

9. Ageev, M. S. Ametlikud mõõdikud R0MIP "2004 / M. S. Ageev, I. E Kuralenok // II Venemaa seminar teabeotsingu meetodite hindamisest (ROMIP 2004), Pushchino, 2004: tr. ; toim. I S. Nekrestyanova, St. Peterburi: Peterburi Riikliku Ülikooli Keemiauuringute Instituut, lk 142-150.

10. J. A. Nelder, R. Mead, A simplex method for function minimization, The Computer Journal 7 (1965). 308-313.

SEMENIKHIN Svjatoslav Vitalievitš, osakonna "Teabetöötluse ja juhtimise automatiseeritud süsteemid" aspirant. Aadress kirjavahetuseks: [e-postiga kaitstud] DENISOVA Ljudmila Albertovna, tehnikateaduste doktor, automatiseeritud teabetöötluse ja juhtimissüsteemide osakonna dotsent. Aadress kirjavahetuseks: [e-postiga kaitstud]

Selles peatükis on välja toodud populaarsed meetodid klassifikatsioonimudeli kvaliteedi hindamiseks, mida kasutatakse ka teistes selleteemalistes töödes. Esitatakse nende kirjeldus ja selle hindamise jaoks kasutatud mõõdikute põhjendus.

Kvaliteedi hindamise mõõdikud

Täielik täpsus (täpsus)

See mõõdik on üks lihtsamaid ja samas universaalsemaid mõõdikuid klassifitseerimisalgoritmide kvaliteedi hindamiseks. Selle koefitsiendi väärtus arvutatakse õigesti klassifitseeritud objektide osakaaluna valimi objektide koguarvust. See mõõdik on populaarne oma lihtsuse ja võimaluse tõttu laieneda mis tahes arvule klassidele. Selle mõõdiku peamine puudus on see, et see omistab kõigile dokumentidele sama kaalu, mis võib olla vale, kui koolitusvalimis olevad dokumendid on ühe või mitme klassi suhtes tugevalt kallutatud. Sellel mõõdikul võib olla kõrge väärtus, kuid sama klassi klassifikaator võib näidata äärmiselt madalat töökvaliteeti. Samas ei anna mõõdik sellest kuidagi märku.

Täpsus, meeldetuletus ja F-mõõt

Infootsingu probleemi lahendavate süsteemide töökvaliteedi hindamisel hakati esmakordselt laialdaselt kasutama selliseid mõõdikuid nagu täpsus (täpsus) ja tagasikutsumine (tagasikutsung). Süsteemi täpsus ühes klassis on tegelikult teatud klassi kuuluvate objektide osakaal kõigi süsteemi poolt sellesse klassi määratud objektide suhtes. Täielikkust väljendatakse klassi kuuluva klassifikaatori poolt leitud objektide osakaaluna kõigi selle klassi objektide suhtes. Tabel 4 on eraldi klassi situatsioonitabel, kus TP (tõene positiivne) on tõeliselt positiivne lahendus, TN (tõene negatiivne) on tõene negatiivne lahendus, FP (valepositiivne) on valepositiivne lahendus ja FN (valenegatiivne) on vale-negatiivne otsus.

Tabel 1 – objektiklassi kontingentsitabel

Seega arvutatakse täpsus ja tagasikutsumine järgmiselt:

F-meede ühendab teavet hinnatava algoritmi täpsuse ja täielikkuse kohta. See arvutatakse täpsus- ja meeldetuletusnäitajate harmoonilise keskmisena:

Tänu sellele, et F-mõõt arvutatakse iga klassi kohta eraldi, on seda mugav kasutada konkreetsete algoritmivigade otsimiseks ja analüüsimiseks, mitme klassiga klassifikatsiooni hindamiseks. Samas on suure hulga klasside puhul vaja tunnust, mis koondaks terviklikkuse ja täpsuse üle kõigi klasside ning iseloomustaks süsteemi üldist käitumist. Käesolevas artiklis kasutatakse selleks järgmisi koondväärtusi: makro täpsus (makrotäpsus), mis arvutatakse kõigi klasside täpsuse aritmeetilise keskmisena, makro meeldetuletus (makro meeldetuletus), mis arvutatakse aritmeetilise keskmisena. kõigi klasside meeldetuletus ja makro F-mõõt (makro F-skoor), mis on nendevaheline harmooniline keskmine.

Ristkinnitus

Üks levinumaid meetodeid täisväärtusliku testimise läbiviimiseks ja erinevate masinõppealgoritmide toimivuse hindamiseks on ristvalideerimine. Sõltumatu valimi puhul võimaldab see meetod saada erapooletu hinnangu vea tõenäosusele, erinevalt koolitusvalimi keskmisest veast, mis võib olla algoritmi ülepaigutamise tõttu tekkinud vea tõenäosuse kallutatud hinnang. Selle protseduuri teine eelis on võimalus saada algoritmi vea tõenäosuse hinnang, kui puudub spetsiaalselt testimiseks loodud kontrollproov.

Oletame, et see on objektide tunnuste kirjelduste kogum, millel on määratud pretsedentide lõplik valim, kus on klasside lõplik hulk. Antakse vastendus, mis seob suvalise pretsedentide valimi algoritmiga. Seejärel hinnatakse algoritmi toimivust suvalise pretsedentide valimi jaoks, kasutades kvaliteedifunktsiooni:

kus on mõni mittenegatiivne funktsioon, mis tagastab õige klassisildiga algoritmi veaväärtuse.