Šta znači metrika kvaliteta u mašinskom učenju? Trening za rangiranje

U procesu pripreme zadatka za prijemni test za letnju školu GoTo, otkrili smo da praktično ne postoji kvalitativni opis glavne metrike rangiranja na ruskom (problem se odnosio na poseban slučaj problema rangiranja - izgradnju algoritma preporuke) . Mi u E-Contenti aktivno koristimo različite metrike rangiranja, pa smo odlučili ispraviti ovaj nesporazum pisanjem ovog članka.

Zadatak rangiranja sada se javlja svuda: sortiranje web stranica prema zadatom upitu za pretragu, personalizacija news feed-a, preporuka videa, proizvoda, muzike... Jednom riječju, tema je vruća. Postoji čak i poseban pravac u mašinskom učenju, koji se bavi proučavanjem algoritama za rangiranje sposobnih za samoučenje – učenje rangiranja. Za odabir najboljeg iz čitavog niza algoritama i pristupa, potrebno je biti u stanju kvantitativno procijeniti njihov kvalitet. U nastavku će se raspravljati o najčešćim metrikama kvaliteta rangiranja.

Ukratko o zadatku rangiranja

Rangiranje je zadatak sortiranja skupa elementi iz njihovih razloga relevantnost... Najčešće se relevantnost razumije u odnosu na nikoga objekt... Na primjer, u zadatku pretraživanja informacija, objekt je zahtjev, elementi su različiti dokumenti (veze na njih), a relevantnost je usklađenost dokumenta sa zahtjevom, u zadatku preporuke, objekt je korisnik, elementi su jedan ili drugi preporučeni sadržaj (proizvodi, video zapisi, muzika), a relevantnost je vjerovatnoća da će korisnik koristiti (kupiti / lajkovati / pogledati) ovaj sadržaj.

Formalno, razmotrite N objekata i M elemenata. Rezultat rada algoritma za rangiranje elemenata za objekat je mapiranje koje svakom elementu dodeljuje težinu koja karakteriše stepen relevantnosti elementa za objekat (što je veća težina, to je objekat relevantniji). U ovom slučaju, skup pondera specificira permutaciju na skupu elemenata elemenata (pretpostavljamo da je skup elemenata uređen) na osnovu njihovog sortiranja u opadajućem redoslijedu po težini.

Za procjenu kvaliteta rangiranja potrebno je imati određeni “standard” sa kojim bi se rezultati algoritma mogli uporediti. Uzmite u obzir - referentnu funkciju relevantnosti, koja karakterizira "stvarnu" relevantnost elemenata za dati objekt (- element je savršen, - potpuno irelevantan), kao i odgovarajuću permutaciju (u opadajućem redoslijedu).

Postoje dva glavna načina da ga dobijete:
1. Na osnovu istorijskih podataka. Na primjer, u slučaju preporuka sadržaja, možete uzeti korisničke preglede (lajkove, kupovine) i dodijeliti gledane težine odgovarajućih elemenata 1 () i 0 za sve ostale.
2. Na osnovu stručne procjene. Na primjer, u zadatku pretrage, za svaki zahtjev, možete uključiti tim ocjenjivača koji će ručno procijeniti relevantnost dokumenata za zahtjev.

Vrijedi napomenuti da kada uzima samo ekstremne vrijednosti: 0 i 1, tada se obično ne razmatra permutacija već samo skup relevantnih elemenata za koji.

Svrha metrike kvalitete rangiranja- da se utvrdi u kojoj meri rezultati relevantnosti dobijeni algoritmom i odgovarajuća permutacija odgovaraju istinito vrijednosti relevantnosti. Razmotrimo glavne metrike.

Srednja prosečna preciznost

Srednja prosječna preciznost u K ( [email protected]) je jedna od najčešće korištenih metrika kvaliteta rangiranja. Da bismo razumjeli kako to funkcionira, počnimo s "osnovama".

Napomena: metrika "* preciznosti" se koristi u binarnim problemima, gdje uzima samo dvije vrijednosti: 0 i 1.

Preciznost kod K

Preciznost na K ( [email protected]) - tačnost na K elementima - osnovna metrika kvaliteta rangiranja jednog objekta. Recimo da je naš algoritam za rangiranje generirao rezultate relevantnosti za svaku stavku. Odabirom prvih elemenata s najvećim među njima, možete izračunati udio relevantnih. To je upravo ono što preciznost u K radi:

Napomena: mislimo na element koji je, kao rezultat permutacije, završio na . poziciji. Dakle, - element sa najvećim, - element sa drugim najvećim, i tako dalje.

Prosječna preciznost kod K

Preciznost u K je metrika koju je lako razumjeti i implementirati, ali ima važnu manu - ne uzima u obzir redoslijed stavki u "vrhu". Dakle, ako smo od deset elemenata pogodili samo jedan, onda je svejedno gdje je bio: na prvom ili na posljednjem, u svakom slučaju. Istovremeno, očigledno je da je prva opcija mnogo bolja.

Ovaj nedostatak je nadoknađen metrikom rangiranja. prosječna preciznost na K ( [email protected]) koji je jednak zbiru [email protected] indeksima k od 1 do K samo za relevantne artikle podijeljeno sa K:

Dakle, ako smo od tri elementa bili relevantni samo na poslednjem mestu, onda ako smo pogodili samo onaj koji je bio na prvom mestu, onda, i ako se sve pogodilo, onda.

Sada i [email protected] u našim zubima.

Srednja prosječna preciznost kod K

Srednja prosječna preciznost u K ( [email protected]) je jedna od najčešće korištenih metrika kvalitete rangiranja. V [email protected] i [email protected] kvalitet rangiranja se ocjenjuje za jedan objekt (korisnik, upit za pretraživanje). U praksi postoji mnogo objekata: imamo posla sa stotinama hiljada korisnika, milionima upita za pretragu itd. Ideja [email protected] je računati [email protected] za svaki objekat i prosjek:

Napomena: Ova ideja je sasvim logična, pod pretpostavkom da su svi korisnici podjednako potrebni i podjednako važni. Ako to nije slučaj, onda umjesto jednostavnog prosječenja možete koristiti ponderirano, množenjem [email protected] svaki predmet po težini odgovara njegovoj "važnosti".

Normalizovani diskontovani kumulativni dobitak

Normalizirani diskontovani kumulativni dobitak (nDCG) je još jedna uobičajena metrika kvaliteta rangiranja. Kao i sa [email protected], počnimo s osnovama.

Kumulativni dobitak na K

Razmotrimo ponovo jedan objekat i elemente sa najvećim. Kumulativni dobitak na K ( [email protected]) je osnovna metrika rangiranja koja koristi jednostavnu ideju: što su relevantnije stavke u ovom vrhu, to bolje:

Ova metrika ima očite nedostatke: nije normalizirana i ne uzima u obzir položaj relevantnih elemenata.

Imajte na umu da, za razliku od [email protected], [email protected] također se može koristiti u slučaju nebinarne referentne vrijednosti relevantnosti.

Diskontovani kumulativni dobitak kod K

Diskontovani kumulativni dobitak na K ( [email protected]) - modifikacija kumulativnog dobitka na K, uzimajući u obzir redoslijed elemenata na listi množenjem relevantnosti elementa težinom jednakom inverznom logaritmu broja pozicije:

Napomena: ako uzima samo vrijednosti 0 i 1, onda i formula poprima jednostavniji oblik:

Upotreba logaritma kao diskontne funkcije može se objasniti sljedećim intuitivnim razlozima: sa stanovišta rangiranja, pozicije na početku liste razlikuju se mnogo više od pozicija na kraju liste. Dakle, u slučaju tražilice postoji čitav jaz između pozicija 1 i 11 (samo u nekoliko slučajeva od sto, korisnik uđe na prvu stranicu rezultata pretrage) i nema velike razlike između pozicije 101 i 111 - do njih dolazi malo ljudi. Ova subjektivna razmatranja su lijepo izražena pomoću logaritma:

Diskontirani kumulativni dobitak rješava problem uzimanja u obzir položaja relevantnih elemenata, ali samo pogoršava problem s nedostatkom normalizacije: ako varira unutar granica, tada već poprima vrijednosti u nepotpuno jasnom segmentu. Sljedeća metrika je namijenjena rješavanju ovog problema.

Normalizovani diskontovani kumulativni dobitak na K

Kao što možete pretpostaviti iz imena, normalizovani diskontovani kumulativni dobitak na K ( [email protected]) - ništa više od normalizovane verzije [email protected]:

gdje je maksimalna (I - idealna) vrijednost. Pošto smo se složili da on uzima vrijednosti u, onda.

Dakle, on nasljeđuje razmatranje položaja elemenata na listi i istovremeno uzima vrijednosti u rasponu od 0 do 1.

Napomena: po analogiji sa [email protected] može se izračunati, usredsrediti po svim objektima.

Srednji recipročni rang

Srednji recipročni rang (MRR) je još jedna često korištena metrika kvalitete rangiranja. Dato je sljedećom formulom:

gdje - recipročni rang za th objekt - vrlo jednostavna u suštini vrijednost jednaka inverzni rang prvog ispravno pogodjenog elementa.

Srednji recipročni rang varira u rasponu i uzima u obzir položaj elemenata. Nažalost, on to radi samo za jedan element - prvi tačno predviđen, ne obraćajući pažnju na sve naredne.

metrika korelacije ranga

Zasebno, vrijedi istaknuti metriku kvaliteta rangiranja na osnovu jednog od koeficijenata rang korelacije... U statistici, koeficijent korelacije ranga je koeficijent korelacije koji ne uzima u obzir same vrijednosti, već samo njihov rang (red). Razmotrite dva najčešća koeficijenta korelacije ranga: Spearmanov i Kendallov.

Kendallov koeficijent korelacije ranga

Prvi od njih je Kendallov koeficijent korelacije, koji se zasniva na izračunavanju konzistentnosti
(i neusklađeni) parovi permutacija - parovi elemenata, kojima su permutacije dodijeljene istim (različitim) redoslijedom:

Spearmanov koeficijent korelacije ranga

Drugi - Spearmanov koeficijent korelacije ranga - zapravo nije ništa drugo do Pearsonova korelacija izračunata na osnovu vrijednosti rangova. Postoji prilično zgodna formula koja to izražava direktno iz redova:

gdje je Pearsonov koeficijent korelacije.

Metrike korelacije ranga imaju nedostatak koji već znamo: ne uzimaju u obzir položaj elemenata (čak i lošiji od [email protected] pošto korelacija se računa za sve elemente, a ne za K elemente sa najvišim rangom). Stoga se u praksi koriste izuzetno rijetko.

Kaskadna metrika

Do sada se nismo upuštali u to kako korisnik (dalje ćemo razmatrati poseban slučaj objekta - korisnika) proučava elemente koji mu se nude. U stvari, implicitno smo napravili pretpostavku da gledamo svaki element nezavisni od gledanja drugih elemenata - neka vrsta "naivnosti". U praksi, međutim, stavke se često pregledavaju od strane korisnika jedan po jedan, a da li će korisnik pogledati sljedeću stavku ovisi o njegovom zadovoljstvu prethodnim stavkama. Razmotrimo primjer: kao odgovor na upit za pretraživanje, algoritam za rangiranje ponudio je korisniku nekoliko dokumenata. Ako se ispostavi da su dokumenti na pozicijama 1 i 2 izuzetno relevantni, onda je vjerovatnoća da će korisnik pogledati dokument na poziciji 3 mala, jer biće sasvim zadovoljan sa prva dva.

Slični modeli ponašanja korisnika, gdje se proučavanje elemenata koji su mu predloženi odvija uzastopno, a vjerovatnoća gledanja elementa ovisi o relevantnosti prethodnih nazivaju se kaskadno.

Očekivani recipročni rang

Očekivani recipročni rang (ERR)- primjer metrike kvaliteta rangiranja na osnovu modela vodopada. Dato je sljedećom formulom:

gdje se rang razumije u opadajućem redoslijedu. Najzanimljivija stvar u vezi sa ovom metrikom su vjerovatnoće. Prilikom njihovog izračunavanja koriste se pretpostavke kaskadnog modela:

gdje je vjerovatnoća da će korisnik biti zadovoljan objektom sa rangom. Ove vjerovatnoće se izračunavaju na osnovu vrijednosti. Budući da u našem slučaju možemo razmotriti jednostavnu opciju:

koji se može pročitati kao: stvarnu relevantnost elementa na poziciji U zaključku, evo nekoliko korisnih linkova.

O elementima unutar svake liste. Djelomičan redoslijed se obično specificira navođenjem bodova za svaki element (na primjer, "relevantno" ili "nije relevantno"; moguće su više od dvije ocjene). Svrha modela rangiranja je da aproksimira i generalizira na najbolji način (u određenom smislu) metodu rangiranja u skupu za obuku novih podataka.

Učenje rangiranja je još uvijek prilično mlado, brzo razvijajuće područje istraživanja koje se pojavilo 2000-ih s pojavom interesa u području pronalaženja informacija u primjeni metoda strojnog učenja na probleme rangiranja.

Collegiate YouTube

1 / 5
Tokom obuke modela rangiranja i tokom njegovog rada, svaki par dokument-zahtjev se prevodi u numerički vektor karakteristika rangiranja (koji se nazivaju i faktori rangiranja ili signali) koji karakterišu svojstva dokumenta, zahtjeva i njihov odnos. Takvi znakovi mogu se podijeliti u tri grupe:

Slijede neki primjeri karakteristika rangiranja koje se koriste u skupu podataka LETOR široko poznatom u struci:
- Vrijednosti mjera TF, TF-IDF, BM25, te jezički model usklađivanja zahtjeva različitih područja dokumenta (naslov, URL, tijelo teksta, tekst linka);
- Dužina i IDF-zbir zona dokumenata;
- Rangiranje dokumenata dobijeno različitim varijantama algoritama za rangiranje linkova kao što su PageRank i HITS.
metrika kvaliteta rangiranja

Postoji nekoliko metrika koje procjenjuju i upoređuju performanse algoritama za rangiranje na uzorku sa ocjenjivačima. Često se parametri modela rangiranja prilagođavaju na takav način da se maksimizira vrijednost jedne od ovih metrika.
Primjeri metrike:

Klasifikacija algoritama

U svom članku "Učenje rangiranja za pronalaženje informacija" i govorima na tematskim konferencijama, Tai-Yang Liu iz Microsoft Research Asia analizirao je postojeće metode za rješavanje problema rangiranja nastave i predložio njihovu klasifikaciju u tri pristupa, ovisno o korištenom ulaznom predstavljanju. Podaci i funkcije kazne:

Pristup po tačkama

Bilješke (uredi)
1. Tie-Yan Liu (2009), Učenje rangiranja za pronalaženje informacija, Temelji i trendovi u pronalaženju informacija: Vol. 3: br. 3, str. 225-331, ISBN 978-1-60198-244-5, DOI 10.1561 / 1500000016... Dostupni su slajdovi iz govora T. Lewa na WWW 2009.
Zdravo, Habr!

U zadacima mašinskog učenja, metrike se koriste za procenu kvaliteta modela i upoređivanje različitih algoritama, a njihov izbor i analiza je neizostavni deo posla datasataniste.

U ovom članku ćemo pogledati neke kriterije kvalitete u problemima klasifikacije, razgovarati o tome šta je važno pri odabiru metrike i šta može poći po zlu.

metrika u problemima klasifikacije

Za demonstraciju korisnih funkcija sklearn i vizualni prikaz metrike, koristit ćemo naš skup podataka o odljevu kupaca telekom operatera, sa kojim smo se susreli u prvom članku kursa.

Učitajmo potrebne biblioteke i pogledamo podatke
Uvezi pande kao pd import matplotlib.pyplot kao plt iz matplotlib.pylab import rc, plot import seaborn kao sns iz sklearn.preprocessing import LabelmbleEncoder, OneHotEncoder iz sklearn.model_selection import cross_val_score iz sklearn. iz sklearn.model_selection import train_test_split df = pd.read_csv ("../../ data / telecom_churn.csv")
Df.head (5)
Predobrada podataka
# Mapirajmo binarne kolone # i kodiramo stanje lažnim kodiranjem (radi jednostavnosti, bolje je to ne raditi za drvene modele) d = ("Da": 1, "Ne": 0) df ["Međunarodni plan"] = df [" Međunarodni plan "]. Mapa (d) df [" Plan govorne pošte "] = df [" Plan govorne pošte "]. Mapa (d) df [" Odbacivanje "] = df [" Odbacivanje "]. Astype (" int64 " ) le = LabelEncoder () df ["State"] = le.fit_transform (df ["State"]) ohe = OneHotEncoder (sparse = False) encoded_state = ohe.fit_transform (df ["State"]. vrijednosti). .reshape (- 1, 1)) tmp = pd.DataFrame (encoded_state, stupci = ["state" + str (i) za i u rasponu (encoded_state.shape)]) df = pd.concat (, os = 1)

Preciznost, preciznost i pamćenje

Prije nego što pređemo na samu metriku, potrebno je uvesti važan koncept za opis ovih metrika u smislu grešaka u klasifikaciji - matrica konfuzije(matrica grešaka).
Pretpostavimo da imamo dvije klase i algoritam koji predviđa pripadnost svakog objekta jednoj od klasa, tada će matrica grešaka u klasifikaciji izgledati ovako:

Pravo pozitivno (TP) Lažno pozitivna (FP)
Lažno negativan (FN) Pravo negativno (TN)
ovo je odgovor algoritma na objekt, i

Prava oznaka klase na ovom objektu.
Dakle, postoje dvije vrste grešaka u klasifikaciji: lažno negativne (FN) i lažno pozitivne (FP).

Obuka algoritama i konstrukcija matrice grešaka
X = df.drop ("Churn", axis = 1) y = df ["Churn"] # Podijelite uzorak na vlak i test, sve metrike će biti procijenjene na skupu podataka testa X_train, X_test, y_train, y_test = train_test_split ( X, y , stratify = y, test_size = 0.33, random_state = 42) # Obučite izvornu logističku regresiju lr = LogisticRegression (random_state = 42) lr.fit (X_train, y_train) # Koristite funkciju da napravite matricu grešaka iz sklearn dokumentacija def plot_confusion_matrix (cm, klase , normalize = False, title = "(! LANG: Matrica konfuzije", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="Matrica konfuzije") plt.savefig("conf_matrix.png") plt.show()!}

Preciznost

Intuitivna, očigledna i gotovo neiskorištena metrika je tačnost - postotak tačnih odgovora algoritma:

Ova metrika je beskorisna u problemima s nejednakim klasama i to je lako pokazati na primjeru.

Recimo da želimo da procenimo performanse filtera za neželjenu poštu. Imamo 100 e-poruka koje nisu neželjene e-pošte, od kojih je 90 naš klasifikator tačno identifikovao (tačno negativno = 90, lažno pozitivno = 10) i 10 neželjenih e-poruka, od kojih je 5 klasifikator takođe tačno identifikovao (tačno pozitivno = 5, lažno negativno = 5) .
Zatim tačnost:

Međutim, ako jednostavno predvidimo sve e-poruke kao ne-spam, dobićemo veću preciznost:

U isto vrijeme, naš model nema apsolutno nikakvu moć predviđanja, budući da smo prvobitno željeli identificirati neželjene poruke. Da to prevaziđemo, pomoći će nam prelazak sa zajedničke metrike za sve klase na zasebne indikatore kvaliteta nastave.

Preciznost, opoziv i F-mjera

Da bismo procenili performanse algoritma za svaku od klasa posebno, uvodimo metriku preciznosti i prisećanja.

Preciznost se može tumačiti kao udio objekata koje je klasifikator nazvao pozitivnim i u isto vrijeme stvarno pozitivnim, a prisjećanje pokazuje koliki je udio objekata pozitivne klase od svih objekata pozitivne klase pronađenih algoritmom.

Upravo uvođenje preciznosti nam ne dozvoljava da sve objekte zapišemo u jednu klasu, jer u ovom slučaju dobijamo povećanje lažno pozitivnog nivoa. Recall demonstrira sposobnost algoritma da detektuje datu klasu uopšteno, a preciznost pokazuje sposobnost razlikovanja ove klase od drugih klasa.

Kao što smo ranije napomenuli, postoje dvije vrste grešaka u klasifikaciji: lažno pozitivne i lažno negativne. U statistici se prva vrsta greške naziva greška tipa I, a druga greška tipa II. U našem problemu određivanja odljeva pretplatnika, greška prve vrste će biti prihvatanje lojalnog pretplatnika za odlaznog, budući da je naša nulta hipoteza da nijedan od pretplatnika ne teče, a mi ovu hipotezu odbacujemo. Shodno tome, greška druge vrste će biti "preskakanje" odlaznog pretplatnika i pogrešno prihvatanje nulte hipoteze.

Preciznost i opoziv ne zavise, za razliku od tačnosti, od omjera klasa i stoga su primjenjivi u uvjetima neuravnoteženih uzoraka.
Često je u stvarnoj praksi zadatak pronaći optimalnu (za kupca) ravnotežu između ove dvije metrike. Klasičan primjer je problem određivanja odljeva kupaca.
Očigledno ne možemo pronaći od svega odlazne mušterije i samo njihov. Ali nakon što smo identifikovali strategiju i resurse za zadržavanje kupaca, možemo odabrati potrebnu preciznost i pragove povlačenja. Na primjer, možete se fokusirati na zadržavanje samo klijenata sa visokim prinosom ili onih za koje je vjerojatnije da će prijaviti, budući da smo ograničeni resursima pozivnog centra.

Obično, kada se optimiziraju hiperparametri algoritma (na primjer, u slučaju iteracije preko mreže GridSearchCV), koristi se jedna metrika čije poboljšanje očekujemo na testnom uzorku.
Postoji nekoliko različitih načina za kombinovanje preciznosti i prisećanja u zbirnu meru kvaliteta. F-mera (općenito

) - harmonijska srednja preciznost i opoziv:

u ovom slučaju određuje težinu točnosti u metrici i za

ovo je harmonijska sredina (sa množiteljem 2, tako da u slučaju preciznosti = 1 i opoziva = 1, imamo

)
F-mera dostiže svoj maksimum kada su potpunost i tačnost jednake jedan i blizu je nuli ako je jedan od argumenata blizu nuli.
Sklearn ima zgodnu funkciju _metrics.classification izvještaj vraćanje opoziva, preciznosti i F-mjere za svaku od klasa, kao i broj instanci svake klase.
Izvještaj = classification_report (y_test, lr.predict (X_test), target_names = ["Non-churned", "Churned"]) print (izvještaj)
klasa preciznost opoziv f1-score podrška
Non-churned 0.88 0.97 0.93 941
Churned 0.60 0.25 0.35 159
prosječno / ukupno 0.84 0.87 0.84 1100
Ovdje treba napomenuti da je u slučaju problema sa neuravnoteženim klasama, koji preovladavaju u stvarnoj praksi, često potrebno pribjeći tehnikama vještačke modifikacije skupa podataka kako bi se izjednačio odnos klasa. Ima ih mnogo i nećemo ih se doticati, možete pogledati neke metode i odabrati onu koja odgovara vašem zadatku.

AUC-ROC i AUC-PR

Prilikom pretvaranja stvarnog odgovora algoritma (po pravilu, vjerovatnoća pripadnosti klasi, pogledajte SVM posebno) u binarnu oznaku, moramo odabrati neki prag na kojem 0 postaje 1. Prag jednak 0,5 izgleda prirodno i blisko , ali se ne ispostavlja uvijek optimalnim, na primjer, u gore navedenom nedostatku klasne ravnoteže.

Jedan od načina za procjenu modela u cjelini, bez vezivanja za određeni prag, je AUC-ROC (ili ROC AUC) - područje ( A rea U nder C urve) ispod krive greške ( R eceiver O perating C karakteristična kriva). Ova kriva je linija od (0,0) do (1,1) u koordinatama True Positive Rate (TPR) i False Positive Rate (FPR):

TPR već znamo, to je potpunost, a FPR pokazuje koliki je udio objekata negativne klase algoritam pogrešno predvidio. U idealnom slučaju, kada klasifikator ne pravi greške (FPR = 0, TPR = 1), dobićemo površinu ispod krive jednaku jedan, u suprotnom, kada klasifikator nasumično izbaci verovatnoće klasa, AUC-ROC će težiti 0,5, pošto klasifikator će izdati isti iznos TP i FP.
Svaka tačka na grafikonu odgovara izboru određenog praga. Područje ispod krivulje u ovom slučaju pokazuje kvalitet algoritma (više je bolje), osim toga, bitna je i strmina same krivulje - želimo maksimizirati TPR minimiziranjem FPR-a, što znači da bi naša kriva idealno trebala težiti tačka (0,1).

ROC kod za crtanje krivulje
Sns.set (font_scale = 1.5) sns.set_color_codes ("muted") plt.figure (figsize = (10, 8)) fpr, tpr, thresholds = roc_curve (y_test, lr.predict_proba (X_test) [:, 1], pos_label = 1) lw = 2 plt.plot (fpr, tpr, lw = lw, label = "ROC kriva") plt.plot (,) plt.xlim () plt.ylim () plt.xlabel ("False Positive Rate") ") plt.ylabel (" Prava pozitivna stopa ") plt.title (" ROC kriva ") plt.savefig (" ROC.png ") plt.show ()

Kriterij AUC-ROC otporan je na neuravnotežene klase (spoiler: avaj, ali nije sve tako jednoznačno) i može se tumačiti kao vjerovatnoća da će nasumično odabran pozitivni objekt biti rangiran od strane klasifikatora više (imat će veću vjerovatnoću da bude pozitivan) od nasumično odabranog negativnog objekta.

Razmotrite sledeći problem: potrebno je da od 1 miliona dokumenata izaberemo 100 relevantnih dokumenata. Savladali smo dva algoritma:
- Algoritam 1 vraća 100 dokumenata, od kojih je 90 relevantnih. dakle,
- Algoritam 2 vraća 2000 dokumenata, od kojih je 90 relevantnih. dakle,
Najvjerovatnije bismo odabrali prvi algoritam koji proizvodi vrlo malo lažnih pozitivnih rezultata u odnosu na svog konkurenta. Ali razlika u stopi lažnih pozitivnih rezultata između ova dva algoritma ekstremno mali - samo 0,0019. To je posljedica činjenice da AUC-ROC mjeri udio lažno pozitivnog u odnosu na istinski negativ, a u problemima gdje nam druga (veća) klasa nije toliko bitna, možda neće dati sasvim adekvatnu sliku prilikom upoređivanja algoritama .

Da bismo ispravili situaciju, vratimo se na potpunost i tačnost:
- Algoritam 1
- Algoritam 2
Ovdje je već primjetna značajna razlika između dva algoritma - 0,855 u tačnosti!

Preciznost i opoziv se također koriste za konstruiranje krivulje i, poput AUC-ROC, pronalaženje područja ispod nje.

Ovdje se može primijetiti da na malim skupovima podataka površina ispod PR-krivulje može biti previše optimistična, jer se izračunava trapezoidnom metodom, ali obično u takvim zadacima ima dovoljno podataka. Za detalje o odnosu između AUC-ROC i AUC-PR, pogledajte ovdje.

Logistički gubitak

Funkcija logističkih gubitaka se izdvaja, definirana kao:

ovo je odgovor algoritma

Ohm objekat,

istinska oznaka klase uključena

Ohm objekat, i

veličina uzorka.

Detalji o matematičkoj interpretaciji funkcije logističkog gubitka već su pisani u okviru posta o linearnim modelima.
Ova metrika se rijetko pojavljuje u poslovnim zahtjevima, ali često u zadacima na kaggleu.
Intuitivno, minimiziranje loglosa može se smatrati zadatkom maksimiziranja tačnosti kažnjavanjem pogrešnih predviđanja. Međutim, treba napomenuti da logloss izuzetno snažno kažnjava povjerenje klasifikatora u pogrešan odgovor.

Razmotrimo primjer:
Def logloss_crutch (y_true, y_pred, eps = 1e-15): return - (y_true * np.log (y_pred) + (1 - y_true) * np.log (1 - y_pred)) print ("Loglos sa nesigurnom klasifikacijom% f "% logloss_crutch (1, 0.5)) >> Logloss sa nesigurnom klasifikacijom 0.693147 print (" Logloss sa sigurnom klasifikacijom i tačnim odgovorom% f "% logloss_crutch (1, 0.9)) >> Logloss sa sigurnom klasifikacijom i tačnim odgovorom 0.105361 print (" Logloss sa pouzdanom klasifikacijom i pogrešnim odgovorom% f "% logloss_crutch (1, 0.1)) >> Logloss sa pouzdanom klasifikacijom i pogrešnim odgovorom 2,302585
Obratite pažnju na to kako je logloss dramatično porastao s netačnim odgovorom i pouzdanom klasifikacijom!
Posljedično, greška na jednom objektu može rezultirati značajnom degradacijom ukupne greške uzorka. Takvi objekti su često izvanredni, koji se moraju imati na umu da se filtriraju ili razmatraju odvojeno.
Sve dolazi na svoje mjesto ako nacrtate logloss graf:

Može se vidjeti da što je bliži nuli odgovor algoritma sa osnovnom istinom = 1, to je veća vrijednost greške i kriva raste strmija.

Sažimanje:
- U slučaju višeklasne klasifikacije, morate pažljivo pratiti metriku svake od klasa i pratiti logiku odluke zadataka umjesto optimizacije metrike
- U slučaju nejednakih razreda, potrebno je odabrati balans razreda za obuku i metriku koja će ispravno odražavati kvalitet klasifikacije
- Odabir metrike treba obaviti s fokusom na predmetnu oblast, prethodnom obradom podataka i eventualnim segmentiranjem (kao u slučaju podjele na bogate i siromašne kupce)
korisni linkovi
1. Kurs Evgenija Sokolova: Seminar o izboru modela (postoje informacije o metrici problema regresije)
2. Problemi na AUC-ROC od A.G. Dyakonova
3. Više o drugim metrikama možete pročitati na kaggleu. U opis svake metrike dodat je link do takmičenja u kojem je korišten
4. Prezentacija Bogdana Melnika zvanog ld86 o obuci na neuravnoteženim uzorcima
UDK 519.816

S. V. SEMENIKHIN L. A. DENISOVA

Državni tehnički univerzitet u Omsku

METODA MAŠINSKOG UČENJA DOMAKA

ZASNOVAN NA MODIFIKOVANOM GENETIČKOM ALGORITMU ZA YRSO METRIKU

Razmatra se problem rangiranja dokumenata na stranici rezultata pretraživanja informacija i pitanja mašinskog učenja rangiranja. Predlaže se pristup optimizaciji funkcije rangiranja koristeći metriku kvaliteta NOCO zasnovanu na modificiranom genetskom algoritmu. Provedeno je istraživanje razvijenih algoritama (na test kolekcijama LETO ^ i prikazana je njihova efikasnost za mašinsko učenje rangiranja).

Ključne riječi: pronalaženje informacija, rangiranje mašinskog učenja, relevantnost, optimizacija, genetski algoritmi.

1. Uvod. U modernim sistemima za pronalaženje informacija (ISS), količine podataka kojima upravlja sistem su toliko velike da je ključni zadatak rangiranje relevantnih dokumenata kao odgovor na upit korisnika za pretragu. U ovoj fazi razvoja ISS-a, rangiranje mašinskog učenja (ML) je od najvećeg interesa. Postojeći pristupi ML, zasnovani na numeričkim metodama (posebno na gradijentnim metodama) ili na analitičkim proračunima, imaju niz nedostataka koji značajno utiču na kvalitet pronalaženja informacija i vreme potrebno za rangiranje relevantnih dokumenata.

Na početku istraživanja razmotreni su pristupi rangiranju na listi za strojno učenje, od kojih većina koristi metodu gradijentnog spuštanja. U razmatranim radovima, ML se svodi na optimizaciju metrike kvaliteta pretraživanja (SEQ), ali se koriste samo metrike predstavljene kontinuiranim funkcijama. Ovo ograničenje često dovodi do činjenice da, kao rezultat optimizacije, funkcija rangiranja ima niže rezultate za mnoge važne prihvaćene indikatore (DCG, nDCG, Graded Mean Reciprocal Rank, itd.), koji su diskretne funkcije. U radu se predlaže korištenje genetskih algoritama (GA) u nastavnom rangiranju kako bi se minimizirala Huberova funkcija gubitka koristeći stručne procjene relevantnosti kao referentne vrijednosti. Predložen je i pristup ML baziran na optimizaciji diskretnih metrika kvaliteta pronalaženja informacija.

2. Izjava o problemu rangiranja mašinskog učenja. U većini modernih sistema za pronalaženje informacija, funkcija rangiranja je izgrađena na osnovu n jednostavnih funkcija rangiranja (PRF) i može se napisati kao:

gdje je SRF¡ ¡-ta jednostavna funkcija rangiranja za dokument d i upit q, WCi je težinski koeficijent ¡-te jednostavne funkcije rangiranja, n je broj PRF-ova u sistemu rangiranja.

U toku mašinskog učenja za rangiranje korišćen je skup dokumenata pretraživanja B i upita O iz test kolekcije LBTOA. Za sve deO zahtjeve, formira se par sa svakim deD dokumentom. Za svaki takav par, IRS određuje vrijednosti relevantnosti koje se koriste za rangiranje rezultata pretraživanja. Da bi se procenio kvalitet rangiranja, sistem zahteva referentne vrednosti relevantnosti E za svaki par dokument-upit ^, e). U ove svrhe koriste se stručne procjene relevantnosti.

Za izvođenje istraživanja korišten je ISS u kojem se rangiranje vrši na osnovu N = 5 jednostavnih funkcija rangiranja SRFi (WC) l g = 1, N, koje čine vektorski kriterij optimalnosti:

gdje je WCe (WC) vektor varijabilnih parametara; (ŠS), (ÂB) su prostori parametara i vektorskih kriterijuma, respektivno.

Primjena genetskih algoritama za ML rangiranje omogućava maksimiziranje diskretnih metrika kvaliteta kao što je nDCG. nDCG metrika za rangiranje dokumenata u pretraživaču određuje se u skladu sa izrazom:

DCG @ n = X 2 ---

RF (q, d) = X WC. ■ SRF., I = 1 1 1

gdje je ocjena (p) prosječna ocjena relevantnosti koju su stručnjaci dali dokumentu koji se nalazi na poziciji p na listi rezultata, ocjena; 1 / log2 (2 + p) je koeficijent koji zavisi od pozicije dokumenta (prvi dokumenti imaju veću težinu).

Tada će normalizirana verzija NDCG biti napisana kao

N000 @ n = RSD @ n / g,

gdje je r faktor normalizacije, koji je jednak maksimalnoj mogućoj vrijednosti 0S [email protected] n za dati upit (tj. jednako OOO idealnog rangiranja).

Dakle, da bi se optimizirala (maksimizirala) metrika OSS-a, funkcija cilja (NM) će biti zapisana u sljedećem obliku

3. metrika kvaliteta rangiranja rezultata pretrage. Prilikom rangiranja dokumenata u rezultatima pretraživanja, metrika kvaliteta djeluje kao kriterij. Sa liste opšteprihvaćenih metrika za procenu kvaliteta sistema za pronalaženje informacija, odabrane su tri glavne koje procenjuju tačnost, relevantnost i potpunost preuzimanja informacija.

1. Kriterijum za tačnost pronalaženja informacija

gdje je a broj pronađenih relevantnih dokumenata, b je broj dokumenata koji se pogrešno smatraju relevantnim.

2. Bpref kriterij, koji procjenjuje relevantnost pronalaženja informacija, koristi se za obradu posla sa R relevantnim dokumentima i izračunava se po formuli

Bpref = - ^ (1 - Non Re ¡Before (r) / R). (4)

Ovdje r označava poznati relevantan dokument, a NonRelBefore (r) - broj poznatih irelevantnih dokumenata rangiranih više od r (samo prvi R procijenjenih irelevantnih dokumenata iz serije se uzima u obzir u proračunu).

3. Kriterij potpunosti rezultata pretraživanja

r = a / (a + c),

gdje je a broj pronađenih relevantnih dokumenata, c je broj nepronađenih relevantnih dokumenata.

4. Test kolekcije. U problemu mašinskog učenja, rangiranje zahteva skup dokumenata i upita sa odgovarajućim ocenama relevantnosti koje određuju stručnjaci. Ovi podaci se koriste za mašinsko učenje funkcije rangiranja kao i za procjenu kvaliteta.

rangiranje rezultata pretrage po sistemu. U procesu ML, zbirke testova se koriste kao skup za obuku i stoga imaju značajan uticaj na rezultate. Za istraživanje je korištena testna zbirka dokumenata i zahtjeva LETOR. Ova kolekcija se koristi za istraživanje pronalaženja informacija od strane Microsoft Research-a. Table 1 prikazuje karakteristike LETOR test kolekcija.

5. Modificirani genetski algoritam. Da bismo koristili genetske algoritme u rangiranju mašinskog učenja, problem mora biti formulisan na takav način da je rešenje kodirano kao vektor (genotip), gde svaki gen može biti bit, broj ili drugi objekat. U ovom slučaju, genotip je predstavljen vektorom težina za odgovarajuće faktore rangiranja. Uslov za zaustavljanje izvršavanja genetskog algoritma je pronalaženje optimalnog rješenja, iscrpljivanje broja generacija ili vremena predviđenog za evoluciju.

Treba napomenuti da su GA najefikasniji u traženju regiona globalnog ekstremuma, ali mogu sporo raditi kada je potrebno pronaći lokalni minimum u ovoj regiji. Predloženi način da se izbjegne ovaj nedostatak je kreiranje modificiranog genetskog algoritma (MGA), koji će se prebaciti na lokalni (brzi) algoritam optimizacije nakon pronalaženja globalne optimalne regije koristeći osnovni GA. Predloženi MGA je hibridna metoda zasnovana na klasičnom GA i Nelder-Mead metodi (simpleksni algoritam). Nelder-Meadova metoda, često korišteni algoritam nelinearne optimizacije, je numerička metoda za pronalaženje minimuma ciljne funkcije u višedimenzionalnom prostoru. Hibridni MGA algoritam predložen u ovom radu prelazi na Nelder-Mead metod nakon što su ispunjeni uslovi za zaustavljanje GA. Blok dijagram MGA algoritma je prikazan na Sl. 1.

Prilikom izvođenja istraživanja prihvaćeno je ograničenje broja proračuna funkcije cilja (Nrf = 16.000) pri traženju regiona globalnog ekstrema i uslov za prelazak na lokalni algoritam optimizacije zasnovan na Nelder-Mead metodi (nakon osnovni genetski algoritam je izvršio 75% Nrf operacija).

6. Rezultati. Kao rezultat istraživanja provedenog korištenjem algoritma mašinskog učenja

Tabela 1

Broj dokumenata i upita u kolekcijama testova

Naziv zbirke testova Naziv podsistema Broj zahtjeva Broj dokumenata

LETOR 4.0 MQ2007 1692 69623

LETOR 4.0 MQ2008 784 15211

LETOR 3.0 OHSUMED 106 16140

LETOR 3.0 Gov03td 50 49058

LETOR 3.0 Gov03np 150 148657

LETOR 3.0 Gov03hp 150 147606

LETOR 3.0 Gov04td 75 74146

LETOR 3.0 Gov04np 75 73834

LETOR 3.0 Gov04hp 75 74409

Rice. 1. Blok dijagram hibridnog MVL algoritma zasnovanog na genetskim algoritmima i Nelder-Mead metodi

Za rangiranje LTR-MGA, dobija se vektor težine WC * za funkciju rangiranja. Nadalje, na osnovu podataka iz LETOYA test kolekcije, ocijenjen je kvalitet rangiranja, za koji su izračunate metrike kvaliteta. Diskretna metrika kvaliteta rangiranja [email protected] ocjenjuje kvalitet prvih n dokumenata odgovora sistema. Općeprihvaćene metrike za procjenu kvaliteta rangiranja su [email protected], [email protected] i [email protected] Međutim, radi detaljnijeg razmatranja promjena u metrici ovisno o vrijednostima [email protected] za sve n od 1 do 10. Da bi se uporedila efikasnost razvijenog algoritma sa postojećim rešenjima, izvršena je komparativna analiza korišćenjem algoritama za rangiranje koji se nalaze u kolekciji LETOIA 3.0. Rezultati pokretanja algoritama za test kolekcije TB2003 i TB2004 za NDCG metriku prikazani su na Sl. 2. Rezultati pokazuju da LTR-MGA algoritam nadmašuje test algoritme, pri čemu su najveće vrijednosti

su za [email protected](na nivou prvog dokumenta). Superiornost LTR-MGA algoritma je zbog činjenice da se, za razliku od testnih funkcija rangiranja razmatranih u eksperimentima, u predloženom pristupu optimizacije funkcije rangiranja, kao ciljna funkcija koristi metrika NDCG.

Da bi se procenio kvalitet rangiranja pri korišćenju predloženog LTR-MGA algoritma, izračunate su vrednosti metrike kvaliteta za rangiranje dokumenata u rezultatima pretrage (slika 3). Poređenje rezultata rangiranja (Tablica 2) pri korištenju osnovne funkcije rangiranja, osnovnog LTR-GA algoritma i modificiranog LTR-MGA algoritma ukazuje na prednost potonjeg.

Osim toga, studija je procijenila vrijeme potrebno za rangiranje u MO. Ovo je neophodno da bi se potvrdilo da je predložena LTR-MGA metoda superiorna u ovom pokazatelju u odnosu na pristup zasnovan na upotrebi tradicionalnih

Rice. 2. Poređenje algoritama mašinskog učenja za rangiranje

prema NDCG metrici za test kolekcije: na lijevoj strani - Gov03td skup podataka, na desnoj - Gov04td skup podataka

Rice. 3. Procjena metrike kvaliteta rangiranja za osnovnu formulu rangiranja i algoritama učenja LTR-GA i LTR-MGA

metrika kvaliteta rangiranja za različite algoritme mašinskog učenja rangiranja

tabela 2

Metrika kvaliteta rangiranja Osnovna funkcija rangiranja LTR-GA LTR-MGA Povećanje metričke vrijednosti,%

Preciznost 0,201 0,251 0,267 26,81

[email protected](prvih 5 dokumenata) 0,149 0,31 0,339 90,47

[email protected](prvih 10 dokumenata) 0,265 0,342 0,362 29,14

Bpref 0,303 0,316 0,446 51,49

Kompletnost 0,524 0,542 0,732 39.03

* Najbolje vrijednosti za odgovarajuću metriku su označene sivom bojom

genetski algoritam luka (LTYA-OL). Rezultati poređenja vremena utrošenog na izvođenje algoritama LTY-OL i LTY-MOL prikazani su u tabeli. 3.

7. Zaključak. Tako su provedene studije pokazale da se korištenjem predloženog pristupa povećavaju vrijednosti razmatranih metrika rangiranja u ISS-u (u prosjeku za 19,55% u odnosu na LTL-OL algoritam). Ovo potvrđuje da LITA-MOL radi ispravno i značajno poboljšava funkciju rangiranja, odnosno uspješno rješava problem optimizacije. Korištenje modificiranog algoritma

Zbog primjene metode lokalne optimizacije i uvedenih ograničenja na broj proračuna funkcije cilja, vrijeme mašinskog učenja je smanjeno (u prosjeku za 17,71% u odnosu na korištenje tradicionalnog genetskog algoritma LTIAOL).

Razvijeni ML-MOL algoritam strojnog učenja za rangiranje može se koristiti u ISS-u koji koristi model rangiranja zasnovan na kombinaciji jednostavnih funkcija rangiranja. Međutim, treba uzeti u obzir neka ograničenja u primjeni predloženog pristupa. Na osnovu

Procjena vremena izvršenja rangiranja mašinskog učenja u zavisnosti od veličine uzorka za obuku

Tabela 3

Veličina zbirke tekstualnih dokumenata

Vrijeme isporuke LTR-GA

LTR-MGA Runtime

Smanjenje vremena izvršenja,%

Zlo

* Najbolje vrijednosti za odgovarajuću veličinu testne kolekcije su označene sivom bojom

Od dobijenih rezultata, otkriveno je da se nakon ML-a najveći porast bilježi metrika kvaliteta rangiranja, čija je vrijednost uzeta kao ciljna funkcija. U isto vrijeme, ostatak metrike možda neće imati značajno poboljšanje, au nekim slučajevima čak i pogoršati svoje vrijednosti. Kao jedan od mogućih pristupa otklanjanju ovog nedostatka, predlaže se rješavanje problema optimizacije kao višekriterijumski: jednoobrazno poboljšanje nekoliko glavnih metrika rangiranja rezultata pretraživanja, umjesto optimizacije jedne. Pored toga, u daljim studijama planira se razvoj metodologije za konstruisanje funkcije cilja na osnovu linearne konvolucije glavne metrike kvaliteta rangiranja kako bi se poboljšao proces pronalaženja informacija.

Bibliografska lista

1. Tie-Yan Liu. Učenje rangiranja za pronalaženje informacija // Osnove časopisa i trendovi u pronalaženju informacija. Vol. 3, broj 3. mart 2009. str. 225-331.

2. Christopher J. C. Burges, Tal Shaked, Erin Renshaw. Učenje rangiranja pomoću gradijentnog spuštanja // Proceeding ICML "05 Zbornik radova 22. međunarodne konferencije o mašinskom učenju. 2005. str. 89-96.

3. Semenikhin, SV Istraživanje pristupa mašinskom učenju za rangiranje dokumenata pomoću sistema pretraživanja zasnovanog na genetskim algoritmima / SV Semenikhin // Mlada Rusija: napredne tehnologije u industriji. - 2013. - br. 2. - Str. 82 - 85.

4. Višekriterijumska optimizacija zasnovana na genetskim algoritmima u sintezi upravljačkih sistema: monografija. / L. A. Denisova. - Omsk: Izdavačka kuća OmSTU, 2014.-- 170 str. - ISBN 978-5-8149-1822-2.

5. Denisova, L. A. Automatizacija parametarske sinteze upravljačkog sistema pomoću genetskog algoritma / L. A. Denisova, V. A. Meshcheryakov // Automatizacija u industriji. - 2012. - br. 7. - Str. 34 - 38.

6. Huber, Peter J. Robustna procjena parametra lokacije // Annals of Statistics. - 1964. - br. 53. - str. 73-101.

7. Semenikhin, S. V. Automatizacija pronalaženja informacija na temelju višekriterijumske optimizacije i genetskih algoritama / S. V. Semenikhin, L. A. Denisova // Dinamika sistema, mehanizama i strojeva. - 2014. - br. 3. - Str. 224 - 227.

8. Tie-Yan Liu, Jun Xu, Tao Qin, Wenying Xiong i Hang Li. LETOR: Benchmark Dataset for Research on Learning to Rank for Information Retrieval // SIGIR 2007 Workshop on Learning to Rank for Information Retrieval. - 2007.-- S. 3-10.

9. Ageev, M. S. Zvanična metrika ROMIP "2004 / M. S. Ageev, I. E Kuralenok // II Ruski seminar o procjeni metoda pronalaženja informacija (ROMIP 2004), Pushchino, 2004: tr.; Ed. S. Nekrest'yanova - Sankt Peterburg: Istraživački institut za hemiju, St. Petersburg State University - P. 142-150.

10. J. A. Nelder, R. Mead, Simpleksna metoda za minimizaciju funkcije, The Computer Journal 7 (1965). 308-313.

Svyatoslav Vitalievich SEMENIKHIN, postdiplomski student Katedre za automatsku obradu informacija i sisteme upravljanja. Adresa za korespondenciju: [email protected] DENISOVA Ljudmila Albertovna, doktor tehničkih nauka, vanredni profesor Katedre za automatizovanu obradu informacija i sisteme upravljanja. Adresa za korespondenciju: [email protected]

Ovo poglavlje predstavlja popularne metode za procjenu kvaliteta modela klasifikacije, koje se, između ostalog, koriste i u drugim radovima na ovu temu. Dat je njihov opis i opravdanje metrike korištene za ovu procjenu.

metrika procjene kvaliteta

Potpuna preciznost

Ova metrika je jedna od najjednostavnijih i istovremeno univerzalnih metrika za procjenu performansi klasifikacionih algoritama. Vrijednost ovog koeficijenta izračunava se kao udio ispravno klasificiranih objekata od ukupnog broja objekata u uzorku. Ova metrika je popularna zbog svoje jednostavnosti i mogućnosti proširenja na bilo koji broj klasa. Glavni nedostatak ove metrike je to što svim dokumentima dodeljuje istu težinu, što može biti netačno u slučaju jakog pomeranja dokumenata u setu za obuku prema jednoj ili više klasa. Ova metrika može imati visoku vrijednost, ali klasifikator unutar iste klase može pokazati izuzetno nizak kvalitet rada. Istovremeno, metrika to ni na koji način ne signalizira.

Preciznost, potpunost i F-mjera

metrike kao što su preciznost i pamćenje po prvi put su široko korištene u procjeni performansi sistema koji rješavaju probleme pronalaženja informacija. Tačnost sistema unutar jedne klase je udio objekata koji stvarno pripadaju određenoj klasi u odnosu na sve objekte koje je sistem dodijelio ovoj klasi. Kompletnost se izražava kao udio objekata pronađenih od strane klasifikatora koji pripadaju klasi u odnosu na sve objekte ove klase. Tabela 4 je kontingentna tabela posebne klase, gdje je TP (istinski pozitivan) istinito pozitivna odluka, TN (istinski negativan) je istinito negativna odluka, FP (lažno pozitivna) je lažno pozitivna odluka, a FN (lažno negativna) je lažna - negativna odluka.

Tabela 1 - Tabela kontingencije klase objekata

Dakle, preciznost i potpunost se izračunavaju kao:

F-mera kombinuje informacije o tačnosti i potpunosti evaluiranog algoritma. Izračunava se kao harmonični prosjek pokazatelja tačnosti i potpunosti:

Zbog činjenice da se F-mera izračunava posebno za svaku klasu, zgodno je koristiti je za pretraživanje i analizu specifičnih grešaka algoritma, za procenu klasifikacije sa više klasa. Štaviše, u slučaju velikog broja klasa potrebna je karakteristika koja bi agregirala kompletnost i tačnost za sve klase i karakterisala ukupno ponašanje sistema. U ovom radu u tu svrhu se koriste sljedeće agregirane vrijednosti: makro preciznost, koja se računa kao aritmetička sredina tačnosti za sve klase, makro opoziv, koja se računa kao aritmetička sredina potpunosti za sve klase, i makro F-mjera (Macro F-score), koja je harmonijska sredina između njih.

Unakrsna validacija

Unakrsna validacija je jedna od najčešćih metoda za provođenje potpunog testiranja i procjenu performansi različitih algoritama mašinskog učenja. Za nezavisni uzorak, ova metoda omogućava da se dobije nepristrasna procjena vjerovatnoće greške, za razliku od prosječne greške na obučenom uzorku, koja može biti pristrasna procjena vjerovatnoće greške zbog preopterećenja algoritma. Još jedna prednost ove procedure je mogućnost dobijanja procjene vjerovatnoće greške algoritma, u nedostatku posebno dizajniranog kontrolnog uzorka za testiranje.

Pretpostavimo da je to skup opisa karakteristika objekata, na kojima je specificiran konačni uzorak slučajeva upotrebe, gdje je konačan skup klasa. Navedeno je mapiranje koje dodeljuje algoritam proizvoljnom izboru slučajeva upotrebe. Tada se kvalitet algoritma za proizvoljni uzorak presedana procjenjuje korištenjem funkcionalne kvalitete:

gdje je neka nenegativna funkcija koja vraća vrijednost greške algoritma s ispravnom oznakom klase.