Mit jelent a minőségi mérőszám a gépi tanulásban? Rangsorképzés

A GoTo nyári iskola felvételi tesztjének feladatának előkészítése során azt találtuk, hogy gyakorlatilag nincs kvalitatív leírás a fő rangsorolási mérőszámokról oroszul (a probléma a rangsorolási probléma speciális esetére vonatkozott - egy ajánló algoritmus felépítésére). . Mi az E-Contentánál aktívan használunk különféle rangsorolási mérőszámokat, ezért úgy döntöttünk, hogy ennek a cikknek a megírásával orvosoljuk ezt a félreértést.

A rangsorolás feladata ma már mindenhol felmerül: weblapok rendezése adott keresési lekérdezés szerint, hírfolyam személyre szabása, videók, termékek, zenék ajánlása... Egyszóval dögös a téma. Még a gépi tanulásnak is van egy speciális iránya, amely az önálló tanulásra - rangsorolás tanulására - képes rangsoroló algoritmusok vizsgálatával foglalkozik. Ahhoz, hogy az algoritmusok és megközelítési módok széles skálájából a legjobbat válasszuk, meg kell tudniuk értékelni azok minőségét mennyiségileg. Az alábbiakban a leggyakoribb rangsorolási minőségi mutatókat tárgyaljuk.

Röviden a rangsorolás feladatáról

A rangsorolás a halmaz rendezésének feladata elemeket az ő okuk miatt relevanciáját... Leggyakrabban a relevanciát senkivel kapcsolatban értik tárgy... Például egy információkeresési feladatban egy objektum egy kérés, az elemek különféle dokumentumok (hivatkozások ezekre), a relevancia pedig egy dokumentum kérésnek való megfelelése, egy ajánlási feladatban egy objektum egy felhasználó, az elemek egy ill. egy másik ajánlott tartalom (termékek, videók, zene), és a relevancia annak a valószínűsége, hogy a felhasználó ezt a tartalmat használja (megvásárolja / kedveli / megtekinti).

Formálisan tekintsünk N objektumot és M elemet. Az objektum elemeinek rangsorolására szolgáló algoritmus munkájának eredménye egy olyan leképezés, amely minden elemhez súlyt rendel, amely jellemzi egy elem relevanciájának mértékét egy objektumhoz (minél nagyobb a súly, annál relevánsabb az objektum). Ebben az esetben a súlyok halmaza egy permutációt ad meg az elemek elemeinek halmazán (feltételezzük, hogy az elemek halmaza rendezett) a súly szerinti csökkenő sorrendbe rendezésük alapján.

A rangsorolás minőségének megítéléséhez szükség van egy bizonyos „standardra”, amellyel az algoritmus eredményeit összehasonlítani lehet. Tekintsük - a referencia relevancia függvényt, amely az elemek "valódi" relevanciáját jellemzi egy adott objektumhoz (- az elem ideális, - teljesen irreleváns), valamint a megfelelő permutációt (csökkenő sorrendben).

Két fő módja van annak beszerzésének:
1. Történelmi adatok alapján. Például a tartalmi ajánlások esetében figyelembe veheti a felhasználó nézeteit (lájkok, vásárlások), és a megfelelő elemek nézettségi súlyát 1 (), az összes többihez pedig 0-t rendelheti.
2. Szakértői vélemény alapján. Például egy keresési feladatban minden kérésnél bevonhat egy értékelői csoportot, akik manuálisan értékelik a dokumentumoknak a kérés szempontjából való relevanciáját.

Érdemes megjegyezni, hogy amikor csak szélsőséges értékeket vesz fel: 0 és 1, akkor a permutációt általában nem veszik figyelembe, és csak a releváns elemek halmazát veszik figyelembe.

A rangsor minőségi mérőszámának célja- annak meghatározása, hogy az algoritmus és a megfelelő permutáció által kapott relevancia pontszámok mennyiben felelnek meg igaz relevancia értékek. Tekintsük a főbb mutatókat.

Átlagos pontosság

Átlagos átlagos pontosság K ( [e-mail védett]) az egyik leggyakrabban használt rangsorolási minőségi mérőszám. Hogy megértsük, hogyan működik, kezdjük az „alapokkal”.

Megjegyzés: A „* precizitású” mérőszámokat bináris feladatokban használják, ahol csak két értéket vesz fel: 0 és 1.

Precizitás K-nál

Pontosság K-nál ( [e-mail védett]) - pontosság K elemen - egy objektum rangsorolási minőségének alapvető mérőszáma. Tegyük fel, hogy a rangsoroló algoritmusunk relevanciapontszámokat generált minden egyes tételhez. Az első, közülük legnagyobbat tartalmazó elemek kiválasztásával kiszámíthatja a relevánsak arányát. Pontosan ezt teszi a K pontossága:

Megjegyzés: azt az elemet értjük, amely a permutáció eredményeként a th pozícióba került. Tehát - a legnagyobb elemet, - a második legnagyobb elemet, és így tovább.

Átlagos pontosság K-nál

A K pontossága könnyen érthető és megvalósítható mérőszám, de van egy fontos hátránya - nem veszi figyelembe a "felső" tételek sorrendjét. Tehát, ha tíz elemből csak egyet tippeltünk ki, akkor teljesen mindegy, hogy hol volt: az elsőnél vagy az utolsónál. Ugyanakkor nyilvánvaló, hogy az első lehetőség sokkal jobb.

Ezt a hátrányt ellensúlyozza a rangsorolási mutató. átlagos pontosság K-nál ( [e-mail védett]) ami egyenlő az összeggel [e-mail védett] k indexekkel 1-től K-ig csak a releváns tételeknél osztva K-vel:

Tehát, ha három elem közül csak az utolsó helyen voltunk relevánsak, akkor ha csak azt tippeltük, amelyik az első helyen volt, akkor, és ha mindent sejtettünk, akkor.

Most és [e-mail védett] a fogainkban.

Átlagos pontosság K-nál

Átlagos átlagos pontosság K ( [e-mail védett]) az egyik leggyakrabban használt rangsorolási minőségi mérőszám. V [e-mail védett]és [e-mail védett] a rangsorolás minőségét egyetlen objektumra (felhasználó, keresési lekérdezés) értékelik. A gyakorlatban sok objektum létezik: több százezer felhasználóval, milliónyi keresési lekérdezéssel stb. Ötlet [e-mail védett] számolni [e-mail védett] minden objektumra és átlagra:

Megjegyzés: Ez az elképzelés meglehetősen logikus, feltételezve, hogy minden felhasználóra egyformán szükség van és egyformán fontos. Ha ez nem így van, akkor egyszerű átlagolás helyett használhat súlyozottat, szorozva [e-mail védett] minden tárgy súlya megfelel a „jelentőségének”.

Normalizált diszkontált kumulatív nyereség

Normalizált diszkontált kumulatív nyereség (nDCG) egy másik gyakori rangsorolási minőségi mutató. Mint [e-mail védett], kezdjük az alapokkal.

kumulatív nyereség K-nál

Tekintsünk ismét egy objektumot és a legnagyobb elemeket. kumulatív nyereség K ( [e-mail védett]) egy alapvető rangsorolási mérőszám, amely egy egyszerű ötletet használ: minél relevánsabbak a top elemek, annál jobb:

Ennek a mérőszámnak vannak nyilvánvaló hátrányai: nincs normalizálva, és nem veszi figyelembe a releváns elemek helyzetét.

Vegye figyelembe, hogy ezzel ellentétben [e-mail védett], [e-mail védett] nem bináris referencia relevanciaértékek esetén is használható.

Kedvezményes kumulatív nyereség a K-nál

Kedvezményes kumulatív nyereség K ( [e-mail védett]) - a kumulatív nyereség módosítása K-nál, figyelembe véve az elemek sorrendjét a listában úgy, hogy az elem relevanciáját megszorozzuk a pozíciószám inverz logaritmusával egyenlő súllyal:

Megjegyzés: ha csak a 0 és 1 értékeket veszi fel, akkor, és a képlet egyszerűbb formát ölt:

A logaritmus diszkontálási függvényként való alkalmazása a következő intuitív okokkal magyarázható: a rangsorolás szempontjából a lista elején lévő pozíciók sokkal jobban különböznek, mint a lista végének. Tehát egy kereső esetében az 1-es és a 11-es pozíció között egy egész szakadék tátong (százból csak néhány esetben lép be egy felhasználó a keresési eredmények első oldalára), és nincs sok különbség 101. és 111. pozíció – kevesen érik el őket. Ezeket a szubjektív megfontolásokat logaritmus segítségével szépen kifejezzük:

A diszkontált kumulatív nyereség megoldja a releváns elemek helyzetének figyelembevételének problémáját, de csak súlyosbítja a problémát a normalizálás hiányával: ha a határokon belül változik, akkor már egy nem teljesen világos szegmensben vesz fel értékeket. A következő mérőszám ezt a problémát hivatott megoldani.

Normalizált diszkontált kumulatív nyereség K-nál

Ahogy a névből sejthető, normalizált diszkontált kumulatív nyereség K ( [e-mail védett]) - nem más, mint egy normalizált változat [e-mail védett]:

hol a maximális (I - ideális) érték. Mivel megegyeztünk abban, hogy értékeket vesz fel, akkor.

Így az elemek listában elfoglalt helyzetének figyelembevételéből örökli, és ugyanakkor 0 és 1 közötti értékeket vesz fel.

Megjegyzés: analógiával [e-mail védett] kiszámítható, átlagolható minden objektumra.

Átlagos kölcsönös rang

Átlagos kölcsönös rang (MRR) egy másik gyakran használt rangsorolási minőségi mutató. Ezt a következő képlet adja meg:

ahol - kölcsönös rang a th objektum - egy nagyon egyszerű, lényegében értéke egyenlő az első helyesen kitalált elem inverz rangja.

Az átlagos reciprok rang tartományban változik, és figyelembe veszi az elemek helyzetét. Sajnos ezt csak egy elemre teszi - az első helyesen megjósolt elemre, nem figyelve az összes későbbi elemre.

Rangkorrelációs mérőszámok

Külön érdemes kiemelni az egyik együttható alapján a rangsor minőségi mérőszámait rangkorreláció... A statisztikában a rangkorrelációs együttható olyan korrelációs együttható, amely nem magát az értékeket veszi figyelembe, hanem csak azok rangját (sorrendjét). Tekintsük a két leggyakoribb rangkorrelációs együtthatót: Spearman-féle és Kendall-féle.

Kendall rangkorrelációs együtthatója

Ezek közül az első a Kendall-féle korrelációs együttható, amely a konzisztens számításán alapul
(és nem illő) permutációpárok - olyan elempárok, amelyekhez a permutációkat azonos (más) sorrendben rendelték hozzá:

Spearman rangkorrelációs együtthatója

A második - Spearman rangkorrelációs együtthatója - valójában nem más, mint Pearson korrelációja, amelyet a rangok értékei alapján számítanak ki. Van egy meglehetősen kényelmes képlet, amely közvetlenül a rangokból fejezi ki:

ahol a Pearson-korrelációs együttható.

A rangkorrelációs metrikáknak van egy hátránya, amit már ismerünk: nem veszik figyelembe az elemek helyzetét (még rosszabb, mint [e-mail védett] mivel a korrelációt minden elemre számítjuk, a legmagasabb rangú K elemre nem). Ezért a gyakorlatban rendkívül ritkán használják őket.

Lépcsőzetes metrikák

Eddig a pontig nem foglalkoztunk azzal, hogy a felhasználó (továbbiakban az objektum egy speciális esetét - a felhasználót) hogyan tanulmányozza a neki felkínált elemeket. Valójában hallgatólagosan azt a feltételezést hoztuk, hogy az egyes elemek megtekintésekor független más elemek megtekintésétől - egyfajta "naivitás". A gyakorlatban azonban gyakran egyenként nézi meg a felhasználó az elemeket, és az, hogy a felhasználó megnézi-e a következő elemet, attól függ, mennyire elégedett az előző elemekkel. Vegyünk egy példát: egy keresési lekérdezésre válaszul a rangsoroló algoritmus több dokumentumot kínált a felhasználónak. Ha az 1. és 2. pozícióban lévő dokumentumok rendkívül relevánsnak bizonyultak, akkor kicsi annak a valószínűsége, hogy a felhasználó a 3. pozícióban tekintse meg a dokumentumot, mert az első kettővel egészen elégedett lesz.

Hasonló felhasználói viselkedési modelleket, ahol a számára javasolt elemek tanulmányozása szekvenciálisan történik, és az elem megtekintésének valószínűsége az előzőek relevanciájától függ, ún. lépcsőzetes.

Várható kölcsönös rang

Várható kölcsönös rang (ERR)- egy példa egy vízesés-modell alapján rangsoroló minőségi mutatóra. Ezt a következő képlet adja meg:

ahol a rangot csökkenő sorrendben értjük. A legérdekesebb dolog ebben a mérőszámban a valószínűségek. Kiszámításuk során a kaszkádmodell feltevéseit használjuk:

ahol annak a valószínűsége, hogy a felhasználó elégedett lesz a rangú objektummal. Ezeket a valószínűségeket értékek alapján számítják ki. Mivel esetünkben megfontolhatunk egy egyszerű lehetőséget:

amely így olvasható: az elem valódi relevanciája a pozícióban Végezetül itt van néhány hasznos link.

Az egyes listákon belüli elemeken. A részleges sorrendet általában úgy határozzák meg, hogy minden elemhez pontszámot adnak meg (például "releváns" vagy "nem releváns"; kettőnél több osztályzat is lehetséges). A rangsorolási modell célja, hogy a legjobb módon (bizonyos értelemben) közelítse és általánosítsa a rangsorolás módszerét az új adatok képzési halmazában.

A rangsorolás még mindig egy meglehetősen fiatal, gyorsan fejlődő kutatási terület, amely a 2000-es években jelent meg, amikor az információ-visszakeresés iránti érdeklődés felkelt a gépi tanulási módszerek rangsorolási problémákra való alkalmazása terén.

Főiskolai YouTube

1 / 5
A rangsorolási modell betanítása és működése során minden dokumentum-kérés pár a dokumentum tulajdonságait, a kérést és ezek kapcsolatát jellemző rangsorolási jellemzők (más néven rangsorolási tényezők vagy jelek) numerikus vektorává alakul. Az ilyen jelek három csoportra oszthatók:

Íme néhány példa a szakterületen széles körben ismert LETOR adatkészletben használt rangsorolási jellemzőkre:
- A TF, TF-IDF, BM25 mértékértékei és a dokumentum különböző területeinek (cím, URL, törzsszöveg, linkszöveg) kérésének megfeleltetésének nyelvi modellje;
- A dokumentumzónák hossza és IDF-összege;
- A hivatkozás-rangsorolási algoritmusok különféle változatai, például a PageRank és a HITS által elért dokumentumok rangsorai.
Minőségi mutatók rangsorolása

Számos mérőszám van, amely értékeli és összehasonlítja a rangsoroló algoritmusok teljesítményét egy mintán az értékelőkkel. A rangsorolási modell paramétereit gyakran úgy állítják be, hogy az egyik ilyen mérőszám értékét maximalizálják.
Példák mérőszámokra:

Algoritmus osztályozás

Tai-Yang Liu, a Microsoft Research Asia munkatársa a „Learning to Rank for Information Retrieval” című cikkében és a tematikus konferenciákon elhangzott beszédeiben elemezte a tanítási rangsorolás problémájának megoldására szolgáló meglévő módszereket, és három megközelítésbe való besorolását javasolta a használt bemeneti reprezentációtól függően. adatok és büntetés függvények:

Pontszerű megközelítés

Jegyzetek (szerkesztés)
1. Tie-Yan Liu (2009), Rangsorolás megtanulása az információkereséshez, Foundations and Trends in Information Retrieval: Vol. 3: 3. sz. 225-331, ISBN 978-1-60198-244-5, DOI 10.1561 / 1500000016... Elérhetők T. Lew 2009-es WWW-n elmondott beszédének diákjai.
Szia Habr!

A gépi tanulási feladatokban a metrikákat a modellek minőségének felmérésére és a különböző algoritmusok összehasonlítására használják, ezek kiválasztása és elemzése pedig elengedhetetlen része az adatszakértő munkájának.

Ebben a cikkben megvizsgálunk néhány minőségi kritériumot az osztályozási problémákban, megvitatjuk, mi a fontos a mérőszám kiválasztásakor, és mi hibázhat.

Metrikák az osztályozási problémákban

Hasznos funkciók bemutatására sklearnés a mérőszámok vizuális megjelenítése, adatkészletünket egy távközlési szolgáltató ügyfeleinek lemorzsolódására fogjuk használni, amellyel a tanfolyam első cikkében találkoztunk.

Töltsük be a szükséges könyvtárakat és nézzük meg az adatokat
Pandák importálása pd-ként import matplotlib.pyplot plt-ként a matplotlib.pylab import rc-ből, plot import seaborn-ként sns-ként a sklearn.preprocessing-ből import LabelmbleEncoder, OneHotEncoder a sklearn.model_selection-ból import cross_val_score from sklearn.linear_modelresports Grafikus_modellresportln. from sklearn.model_selection import train_test_split df = pd.read_csv ("../../ data / telecom_churn.csv")
Df.head (5)
Adatok előfeldolgozása
# Készítsünk # bináris oszlopok leképezését, és kódoljuk az állapotot álkódolással (az egyszerűség kedvéért fa modelleknél jobb, ha ezt nem tesszük) d = ("Igen": 1, "Nem": 0) df ["Nemzetközi terv "] = df [" Nemzetközi terv "]. Térkép (d) df [" Hangposta terv "] = df [" Hangposta terv "]. Térkép (d) df [" Lemorzsolódás "] = df [" Lemorzsolódás "] . Astype (" int64 " ) le = LabelEncoder () df ["State"] = le.fit_transform (df ["State"]) ohe = OneHotEncoder (sparse = False) encoded_state = ohe.fit_transform (df ["Állapot"] . values.reshape (- 1, 1)) tmp = pd.DataFrame (kódolt_állapot, oszlopok = ["állapot" + str (i) for i tartományban (encoded_state.shape)]) df = pd.concat (, tengely = 1)

Pontosság, precizitás és felidézés

Mielőtt rátérnénk magukra a metrikákra, be kell vezetnünk egy fontos fogalmat ezeknek a mérőszámoknak az osztályozási hibák szempontjából történő leírására - zavart mátrix(hibamátrix).
Tegyük fel, hogy van két osztályunk és egy algoritmusunk, amely megjósolja az egyes objektumok valamelyik osztályhoz való tartozását, akkor az osztályozási hibamátrix így fog kinézni:

Valódi pozitív (TP) Hamis pozitív (FP)
Hamis negatív (FN) Valódi negatív (TN)
ez az algoritmus válasza az objektumra, és

A valódi osztálycímke ezen az objektumon.
Így az osztályozási hibáknak két típusa van: hamis negatív (FN) és hamis pozitív (FP).

Algoritmus betanítás és a hibamátrix felépítése
X = df.drop ("Churn", tengely = 1) y = df ["Churn"] # Ossza fel a mintát vonatra és tesztelje, az összes metrika kiértékelésre kerül az X_train, X_test, y_train, y_test = train_test_split ( X, y , stratify = y, test_size = 0,33, random_state = 42) # A natív logisztikus regresszió betanítása lr = Logisztikai regresszió (random_state = 42) lr.fit (X_train, y_train) # A függvény segítségével állítsa össze a hibamátrixot a sklearn-ból documentation def plot_confusion_matrix (cm, classes , normalize = False, title = "(! LANG: Zavaros mátrix", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="Zavart mátrix") plt.savefig("conf_matrix.png") plt.show()!}

Pontosság

Egy intuitív, nyilvánvaló és szinte használaton kívüli mérőszám a pontosság - az algoritmus helyes válaszainak százalékos aránya:

Ez a mérőszám nem használható egyenlőtlen osztályokkal kapcsolatos problémák esetén, és könnyen bemutatható egy példával.

Tegyük fel, hogy szeretnénk értékelni egy spam szűrő teljesítményét. 100 nem spam e-mailünk van, amelyek közül 90-et osztályozónk azonosított helyesen (igaz negatív = 90, hamis pozitív = 10) és 10 spam e-mail, amelyek közül 5-öt az osztályozó is helyesen azonosított (igaz pozitív = 5, hamis negatív = 5 ) .
Akkor pontosság:

Ha azonban egyszerűen az összes e-mailt nem spamnek számítjuk, akkor nagyobb pontosságot kapunk:

Ugyanakkor a modellünknek egyáltalán nincs prediktív ereje, mivel eredetileg a spam üzeneteket szerettük volna azonosítani. Ennek leküzdésében segítségünkre lesz az átállás az összes osztályra vonatkozó közös mérőszámról az osztályok minőségének külön mutatóira.

Precízió, visszahívás és F-mérés

Az algoritmus teljesítményének értékeléséhez az egyes osztályokon külön bemutatjuk a precíziós és visszahívási mérőszámokat.

A precizitás úgy értelmezhető, mint az osztályozó által pozitívnak nevezett és egyben valóban pozitívnak nevezett objektumok aránya, a visszahívás pedig megmutatja, hogy az algoritmus egy pozitív osztályba tartozó összes objektum közül milyen arányban talált pozitív osztályba tartozó objektumokat.

A pontosság bevezetése az, ami nem teszi lehetővé, hogy minden objektumot egy osztályba írjunk, mivel ebben az esetben a False Positive szint növekedését kapjuk. A visszahívás bemutatja az algoritmus azon képességét, hogy általánosságban képes észlelni egy adott osztályt, a pontosság pedig azt, hogy képes megkülönböztetni ezt az osztályt a többi osztálytól.

Amint azt korábban megjegyeztük, az osztályozási hibáknak két típusa van: hamis pozitív és hamis negatív. A statisztikákban az első típusú hibát I. típusú hibának, a másodikat II. típusú hibának nevezik. Az előfizetői lemorzsolódás meghatározásának problémájában az első fajta hiba az lesz, hogy hűséges előfizetőt fogadunk el egy kimenőért, mivel nullhipotézisünk szerint egyik előfizető sem távozik, és ezt a hipotézist elvetjük. Ennek megfelelően a második típusú hiba a kimenő előfizető "kihagyása" és a nullhipotézis hibás elfogadása lesz.

A pontosság és a visszahívás a pontossággal ellentétben nem függ az osztályok arányától, ezért alkalmazható a kiegyensúlyozatlan minták körülményei között.
A gyakorlatban gyakran az a feladat, hogy megtaláljuk az optimális (az ügyfél számára) egyensúlyt e két mérőszám között. Klasszikus példa erre a vásárlói lemorzsolódás meghatározásának problémája.
Nyilvánvalóan nem találjuk mindenböl kimenő ügyfelek és csak az övék. De miután azonosítottuk az ügyfélmegtartás stratégiáját és erőforrásait, kiválaszthatjuk a szükséges pontossági és visszahívási küszöböket. Például összpontosíthat arra, hogy csak a magas hozamú ügyfeleket tartsa meg, vagy azokat, akik nagyobb valószínűséggel tesznek jelentést, mivel a call center erőforrásai korlátoznak bennünket.

Általában egy algoritmus hiperparamétereinek optimalizálásakor (például rácson keresztüli iteráció esetén GridSearchCV), egy mérőszámot használunk, amelynek javulását a tesztmintán várjuk.
Számos különböző módszer létezik a pontosság és a visszahívás egyesítésére a minőség összesített mérőszámává. F-mérték (általában

) - harmonikus középpontosság és visszahívás:

ebben az esetben meghatározza a pontosság súlyát a metrikában és for

ez a harmonikus átlag (2-es szorzóval, így pontosság = 1 és visszahívás = 1 esetén

)
Az F-mérték akkor éri el a maximumát, ha a teljesség és a pontosság eggyel egyenlő, és közel nullához, ha az egyik argumentum nullához közeli.
A Sklearn rendelkezik egy praktikus _metrics.classification funkcióval jelentés visszahívás, pontosság és F-mérték az egyes osztályokhoz, valamint az egyes osztályok példányainak száma.
Jelentés = classification_report (y_teszt, lr.predict (X_teszt), target_names = ["Nem lemorzsolódott", "lemorzsolódott"]) nyomtatás (jelentés)
osztály pontosság visszahívás f1-pontszám támogatás
Nem összetört 0.88 0.97 0.93 941
Összetört 0.60 0.25 0.35 159
átlag / összesen 0.84 0.87 0.84 1100
Itt kell megjegyezni, hogy a gyakorlatban érvényesülő, kiegyensúlyozatlan osztályokkal kapcsolatos problémák esetén gyakran szükséges az adathalmaz mesterséges módosításának technikáihoz folyamodni az osztályok arányának kiegyenlítése érdekében. Sok van belőlük, és ezekre nem térünk ki, megnézhet néhány módszert, és kiválaszthatja a feladatának megfelelőt.

AUC-ROC és AUC-PR

Amikor az algoritmus valós válaszát (általában egy osztályhoz való tartozás valószínűségét, lásd külön az SVM-et) bináris címkévé alakítjuk, választanunk kell valamilyen küszöböt, amelynél 0-ból 1 lesz. A 0,5-tel egyenlő küszöb természetesnek és közelinek tűnik , de nem mindig bizonyul optimálisnak, például az osztályegyensúly már említett hiányában.

A modell egészének értékelésének egyik módja, anélkül, hogy egy adott küszöbhöz kötnénk, az AUC-ROC (vagy ROC AUC) - terület ( A rea U nder C urve) a hibagörbe alatt ( R vevő O perating C karakterisztikus görbe). Ez a görbe egy (0,0) és (1,1) közötti egyenes a valódi pozitív arány (TPR) és a hamis pozitív arány (FPR) koordinátáiban:

A TPR-t már ismerjük, ez a teljesség, és az FPR megmutatja, hogy a negatív osztályba tartozó objektumok mekkora hányadát jósolta hibásan az algoritmus. Ideális esetben, ha az osztályozó nem hibázik (FPR = 0, TPR = 1), akkor a görbe alatti területet eggyel kapjuk meg, ellenkező esetben, amikor az osztályozó véletlenszerűen adja ki az osztályvalószínűségeket, az AUC-ROC 0,5-re hajlik, mivel az osztályozó ugyanannyi TP-t és FP-t ad ki.
A grafikon minden pontja megfelel egy bizonyos küszöb kiválasztásának. A görbe alatti terület ebben az esetben az algoritmus minőségét mutatja (a több jobb), emellett fontos magának a görbének a meredeksége is – az FPR minimalizálásával szeretnénk maximalizálni a TPR-t, ami azt jelenti, hogy a görbénk ideális esetben az pont (0,1).

ROC görbe rajz kódja
Sns.set (font_scale = 1,5) sns.set_color_codes ("némított") plt.figure (figsize = (10, 8)) fpr, tpr, thresholds = roc_curve (y_test, lr.predict_proba (X_test) [:, 1] pos_label = 1) lw = 2 plt.plot (fpr, tpr, lw = lw, címke = "ROC görbe") plt.plot (,) plt.xlim () plt.ylim () plt.xlabel ("Hamis pozitív arány ") plt.ylabel (" Valódi pozitív arány ") plt.title (" ROC görbe ") plt.savefig (" ROC.png ") plt.show ()

Az AUC-ROC kritérium ellenáll a kiegyensúlyozatlan osztályoknak (spoiler: sajnos, de nem minden olyan egyértelmű), és úgy értelmezhető, mint annak valószínűsége, hogy egy véletlenszerűen kiválasztott pozitív objektumot az osztályozó magasabbra rangsorol (nagyobb a valószínűsége annak, hogy pozitív), mint egy véletlenszerűen kiválasztott negatív objektum.

Tekintsük a következő problémát: 1 millió dokumentum közül 100 releváns dokumentumot kell kiválasztanunk. Két algoritmust sajátítottunk el:
- 1. algoritmus 100 dokumentumot ad vissza, ebből 90 releváns. Ily módon
- 2. algoritmus 2000 dokumentumot ad vissza, ebből 90 releváns. Ily módon
Valószínűleg az első olyan algoritmust választanánk, amely versenytársához képest nagyon kevés téves pozitívumot produkál. De a különbség a hamis pozitív arányban a két algoritmus között rendkívül kicsi - csak 0,0019. Ez annak a következménye, hogy az AUC-ROC a hamis pozitív arányát méri az igaz negatívhoz viszonyítva, és azokban a problémákban, ahol a második (nagyobb) osztály nem annyira fontos számunkra, előfordulhat, hogy nem ad teljesen megfelelő képet az algoritmusok összehasonlításakor. .

A helyzet javítása érdekében térjünk vissza a teljességhez és a pontossághoz:
- 1. algoritmus
- 2. algoritmus
Itt már észrevehető egy jelentős különbség a két algoritmus között - 0,855 a pontosság!

A pontosságot és a visszahívást is használják a görbe felépítéséhez, és az AUC-ROC-hoz hasonlóan az alatta lévő terület megkereséséhez.

Itt megjegyezhető, hogy kis adathalmazokon a PR-görbe alatti terület túlzottan optimista lehet, mert trapéz módszerrel számítják, de általában elegendő adat van az ilyen feladatokban. Az AUC-ROC és az AUC-PR kapcsolatával kapcsolatos részletekért lásd itt.

Logisztikai veszteség

A logisztikai veszteségfüggvény különbözik egymástól, a következőképpen definiálva:

ez az algoritmus válasza

Ohm tárgy,

igazi osztálycímke rajta

Ohm tárgy, és

minta nagysága.

A logisztikai veszteségfüggvény matematikai értelmezésével kapcsolatban a lineáris modellekről szóló bejegyzés keretében már írtak részleteket.
Ez a mérőszám ritkán jelenik meg az üzleti követelményekben, de gyakran a kaggle feladatokban.
Intuitív módon a logloss minimalizálása úgy is felfogható, mint a téves előrejelzések büntetésével a pontosság maximalizálása. Meg kell azonban jegyezni, hogy a logloss rendkívül erősen bünteti az osztályozó rossz válaszba vetett bizalmát.

Nézzünk egy példát:
Def logloss_crutch (y_true, y_pred, eps = 1e-15): return - (y_true * np.log (y_pred) + (1 - y_true) * np.log (1 - y_pred)) print ("Blogloss bizonytalan osztályozással% f "% logloss_crutch (1, 0,5)) >> Logloss bizonytalan besorolással 0,693147 print (" Logloss magabiztos besorolással és helyes válasszal% f "% logloss_crutch (1, 0,9)) >> Logloss megbízható minősítéssel és helyes válasszal 0,105361 print (" Logloss magabiztos besorolással és rossz válasszal% f "% logloss_crutch (1, 0.1)) >> Logloss magabiztos besorolással és rossz válasszal 2.302585
Figyeld meg, hogy a logloss drámaian megnőtt egy helytelen válasz és egy magabiztos besorolás miatt!
Következésképpen egy objektum hibája a teljes mintahiba jelentős romlását eredményezheti. Az ilyen objektumok gyakran kiugró értékek, amelyeket emlékezni kell a szűrésre vagy külön kell figyelembe venni.
Minden a helyére kerül, ha logloss grafikont rajzol:

Látható, hogy minél közelebb van a nullához az algoritmus válasza alapigazság = 1 esetén, annál nagyobb a hibaérték és annál meredekebb a görbe.

Összegezve:
- Többosztályos besorolás esetén gondosan figyelni kell az egyes osztályok mérőszámait, és követni kell a döntés logikáját. feladatokat a mutató optimalizálása helyett
- Egyenlőtlen osztályok esetén ki kell választani a képzési osztályok egyensúlyát és egy olyan mérőszámot, amely megfelelően tükrözi az osztályozás minőségét
- A mérőszám kiválasztásánál a tárgyterületre, az adatok előfeldolgozására és esetleg szegmentálására kell összpontosítani (mint a gazdag és szegény ügyfelekre való felosztás esetén)
Hasznos Linkek
1. Jevgenyij Szokolov tanfolyama: Szeminárium a modellválasztásról (a regressziós problémák mérőszámairól van információ)
2. Problémák az AUC-ROC-nál az A.G. Dyakonova
3. A kaggle egyéb mutatóiról bővebben olvashat. Az egyes mérőszámok leírásához hozzáadtunk egy linket a versenyhez, ahol ezt használták
4. Bogdan Melnik aka ld86 előadása a kiegyensúlyozatlan mintákon végzett képzésről
UDC 519.816

S. V. SEMENIKHIN L. A. DENISOVA

Omszki Állami Műszaki Egyetem

RANGE GÉPI TANULÁSI MÓDSZER

AZ YRSO-MÉTRIA MÓDOSÍTOTT GENETIKAI ALGORITMUSÁN ALAPJÁN

Megfontolásra kerül a dokumentumok információs keresési eredményoldalon történő rangsorolásának problémája, valamint a rangsorolás gépi tanulási kérdései. Javasolunk egy megközelítést a rangsorolási függvény optimalizálására egy módosított genetikai algoritmuson alapuló NOCO minőségi metrika használatával. A kifejlesztett algoritmusok kutatását elvégeztem (LETO ^ tesztgyűjteményeken, és bemutatták azok hatékonyságát a rangsorolás gépi tanulásában.

Kulcsszavak: információkeresés, gépi tanulási rangsor, relevancia, optimalizálás, genetikai algoritmusok.

1. Bemutatkozás. A modern információkereső rendszerekben (ISS) a rendszer által kezelt adatmennyiség olyan nagy, hogy a kulcsfeladat a releváns dokumentumok rangsorolása a felhasználó keresési lekérdezése alapján. Az ISS fejlődésének ezen szakaszában a gépi tanulás (ML) rangsorolása a legnagyobb érdeklődésre számot tartó. Az ML jelenlegi, numerikus módszereken (különösen gradiens módszereken) vagy analitikus számításokon alapuló megközelítéseinek számos hátránya van, amelyek jelentősen befolyásolják az információkeresés minőségét és a releváns dokumentumok rangsorolásához szükséges időt.

A kutatás elején a gépi tanulási rangsorolás listás megközelítéseit vették figyelembe, amelyek többsége a gradiens süllyedés módszerét alkalmazza. A vizsgált munkákban az ML a keresési minőségi metrikák (SEQ) optimalizálására redukálódik, de csak a folytonos függvények által képviselt metrikákat használjuk. Ez a korlát gyakran oda vezet, hogy az optimalizálás eredményeként a rangsoroló függvény számos fontos elfogadott mutatónál (DCG, nDCG, Graded Mean Reciprocal Rank, stb.) alacsonyabb pontszámot ér el, amelyek diszkrét függvények. A cikk genetikai algoritmusok (GA) használatát javasolja a rangsorolás tanításában, hogy minimalizálják a Huber-féle veszteségfüggvényt, referenciaértékként releváns szakértői értékeléseket használva. Javasoltak egy olyan megközelítést is az ML-hez, amely az információ-visszakeresési minőség diszkrét metrikáinak optimalizálására épül.

2. A gépi tanulási rangsorolás problémájának megfogalmazása. A legtöbb modern információkereső rendszerben a rangsorolási függvény n egyszerű rangsorolási függvény (PRF) alapján épül fel, és a következőképpen írható fel:

ahol SRF¡ a d dokumentum és q lekérdezés ¡. egyszerű rangsoroló függvénye, WCi a ¡. egyszerű rangsoroló függvény súlyozási együtthatója, n a PRF-ek száma a rangsoroló rendszerben.

A rangsoroláshoz szükséges gépi tanulás során az LBTOA tesztgyűjteményből származó B keresési dokumentumok és O lekérdezések készletét használtuk. Minden deO kérés esetén minden deD dokumentumhoz egy pár jön létre. Az IRS minden ilyen pár esetében meghatározza a keresési eredmények rangsorolásához használt relevanciaértékeket. A rangsorolás minőségének értékelése érdekében a rendszer minden dokumentum-lekérdezés párhoz ^, e) referencia-relevanciaértékeket igényel; Ebből a célból releváns szakértői értékeléseket használnak.

A vizsgálathoz egy ISS-t használtunk, amelyben N = 5 SRFi (WC) l г = 1, N egyszerű rangsoroló függvény alapján készült a rangsor, amelyek vektoroptimalitási kritériumot alkotnak:

ahol WCе (WC) a változó paraméterek vektora; (ШС), (ЯБ) a paraméterek, illetve a vektorkritériumok terei.

A genetikai algoritmusok alkalmazása az ML-rangsoroláshoz lehetővé teszi az olyan diszkrét minőségi mutatók maximalizálását, mint az nDCG. A keresőmotorban a dokumentumok rangsorolására szolgáló nDCG mérőszám a következő kifejezéssel összhangban kerül meghatározásra:

DCG @ n = X 2 ---

RF (q, d) = X WC. ■ SRF., I = 1 1 1

ahol (p) a szakértők által az eredménylista p pozíciójában található dokumentumra adott átlagos relevanciapontszám, osztályzat; 1 / log2 (2 + p) a dokumentum helyzetétől függő együttható (az első dokumentumok nagyobb súlyúak).

Ezután az NDCG normalizált verziója így lesz megírva

N000 @ n = RSD @ n / g,

ahol r a normalizálási tényező, amely egyenlő a maximálisan lehetséges 0С értékkel [e-mail védett] n egy adott lekérdezésnél (azaz egyenlő az ideális rangsor OOO-jával).

Így az OSS metrikájának optimalizálása (maximalizálása) érdekében a célfüggvényt (NM) a következő formában írjuk fel

3. A keresési eredmények rangsorolásának minőségi mérőszámai. A keresési eredmények között a dokumentumok rangsorolásakor a minőségi mutatók kritériumként működnek. Az információkereső rendszerek minőségének felmérésére szolgáló, általánosan elfogadott mérőszámok listájából három főt választottak ki, amelyek az információkeresés pontosságát, relevanciáját és teljességét értékelik.

1. Az információ-visszakeresés pontosságának kritériuma

ahol a a talált releváns dokumentumok száma, b a tévesen relevánsnak ítélt dokumentumok száma.

2. A Bpref kritérium, amely az információkeresés relevanciáját értékeli, egy R releváns dokumentummal rendelkező munka feldolgozására szolgál, és a képlet alapján kerül kiszámításra.

Bpref = - ^ (1 - Non Re ¡Before (r) / R). (4)

Itt r egy ismert releváns dokumentumot jelöl, a NonRelBefore (r) pedig az r-nél magasabb rangú ismert irreleváns dokumentumok számát (a futásból származó becsült irreleváns dokumentumok közül csak az első R-t veszik figyelembe a számításban).

3. A keresési eredmények teljességének kritériuma

r = a / (a + c),

ahol a a talált releváns dokumentumok száma, c a nem talált releváns dokumentumok száma.

4. Tesztgyűjtemények. Gépi tanulási problémák esetén a rangsoroláshoz egy sor dokumentumra és lekérdezésre van szükség a szakértők által meghatározott megfelelő relevanciapontokkal. Ezeket az adatokat a rangsorolási függvény gépi tanulására, valamint minőségértékelésre használják fel.

a keresési eredmények rendszer szerinti rangsorolása. Az ML folyamatban a tesztgyűjteményeket képzési készletként használják, és ezért jelentős hatást gyakorolnak az eredményekre. A kutatáshoz dokumentumok és kérések tesztgyűjteményét, a LETOR-t használtuk. Ezt a gyűjteményt a Microsoft Research információ-visszakeresési kutatásaihoz használja. asztal Az 1. ábra a LETOR tesztgyűjtemények jellemzőit mutatja be.

5. Módosított genetikai algoritmus. A gépi tanulás rangsorolásában genetikai algoritmusok használatához a problémát úgy kell megfogalmazni, hogy a megoldás vektorként (genotípusként) legyen kódolva, ahol minden gén lehet bit, szám vagy más objektum. Ebben az esetben a genotípust a megfelelő rangsorolási tényezők súlyvektora képviseli. A genetikai algoritmus végrehajtásának leállításának feltétele az optimális megoldás megtalálása, a generációk számának vagy az evolúcióra szánt idő kimerülése.

Megjegyzendő, hogy a GA-k a leghatékonyabbak a globális szélsőség régiójának keresésében, azonban lassan működhetnek, ha ebben a régióban lokális minimumot kell találni. E hátrány elkerülésének javasolt módja egy módosított genetikai algoritmus (MGA) létrehozása, amely helyi (nagy sebességű) optimalizálási algoritmusra vált, miután megtalálta a globális optimum régiót az alap GA használatával. A javasolt MGA egy hibrid módszer, amely a klasszikus GA-n és a Nelder-Mead módszeren (simplex algoritmus) alapul. A Nelder - Mead módszer, egy gyakran használt nemlineáris optimalizáló algoritmus, egy numerikus módszer a célfüggvény minimumának meghatározására többdimenziós térben. Az ebben a cikkben javasolt hibrid MGA algoritmus átvált a Nelder - Mead módszerre, miután a GA leállításának feltételei teljesülnek. Az MGA algoritmus blokkdiagramja az ábrán látható. egy.

A kutatás elvégzése során a globális szélsőséges régió keresésekor elfogadták a célfüggvény számítási számának korlátozását (Nrf = 16 000), valamint a Nelder - Mead módszeren alapuló lokális optimalizáló algoritmusra való átállás feltételét (miután a alapvető genetikai algoritmus az Nrf műveletek 75%-át végrehajtotta).

6. Eredmények. A gépi tanulási algoritmussal végzett kutatás eredményeként

Asztal 1

A tesztgyűjteményekben található dokumentumok és lekérdezések száma

Tesztgyűjtemény neve Alrendszer neve Kérelmek száma Dokumentumok száma

LETOR 4.0 MQ2007 1692 69623

LETOR 4.0 MQ2008 784 15211

LETOR 3.0 OHSUMED 106 16140

LETOR 3.0 Gov03td 50 49058

LETOR 3.0 Gov03np 150 148657

LETOR 3.0 Gov03hp 150 147606

LETOR 3.0 Gov04td 75 74146

LETOR 3.0 Gov04np 75 73834

LETOR 3.0 Gov04hp 75 74409

Rizs. 1. A hibrid MVL algoritmus blokkdiagramja genetikai algoritmusokon és a Nelder-Mead módszeren

Az LTR-MGA rangsorolásához a rangsorolási függvény WC * súlyainak vektorát kapjuk. Továbbá a LETOYA tesztgyűjtemény adatai alapján értékelték a rangsor minőségét, amelyhez minőségi mutatókat számoltak. A rangsorolás minőségének diszkrét mérőszáma [e-mail védett]értékeli a rendszer válaszának első n dokumentumának minőségét. A rangsorolás minőségének értékelésére általánosan elfogadott mérőszámok a következők [e-mail védett], [e-mail védett]és [e-mail védett] A metrika értékektől függő változásainak részletesebb mérlegeléséhez azonban [e-mail védett] Az összes n-re 1-től 10-ig. A kifejlesztett algoritmus hatékonyságának összehasonlítására a meglévő megoldásokkal összehasonlító elemzést végeztünk a LETOIA 3.0 gyűjteményekben található rangsoroló algoritmusok segítségével. Az NDCG metrika TB2003 és TB2004 tesztgyűjteményéhez tartozó algoritmusok futtatásának eredményeit az ábra mutatja. 2. Az eredmények azt mutatják, hogy az LTR-MGA algoritmus jobban teljesít, mint a tesztalgoritmusok, a legmagasabb értékek pedig

valók [e-mail védett](az első dokumentum szintjén). Az LTR-MGA algoritmus felsőbbrendűsége annak tudható be, hogy a kísérletekben figyelembe vett teszt rangsoroló függvényekkel ellentétben a rangsorolási függvény optimalizálására javasolt megközelítésben az NDCG metrikát használjuk célfüggvényként.

Annak érdekében, hogy a javasolt LTR-MGA algoritmus használatakor értékelni lehessen a rangsorolási minőséget, kiszámítottuk a keresési eredményekben a dokumentumok rangsorolására szolgáló minőségi mérőszámok értékeit (3. ábra). A rangsorolási eredmények összehasonlítása (2. táblázat) az alapvető rangsorolási funkció, az alap LTR-GA algoritmus és a módosított LTR-MGA algoritmus használatakor az utóbbi előnyét jelzi.

Ezenkívül a tanulmány becsülte az MO-rangsoroláshoz szükséges időt. Ez szükséges annak megerősítésére, hogy a javasolt LTR-MGA módszer ebben a mutatóban felülmúlja a hagyományos módszerek alkalmazásán alapuló megközelítést.

Rizs. 2. Gépi tanulási algoritmusok összehasonlítása a rangsoroláshoz

a tesztgyűjtemények NDCG metrikájával: bal oldalon - a Gov03td adatkészlet, jobb oldalon - a Gov04td adatkészlet

Rizs. 3. Az alapvető rangsorolási képlet és az LTR-GA és LTR-MGA tanulási algoritmusok rangsorolási minőségi mutatóinak értékelése

Minőségi mérőszámok rangsorolása a különböző rangsoroló gépi tanulási algoritmusokhoz

2. táblázat

Rangsorolási minőségi metrika Alap rangsorolási funkció LTR-GA LTR-MGA A metrika értékének növelése,%

Pontosság 0,201 0,251 0,267 26,81

[e-mail védett](első 5 dokumentum) 0,149 0,31 0,339 90,47

[e-mail védett](első 10 dokumentum) 0,265 0,342 0,362 29,14

Bpref 0,303 0,316 0,446 51,49

Teljesség 0,524 0,542 0,732 39,03

* A megfelelő metrika legjobb értékei szürkével vannak kiemelve

hagyma genetikai algoritmus (LTYA-OL). Az LTY-OL és LTY-MOL algoritmusok végrehajtására fordított idő összehasonlításának eredményeit a táblázat tartalmazza. 3.

7. Következtetés. Így az elvégzett tanulmányok kimutatták, hogy a javasolt megközelítés alkalmazásakor a figyelembe vett rangsorolási mutatók értékei az ISS-ben nőnek (átlagosan 19,55%-kal az LTL-OL algoritmushoz képest). Ez megerősíti, hogy a LITA-MOL megfelelően működik, és jelentősen javítja a rangsorolási funkciót, vagyis sikeresen megoldja az optimalizálási problémát. Módosított algoritmus használatával

A lokális optimalizálási módszer alkalmazása és a célfüggvény számítási számának bevezetett korlátozása miatt a gépi tanulás ideje csökkent (átlagosan 17,71%-kal a hagyományos LTIAOL genetikai algoritmus használatához képest).

A kifejlesztett ML-MOL rangsoroló gépi tanulási algoritmus olyan ISS-ben használható, amely egyszerű rangsorolási függvények kombinációján alapuló rangsorolási modellt használ. Figyelembe kell azonban venni néhány korlátozást a javasolt megközelítés alkalmazásával kapcsolatban. Alapján

A gépi tanulási rangsor végrehajtási idejének becslése a betanítási minta méretétől függően

3. táblázat

A szöveges dokumentumgyűjtemény mérete

LTR-GA átfutási idő

LTR-MGA futási idő

A végrehajtási idő csökkenése,%

Átlagos

* A megfelelő tesztgyűjtemény-méret legjobb értékei szürkével vannak kiemelve

A kapott eredményekből kiderült, hogy az ML után a legnagyobb növekedés a rangsor minőségi mérőszámában figyelhető meg, melynek értékét vettük célfüggvénynek. Ugyanakkor a többi mérőszám nem javulhat jelentős mértékben, sőt egyes esetekben rontja az értékeit. Ennek a hiányosságnak a kiküszöbölésének egyik lehetséges megközelítéseként az optimalizálási probléma többszempontú megoldását javasolják: a keresési eredmények több fő rangsorolási mutatójának egységes javítását az egyik optimalizálása helyett. Ezen túlmenően a további vizsgálatok során a fő rangsorolási minőségi mérőszámok lineáris konvolúcióján alapuló célfüggvény megalkotásának módszertanának kidolgozását tervezik az információ-visszakeresési folyamat javítása érdekében.

Bibliográfiai lista

1. Tie-Yan Liu. Tanuljunk meg rangsorolni az információkereséshez // Journal Foundations and Trends in Information Retrieval. Vol. 3. szám, 2009. március 3. P. 225-331.

2. Christopher J. C. Burges, Tal Shaked, Erin Renshaw. Learning to Rank using Gradient Descent // Proceeding ICML "05 Proceedings of the 22nd International Conference on Machine learning. 2005. P. 89-96.

3. Semenikhin, SV Gépi tanulási megközelítések vizsgálata dokumentumok rangsorolásához genetikai algoritmusokon alapuló keresőrendszerrel / SV Semenikhin // Fiatal Oroszország: fejlett technológiák az iparban. - 2013. - 2. szám - 82. - 85. o.

4. Többszempontú optimalizálás genetikai algoritmusokon alapuló szabályozási rendszerek szintézisében: monográfia. / L. A. Denisova. - Omszk: OmSTU Kiadó, 2014 .-- 170 p. - ISBN 978-5-8149-1822-2.

5. Denisova, L. A. A vezérlőrendszer parametrikus szintézisének automatizálása genetikai algoritmus segítségével / L. A. Denisova, V. A. Meshcheryakov // Automatizálás az iparban. - 2012. - 7. sz. - P. 34 - 38.

6. Huber, Peter J. Egy helyparaméter robusztus becslése // Annals of Statistics. - 1964. - 53. sz. - P. 73-101.

7. Semenikhin, S. V. Automation of information retrieval based on multicriteria optimization and genetic algorithms / S. V. Semenikhin, L. A. Denisova // Dynamics of Systems, mechanizmus és gépek. - 2014. - 3. szám - 224 - 227. o.

8. Tie-Yan Liu, Jun Xu, Tao Qin, Wenying Xiong és Hang Li. LETOR: Benchmark Dataset for Research on Learning to Rank for Information Retrieval // SIGIR 2007 Workshop on Learning to Rank for Information Retrieval. - 2007 .-- S. 3-10.

9. Ageev, MS Az RMIP hivatalos mérőszámai "2004 / MS Ageev, IE Kuralenok // II. orosz szeminárium az információkeresési módszerek értékeléséről (ROMIP 2004), Pushchino, 2004: tr.; Ed. S. Nekrest'yanova. - Szentpétervár: Szentpétervári Állami Egyetem Kémiai Kutatóintézete - P. 142-150.

10. J. A. Nelder, R. Mead, A szimplex módszer a függvény minimalizálására, The Computer Journal 7 (1965). 308-313.

Svyatoslav Vitalievich SEMENIKHIN, az Automatizált Információfeldolgozási és Vezérlőrendszerek Tanszék posztgraduális hallgatója. Levelezési cím: [e-mail védett] DENISOVA Ljudmila Albertovna, a műszaki tudományok doktora, az Automatizált információfeldolgozási és vezérlőrendszerek tanszékének docense. Levelezési cím: [e-mail védett]

Ez a fejezet az osztályozási modell minőségének felmérésére szolgáló népszerű módszereket mutatja be, amelyeket többek között más, a témával foglalkozó munkákban is alkalmaznak. Az értékeléshez használt mérőszámok leírása és indoklása megtalálható.

Minőségértékelési mutatók

Teljes pontosság

Ez a mérőszám az egyik legegyszerűbb és egyben univerzális mérőszám az osztályozási algoritmusok teljesítményének értékelésére. Ennek az együtthatónak az értéke a helyesen osztályozott objektumok aránya a mintában lévő objektumok teljes számához viszonyítva. Ez a mérőszám egyszerűsége és tetszőleges számú osztályra való kiterjeszthetősége miatt népszerű. Ennek a mérőszámnak az a fő hátránya, hogy minden dokumentumot azonos súllyal rendel, ami hibás lehet abban az esetben, ha a képzési készletben a dokumentumok egy vagy több osztály felé erősen eltolódnak. Ennek a mutatónak lehet magas értéke, de az azonos osztályon belüli osztályozó rendkívül alacsony munkaminőséget mutathat. Ugyanakkor a mérőszám ezt semmilyen módon nem jelzi.

Pontosság, teljesség és F-mérték

Az olyan mérőszámokat, mint a pontosság és a visszahívás, először használták széles körben az információ-visszakeresési problémákat megoldó rendszerek teljesítményének értékelésére. A rendszer egy osztályon belüli pontossága a valóban egy bizonyos osztályhoz tartozó objektumok aránya a rendszer által ehhez az osztályhoz rendelt összes objektumhoz viszonyítva. A teljességet az osztályozó által talált, egy osztályhoz tartozó objektumok aránya fejezi ki az osztály összes objektumához viszonyítva. A 4. táblázat egy külön osztály kontingenciatáblázata, ahol a TP (igaz pozitív) igaz-pozitív döntés, TN (igaz negatív) igaz-negatív döntés, FP (false pozitív) hamis pozitív döntés, FN pedig hamis pozitív döntés. (hamis negatív) hamis. -negatív döntés.

1. táblázat - Az objektumok egy osztályának esetlegességi táblázata

Így a pontosság és a teljesség a következőképpen számítható ki:

Az F-mérték a kiértékelt algoritmus pontosságára és teljességére vonatkozó információkat egyesíti. Kiszámítása a pontossági és teljességi mutatók harmonikus átlagaként történik:

Tekintettel arra, hogy az F-mérték osztályonként külön-külön kerül kiszámításra, kényelmesen használható az algoritmus konkrét hibáinak keresésére, elemzésére, több osztályú osztályozás kiértékelésére. Sőt, nagyszámú osztály esetén szükség van egy olyan jellemzőre, amely minden osztályra összesítené a teljességet és pontosságot, és jellemezné a rendszer általános viselkedését. Ebben a munkában a következő összesített értékeket használjuk erre a célra: makropontosság, amelyet az összes osztály pontosságának számtani átlagaként számítanak ki, makró visszahívás, amelyet az összes osztály teljességének számtani átlagaként számítanak ki, és makro F- mérték (Macro F-score), amely a köztük lévő harmonikus átlag.

Keresztellenőrzés

A keresztellenőrzés az egyik legelterjedtebb módszer a különböző gépi tanulási algoritmusok teljes körű tesztelésére és teljesítményének értékelésére. Független minta esetén ez a módszer lehetővé teszi a hibavalószínűség torzítás nélküli becslését, ellentétben a betanított minta átlagos hibájával, amely az algoritmus túlillesztése miatti hibavalószínűség torzított becslése lehet. Ennek az eljárásnak egy másik előnye, hogy a teszteléshez speciálisan kialakított kontrollminta hiányában meg lehet becsülni az algoritmus hibájának valószínűségét.

Tegyük fel, hogy ez objektumok jellemzőleírásainak halmaza, amelyen a használati esetek véges mintája van megadva, ahol az osztályok véges halmaza. Meg van adva egy leképezés, amely egy algoritmust rendel a használati esetek tetszőleges kiválasztásához. Ezután megbecsüljük az algoritmus minőségét egy tetszőleges precedensmintára a minőségi függvény segítségével:

ahol egy nem negatív függvény, amely az algoritmushiba értékét adja vissza helyes osztálycímkével.