Ko mašīnmācībā nozīmē kvalitātes metrika. Ranga apmācība

Gatavojot uzdevumu GoTo vasaras skolas iestājpārbaudījumam, konstatējām, ka krievu valodā praktiski nav kvalitatīva ranžēšanas galveno rādītāju apraksta (uzdevums attiecās uz īpašu ranžēšanas problēmas gadījumu - ieteikuma algoritma izveidošanu) . Mēs E-Contenta aktīvi izmantojam dažādus ranžēšanas rādītājus, tāpēc nolēmām šo pārpratumu labot, rakstot šo rakstu.

Rangēšanas uzdevums tagad rodas visur: kārtot tīmekļa lapas pēc dotā meklēšanas vaicājuma, personalizēt ziņu plūsmu, ieteikt video, preces, mūziku... Vārdu sakot, tēma ir aktuāla. Mašīnmācībā ir pat īpaša joma, kas nodarbojas ar ranžēšanas algoritmu izpēti, kas spēj paši mācīties, — mācīšanās ranžēt. Lai izvēlētos labāko no dažādiem algoritmiem un pieejām, ir jāspēj kvantitatīvi noteikt to kvalitāti. Tālāk tiks apskatīti visizplatītākie ranžēšanas kvalitātes rādītāji.

Īsi par ranžēšanas problēmu

Ranking - uzdevums sakārtot komplektu elementi priekš viņiem atbilstība. Visbiežāk atbilstība tiek saprasta saistībā ar kādu. objektu. Piemēram, informācijas izguves uzdevumā objekts ir vaicājums, elementi ir visa veida dokumenti (saites uz tiem), un atbilstība ir dokumenta atbilstība pieprasījumam, ieteikumu uzdevumā objekts. ir lietotājs, elementi ir viens vai otrs ieteicamais saturs (produkti, video, mūzika ), un atbilstība ir iespējamība, ka lietotājs izmantos (nopirks/patīk/skatīs) šo saturu.

Formāli apsveriet N objektus un M elementus. Objekta elementu ranžēšanas algoritma izvade ir kartēšana, kas katram elementam piešķir svaru, kas raksturo elementa atbilstības pakāpi objektam (jo lielāks svars, jo atbilstošāks objekts). Tajā pašā laikā svaru kopa nosaka elementu elementu kopas permutāciju (mēs pieņemam, ka elementu kopa ir sakārtota), pamatojoties uz to kārtošanu dilstošā svara secībā.

Lai novērtētu reitinga kvalitāti, ir nepieciešama kāda "atsauce", ar kuru var salīdzināt algoritma rezultātus. Apsveriet - atbilstības atsauces funkciju, kas raksturo elementu "īsto" atbilstību konkrētajam objektam ( - elements ir ideāli piemērots, - pilnīgi neatbilstošs), kā arī tam atbilstošo permutāciju (dilstošā secībā).

Ir divi galvenie veidi, kā iegūt:
1. Pamatojoties uz vēsturiskiem datiem. Piemēram, satura ieteikumu gadījumā varat ņemt vērā lietotāja skatījumus (atzīmes Patīk, pirkumus) un attiecīgo elementu skatīto svaru piešķirt 1 (), bet visiem pārējiem - 0.
2. Pamatojoties uz salīdzinošo pārskatīšanu. Piemēram, meklēšanas uzdevumā katram vaicājumam varat iesaistīt vērtētāju komandu, kas manuāli novērtē dokumentu atbilstību vaicājumam.

Ir vērts atzīmēt, ka, ja tiek ņemtas tikai galējās vērtības: 0 un 1, tad parasti permutācija netiek ņemta vērā un tiek ņemta vērā tikai atbilstošo elementu kopa, kurai .

Kvalitātes rādītāju ranžēšanas mērķis- noteikt, kā atbilst ar algoritmu iegūtie atbilstības novērtējumi un atbilstošā permutācija taisnība atbilstības vērtības. Apsveriet galvenos rādītājus.

Vidējā vidējā precizitāte

Vidējā vidējā precizitāte pie K ( [aizsargāts ar e-pastu]) ir viens no visbiežāk izmantotajiem ranžēšanas kvalitātes rādītājiem. Lai saprastu, kā tas darbojas, sāksim ar "pamatiem".

Piezīme. Metrika “*precision” tiek izmantota bināro problēmu risināšanā, kur tai ir tikai divas vērtības: 0 un 1.

Precizitāte pie K

Precizitāte pie K ( [aizsargāts ar e-pastu]) - precizitāte uz K elementiem - pamata ranžēšanas kvalitātes metrika vienam objektam. Pieņemsim, ka mūsu ranžēšanas algoritms katram vienumam radīja atbilstības punktus. Atlasot pirmos elementus ar lielāko no tiem, varam aprēķināt atbilstošo daļu. Tas ir tieši tas, ko dara K precizitāte:

Piezīme: elements tiek saprasts kā tāds, kas permutācijas rezultātā atrodas -th pozīcijā. Tātad, ir elements ar lielāko , ir elements ar otro lielāko, un tā tālāk.

Vidēja precizitāte pie K

Precizitāte K ir metrika, kas ir viegli saprotama un īstenojama, taču tai ir būtisks trūkums – tajā netiek ņemta vērā elementu secība “augšā”. Tātad, ja mēs uzminējām tikai vienu no desmit elementiem, tad nav svarīgi, kur tas bija: pirmajā vai pēdējā, jebkurā gadījumā. Ir skaidrs, ka pirmais variants ir daudz labāks.

Šo trūkumu kompensē ranžēšanas metrika vidējā precizitāte pie K ( [aizsargāts ar e-pastu]) , kas ir vienāda ar summu [aizsargāts ar e-pastu] pēc indeksiem k no 1 līdz K tikai atbilstošām vienībām dalīts ar K:

Tātad, ja no trim elementiem atbilstošs izrādījās tikai pēdējā vietā esošais, tad, ja tika uzminēts tikai pirmajā vietā esošais, tad , un, ja uzminēti visi, tad .

tagad un [aizsargāts ar e-pastu] mums zobos.

Vidējā vidējā precizitāte pie K

Vidējā vidējā precizitāte pie K ( [aizsargāts ar e-pastu]) ir viens no visbiežāk izmantotajiem ranžēšanas kvalitātes rādītājiem. V [aizsargāts ar e-pastu] un [aizsargāts ar e-pastu] ranžēšanas kvalitāte tiek novērtēta vienam objektam (lietotājam, meklēšanas vaicājumam). Praksē ir daudz objektu: mums ir darīšana ar simtiem tūkstošu lietotāju, miljoniem meklēšanas vaicājumu utt. Ideja [aizsargāts ar e-pastu] ir aprēķināt [aizsargāts ar e-pastu] katram objektam un vidējam rādītājam:

Piezīme: šī ideja ir diezgan loģiska, pieņemot, ka visi lietotāji ir vienlīdz vajadzīgi un vienlīdz svarīgi. Ja tas tā nav, tad vienkāršas vidējās noteikšanas vietā varat izmantot svērto, reizinot [aizsargāts ar e-pastu] katru objektu pēc tā atbilstošā “svarīguma” svara.

Normalizēta diskontētā kumulatīvā peļņa

Normalizēta diskontēta kumulatīvā peļņa (nDCG) ir vēl viens izplatīts ranžēšanas kvalitātes rādītājs. Tāpat kā gadījumā ar [aizsargāts ar e-pastu] Sāksim ar pamatiem.

Kumulatīvā peļņa pie K

Apsveriet vēlreiz vienu objektu un elementus ar lielāko . Kumulatīvais pieaugums pie K ( [aizsargāts ar e-pastu]) - pamata ranžēšanas metrika, kas izmanto vienkāršu ideju: jo atbilstošāki vienumi šajā topā, jo labāk:

Šim rādītājam ir acīmredzami trūkumi: tas nav normalizēts un neņem vērā attiecīgo elementu stāvokli.

Ņemiet vērā, ka atšķirībā no [aizsargāts ar e-pastu], [aizsargāts ar e-pastu] var izmantot arī nebināro atsauces atbilstības vērtību gadījumā.

Kumulatīvā peļņa ar atlaidi K

Diskontēta kumulatīvā peļņa pie K ( [aizsargāts ar e-pastu]) - kumulatīvā pieauguma pie K modificēšana, ņemot vērā elementu secību sarakstā, reizinot elementa atbilstību ar svaru, kas vienāds ar pozīcijas numura apgriezto logaritmu:

Piezīme: ja tiek izmantotas tikai vērtības 0 un 1, tad , un formulai ir vienkāršāka forma:

Logaritma kā atlaižu funkcijas izmantošana ir skaidrojama ar šādiem intuitīviem apsvērumiem: reitinga ziņā pozīcijas saraksta sākumā atšķiras daudz vairāk nekā pozīcijas tā beigās. Tātad meklētājprogrammas gadījumā starp 1. un 11. pozīciju ir vesela bezdibenis (tikai dažos gadījumos no simts lietotājs iziet tālāk par meklēšanas rezultātu pirmo lapu), un starp tām nav lielas atšķirības. 101. un 111. pozīcijas – tās sasniedz maz cilvēku. Šie subjektīvie apsvērumi ir skaisti izteikti, izmantojot logaritmu:

Diskontētā kumulatīvā peļņa atrisina problēmu, kas saistīta ar attiecīgo elementu novietojumu, bet tikai saasina problēmu ar normalizācijas trūkumu: ja tas mainās robežās, tad tas jau ņem vērtības segmentā, kas nav līdz galam skaidrs. Tālāk norādītā metrika ir paredzēta šīs problēmas risināšanai.

Normalizēta diskontētā kumulatīvā peļņa pie K

Kā var nojaust no virsraksta, normalizētā diskontētā kumulatīvā peļņa pie K ( [aizsargāts ar e-pastu]) - nekas cits kā normalizēta versija [aizsargāts ar e-pastu]:

kur ir maksimālā (I — ideālā) vērtība . Tā kā mēs vienojāmies, ka tajā tiek ņemtas vērtības, tad .

Tādējādi tas tiek mantots, ņemot vērā elementu atrašanās vietu sarakstā, un tajā pašā laikā ņem vērtības diapazonā no 0 līdz 1.

Piezīme: līdzīgs [aizsargāts ar e-pastu] var aprēķināt, aprēķināt vidējo uz visiem objektiem.

Vidējais savstarpējais rangs

Vidējais savstarpējais rangs (MRR) ir vēl viens bieži izmantots ranžēšanas kvalitātes rādītājs. To nosaka pēc šādas formulas:

kur - savstarpēja pakāpe priekš -th objekta - ļoti vienkārša vērtība savā būtībā, vienāda ar pirmā pareizi uzminētā elementa apgrieztā secībā.

Vidējais savstarpējais rangs atšķiras diapazonā un ņem vērā elementu atrašanās vietu. Diemžēl viņš to dara tikai vienam elementam - 1. pareizi prognozētajam, ignorējot visus nākamos.

Metrika, kuras pamatā ir rangu korelācija

Atsevišķi ir vērts izcelt ranžēšanas kvalitātes rādītājus, pamatojoties uz vienu no koeficientiem rangu korelācija. Statistikā rangu korelācijas koeficients ir korelācijas koeficients, kas neņem vērā pašas vērtības, bet tikai to rangu (kārtību). Apsveriet divus visizplatītākos rangu korelācijas koeficientus: Spīrmena un Kendala koeficientus.

Kendala ranga korelācijas koeficients

Pirmais no tiem ir Kendall korelācijas koeficients, kas balstās uz atbilstošo skaitu
(un nekonsekventi) permutāciju pāri - elementu pāri, kuriem permutācijas piešķīra vienādu (atšķirīgu) secību:

Spīrmena ranga korelācijas koeficients

Otrais – Spīrmena ranga korelācijas koeficients – būtībā nav nekas cits kā Pīrsona korelācija, kas aprēķināta pēc ranga vērtībām. Ir diezgan ērta formula, kas to izsaka tieši no rindām:

kur ir Pīrsona korelācijas koeficients.

Metrikai, kuras pamatā ir rangu korelācija, ir trūkums, ko mēs jau zinām: tie neņem vērā elementu atrašanās vietu (pat sliktāk nekā [aizsargāts ar e-pastu], jo korelācija tiek aprēķināta visiem elementiem, nevis K elementiem ar augstāko pakāpi). Tāpēc praksē tos izmanto reti.

Metrika, kuras pamatā ir ūdenskrituma uzvedības modelis

Līdz šim neesam iedziļinājušies, kā lietotājs (vēlāk aplūkosim īpašu objekta gadījumu - lietotājs) pārbauda viņam piedāvātos elementus. Faktiski mēs netieši izdarījām pieņēmumu, ka skatot katru elementu neatkarīgs no citu elementu uzskatiem - sava veida "naivums". Praksē elementi bieži vien tiek apskatīti pēc kārtas, un tas, vai lietotājs apskata nākamo elementu, ir atkarīgs no viņa apmierinātības ar iepriekšējiem. Apsveriet piemēru: atbildot uz meklēšanas vaicājumu, ranžēšanas algoritms piedāvāja lietotājam vairākus dokumentus. Ja dokumenti, kas atrodas 1. un 2. pozīcijā, ir ārkārtīgi svarīgi, tad iespēja, ka lietotājs apskatīs dokumentu 3. pozīcijā, ir maza, jo ar pirmajiem diviem viņš būs diezgan apmierināts.

Tiek saukti līdzīgi lietotāja uzvedības modeļi, kur viņam piedāvāto elementu izpēte notiek secīgi un elementa apskatīšanas iespējamība ir atkarīga no iepriekšējo atbilstības. kaskādes.

Paredzamais savstarpējais rangs

Paredzamais savstarpējais rangs (ERR) ir ranžēšanas kvalitātes rādītāja piemērs, kura pamatā ir ūdenskrituma modelis. To nosaka pēc šādas formulas:

kur rangs tiek saprasts dilstošā secībā. Pats interesantākais šajā rādītājā ir varbūtības. Aprēķinot tos, tiek izmantoti kaskādes modeļa pieņēmumi:

kur ir varbūtība, ka lietotājs būs apmierināts ar objektu ar rangu . Šīs varbūtības tiek aprēķinātas, pamatojoties uz vērtībām. Tā kā mūsu gadījumā mēs varam apsvērt vienkāršu iespēju:

ko var lasīt šādi: pozīcijā esošās preces patiesā atbilstība Visbeidzot, šeit ir dažas noderīgas saites.

Par elementiem katrā sarakstā. Daļēja secība parasti tiek norādīta, norādot punktu skaitu katram vienumam (piemēram, "atbilstošs" vai "nav būtisks"; ir iespējamas vairāk nekā divas gradācijas). Rangēšanas modeļa mērķis ir vislabāk (savā ziņā) tuvināt un vispārināt veidu, kā mācību kopas klasifikācijas atbilst jauniem datiem.

Mācīšanās ranžēšanā joprojām ir diezgan jauna, strauji attīstoša pētniecības joma, kas radās 2000. gados, kad parādījās interese par informācijas izguves jomu par mašīnmācīšanās metožu pielietošanu ranžēšanas problēmu risināšanā.

Enciklopēdisks YouTube

1 / 5
Reitinga modeļa apmācības laikā un tā darbības laikā katrs dokumenta-pieprasījuma pāris tiek pārvērsts ranžēšanas pazīmju (sauktu arī par ranžēšanas faktoriem vai signāliem) skaitliskā vektorā, kas raksturo dokumenta īpašības, vaicājumu un to attiecības. Šīs zīmes var iedalīt trīs grupās:

Tālāk ir sniegti daži ranžēšanas līdzekļu piemēri, kas tiek izmantoti labi zināmajā LETOR datu kopā.
- Mēru vērtības TF, TF-IDF , BM25 un valodas modelis dažādu dokumentu zonu pieprasījuma saskaņošanai (nosaukums, URL, pamatteksts, saites teksts);
- Dokumentu zonu garumi un IDF summas;
- Dokumentu rangi, kas iegūti, izmantojot dažādas saišu ranžēšanas algoritmu variācijas, piemēram, PageRank un HITS.
Kvalitātes rādītāju ranžēšana

Ir vairāki rādītāji, kas novērtē un salīdzina ranžēšanas algoritmu veiktspēju paraugā ar salīdzinošām atsauksmēm. Bieži vien ranžēšanas modeļa parametrus mēdz koriģēt tā, lai maksimāli palielinātu kāda no šiem rādītājiem vērtību.
Metrikas piemēri:

Algoritmu klasifikācija

Savā rakstā "Learning to Rank for Information Retrieval" un runās tematiskajās konferencēs Tai-Yan Liu no Microsoft Research Asia analizēja pašlaik pieejamās metodes ranžēšanas mācīšanās problēmas risināšanai un ierosināja to iedalīt trīs pieejās atkarībā no ievades. attēlojums izmantoto datu un funkciju precīzs:

Punkta pieeja

Piezīmes
1. Tie Yan Liu (2009) Mācīšanās ranžēt informācijas izgūšanu, Informācijas izguves pamati un tendences: Vol. 3: Nr. 3, lpp. 225-331, ISBN 978-1-60198-244-5, DOI 10.1561/1500000016. Ir pieejami slaidi no T. Lū runas WWW 2009 konferencē.
Čau Habr!

Mašīnmācīšanās uzdevumos metriku izmanto, lai novērtētu modeļu kvalitāti un salīdzinātu dažādus algoritmus, un to atlase un analīze ir neatņemama datu zinātnieka darba sastāvdaļa.

Šajā rakstā mēs apskatīsim dažus kvalitātes kritērijus klasifikācijas problēmās, apspriedīsim, kas ir svarīgi, izvēloties metriku un kas var noiet greizi.

Metrika klasifikācijas problēmās

Lai demonstrētu noderīgas funkcijas sklearn un metriku vizuālu attēlojumu, mēs izmantosim mūsu telekomunikāciju operatora klientu skaita samazinājuma datu kopu, ko mēs satikām kursa pirmajā rakstā.

Lejupielādējiet nepieciešamās bibliotēkas un apskatiet datus
Importēt pandas kā pd importēt matplotlib.pyplot kā plt no matplotlib.pylab importa rc, zemes gabala importēt kā sns no sklearn.preprocessing importēt LabelEncoder, OneHotEncoder no sklearn.model_selection importēt cross_val_score no sklearn.linear_model no sklearn.linear_model no importa sklearnssi. no sklearn.metrics importēt precision_recall_curve, classification_report no sklearn.model_selection importēt train_test_split df = pd.read_csv("../../data/telecom_churn.csv")
Df.head(5)
Datu priekšapstrāde
# Kartē binārās kolonnas # un fiktīvi iekodējiet stāvokli (vienkāršības labad labāk to nedarīt koka modeļiem) d = ("Jā" : 1, "Nē" : 0) df["Starptautiskais plāns"] = df [" Starptautiskais plāns"].map(d) df["Balss pasta plāns"] = df["Balss pasta plāns"].map(d) df["Churn"] = df["Churn"].astype(" int64" ) le = LabelEncoder() df["Stāvoklis"] = le.fit_transform(df["Stāvoklis"]) ohe = OneHotEncoder(sparse=False) encoded_state = ohe.fit_transform(df["Stāvoklis"].values.reshape (- 1, 1)) tmp = pd.DataFrame(kodēts_stāvoklis, kolonnas=["stāvoklis" + str(i) for i diapazonā(kodēts_stāvoklis.forma)]) df = pd.concat(, axis=1)

Precizitāte, precizitāte un atcerēšanās

Pirms pāriet pie pašiem rādītājiem, ir jāievieš svarīgs jēdziens, lai aprakstītu šos rādītājus klasifikācijas kļūdu izteiksmē. apjukuma matrica(kļūdu matrica).
Pieņemsim, ka mums ir divas klases un algoritms, kas paredz, vai katrs objekts pieder kādai no klasēm, tad klasifikācijas kļūdu matrica izskatīsies šādi:

Patiesi pozitīvs (TP) Viltus pozitīvs (FP)
Viltus negatīvs (FN) Patiess negatīvs (TN)
ir algoritma reakcija uz objektu, un

Šī objekta patiesā klases etiķete.
Tādējādi ir divu veidu klasifikācijas kļūdas: viltus negatīvs (FN) un viltus pozitīvs (FP).

Algoritmu apmācība un kļūdu matricas uzbūve
X = df.drop("Churn", axis=1) y = df["Churn"] # Sadaliet paraugu vilcienā un pārbaudiet, visi rādītāji tiks novērtēti testa datu kopā X_train, X_test, y_train, y_test = train_test_split( X, y , stratify=y, test_size=0.33, random_state=42) # Apmācīt vietējo loģistikas regresiju lr = LogisticRegression(random_state=42) lr.fit(X_train, y_train) # Izmantojiet funkciju, lai izveidotu kļūdu matricu no sklearn dokumentācija def plot_confusion_matrix(cm, classes , normalize=False, title="(!LANG:Apjukuma matrica", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="Apjukuma matrica") plt.savefig("conf_matrix.png") plt.show()!}

Precizitāte

Intuitīvs, acīmredzams un gandrīz neizmantots rādītājs ir precizitāte - algoritma pareizo atbilžu procentuālais daudzums:

Šis rādītājs ir bezjēdzīgs, ja rodas problēmas ar nevienlīdzīgām klasēm, un to ir viegli parādīt ar piemēru.

Pieņemsim, ka vēlamies novērtēt pasta surogātpasta filtra veiktspēju. Mums ir 100 e-pasta ziņojumi, kas nav mēstules, no kuriem 90 mūsu klasifikators ir noteicis pareizi (patiesi negatīvs = 90, viltus pozitīvs = 10) un 10 surogātpasta e-pasta vēstules, no kurām 5 ir arī pareizi noteicis klasifikators (patiesi pozitīvi = 5, viltus negatīvi = 5).
Tad precizitāte:

Tomēr, ja mēs tikai paredzam, ka visi e-pasta ziņojumi nav mēstules, mēs iegūstam lielāku precizitāti:

Tajā pašā laikā mūsu modelim vispār nav nekādas prognozēšanas spējas, jo mēs sākotnēji vēlējāmies identificēt surogātpasta e-pastus. Pāreja no kopējas metrikas visām klasēm uz atsevišķiem klases kvalitātes rādītājiem palīdzēs mums to pārvarēt.

Precizitāte, atsaukšana un F-mērs

Lai novērtētu algoritma kvalitāti katrā no klasēm atsevišķi, mēs ieviešam metrikas precizitāti (precizitāte) un atsaukšanu (pilnīgumu).

Precizitāti var interpretēt kā to objektu īpatsvaru, kurus klasifikators sauc par pozitīviem un tajā pašā laikā ir patiešām pozitīvi, un atsaukšana parāda, cik pozitīvās klases objektu īpatsvars no visiem pozitīvās klases objektiem algoritms ir atradis.

Tieši precizitātes ieviešana neļauj rakstīt visus objektus vienā klasē, jo šajā gadījumā mēs iegūstam viltus pozitīva līmeņa pieaugumu. Atgādināšana parāda algoritma spēju vispār noteikt noteiktu klasi, savukārt precizitāte parāda spēju atšķirt šo klasi no citām klasēm.

Kā jau minēts iepriekš, ir divu veidu klasifikācijas kļūdas: viltus pozitīvas un viltus negatīvas. Statistikā pirmais kļūdu veids tiek saukts par I tipa kļūdu, bet otrais - par II tipa kļūdu. Mūsu uzdevumā noteikt abonentu aizplūšanu, pirmā veida kļūda būs lojāla abonenta kļūda pret izejošo abonentu, jo mūsu nulles hipotēze ir tāda, ka neviens no abonentiem neizplūst, un mēs noraidām šo hipotēzi. Attiecīgi otrā veida kļūda būs izejošā abonenta "piekrišana" un kļūdaina nulles hipotēzes pieņemšana.

Precizitāte un atsaukšana atšķirībā no precizitātes nav atkarīgas no klašu attiecības un tāpēc ir piemērojamas nelīdzsvarotu paraugu apstākļos.
Bieži vien reālajā praksē uzdevums ir atrast optimālo (pasūtītājam) līdzsvaru starp šiem diviem rādītājiem. Klasisks piemērs ir klientu aizplūšanas noteikšanas problēma.
Ir skaidrs, ka mēs nevaram atrast visi kuļot klientus un tikai viņu. Bet, nosakot klientu noturēšanas stratēģiju un resursus, mēs varam izvēlēties nepieciešamos precizitātes un atsaukšanas sliekšņus. Piemēram, mēs varam koncentrēties uz to, lai saglabātu tikai klientus ar lielu peļņu vai tos, kuri, visticamāk, atteiksies, jo mūs ierobežo zvanu centra resursi.

Parasti, optimizējot algoritma hiperparametrus (piemēram, iterējot pa režģi GridSearchCV) izmanto vienu metriku, kuras uzlabojumus mēs ceram redzēt testa paraugā.
Ir vairāki dažādi veidi, kā apvienot precizitāti un atsaukšanu kopējā kvalitātes rādītājā. F-mērs (parasti

) - vidējā harmoniskā precizitāte un atsaukšana:

šajā gadījumā nosaka precizitātes svaru metrikā un pie

tas ir harmoniskais vidējais (ar koeficientu 2, lai precizitātes = 1 un atsaukšanas = 1 gadījumā mums būtu

)
F-mērs sasniedz maksimumu pie atsaukšanas un precizitātes, kas vienāda ar vienu, un ir tuvu nullei, ja viens no argumentiem ir tuvu nullei.
sklearn ir ērta _metrics.classification funkcija Ziņot kas atgriež katras klases atsaukšanu, precizitāti un F-mēru, kā arī katras klases gadījumu skaitu.
Pārskats = classification_report(y_test, lr.predict(X_test), target_names=["Non-churned", "Churned"]) print(report)
klasē precizitāte atgādināt f1 rezultāts atbalsts
Nesakults 0.88 0.97 0.93 941
Sasmalcināts 0.60 0.25 0.35 159
vid./kopā 0.84 0.87 0.84 1100
Šeit jāatzīmē, ka reālajā praksē dominējošo uzdevumu gadījumā ar nelīdzsvarotām klasēm bieži vien ir nepieciešams izmantot datu kopas mākslīgas modifikācijas paņēmienus, lai izlīdzinātu klašu attiecību. To ir daudz, un mēs tos neaiztiksim, jūs varat apskatīt dažas metodes un izvēlēties to, kas atbilst jūsu uzdevumam.

AUC-ROC un AUC-PR

Pārvēršot algoritma reālo atbildi (parasti piederības klasei varbūtību, skatīt atsevišķi SVM) binārā etiķetē, ir jāizvēlas kāds slieksnis, pie kura 0 kļūst par 1. Slieksnis 0,5 šķiet dabisks un tuvu, bet tas ir ne vienmēr izrādās optimāls, piemēram, jau pieminētajā klases līdzsvara trūkumā.

Viens veids, kā novērtēt modeli kopumā, nepiesaistot to noteiktam slieksnim, ir AUC-ROC (vai ROC AUC) - apgabals ( A rea U nder C urve) zem kļūdu līknes ( R uztvērējs O perating C raksturlīkne). Šī līkne ir līnija no (0.0) līdz (1.1) patiesi pozitīvā ātruma (TPR) un viltus pozitīvā ātruma (FPR) koordinātēs:

Mēs jau zinām TPR, tas ir pilnība, un FPR parāda, kādu negatīvās klases objektu proporciju algoritms prognozēja nepareizi. Ideālā gadījumā, kad klasifikators nepieļauj kļūdas (FPR = 0, TPR = 1), mēs iegūsim laukumu zem līknes, kas vienāds ar vienu, pretējā gadījumā, ja klasifikators nejauši ģenerē klases varbūtības, AUC-ROC būs tendence 0,5, jo klasifikators izdos vienādu TP un FP daudzumu.
Katrs diagrammas punkts atbilst kāda sliekšņa izvēlei. Laukums zem līknes šajā gadījumā parāda algoritma kvalitāti (jo vairāk, jo labāk), turklāt svarīgs ir pašas līknes stāvums - mēs vēlamies maksimāli palielināt TPR, vienlaikus samazinot FPR, kas nozīmē, ka mūsu līknei ideālā gadījumā vajadzētu būt punkts (0,1).

ROC-līknes zīmēšanas kods
sns.set(font_scale=1.5) sns.set_color_codes("izslēgts") plt.figure(figsize=(10, 8)) fpr, tpr, thresholds = roc_curve(y_test, lr.predict_proba(X_test)[:,1], pos_label=1) lw = 2 plt.plot(fpr, tpr, lw=lw, label="ROC līkne ") plt.plot(, ) plt.xlim() plt.ylim() plt.xlabel("Kļūdaini pozitīvs rādītājs ") plt.ylabel("Patiesi pozitīvs rādītājs") plt.title("ROC līkne") plt.savefig("ROC.png") plt.show()

AUC-ROC kritērijs ir izturīgs pret nelīdzsvarotām klasēm (spoileris: diemžēl ne viss ir tik vienkārši) un to var interpretēt kā iespējamību, ka nejauši izvēlēts pozitīvs objekts klasifikatorā tiks novērtēts augstāk (tam būs lielāka varbūtība pozitīvs) nekā nejauši izvēlēts negatīvs objekts.

Apsveriet šādu problēmu: mums ir jāatlasa 100 attiecīgie dokumenti no 1 miljona dokumentu. Mēs esam mašīnmācījušies divus algoritmus:
- 1. algoritms atgriež 100 dokumentus, no kuriem 90 ir aktuāli. Pa šo ceļu,
- 2. algoritms atgriež 2000 dokumentus, no kuriem 90 ir aktuāli. Pa šo ceļu,
Visticamāk, mēs izvēlētos pirmo algoritmu, kas, salīdzinot ar konkurentu, rada ļoti maz viltus pozitīvu rezultātu. Bet atšķirība starp šiem diviem algoritmiem viltus pozitīvā rādītājā ārkārtīgi mazs - tikai 0,0019. Tas ir sekas tam, ka AUC-ROC mēra viltus pozitīvā proporciju attiecībā pret patieso negatīvo, un uzdevumos, kur otrā (lielākā) klase mums nav tik svarīga, tā var nesniegt pilnīgi adekvātu priekšstatu, salīdzinot algoritmus. .

Lai situāciju labotu, atgriezīsimies pie pilnīguma un precizitātes:
- 1. algoritms
- 2. algoritms
Jau tagad ir būtiska atšķirība starp abiem algoritmiem - 0,855 precizitātē!

Precizitāte un atsaukšana tiek izmantota arī, lai attēlotu līkni un, līdzīgi kā AUC-ROC, atrastu laukumu zem tās.

Šeit var atzīmēt, ka uz mazām datu kopām laukums zem PR līknes var būt pārāk optimistisks, jo tas tiek aprēķināts pēc trapecveida metodes, taču parasti šādos uzdevumos datu ir pietiekami daudz. Sīkāku informāciju par saistību starp AUC-ROC un AUC-PR skatiet šeit.

Loģistikas zaudējumi

Atšķirība ir loģistikas zuduma funkcija, kas definēta šādi:

ir algoritma atbilde uz

ohm objekts,

patiesas klases etiķete uz

ohm objekts, un

parauga lielums.

Sīkāka informācija par loģistikas zuduma funkcijas matemātisko interpretāciju jau ir rakstīta ierakstā par lineārajiem modeļiem.
Šis rādītājs bieži netiek rādīts biznesa prasībās, bet bieži vien kaggle uzdevumos.
Intuitīvi var uzskatīt, ka logloss samazināšana ir problēma, kas saistīta ar precizitātes palielināšanu, sodot par nepareizām prognozēm. Tomēr jāatzīmē, ka logloss nopietni soda klasifikatora pārliecību par nepareizo atbildi.

Apsveriet piemēru:
Def logloss_crutch(y_true, y_pred, eps=1e-15): return - (y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred)) print("Logloss ar nenoteiktu klasifikāciju %f " % logloss_crutch(1, 0.5)) >> Logloss ar nenoteiktu klasifikāciju 0.693147 print("Logoss ar drošu klasifikāciju un pareizu atbildi %f" % logloss_crutch(1, 0.9)) >> Logloss ar drošu klasifikāciju un pareizo atbildi 0.105361 print(" Logloss drošai klasifikācijai un nepareizai atbildei %f" % logloss_crutch(1, 0.1)) >> Logloss drošai klasifikācijai un nepareizai atbildei 2.302585
Ņemiet vērā, cik ievērojami palielinājās logloss ar nepareizu atbildi un pārliecinošu klasifikāciju!
Tāpēc kļūda vienā objektā var ievērojami pasliktināt kopējo kļūdu paraugā. Šādi objekti bieži ir novirzes, kas ir jāatceras filtrēt vai izskatīt atsevišķi.
Viss nostājas savās vietās, ja uzzīmējat logloss grafiku:

Var redzēt, ka, jo tuvāk nullei ir algoritma atbilde uz pamata patiesību = 1, jo lielāka ir kļūdas vērtība un jo stāvāka aug līkne.

Summējot:
- Vairāku klašu klasifikācijas gadījumā jums rūpīgi jāuzrauga katras klases rādītāji un jāievēro lēmuma loģika. uzdevumus, nevis optimizēt metriku
- Nevienlīdzīgu klašu gadījumā ir jāizvēlas apmācības klašu līdzsvars un metrika, kas pareizi atspoguļos klasifikācijas kvalitāti
- Metrikas izvēle jāveic, koncentrējoties uz tematisko jomu, datu iepriekšēju apstrādi un, iespējams, segmentēšanu (kā gadījumā, ja tiek sadalīti bagātie un nabadzīgie klienti).
Noderīgas saites
1. Jevgeņija Sokolova kurss: Seminārs par modeļu izvēli (ir informācija par regresijas problēmu metriku)
2. AUC-ROC problēmas, autors A.G. Djakonova
3. Varat lasīt vairāk par citiem kaggle rādītājiem. Katras metrikas aprakstam ir pievienota saite uz konkursu, kurā tas tika izmantots
4. Bogdana Meļņika prezentācija jeb ld86 par mācīšanos nelīdzsvarotos paraugos
UDK 519.816

S. V. SEMENIKHIN L. A. DENISOVA

Omskas Valsts tehniskā universitāte

MAŠĪNU MĀCĪBAS METODE RANGUMA NODROŠINĀŠANAI

PAMATOTA UZ URCO METRIKAS MODIFICĒTU ĢENĒTISKO ALGORITMU

Tiek apskatīta dokumentu ranžēšanas problēma informācijas meklēšanas rezultātu lapā un mašīnmācīšanās ranžēšanas jautājumi. Tiek piedāvāta pieeja ranžēšanas funkcijas optimizēšanai, izmantojot kvalitātes metriku LOCO, kuras pamatā ir modificēts ģenētiskais algoritms. Izstrādātie algoritmi ir izpētīti (LETO^ testa kolekcijās) un parādīta to efektivitāte mašīnmācībā ranžēšanā.

Atslēgvārdi: informācijas izguve, mašīnmācīšanās ranžēšana, atbilstība, optimizācija, ģenētiskie algoritmi.

1. Ievads. Mūsdienu informācijas izguves sistēmās (IRS) datu apjoms, ar kuru sistēma darbojas, ir tik liels, ka galvenais uzdevums ir sarindot atbilstošos dokumentus, reaģējot uz lietotāja meklēšanas vaicājumu. Šajā IPS izstrādes posmā vislielākā interese ir mašīnmācībai (ML) ranžēšanai. Esošajām pieejām ML, kas balstītas uz skaitliskām metodēm (jo īpaši uz gradienta metodēm) vai uz analītiskiem aprēķiniem, ir vairāki trūkumi, kas būtiski ietekmē informācijas izguves kvalitāti un laiku, kas nepieciešams attiecīgo dokumentu sarindošanai.

Pētījuma sākumā tika apsvērtas sarakstu pieejas mašīnmācīšanās ranžēšanai, no kurām lielākā daļa izmanto gradienta nolaišanās metodi. Aplūkotajos darbos ML ir reducēta uz meklēšanas kvalitātes metrikas (QM) optimizāciju, bet tiek izmantota tikai nepārtrauktu funkciju attēlota metrika. Šis ierobežojums bieži noved pie tā, ka optimizācijas rezultātā ranžēšanas funkcijai ir zemāki rādītāji daudziem svarīgiem pieņemtajiem rādītājiem (DCG, nDCG, Graded Mean Reciprocal Rank utt.), kas ir diskrētas funkcijas. Rakstā ir ierosināts izmantot ģenētiskos algoritmus (GA) ranžēšanas mācībās, lai samazinātu Hūbera zuduma funkciju, kā atsauces vērtības izmantojot ekspertu atbilstības aplēses. Tika piedāvāta arī pieeja ML, kuras pamatā ir diskrētas informācijas izguves kvalitātes metrikas optimizācija.

2. Mašīnmācīšanās ranžēšanas problēmas izklāsts. Lielākajā daļā mūsdienu informācijas izguves sistēmu ranžēšanas funkcija ir veidota, pamatojoties uz n vienkāršām ranžēšanas funkcijām (PRF), un to var uzrakstīt šādi:

kur SRF¡ ir ¡. vienkāršā ranžēšanas funkcija dokumentam d un vaicājumam d, WCi ir ¡. vienkāršās ranžēšanas funkcijas svēruma koeficients, n ir PF skaits ranžēšanas sistēmā.

Mašīnmācīšanās laikā ranžēšanai tika izmantota meklēšanas dokumentu kopa B un vaicājumi O no testu kolekcijas LBTOT. Visiem deO pieprasījumiem tiek izveidots pāris ar katru deD dokumentu. Katram šādam pārim IPS nosaka atbilstības vērtības, kas tiek izmantotas SERP ranžēšanai. Lai novērtētu ranžēšanas kvalitāti, sistēmai ir nepieciešamas atbilstības atsauces vērtības E katram dokumenta pieprasījuma pārim t, e). Šiem nolūkiem tiek izmantoti ekspertu atbilstības novērtējumi.

Pētījuma veikšanai tika izmantots IPS, kurā ranžēšana balstās uz N = 5 vienkāršām ranžēšanas funkcijām SRFi(WC)l r = 1, N, kas veido vektora optimizācijas kritēriju:

kur WCе (WC) - mainīgo parametru vektors; (SHS), (YB) ir attiecīgi parametru un vektoru kritēriju telpas.

Ģenētisko algoritmu izmantošana MO ranžēšanai ļauj maksimāli palielināt diskrētos kvalitātes rādītājus, piemēram, nDCG. nDCG metrika dokumentu ranžēšanai meklētājprogrammā tiek noteikta saskaņā ar izteiksmi:

DCG@n=X2---

RF(q, d)=XWC. ■ SRF., i=1 1 1

kur atzīme(p) ir vidējais atbilstības rādītājs, ko eksperti piešķīruši dokumentam p pozīcijā rezultātu sarakstā, gradee ; 1/log2(2 + p) - koeficients atkarībā no dokumenta pozīcijām (pirmajiem dokumentiem ir lielāks svars).

Tad veidlapā tiks ierakstīta normalizētā NDCG versija

N000 @ n = RSD @ n/r,

kur r ir normalizācijas koeficients, kas ir vienāds ar maksimālo iespējamo vērtību 0C [aizsargāts ar e-pastu] n dotajam vaicājumam (t.i., ir vienāds ar ideālā ranga OOO).

Tādējādi, lai optimizētu (maksimizētu) SFR metriku, mērķa funkcija (JM) tiks uzrakstīta šādā formā

3. Meklēšanas rezultātu ranžēšanas kvalitātes rādītāji. Sakārtojot dokumentus meklēšanas rezultātos, kvalitātes rādītāji darbojas kā kritēriji. No vispārpieņemto metriku saraksta informācijas izguves sistēmu kvalitātes novērtēšanai ir atlasīti trīs galvenie, kas novērtē informācijas izguves precizitāti, atbilstību un pilnīgumu.

1. Informācijas izguves precizitātes kritērijs

kur a ir atrasto attiecīgo dokumentu skaits, b ir to dokumentu skaits, kurus kļūdaini uzskata par būtiskiem.

2. Kritērijs Bpref, kas novērtē informācijas izguves atbilstību, tiek izmantots uzdevuma apstrādei ar R attiecīgiem dokumentiem un tiek aprēķināts pēc formulas

Bpref = - ^ (1 - Non Re ¡Before(r)/R). (4)

Šeit r apzīmē zināmu attiecīgo dokumentu, un NonRelBefore(r) ir zināmo neatbilstošo dokumentu skaits, kas ir augstāks par r (aprēķinos tiek ņemti vērā tikai pirmie R novērtētie neatbilstošie dokumenti no izpildes).

3. Meklēšanas rezultātu pilnīguma kritērijs

r = a / (a + c),

kur a ir atrasto attiecīgo dokumentu skaits, c ir attiecīgo neatrasto dokumentu skaits.

4. Testu kolekcijas. Mašīnmācīšanās uzdevumā ranžēšanai ir nepieciešams dokumentu un vaicājumu kopums ar atbilstošiem ekspertu noteiktiem atbilstības rādītājiem. Šie dati tiek izmantoti ranžēšanas funkcijas mašīnmācībai, kā arī kvalitātes novērtēšanai.

meklēšanas rezultātu ranžēšana pēc sistēmas. ML procesā testu kolekcijas tiek izmantotas kā apmācības komplekts, un tāpēc tām ir būtiska ietekme uz rezultātiem. Pētījumiem tika izmantota LETOR dokumentu un vaicājumu testa kolekcija. Šo kolekciju izmanto Microsoft Research informācijas izguves pētījumos. Tabulā. 1 parāda LETOR testa kolekciju raksturlielumus.

5. Modificēts ģenētiskais algoritms. Lai ranžēšanai izmantotu ģenētiskos algoritmus mašīnmācībā, problēma jāformulē tā, lai risinājums tiktu iekodēts kā vektors (genotips), kur katrs gēns var būt bits, skaitlis vai cits objekts. Šajā gadījumā genotipu attēlo attiecīgo ranžēšanas faktoru svaru vektors. Ģenētiskā algoritma izpildes pārtraukšanas nosacījums ir optimālā risinājuma atrašana, izsmeljot paaudžu skaitu vai evolūcijai atvēlēto laiku.

Jāatzīmē, ka GA ir visefektīvākā globālā ekstrēma reģiona atrašanā, tomēr tie var darboties lēni, ja šajā reģionā ir nepieciešams atrast lokālo minimumu. Piedāvātais veids, kā izvairīties no šī trūkuma, ir izveidot modificētu ģenētisko algoritmu (MGA), kas pārslēgsies uz lokālo (ātro) optimizācijas algoritmu pēc globālā optimālā apgabala atrašanas, izmantojot bāzes GA. Darbā piedāvātā MGA ir hibrīda metode, kuras pamatā ir klasiskā GA un Neldera-Mīda metode (vienkāršais algoritms). Neldera-Mīda metode, plaši izmantots nelineārās optimizācijas algoritms, ir skaitliska metode mērķa funkcijas minimuma atrašanai daudzdimensionālā telpā. Šajā rakstā piedāvātais hibrīda MGA algoritms pārslēdzas uz Nelder-Mead metodi pēc tam, kad ir izpildīti GA apturēšanas nosacījumi. MGA algoritma blokshēma ir parādīta att. viens.

Veicot pētījumu, tika pieņemts ierobežojums mērķfunkciju aprēķinu skaitam (Nrf = 16 000), meklējot globālo ekstrēma apgabalu un nosacījums pārejai uz lokālo optimizācijas algoritmu, kas balstīts uz Neldera-Mīda metodi (pēc pamata ģenētiskā algoritma). veic 75% no Nrf operācijām).

6. Rezultāti. Pētījuma rezultātā, kas veikts, izmantojot mašīnmācīšanās algoritmu

1. tabula

Dokumentu un vaicājumu skaits testa kolekcijās

Pārbaudes kolekcijas nosaukums Apakšsistēmas nosaukums Vaicājumu skaits Dokumentu skaits

LETOR 4.0 MQ2007 1692 69623

LETOR 4.0 MQ2008 784 15211

LETOR 3.0 OHSUMED 106 16140

LETOR 3.0 Gov03td 50 49058

LETOR 3.0 Gov03np 150 148657

LETOR 3.0 Gov03hp 150 147606

LETOR 3.0 Gov04td 75 74146

LETOR 3.0 Gov04np 75 73834

LETOR 3.0 Gov04hp 75 74409

Rīsi. 1. Hibrīda MVL algoritma blokshēma, kuras pamatā ir ģenētiskie algoritmi un Neldera-Mīda metode

LTR-MGA rangs saņēma svara koeficientu vektoru WC* reitinga funkcijai. Tālāk, pamatojoties uz LETOY testu kolekcijas datiem, tika novērtēta ranžēšanas kvalitāte, kurai tika aprēķināti kvalitātes rādītāji. Diskrēta ranžēšanas kvalitātes metrika [aizsargāts ar e-pastu] novērtē sistēmas atbildes pirmo n dokumentu kvalitāti. Vispārpieņemtie rādītāji reitinga kvalitātes novērtēšanai ir [aizsargāts ar e-pastu], [aizsargāts ar e-pastu] un [aizsargāts ar e-pastu] Tomēr, lai sīkāk apsvērtu metrikas izmaiņas atkarībā no vērtībām, tika ņemtas vērā [aizsargāts ar e-pastu] visiem n no 1 līdz 10. Lai salīdzinātu izstrādātā algoritma efektivitāti ar esošajiem risinājumiem, tika veikta salīdzinošā analīze, izmantojot LETOM 3.0 kolekcijās sniegtos ranžēšanas algoritmus. Algoritmu izpildes rezultāti testu kolekcijām TB2003 un TB2004 NDCG metrikai ir parādīti attēlā. 2. Rezultāti liecina, ka LTR-MGA algoritms pārspēj testa algoritmus ar visaugstākajām vērtībām

ir par [aizsargāts ar e-pastu](pirmā dokumenta līmenī). LTR-MGA algoritma pārākums ir saistīts ar to, ka atšķirībā no eksperimentos aplūkotajām testa ranžēšanas funkcijām piedāvātajā pieejā ranžēšanas funkcijas optimizēšanai par mērķa funkciju tiek izmantota NDCG metrika.

Lai novērtētu ranžēšanas kvalitāti, izmantojot piedāvāto LTR-MGA algoritmu, tika aprēķinātas kvalitātes metrikas vērtības dokumentu ranžēšanai meklēšanas rezultātos (3. att.). Randēšanas rezultātu salīdzinājums (2. tabula), izmantojot ranžēšanas pamatfunkciju, pamata LTR-GA algoritmu un modificēto LTR-MGA algoritmu, norāda uz pēdējā priekšrocību.

Turklāt pētījumā tika novērtēts laiks, kas nepieciešams MO ranžēšanai. Tas ir nepieciešams, lai apstiprinātu, ka piedāvātā LTR-MGA metode šajā rādītājā ir pārāka par pieeju, kuras pamatā ir tradicionālās metodes

Rīsi. 2. Mašīnmācīšanās algoritmu salīdzinājums ranžēšanai

pēc NDCG metrikas testa kolekcijām: kreisajā pusē - Gov03td datu kopa, labajā pusē - Gov04td datu kopa

Rīsi. 3. Randēšanas kvalitātes metriku novērtējums ranžēšanas pamatformulai un mācīšanās algoritmiem LTR-GA un LTR-MGA

Ranžēšanas kvalitātes metrika dažādiem ranžēšanas mašīnmācīšanās algoritmiem

2. tabula

Kvalitātes noteikšanas metrika Pamata ranžēšanas funkcija LTR-GA LTR-MGA Metriskais pieaugums, %

Precizitāte 0,201 0,251 0,267 26,81

[aizsargāts ar e-pastu](pirmie 5 dokumenti) 0,149 0,31 0,339 90,47

[aizsargāts ar e-pastu](pirmie 10 dokumenti) 0,265 0,342 0,362 29,14

Bpref 0,303 0,316 0,446 51,49

Pilnīgums 0,524 0,542 0,732 39,03

* Atbilstošās metrikas labākās vērtības ir iezīmētas pelēkā krāsā

ģenētiskais algoritms (NTL-OL). LTN-OL un LTN-MOL algoritmu izpildei pavadītā laika salīdzināšanas rezultāti ir doti tabulā. 3.

7. Secinājums. Tādējādi veiktie pētījumi ir parādījuši, ka, izmantojot piedāvāto pieeju, aplūkojamo ranžēšanas rādītāju vērtības IRS palielinās (vidēji par 19,55%, salīdzinot ar LTR-OL algoritmu). Tas apliecina, ka LTR-MOL darbojas pareizi un būtiski uzlabo ranžēšanas funkciju, citiem vārdiem sakot, veiksmīgi atrisina optimizācijas problēmu. Ar modificētu algoritmu

sakarā ar lokālās optimizācijas metodes pielietošanu un ieviestajiem mērķfunkcijas skaitļu skaitļu ierobežojumiem mašīnmācīšanās laiks samazinājās (vidēji par 17,71% salīdzinājumā ar tradicionālā ģenētiskā algoritma LTNOL izmantošanu).

Izstrādāto mašīnmācīšanās algoritmu LTN-MOL ranžēšanai var izmantot IS, izmantojot ranžēšanas modeli, kas balstīts uz vienkāršu ranžēšanas funkciju kombināciju. Tomēr ir jāņem vērā daži ierosinātās pieejas ierobežojumi. Pamatojoties

Mašīnmācīšanās ranžēšanas izpildes laika novērtēšana atkarībā no apmācības izlases lieluma

3. tabula

Dokumenta teksta kolekcijas lielums

Izpildlaika LTR-GA

Izpildes laiks LTR-MGA

Izpildes laika samazinājums, %

Vidēji

*Attiecīgā testa kolekcijas izmēra labākās vērtības ir iezīmētas pelēkā krāsā.

iegūtos rezultātus, atklājās, ka pēc MO lielākais pieaugums ir ranžēšanas kvalitātes metrikā, kuras vērtība tika ņemta par mērķa funkciju. Tajā pašā laikā citi rādītāji var nebūt būtiski uzlaboti un dažos gadījumos pat pasliktināt to vērtības. Kā viena no iespējamām pieejām šī trūkuma novēršanai ir optimizācijas problēmas risināšana kā daudzmērķīga: vienveidīgi uzlabot vairākus galvenos meklēšanas rezultātu ranžēšanas rādītājus, nevis vienu optimizēt. Papildus turpmākajos pētījumos plānots izstrādāt metodiku mērķfunkcijas konstruēšanai, balstoties uz galveno ranžēšanas kvalitātes metriku lineāru līkumu, lai uzlabotu informācijas izguves procesu.

Bibliogrāfiskais saraksts

1. Tie-Yan Liu. Mācīšanās novērtēt informācijas izguves vietu // Žurnālu pamati un tendences informācijas izgūšanā. Vol. 3, izdevums 3. marts 2009. Lpp. 225-331.

2. Christopher J. C. Burges, Tal Shaked, Erin Renshaw. Learning to Rank using Gradient Descent // Proceeding ICML "05 Proceedings of the 22nd international Conference on Machine learning. 2005. P. 89-96.

3. Semenikhin, S. V. Mašīnmācības pieeju izpēte dokumentu ranžēšanai, izmantojot meklēšanas sistēmu, kuras pamatā ir ģenētiskie algoritmi / S. V. Semenihins // Jaunā Krievija: progresīvas tehnoloģijas rūpniecībai. - 2013. - Nr.2. - S. 82 - 85.

4. Uz ģenētiskiem algoritmiem balstīta daudzkritēriju optimizācija vadības sistēmu sintēzē: monogrāfija. / L. A. Denisova. - Omska: OmGTU izdevniecība, 2014. - 170 lpp. - ISBN 978-5-8149-1822-2.

5. Denisova, L. A., Meshcheryakov, V. A. Kontroles sistēmas parametriskās sintēzes automatizācija, izmantojot ģenētisko algoritmu. - 2012. - Nr.7. - S. 34 - 38.

6. Huber, Peter J. Robust Estimation of a Location Parameter // Statistikas statistika. - 1964. - Nr.53. - P. 73-101.

7. Semenikhin, S. V. Informācijas izguves automatizācija, pamatojoties uz daudzkritēriju optimizāciju un ģenētiskiem algoritmiem / S. V. Semenikhin, L. A. Denisova // Sistēmu, mehānismu un mašīnu dinamika. - 2014. - Nr. 3. - S. 224 - 227.

8. Tie-Yan Liu, Jun Xu, Tao Qin, Wenying Xiong un Hang Li. LETOR: Benchmark Dataset for Research on Learning to Rank for Information Retrieval // SIGIR 2007 Workshop on Learning to Rank for Information Retrieval. - 2007. - S. 3-10.

9. Ageev, M. S. Oficiālā metrika R0MIP "2004 / M. S. Ageev, I. E Kuralenok // II Krievijas seminārs par informācijas izguves metožu novērtēšanu (ROMIP 2004), Pushchino, 2004: tr.; ed. I S. Nekrestyanova, St. Pēterburga: Sanktpēterburgas Valsts universitātes Ķīmijas pētniecības institūts, 142.-150. lpp.

10. J. A. Nelder, R. Mead, A simplex method for function minimisation, The Computer Journal 7 (1965). 308-313.

SEMENIKHIN Svjatoslavs Vitāljevičs, katedras "Informācijas apstrādes un kontroles automatizētās sistēmas" aspirants. Adrese sarakstei: [aizsargāts ar e-pastu] DENISOVA Ludmila Albertovna, tehnisko zinātņu doktore, automatizētās informācijas apstrādes un vadības sistēmu katedras asociētā profesore. Adrese sarakstei: [aizsargāts ar e-pastu]

Šajā nodaļā ir parādītas populāras klasifikācijas modeļa kvalitātes novērtēšanas metodes, kas tiek izmantotas arī citos darbos par šo tēmu. Ir sniegts to apraksts un šim novērtējumam izmantoto metrikas pamatojums.

Kvalitātes novērtēšanas rādītāji

Pilna precizitāte (precizitāte)

Šis rādītājs ir viens no vienkāršākajiem un vienlaikus universālākajiem klasifikācijas algoritmu kvalitātes novērtēšanas rādītājiem. Šī koeficienta vērtību aprēķina kā pareizi klasificētu objektu proporciju no kopējā izlasē esošo objektu skaita. Šis rādītājs ir populārs, pateicoties tā vienkāršībai un iespējai paplašināties uz jebkuru klašu skaitu. Šīs metrikas galvenais trūkums ir tas, ka tas piešķir vienādu svaru visiem dokumentiem, kas var būt nepareizs gadījumā, ja apmācības paraugā ir izteikta dokumentu novirze pret vienu vai vairākām klasēm. Šim rādītājam var būt augsta vērtība, taču tās pašas klases klasifikators var uzrādīt ārkārtīgi zemu darba kvalitāti. Tajā pašā laikā metrika par to nekādā veidā neliecina.

Precizitāte, atsaukšana un F-mērs

Tādas metrikas kā precizitāte (precizitāte) un atsaukšana (atgādināšana) pirmo reizi tika plaši izmantota tādu sistēmu darba kvalitātes novērtēšanā, kuras atrisina informācijas izguves problēmu. Sistēmas precizitāte vienas klases ietvaros ir to objektu proporcija, kas faktiski pieder noteiktai klasei attiecībā pret visiem objektiem, ko sistēma ir piešķīrusi šai klasei. Pilnīgumu izsaka kā klasei piederošo klasifikatora atrasto objektu proporciju attiecībā pret visiem šīs klases objektiem. 4. tabula ir atsevišķas klases nejaušības tabula, kur TP (patiesi pozitīvs) ir patiesi pozitīvs risinājums, TN (patiesi negatīvs) ir patiesi negatīvs risinājums, FP (viltus pozitīvs) ir kļūdaini pozitīvs risinājums un FN (viltus negatīvs) ir nepatiess negatīvs lēmums.

1. tabula. Objektu klases nejaušības tabula

Tātad precizitāti un atsaukšanu aprēķina šādi:

F-mērs apvieno informāciju par novērtējamā algoritma precizitāti un pilnīgumu. To aprēķina kā precizitātes un atsaukšanas rādītāju harmonisko vidējo vērtību:

Sakarā ar to, ka F-mērs tiek aprēķināts katrai klasei atsevišķi, to ir ērti izmantot, lai meklētu un analizētu konkrētas algoritma kļūdas, novērtētu klasifikāciju ar vairākām klasēm. Tajā pašā laikā liela klašu skaita gadījumā ir nepieciešams raksturlielums, kas apkopotu pilnīgumu un precizitāti pa visām klasēm un raksturotu sistēmas vispārējo uzvedību. Šajā rakstā šim nolūkam tiek izmantotas šādas apkopotas vērtības: makro precizitāte (makro precizitāte), ko aprēķina kā visu klašu precizitātes vidējo aritmētisko, makro atsaukšana (makro atsaukšana), ko aprēķina kā vidējo aritmētisko. visu klašu atsaukšanu un makro F-mēru (Macro F-score), kas ir harmoniskais vidējais starp tām.

Krusta validācija

Viena no visizplatītākajām metodēm pilnvērtīgas testēšanas veikšanai un dažādu mašīnmācīšanās algoritmu veiktspējas novērtēšanai ir savstarpējā validācija. Neatkarīgam paraugam šī metode ļauj iegūt objektīvu kļūdas varbūtības aprēķinu, atšķirībā no vidējās kļūdas apmācības paraugā, kas var būt neobjektīvs kļūdas varbūtības novērtējums algoritma pārmērīgas pielāgošanas dēļ. Vēl viena šīs procedūras priekšrocība ir iespēja iegūt algoritma kļūdas iespējamības novērtējumu, ja nav speciāli testēšanai paredzēta kontrolparauga.

Pieņemsim, ka tā ir objektu pazīmju aprakstu kopa, uz kuras ir norādīts ierobežots precedentu paraugs, kur ir ierobežota klašu kopa. Tiek dota kartēšana, kas saista patvaļīgu precedentu paraugu ar algoritmu. Pēc tam algoritma veiktspēja patvaļīgam precedentu paraugam tiek novērtēta, izmantojot kvalitātes funkciju:

kur ir kāda nenegatīva funkcija, kas atgriež algoritma kļūdas vērtību ar pareizo klases apzīmējumu.