Որակի չափիչ մեքենայական ուսուցման մեջ: Մետրիկա մեքենայական ուսուցման խնդիրների մեջ

Յուրաքանչյուր ցուցակի ներսում գտնվող տարրերի վրա: Մասնակի կարգը սովորաբար նշվում է ՝ յուրաքանչյուր տարրի համար գնահատական նշելով (օրինակ ՝ «համապատասխան» կամ «ոչ համապատասխան». Հնարավոր է ավելի քան երկու գնահատական): Վարկանիշային մոդելի նպատակն է մոտեցնել և լավագույնս ընդհանրացնել (ինչ -որ առումով) դասակարգման մեթոդը նոր հավաքածուի համար:

Ուսուցման դասակարգումը դեռևս բավականին երիտասարդ, արագ զարգացող հետազոտական ոլորտ է, որը ծագել է 2000 -ականներին `առաջացած խնդիրները դասակարգելու համար մեքենայական ուսուցման մեթոդների կիրառման մեջ տեղեկատվության որոնման ոլորտում հետաքրքրության առաջացման արդյունքում:

Կոլեգիալ YouTube

1 / 5

Վարկանիշային մոդելի վերապատրաստման ընթացքում և դրա գործողության ընթացքում յուրաքանչյուր փաստաթուղթ-հարցման զույգ թարգմանվում է վարկանիշային հատկանիշների թվային վեկտորի (նաև կոչվում են վարկանիշային գործոններ կամ ազդանշաններ), որոնք բնութագրում են փաստաթղթի, հարցման և դրանց փոխհարաբերությունները: Նման նշանները կարելի է բաժանել երեք խմբի.

Ստորև բերված են արվեստում քաջ հայտնի LETOR տվյալների հավաքածուում օգտագործվող վարկանիշային հատկանիշների մի քանի օրինակներ.

TF, TF-IDF, BM25 միջոցառումների արժեքները և փաստաթղթի տարբեր ոլորտների պահանջներին համապատասխանող լեզվի մոդելը (վերնագիր, URL, հիմնական տեքստ, հղման տեքստ);
Փաստաթղթերի գոտիների երկարություններ և IDF- գումարներ;
Հղումների դասակարգման ալգորիթմների տարբեր տարբերակներով ձեռք բերված փաստաթղթերի դասակարգումները, ինչպիսիք են PageRank- ը և HITS- ը:

Որակի չափանիշների դասակարգում

Գոյություն ունեն մի քանի չափումներ, որոնցով գնահատվում է ընտրանքի վրա դասակարգման ալգորիթմների կատարումը և համեմատվում գնահատողների հետ: Հաճախ վարկանիշային մոդելի պարամետրերը հակված են ճշգրտման այնպես, որ առավելագույնի հասցնեն այս չափանիշներից մեկի արժեքը:

Չափանիշների օրինակներ.

Ալգորիթմի դասակարգում

Microsoft Research Asia- ից Թայ-Յան Լյուն իր «Սովորելով դասակարգել տեղեկատվության որոնման համար» և ելույթներ ունենալիս վերլուծել է դասավանդման դասավանդման խնդրի լուծման գոյություն ունեցող մեթոդները և առաջարկել դրանց դասակարգումը երեք մոտեցումների ՝ կախված օգտագործվող ներկայացուցչությունից: . տվյալների և տույժի գործառույթները.

Կետային մոտեցում

Նշումներ (խմբագրել)

Tie-Yan Liu (2009), Տեղեկատվության որոնման համար դասակարգման սովորում, Հիմնադրամներ և տեղեկատվության որոնման միտումներ. 3: No 3, էջ. 225-331, ISBN 978-1-60198-244-5, DOI 10.1561 / 1500000016... WWW 2009 -ին Տ. Լյուի ելույթի սլայդները հասանելի են:

Հեռահաղորդակցության օպերատորի հաճախորդների արտահոսքի մասին:

Եկեք բեռնենք անհրաժեշտ գրադարանները և նայենք տվյալները

ներմուծել pandas որպես pd ներմուծել matplotlib.pyplot որպես plt matplotlib.pylab ներմուծման rc, հողամաս ներմուծել seaborn as sns from sklearn.preproininging import LabelmbleEncoder, OneHotEncoder from sklearn.model_selection import cross_val_score from sklearn.linearline sklearn.metrics- ից ներմուծել precision_recall_curve, դասակարգման_հաշվետվություն sklearn.model_selection- ից ներմուծել գնացք_ փորձարկում_բաժանում df = pd.read_csv ("../../ data/ telecom_churn.csv")

df. գլուխ (5)

Տվյալների նախամշակում

# Եկեք երկուական սյուների քարտեզագրում # և ծածկագրենք վիճակը կեղծ ծածկագրով (պարզության համար ավելի լավ է դա չանել փայտե մոդելների համար) d = («Այո»: 1, «Ոչ»: 0) df ["Միջազգային ծրագիր "] = df [" Միջազգային ծրագիր "]. Քարտեզ (դ) df [" Ձայնային փոստի ծրագիր "] = df [" Ձայնային փոստի ծրագիր "]: Քարտեզ (դ) df [" Churn "] = df [" Churn "] . Astype ("int64") le = LabelEncoder () df ["State"] = le.fit_transform (df ["State"]) ohe = OneHotEncoder (sparse = False) encoded_state = ohe.fit_transform (df ["State"] . values.reshape (- 1, 1)) tmp = pd.DataFrame (encoded_state, columns = ["state" + str (i) for i in range (encoded_state.shape)]) df = pd.concat (, axis = 1)

Uracyշգրտություն, ճշգրտություն և հետկանչում

Նախքան բուն չափանիշներին անցնելը, անհրաժեշտ է ներկայացնել մի կարևոր հասկացություն, որը նկարագրելու է այդ չափանիշները դասակարգման սխալների առումով. շփոթության մատրիցա(սխալի մատրիցա):
Ենթադրենք, մենք ունենք երկու դաս և ալգորիթմ, որը կանխատեսում է յուրաքանչյուր օբյեկտի պատկանելությունը դասերից մեկին, ապա դասակարգման սխալի մատրիցը այսպիսի տեսք կունենա.


	Իսկական դրական (TP)	Կեղծ դրական (FP)
	Կեղծ բացասական (FN)	Իսկական բացասական (TN)

Ահա օբյեկտի վրա ալգորիթմի արձագանքը, և այդ օբյեկտի ճշմարիտ դասի պիտակը:
Այսպիսով, դասակարգման սխալների երկու տեսակ կա. Կեղծ բացասական (FN) և կեղծ դրական (FP):

Ալգորիթմի ուսուցում և սխալի մատրիցայի կառուցում

X = df.drop ("Churn", axis = 1) y = df ["Churn"] # Բաժանել նմուշը գնացքի և փորձարկման, բոլոր չափանիշները կգնահատվեն թեստային տվյալների բազայում `X_train, X_test, y_train, y_test = train_test_split ( X, y, stratify = y, test_size = 0.33, random_state = 42) # Ուսուցանել հայրենի լոգիստիկ ռեգրեսիան lr = LogisticRegression (random_state = 42) lr.fit (X_train, y_train) # Օգտագործել սխալի մատրիցի կառուցման գործառույթը փաստաթղթեր def plot_confusion_matrix (սմ, դասարաններ, նորմալացնել = Կեղծ, վերնագիր = "(! LANG: Շփոթության մատրիցա", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="Շփոթության մատրիցա") plt.savefig("conf_matrix.png") plt.show()!}

Ճշգրտություն

Ինտուիտիվ, ակնհայտ և գրեթե չօգտագործված չափանիշը ճշգրտությունն է `ալգորիթմի ճիշտ պատասխանների տոկոսը.

Այս չափիչն անիմաստ է անհավասար դասերի հետ կապված խնդիրների դեպքում, և հեշտ է դա ցույց տալ օրինակով:

Ենթադրենք, մենք ցանկանում ենք գնահատել սպամ փոստի ֆիլտրի աշխատանքը: Մենք ունենք 100 ոչ-սպամ նամակ, որոնցից 90-ը մեր դասակարգիչը ճիշտ է ճանաչել (Neշմարիտ բացասական = 90, Սխալ Դրական = 10), և 10 սպամ էլփոստ, որոնցից 5-ը նույնպես ճիշտ է ճանաչել (Pշմարիտ դրական = 5, կեղծ բացասական = հինգ ):
Հետո ճշգրտություն.

Այնուամենայնիվ, եթե մենք պարզապես կանխատեսենք բոլոր նամակները որպես ոչ սպամ, մենք կստանանք ավելի բարձր ճշգրտություն.

Միևնույն ժամանակ, մեր մոդելը ընդհանրապես որևէ կանխատեսող ուժ չունի, քանի որ ի սկզբանե մենք ցանկանում էինք բացահայտել սպամ հաղորդագրությունները: Դա հաղթահարելու համար մեզ կօգնի անցումը բոլոր դասարանների ընդհանուր չափանիշից դասարանների որակի առանձին ցուցանիշների:

Preշգրիտություն, հետկանչում և F- չափում

Ալգորիթմի կատարումը դասերից յուրաքանչյուրի առանձին գնահատելու համար մենք ներկայացնում ենք ճշգրտության և հետկանչի չափանիշներ:

Preշգրտությունը կարելի է մեկնաբանել որպես դասակարգչի կողմից դրական և միևնույն ժամանակ իսկապես դրական օբյեկտների համամասնություն, իսկ հետկանչը ցույց է տալիս, որ դրական դասի օբյեկտների ինչ մասնաբաժին է գտել դրական դասի բոլոր օբյեկտները:

Դա ճշգրտության ներդրումն է, որը թույլ չի տալիս բոլոր օբյեկտները գրել մեկ դասի, քանի որ այս դեպքում մենք ստանում ենք կեղծ դրական մակարդակի բարձրացում: Հիշեցումը ցույց է տալիս ընդհանուր առմամբ տվյալ դասը հայտնաբերելու ալգորիթմի ունակությունը, և ճշգրտությունը ցույց է տալիս այս դասը այլ դասերից տարբերելու ունակությունը:

Ինչպես արդեն նշեցինք, դասակարգման սխալների երկու տեսակ կա ՝ կեղծ դրական և կեղծ բացասական: Վիճակագրության մեջ սխալների առաջին տեսակը կոչվում է Տիպ I սխալ, իսկ երկրորդը ՝ Տիպ II սխալ: Բաժանորդների հոսքը որոշելու մեր խնդրում, առաջին տեսակի սխալը կլինի հավատարիմ բաժանորդի ընդունումը արտագնա հաճախորդի համար, քանի որ մեր զրո վարկածն այն է, որ բաժանորդներից ոչ մեկը չի հեռանում, և մենք մերժում ենք այս վարկածը: Ըստ այդմ, երկրորդ տեսակի սխալ կլինի ելքային բաժանորդի «բաց թողնելը» և զրոյական վարկածի սխալ ընդունումը:

Contrastշգրտությունը և հետկանչը, ի տարբերություն ճշգրտության, կախված չեն դասերի հարաբերակցությունից և, հետևաբար, կիրառելի են անհավասարակշիռ նմուշների պայմաններում:
Հաճախ իրական պրակտիկայում խնդիր է դրված գտնել այս երկու ցուցանիշների միջև օպտիմալ (հաճախորդի համար) հավասարակշռությունը: Դասական օրինակ է հանդիսանում հաճախորդի խռպոտության որոշման խնդիրը:
Ակնհայտ է, որ չենք կարող գտնել բոլորիցարտագնա հաճախորդներ և միայննրանց Բայց, բացահայտելով հաճախորդների պահպանման ռազմավարությունն ու ռեսուրսը, մենք կարող ենք ընտրել անհրաժեշտ ճշգրտությունը և հետ կանչել շեմերը: Օրինակ, կարող եք կենտրոնանալ միայն բարձր եկամուտ ունեցող հաճախորդների կամ նրանցից, ովքեր ավելի հավանական է, որ հեռանան, քանի որ մենք ունենք զանգերի կենտրոնի սահմանափակ ռեսուրսներ:

Սովորաբար, ալգորիթմի հիպերպարամետրերն օպտիմալացնելիս (օրինակ ՝ ցանցի վրա կրկնվելու դեպքում GridSearchCV) օգտագործվում է մեկ չափիչ, որի բարելավումը մենք ակնկալում ենք տեսնել փորձարկման նմուշի վրա:
Գոյություն ունեն մի քանի տարբեր եղանակներ ՝ ճշգրտությունն ու հետկանչը համատեղելու որակի ընդհանուր չափման մեջ: F- միջոց (ընդհանուր առմամբ) - ներդաշնակ միջին ճշգրտություն և հետկանչում.

Այս դեպքում այն որոշում է մետրիկում ճշգրտության կշիռը, և երբ դա ներդաշնակության միջինն է (2 գործակցով, այնպես որ ճշգրտության դեպքում = 1 և հետ կանչել = 1 ունենալ)
F- չափիչը հասնում է իր առավելագույնին, երբ ամբողջականությունն ու ճշգրտությունը հավասար են մեկին, և մոտ է զրոյի, եթե արգումենտներից մեկը մոտ է զրոյի:
Sklearn- ը ունի հարմար գործառույթ _metrics.classification զեկուցել, որը վերադարձնում է հիշողություն, ճշգրտություն և F- չափում յուրաքանչյուր դասի համար, ինչպես նաև յուրաքանչյուր դասի օրինակների թիվը:

հաշվետվություն = դասակարգման_հաշվետվություն (y_test, lr.predict (X_test), target_names = ["Non-churned", "Churned"]) print (report)

դասարան	ճշգրտություն	հետ կանչել	f1- հաշիվ	աջակցություն
Չհալածված	0.88	0.97	0.93	941
Փշրված	0.60	0.25	0.35	159
միջին / ընդհանուր	0.84	0.87	0.84	1100

Այստեղ պետք է նշել, որ անհավասարակշիռ դասերի հետ կապված խնդիրների դեպքում, որոնք գերակշռում են իրական պրակտիկայում, հաճախ անհրաժեշտ է դիմել տվյալների հավաքածուի արհեստական փոփոխման տեխնիկային `դասերի հարաբերակցությունը հավասարեցնելու համար: Նրանցից շատերը կան, և մենք դրանց չենք անդրադառնա, կարող եք դիտել որոշ մեթոդներ և ընտրել այն, ինչը համապատասխանում է ձեր առաջադրանքին:

AUC-ROC և AUC-PR

Ալգորիթմի իրական պատասխանը (որպես կանոն, դասին պատկանելու հավանականությունը, տես SVM առանձին) երկուական պիտակի վերածելիս մենք պետք է ընտրենք որոշ շեմ, որի 0 -ը դառնում է 1. 0.5 -ի հավասար շեմը բնական և մոտ է թվում , բայց միշտ չէ, որ օպտիմալ է ստացվում, օրինակ ՝ դասակարգային հավասարակշռության վերոնշյալ բացակայության դեպքում:

Մոդելն ամբողջությամբ գնահատելու եղանակներից մեկը ՝ առանց որևէ շեմի հետ կապված, AUC -ROC (կամ ROC AUC) տարածք է ( Առեա Uհարգ Գ urve) սխալի կորի տակ ( Ռ eceiver Օպիրատինգ Գբնորոշ կոր) Այս կորը (0,0) - ից (1,1) տող է իրական դրական դրույքաչափի (TPR) և կեղծ դրական տեմպի (FPR) կոորդինատներում:

Մենք արդեն գիտենք TPR- ը, սա ամբողջականություն է, և FPR- ը ցույց է տալիս, թե ինչ բացասական դասի օբյեկտների համամասնությունն է սխալ կանխատեսել ալգորիթմը: Իդեալական դեպքում, երբ դասակարգիչը սխալներ թույլ չի տալիս (FPR = 0, TPR = 1), մենք կորի տակ գտնվող մակերեսը ստանում ենք մեկին հավասար; Հակառակ դեպքում, երբ դասակարգիչը պատահականորեն դուրս է բերում դասի հավանականությունը, AUC-ROC- ը կունենա 0,5 հակվածություն, քանի որ դասակարգիչը նույն քանակությամբ TP և FP թողարկում է:
Գրաֆիկի յուրաքանչյուր կետ համապատասխանում է որոշակի շեմի ընտրությանը: Այս դեպքում կորի տակ գտնվող մակերեսը ցույց է տալիս ալգորիթմի որակը (ավելին `ավելի լավ), բացի այդ, կորի կտրուկությունն ինքնին կարևոր է. Մենք ցանկանում ենք առավելագույնի հասցնել TPR- ն` նվազեցնելով FPR- ը, ինչը նշանակում է, որ մեր կորը իդեալականորեն պետք է հակված լինի կետը (0,1):

ROC կորի գծագրման ծածկագիր

sns.set (font_scale = 1.5) sns.set_color_codes ("անջատված") plt. պատկեր (figsize = (10, 8)) fpr, tpr, thresholds = roc_curve (y_test, lr.predict_proba (X_test) [:, 1], pos_label = 1) lw = 2 plt.plot (fpr, tpr, lw = lw, label = "ROC curve") plt.plot (,) plt.xlim () plt.ylim () plt.xlabel ("Կեղծ դրական դրույքաչափ ") plt.ylabel (" Իրական դրական դրույք ") plt.title (" ROC կոր ") plt.savefig (" ROC.png ") plt.show ()

AUC-ROC չափանիշը դիմացկուն է անհավասարակշիռ դասերին (փչացող. Ավաղ, ամեն ինչ այդքան միանշանակ չէ) և կարող է մեկնաբանվել որպես հավանականություն, որ պատահականորեն ընտրված դրական օբյեկտը դասակարգչի կողմից դասվի ավելի բարձր (դրական լինելու ավելի մեծ հավանականություն կունենա): քան պատահականորեն ընտրված բացասական օբյեկտ ...

Մտածեք հետևյալ խնդիրը. Մենք պետք է ընտրենք 100 համապատասխան փաստաթուղթ 1 միլիոն փաստաթղթից: Մենք յուրացրել ենք երկու ալգորիթմ.

Ալգորիթմ 1վերադարձնում է 100 փաստաթուղթ, որից 90 -ը `համապատասխան: Այսպիսով,

Ալգորիթմ 2վերադարձնում է 2000 փաստաթուղթ, որից 90 -ը `համապատասխան: Այսպիսով,

Ամենայն հավանականությամբ, մենք կընտրեինք առաջին ալգորիթմը, որն իր մրցակցի համեմատ շատ քիչ կեղծ դրական է արտադրում: Բայց կեղծ դրական փոխարժեքի տարբերությունը այս երկու ալգորիթմների միջև չափազանցփոքր - ընդամենը 0,0019: Սա հետևանք է այն բանի, որ AUC-ROC- ը չափում է կեղծ դրականի հարաբերակցությունը ճշմարիտ բացասականի նկատմամբ, և այն խնդիրներում, որտեղ երկրորդ (ավելի մեծ) դասը մեզ համար այնքան էլ կարևոր չէ, այն չի կարող լիովին համարժեք պատկեր տալ ալգորիթմները համեմատելիս: .

Իրավիճակը շտկելու համար վերադառնանք ամբողջականությանն ու ճշգրտությանը.

Ալգորիթմ 1

Ալգորիթմ 2

Այստեղ արդեն նկատելի է երկու ալգորիթմների միջև էական տարբերություն ՝ 0,855 ճշգրտությամբ:

Preշգրտությունը և հետկանչը նույնպես օգտագործվում են կորը կառուցելու համար և, ինչպես AUC-ROC- ը, գտնում դրա տակ գտնվող տարածքը:

Այստեղ կարելի է նշել, որ տվյալների փոքր հավաքածուների վրա PR- կորի տարածքը կարող է չափազանց լավատեսական լինել, քանի որ այն հաշվարկվում է տրապիզոիդային մեթոդով, բայց սովորաբար այդպիսի առաջադրանքների մեջ բավականաչափ տվյալներ կան: AUC-ROC- ի և AUC-PR- ի միջև հարաբերությունների մասին մանրամասների համար տե՛ս այստեղ:

Լոգիստիկ կորուստ

Լոգիստիկ կորստի գործառույթը առանձնանում է ՝ սահմանվելով հետևյալ կերպ.

ահա ալգորիթմի պատասխանը -th օբյեկտի վրա, իսկական դասի պիտակը `-th օբյեկտի վրա և նմուշի չափը:

Լոգիստիկ կորուստների ֆունկցիայի մաթեմատիկական մեկնաբանման վերաբերյալ մանրամասներ արդեն գրվել են գծային մոդելների մասին գրառման շրջանակներում:
Այս ցուցանիշը հազվադեպ է հայտնվում բիզնեսի պահանջների մեջ, բայց հաճախ kaggle- ի առաջադրանքների մեջ:
Ինտուիտիվ կերպով, տեղեկամատյանների նվազեցումը կարելի է համարել որպես ճշգրտությունը առավելագույնի հասցնելու խնդիր `տուգանելով սխալ կանխատեսումները: Այնուամենայնիվ, պետք է նշել, որ logloss- ը խիստ պատժում է դասակարգողի սխալ պատասխանի նկատմամբ վստահության համար:

Եկեք դիտարկենք մի օրինակ.

def logloss_crutch (y_true, y_pred, eps = 1e -15). "% logloss_crutch (1, 0.5)) >> Անորոշ դասակարգմամբ 0.693147 տպագիր (" Լոգլոս վստահ դասակարգմամբ և ճիշտ պատասխանով% f "% logloss_crutch (1, 0.9)) >> Լոգլոս վստահ դասակարգմամբ և ճիշտ պատասխան 0.105361 տպագիր (" Լոգլոս վստահ դասակարգմամբ և Սխալ պատասխան% f "% logloss_crutch (1, 0.1)) >> Լոգլոս վստահ դասակարգմամբ և Սխալ պատասխան 2.302585

Նկատի ունեցեք, թե ինչպես է կտրուկ աճել տեղեկամատյանների սխալ պատասխանը և վստահ դասակարգումը:
Հետևաբար, մեկ օբյեկտի սխալը կարող է հանգեցնել ընդհանուր նմուշի սխալի զգալի դեգրադացիայի: Նման օբյեկտները հաճախ ծայրահեղություններ են, որոնք պետք է հիշել, որ դրանք պետք է զտվեն կամ առանձին դիտարկվեն:
Ամեն ինչ իր տեղն է ընկնում, եթե գծապատկերի գծապատկեր գծեք.

Կարելի է տեսնել, որ որքան մոտ է զրոյին ալգորիթմի պատասխանը հիմքի ճշմարտությամբ = 1, այնքան ավելի մեծ է սխալի արժեքը և ավելի մեծ է կորը:

Եկեք ամփոփենք.

Բազմադասակարգման դեպքում դուք պետք է ուշադիր հետևեք յուրաքանչյուր դասի չափանիշներին և հետևեք որոշման տրամաբանությանը առաջադրանքներքան չափանիշի օպտիմալացում
Անհավասար դասերի դեպքում անհրաժեշտ է ընտրել դասընթացների հավասարակշռություն և չափիչ, որը ճիշտ կարտացոլի դասակարգման որակը

Այս գլուխը ներկայացնում է դասակարգման մոդելի որակի գնահատման հանրաճանաչ մեթոդներ, որոնք, ի թիվս այլ բաների, օգտագործվում են այս թեմայով այլ աշխատանքներում: Տրված են այս գնահատման համար օգտագործվող չափանիշների նրանց նկարագրությունը և հիմնավորումը:

Որակի գնահատման չափանիշներ

Լրիվ ճշգրտություն

Այս ցուցանիշը դասակարգման ալգորիթմների կատարման գնահատման ամենապարզ և միևնույն ժամանակ ունիվերսալ չափիչներից է: Այս գործակցի արժեքը հաշվարկվում է որպես նմուշի օբյեկտների ընդհանուր թվից ճիշտ դասակարգված օբյեկտների համամասնություն: Այս չափիչը հայտնի է իր պարզության և ցանկացած քանակի դասարանների վրա տարածվելու ունակության պատճառով: Այս չափանիշի հիմնական թերությունն այն է, որ այն տալիս է միևնույն կշիռը բոլոր փաստաթղթերին, ինչը կարող է սխալ լինել մեկ կամ մի քանի դասարանների դասընթացների ընթացքում փաստաթղթերի ուժեղ տեղաշարժի դեպքում: Այս ցուցանիշը կարող է ունենալ բարձր արժեք, բայց նույն դասի դասակարգիչը կարող է ցույց տալ աշխատանքի չափազանց ցածր որակ: Միևնույն ժամանակ, չափանիշը դա որևէ կերպ չի ազդարարում:

Isionշգրտություն, ամբողջականություն և F- չափում

Չափանիշները, ինչպիսիք են ճշգրտությունը և հետկանչը, առաջին անգամ լայնորեն կիրառվեցին տեղեկատվության որոնման խնդիրները լուծող համակարգերի կատարողականի գնահատման մեջ: Համակարգի ճշգրտությունը մեկ դասի մեջ այն օբյեկտների համամասնությունն է, որոնք իսկապես պատկանում են որոշակի դասի `համակարգի կողմից այս դասին վերագրված բոլոր օբյեկտների համեմատ: Ամբողջականությունը արտահայտվում է որպես դասին պատկանող դասակարգչի գտած առարկաների հարաբերակցությունը այս դասի բոլոր օբյեկտների նկատմամբ: Աղյուսակ 4 -ը առանձին դասի պատահական աղյուսակ է, որտեղ TP- ն (իսկական դրական) ճշմարիտ դրական որոշում է, TN- ն (իսկական բացասական) ճշմարիտ բացասական որոշում է, FP- ն (կեղծ դրական) `կեղծ դրական որոշում, և FN- ը (կեղծ բացասական) ) կեղծ է: -բացասական որոշում:

Աղյուսակ 1 - օբյեկտների դասի չնախատեսվածության աղյուսակ

Այսպիսով, ճշգրտությունն ու ամբողջականությունը հաշվարկվում են հետևյալ կերպ.

F- չափումը համատեղում է գնահատված ալգորիթմի ճշգրտության և ամբողջականության մասին տեղեկատվությունը: Այն հաշվարկվում է որպես ճշգրտության և ամբողջականության ցուցանիշների ներդաշնակ միջին.

Շնորհիվ այն բանի, որ F- միջոցը հաշվարկվում է առանձին յուրաքանչյուր դասի համար, հարմար է այն օգտագործել ալգորիթմի հատուկ սխալների որոնման և վերլուծման, մի քանի դասերով դասակարգումը գնահատելու համար: Ավելին, մեծ թվով դասերի դեպքում անհրաժեշտ է այնպիսի բնութագիր, որը կմիավորի բոլոր դասերի ամբողջականությունն ու ճշգրտությունը և բնութագրելու համակարգի ընդհանուր վարքագիծը: Այս աշխատանքում այս նպատակով օգտագործվում են հետևյալ համախառն արժեքները ՝ մակրո ճշգրտություն, որը հաշվարկվում է որպես բոլոր դասերի ճշգրտության միջին թվաբանական, մակրո հիշեցում, որը հաշվարկվում է որպես բոլոր դասերի ամբողջականության թվաբանական միջին, և մակրո F- միջոցը (Macro F-score), որը նրանց միջև ներդաշնակ միջինն է:

Խաչի վավերացում

Խաչաձև վավերացումը մեքենայական ուսուցման տարբեր ալգորիթմների ամբողջական փորձարկում անցկացնելու և գնահատելու ամենատարածված մեթոդներից մեկն է: Անկախ նմուշի համար այս մեթոդը թույլ է տալիս ստանալ սխալի հավանականության անաչառ գնահատական, ի տարբերություն վարժված նմուշի միջին սխալի, որը կարող է լինել սխալի հավանականության կողմնակալ գնահատական `ալգորիթմի գերհագեցման պատճառով: Այս ընթացակարգի մեկ այլ առավելություն է ալգորիթմի սխալի հավանականության նախահաշիվը ձեռք բերելու ունակությունը `փորձարկման համար հատուկ մշակված հսկիչ նմուշի բացակայության դեպքում:

Ենթադրենք, որ դա օբյեկտների առանձնահատկությունների նկարագրությունների ամբողջություն է, որոնց վրա նշված է օգտագործման դեպքերի վերջնական նմուշ, որտեղ դասերի վերջնական հավաքածու է: Տրվում է քարտեզագրում, որն ալգորիթմ է վերագրում օգտագործման դեպքերի կամայական ընտրությանը: Այնուհետեւ նախադեպերի կամայական նմուշի ալգորիթմի որակը գնահատվում է `օգտագործելով որակյալ ֆունկցիոնալությունը.

որտեղ է ինչ-որ ոչ բացասական գործառույթ, որը վերադարձնում է ալգորիթմի սխալի արժեքը ճիշտ դասի պիտակով:

Ողջույն, Habr!

Մեքենայական ուսուցման առաջադրանքներում չափիչներն օգտագործվում են մոդելների որակը գնահատելու և տարբեր ալգորիթմներ համեմատելու համար, և դրանց ընտրությունն ու վերլուծությունը տվյալների հավաքագրողի աշխատանքի անփոխարինելի մասն է:

Այս հոդվածում մենք կդիտարկենք դասակարգման խնդիրների որակի որոշ չափանիշներ, կքննարկենք, թե ինչն է կարևոր չափիչ ընտրելիս, և ինչը կարող է սխալ լինել:

Չափումները դասակարգման խնդիրների մեջ

Օգտակար հատկություններ ցուցադրելու համար սովորելև չափումների տեսողական ներկայացում, մենք կօգտագործենք մեր տվյալների հավաքածուն հեռահաղորդակցության օպերատորի հաճախորդների վրա, որոնց հանդիպեցինք դասընթացի առաջին հոդվածում:

Եկեք բեռնենք անհրաժեշտ գրադարանները և նայենք տվյալները

Պանդաների ներմուծում ՝ որպես pd sklearn.metrics- ից ներմուծել precision_recall_curve, դասակարգման_հաշվետվություն sklearn.model_selection- ից ներմուծել գնացք_ փորձարկում_բաժանում df = pd.read_csv ("../../ data/ telecom_churn.csv")

Df.head (5)

Տվյալների նախամշակում

# Եկեք երկուական սյուների քարտեզագրում # և ծածկագրենք վիճակը կեղծ կոդավորմամբ (պարզության համար ավելի լավ է դա չանել փայտե մոդելների համար) d = («Այո»: 1, «Ոչ»: 0) df ["Միջազգային ծրագիր "] = df [" Միջազգային ծրագիր "]. Քարտեզ (դ) df [" Ձայնային փոստի ծրագիր "] = df [" Ձայնային փոստի ծրագիր "]: Քարտեզ (դ) df [" Churn "] = df [" Churn "] . Astype ("int64") le = LabelEncoder () df ["State"] = le.fit_transform (df ["State"]) ohe = OneHotEncoder (sparse = False) encoded_state = ohe.fit_transform (df ["State"] . values.reshape (- 1, 1)) tmp = pd.DataFrame (encoded_state, columns = ["state" + str (i) for i in range (encoded_state.shape)]) df = pd.concat (, axis = 1)

Uracyշգրտություն, ճշգրտություն և հետկանչում


	Իսկական դրական (TP)	Կեղծ դրական (FP)
	Կեղծ բացասական (FN)	Իսկական բացասական (TN)

սա ալգորիթմի պատասխանն է օբյեկտի վրա, և

Այս օբյեկտի իրական դասի պիտակը:
Այսպիսով, դասակարգման սխալների երկու տեսակ կա. Կեղծ բացասական (FN) և կեղծ դրական (FP):

Ալգորիթմի ուսուցում և սխալի մատրիցայի կառուցում

X = df.drop ("Churn", axis = 1) y = df ["Churn"] # Բաժանել նմուշը գնացքի և փորձարկման, բոլոր չափանիշները կգնահատվեն թեստային տվյալների բազայում `X_train, X_test, y_train, y_test = train_test_split ( X, y, stratify = y, test_size = 0.33, random_state = 42) # Վերապատրաստել հայրենի լոգիստիկ ռեգրեսիան lr = LogisticRegression (random_state = 42) lr.fit (X_train, y_train) # Օգտագործել գործառույթը ՝ սխալի մատրիցը կառուցելու համար փաստաթղթեր def plot_confusion_matrix (սմ, դասարաններ, նորմալացնել = Կեղծ, վերնագիր = "(! LANG: Շփոթության մատրիցա", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="Շփոթության մատրիցա") plt.savefig("conf_matrix.png") plt.show()!}

Ճշգրտություն

Ինտուիտիվ, ակնհայտ և գրեթե չօգտագործված չափանիշը ճշգրտությունն է `ալգորիթմի ճիշտ պատասխանների տոկոսը.

Այս ցուցանիշը անօգուտ է անհավասար դասերի հետ կապված խնդիրների դեպքում և հեշտ է դա ցույց տալ օրինակով:

Ենթադրենք, մենք ցանկանում ենք գնահատել սպամ փոստի ֆիլտրի աշխատանքը: Մենք ունենք 100 ոչ սպամ նամակ, որոնցից 90-ը մեր դասակարգիչը ճիշտ է ճանաչել (Neշմարիտ բացասական = 90, Սխալ Դրական = 10) և 10 սպամ էլփոստ, որոնցից 5-ը նույնպես ճիշտ է ճանաչել (Pշմարիտ դրական = 5, կեղծ բացասական = 5) .
Հետո ճշգրտություն.

Միևնույն ժամանակ, մեր մոդելը ընդհանրապես որևէ կանխատեսող ուժ չունի, քանի որ մենք ի սկզբանե ցանկանում էինք նույնականացնել սպամ հաղորդագրությունները: Դա հաղթահարելու համար մեզ կօգնի անցումը բոլոր դասարանների ընդհանուր չափանիշից դասարանների որակի առանձին ցուցանիշների:

Preշգրիտություն, հետկանչում և F- չափում

Ինչպես արդեն նշեցինք, դասակարգման սխալների երկու տեսակ կա ՝ կեղծ դրական և կեղծ բացասական: Վիճակագրության մեջ սխալների առաջին տեսակը կոչվում է Տիպ I սխալ, իսկ երկրորդը ՝ Տիպ II սխալ: Բաժանորդների հոսքը որոշելու մեր խնդրում, առաջին տեսակի սխալը կլինի հավատարիմ բաժանորդի ընդունումը արտագնա հաճախորդի համար, քանի որ մեր զրո վարկածն այն է, որ բաժանորդներից ոչ մեկը դուրս չի գալիս, և մենք մերժում ենք այս վարկածը: Ըստ այդմ, երկրորդ տեսակի սխալ կլինի ելքային բաժանորդի «բաց թողնելը» և զրոյական վարկածի սխալ ընդունումը:

Contrastշգրտությունը և հետկանչը, ի տարբերություն ճշգրտության, կախված չեն դասերի հարաբերակցությունից և, հետևաբար, կիրառելի են անհավասարակշիռ նմուշների պայմաններում:
Հաճախ իրական պրակտիկայում խնդիր է դրված գտնել այս երկու ցուցանիշների միջև օպտիմալ (հաճախորդի համար) հավասարակշռությունը: Դասական օրինակ է հանդիսանում հաճախորդի խռպոտության որոշման խնդիրը:
Ակնհայտ է, որ չենք կարող գտնել բոլորիցարտագնա հաճախորդներ և միայննրանց Բայց պարզելով հաճախորդների պահպանման ռազմավարությունն ու ռեսուրսը, մենք կարող ենք ընտրել անհրաժեշտ ճշգրտությունը և հետ կանչել շեմերը: Օրինակ, կարող եք կենտրոնանալ միայն բարձր եկամտաբեր հաճախորդների կամ նրանց, ովքեր ավելի հավանական է զեկուցել, պահպանելու վրա, քանի որ մենք սահմանափակված ենք զանգերի կենտրոնի ռեսուրսով:

) - ներդաշնակ միջին ճշգրտություն և հետկանչ.

այս դեպքում որոշում է ճշգրտության կշիռը մետրիկում և համար

սա ներդաշնակ միջին է (2 -ով բազմապատկիչ, այնպես որ ճշգրտության = 1 և հետկանչի = 1 դեպքում մենք ունենք

)
F- չափիչը հասնում է իր առավելագույնին, երբ ամբողջականությունն ու ճշգրտությունը հավասար են մեկին և մոտ է զրոյի, եթե արգումենտներից մեկը մոտ է զրոյի:
Sklearn- ը ունի հարմար գործառույթ _metrics.classification զեկուցելվերադարձի հետկանչ, ճշգրտություն և F- չափում յուրաքանչյուր դասի համար, ինչպես նաև յուրաքանչյուր դասի օրինակների քանակ:

Հաշվետվություն = դասակարգման_հաշվետվություն (y_test, lr.predict (X_test), target_names = ["Non-churned", "Churned"]) print (report)

դասարան	ճշգրտություն	հետ կանչել	f1- հաշիվ	աջակցություն
Չհալածված	0.88	0.97	0.93	941
Փշրված	0.60	0.25	0.35	159
միջին / ընդհանուր	0.84	0.87	0.84	1100

Այստեղ պետք է նշել, որ անհավասարակշիռ դասերի հետ կապված խնդիրների դեպքում, որոնք գերակշռում են իրական պրակտիկայում, հաճախ անհրաժեշտ է դիմել տվյալների հավաքածուի արհեստական փոփոխման տեխնիկային `դասերի հարաբերակցությունը հավասարեցնելու համար: Նրանցից շատերը կան, և մենք դրանց չենք անդրադառնա, կարող եք դիտել որոշ մեթոդներ և ընտրել մեկը, որը համապատասխանում է ձեր առաջադրանքին:

AUC-ROC և AUC-PR

Մենք արդեն գիտենք TPR- ը, սա ամբողջականություն է, և FPR- ը ցույց է տալիս, թե ինչ բացասական դասի օբյեկտների համամասնությունն է սխալ կանխատեսել ալգորիթմը: Իդեալում, երբ դասակարգիչը սխալներ թույլ չի տա (FPR = 0, TPR = 1), մենք կորի տակ գտնվող մակերեսը կստանանք մեկին, հակառակ դեպքում, երբ դասակարգիչը պատահականորեն դուրս գա դասի հավանականությունից, AUC-ROC- ը հակված կլինի 0,5-ի, քանի որ դասակարգիչը թողարկելու է նույն քանակությամբ TP և FP:
Գրաֆիկի յուրաքանչյուր կետ համապատասխանում է որոշակի շեմի ընտրությանը: Այս դեպքում կորի տակ գտնվող մակերեսը ցույց է տալիս ալգորիթմի որակը (ավելին `ավելի լավ), բացի այդ, կորի կտրուկությունն ինքնին կարևոր է. Մենք ցանկանում ենք առավելագույնի հասցնել TPR- ն` նվազեցնելով FPR- ը, ինչը նշանակում է, որ մեր կորը իդեալականորեն պետք է հակված լինի կետը (0,1):

ROC կորի գծագրման ծածկագիր

Sns.set (font_scale = 1.5) sns.set_color_codes ("անջատված") plt. Պատկեր (figsize = (10, 8)) fpr, tpr, thresholds = roc_curve (y_test, lr.predict_proba (X_test) [:, 1], pos_label = 1) lw = 2 plt.plot (fpr, tpr, lw = lw, label = "ROC curve") plt.plot (,) plt.xlim () plt.ylim () plt.xlabel ("Կեղծ դրական դրույքաչափ ") plt.ylabel (" Իրական դրական դրույք ") plt.title (" ROC կոր ") plt.savefig (" ROC.png ") plt.show ()

AUC-ROC չափանիշը դիմացկուն է անհավասարակշիռ դասերին (փչացող. Ավաղ, բայց ամեն ինչ այդքան միանշանակ չէ) և կարող է մեկնաբանվել որպես հավանականություն, որ պատահականորեն ընտրված դրական օբյեկտը դասակարգչի կողմից դասվի ավելի բարձր (կունենա լինելու ավելի մեծ հավանականություն): դրական), քան պատահականորեն ընտրված բացասական օբյեկտը:

Ալգորիթմ 1վերադարձնում է 100 փաստաթուղթ, որից 90 -ը `համապատասխան: Այսպիսով,

Ալգորիթմ 2վերադարձնում է 2000 փաստաթուղթ, որից 90 -ը `համապատասխան: Այսպիսով,

Իրավիճակը շտկելու համար վերադառնանք ամբողջականությանն ու ճշգրտությանը.

Ալգորիթմ 1

Ալգորիթմ 2

Այստեղ արդեն նկատելի է երկու ալգորիթմների միջև էական տարբերություն ՝ 0,855 ճշգրտությամբ:

Լոգիստիկ կորուստ

Լոգիստիկ կորստի գործառույթը առանձնանում է ՝ սահմանվելով հետևյալ կերպ.

սա ալգորիթմի պատասխանն է

Օհմ օբյեկտ,

իսկական դասի պիտակը դրված է

Օհմ օբյեկտ, և

նմուշի չափը:

Լոգիստիկ կորուստների ֆունկցիայի մաթեմատիկական մեկնաբանման վերաբերյալ մանրամասներ արդեն գրվել են գծային մոդելների մասին գրառման շրջանակներում:
Այս ցուցանիշը հազվադեպ է հայտնվում բիզնեսի պահանջների մեջ, բայց հաճախ kaggle- ի առաջադրանքների մեջ:
Ինտուիտիվ կերպով, կարելի է մտածել, որ լոգալիզմը նվազագույնի հասցնելը որպես ճշգրտությունը առավելագույնի հասցնելու խնդիր `պատժելով սխալ կանխատեսումները: Այնուամենայնիվ, պետք է նշել, որ logloss- ը խիստ պատժում է դասակարգողի սխալ պատասխանի նկատմամբ վստահության համար:

Եկեք դիտարկենք մի օրինակ.

Def logloss_crutch (y_true, y_pred, eps = 1e -15). "% logloss_crutch (1, 0.5)) >> Անորոշ դասակարգմամբ 0.693147 տպագիր (" Լոգլոս վստահ դասակարգմամբ և ճիշտ պատասխանով% f "% logloss_crutch (1, 0.9)) >> Անվտանգ դասակարգմամբ և ճիշտ պատասխանով 0.105361 տպագիր (" Լոգլոս վստահ դասակարգմամբ և Սխալ պատասխան% f "% logloss_crutch (1, 0.1)) >> Լոգլոս վստահ դասակարգմամբ և Սխալ պատասխան 2.302585

Կարելի է տեսնել, որ որքան մոտ է զրոյին ալգորիթմի արձագանքը հիմքի ճշմարտությամբ = 1, այնքան ավելի մեծ է սխալի արժեքը և ավելի կտրուկ աճում է կորը:

Ամփոփելով.

Բազմադասակարգման դեպքում դուք պետք է ուշադիր հետևեք յուրաքանչյուր դասի չափանիշներին և հետևեք որոշման տրամաբանությանը առաջադրանքներքան չափանիշի օպտիմալացում
Անհավասար դասերի դեպքում անհրաժեշտ է ընտրել դասընթացների հավասարակշռություն և չափիչ, որը ճիշտ կարտացոլի դասակարգման որակը
Չափանիշի ընտրությունը պետք է կատարվի `կենտրոնանալով թեմայի վրա, նախապես մշակելով տվյալները և, հնարավոր է, հատվածավորելը (ինչպես հարուստ և աղքատ հաճախորդների բաժանվելու դեպքում)

օգտակար հղումներ

Եվգենի Սոկոլովի դասընթաց. Սեմինար մոդելների ընտրության վերաբերյալ (տեղեկատվություն կա հետընթացի խնդիրների չափանիշների վերաբերյալ)
AUC-ROC- ի խնդիրները A.G.- ից Դյակոնովան
Այլ չափումների մասին կարող եք կարդալ kaggle- ում: Յուրաքանչյուր չափման նկարագրության մեջ ավելացվել է այն մրցույթի հղումը, որտեղ այն օգտագործվել է
Bogdan Melnik aka ld86- ի ներկայացումը անհավասարակշիռ նմուշների վրա ուսուցման մասին

UDC 519.816

S. V. SEMENIKHIN L. A. DENISOVA

Օմսկի պետական տեխնիկական համալսարան

RANGE MACHINE Սովորելու մեթոդ

ՀԻՄՆՈԹՅՈՆԸ ՓՈՓՈԽՎԱ G ԳԵՆԵՏՆԱԿԱՆ ԱԼԳՈՐԻԹՄԻ ՀԱՄԱՐ YRSO METRIC- ի համար

Դիտարկվում են տեղեկատվության որոնման արդյունքների էջում փաստաթղթերի դասակարգման և դասակարգման մեքենայական ուսուցման խնդիրները: Առաջարկվում է վարկանիշավորման գործառույթի օպտիմալացման մոտեցում `օգտագործելով փոփոխված գենետիկական ալգորիթմի հիման վրա NOCO որակի չափիչը: Կատարվել է մշակված ալգորիթմների հետազոտություն (LETO ^ թեստային հավաքածուների վրա և ցուցադրվել է դրանց արդյունավետությունը դասակարգման մեքենայական ուսուցման համար:

Հիմնական բառեր. Տեղեկատվության որոնում, մեքենայական ուսուցման դասակարգում, համապատասխանություն, օպտիմալացում, գենետիկական ալգորիթմներ:

1. Ներածություն. Informationամանակակից տեղեկատվության որոնման համակարգերում (ISS) համակարգում գործարկվող տվյալների ծավալներն այնքան մեծ են, որ հիմնական խնդիրը համապատասխան փաստաթղթերի դասակարգումն է `ի պատասխան օգտագործողի որոնման հարցման: ISS- ի զարգացման այս փուլում մեքենայական ուսուցման (ML) դասակարգումը ամենամեծ հետաքրքրությունն է ներկայացնում: ՓՀ -ի վերաբերյալ առկա մոտեցումները `հիմնված թվային մեթոդների (մասնավորապես` գրադիենտային մեթոդների) կամ վերլուծական հաշվարկների վրա, ունեն մի շարք թերություններ, որոնք էապես ազդում են տեղեկատվության որոնման որակի և համապատասխան փաստաթղթերի դասակարգման համար անհրաժեշտ ժամանակի վրա:

Հետազոտության սկզբում դիտարկվեցին մեքենայական ուսուցման դասակարգման ցուցակների մոտեցումները, որոնցից շատերն օգտագործում են գրադիենտի իջեցման մեթոդը: Դիտարկվող աշխատանքներում ՓԼ -ն կրճատվում է որոնման որակի չափման օպտիմալացման (SEQ), սակայն օգտագործվում են միայն շարունակական ֆունկցիաներով ներկայացված չափումներ: Այս սահմանափակումը հաճախ հանգեցնում է այն բանին, որ օպտիմալացման արդյունքում վարկանիշային գործառույթն ունի ավելի ցածր միավորներ շատ կարևոր ընդունված ցուցանիշների համար (DCG, nDCG, Միջին գնահատված փոխադարձ վարկանիշ և այլն), որոնք առանձին գործառույթներ են: Աշխատությունը առաջարկում է դասավանդման դասակարգման մեջ օգտագործել գենետիկական ալգորիթմներ (ԳԱ) `Հուբերի կորստի գործառույթը նվազագույնի հասցնելու համար` օգտագործելով համապատասխանության փորձագիտական գնահատականները որպես հղումային արժեքներ: Առաջարկվեց նաև մոտեցում ՓԼ -ին `հիմնված տեղեկատվության որոնման որակի առանձին չափանիշների օպտիմալացման վրա:

2. Մեքենայական ուսուցման դասակարգման խնդրի հայտարարություն: Տեղեկատվության որոնման ժամանակակից համակարգերից շատերում դասակարգման գործառույթը կառուցված է n պարզ դասակարգման գործառույթների (PRF) հիման վրա և կարող է գրվել հետևյալ կերպ.

որտեղ SRF¡- ն d- ի և q- ի հարցման համար վարկանիշի թվով յոթերորդ պարզ գործառույթն է, WCi- ն ՝ վարկանիշային պարզագույն գործառույթի քաշի գործակիցն է, n- ը վարկանիշային համակարգում PRF- ների թիվն է:

Վարկանիշավորման մեքենայական ուսուցման ընթացքում օգտագործվել է LBTOY թեստային հավաքածուի B և O հարցումների փաստաթղթերի փաթեթ: Բոլոր deO խնդրանքների համար զույգ է ձևավորվում յուրաքանչյուր deD փաստաթղթով: Յուրաքանչյուր այդպիսի զույգի համար IRS- ը որոշում է համապատասխանության արժեքները, որոնք օգտագործվում են որոնման արդյունքները դասակարգելու համար: Վարկանիշի որակը գնահատելու համար համակարգը պահանջում է համապատասխանության արժեքներ E յուրաքանչյուր փաստաթուղթ-հարցման զույգի համար (^, ե): Այս նպատակների համար օգտագործվում են համապատասխանության փորձագիտական գնահատականներ:

Ուսումնասիրությունն իրականացնելու համար մենք օգտագործեցինք ISS, որում դասակարգումը կազմվում է N = 5 պարզ վարկանիշային գործառույթների հիման վրա SRFi (WC) l г = 1, N, որոնք կազմում են օպտիմալության վեկտորային չափանիշ.

որտեղ WCе (WC) փոփոխական պարամետրերի վեկտորն է. (ШС), (ЯБ) համապատասխանաբար պարամետրերի և վեկտորային չափանիշների տարածություններն են:

ML դասակարգման համար գենետիկական ալգորիթմների կիրառումը հնարավորություն է տալիս առավելագույնի հասցնել դիսկրետ որակի չափանիշները, ինչպիսիք են nDCG- ն: Որոնման համակարգում փաստաթղթերի դասակարգման nDCG չափանիշը որոշվում է արտահայտությանը համապատասխան.

DCG @ n = X 2 ---

ՌԴ (ք, դ) = X WC: R SRF., I = 1 1 1

որտեղ գնահատականը (p) փորձագետների կողմից տրված միջին համապատասխանության գնահատականն է արդյունքների ցանկում p դիրքում գտնվող փաստաթղթին, gradee; 1 / log2 (2 + p) - գործակից ՝ կախված փաստաթղթի դիրքից (առաջին փաստաթղթերն ավելի մեծ քաշ ունեն):

Այնուհետեւ NDCG- ի նորմալացված տարբերակը կգրվի որպես

N000 @ n = RSD @ n / g,

որտեղ r- ն նորմալացման գործոնն է, որը հավասար է առավելագույն հնարավոր 0С արժեքին [էլփոստը պաշտպանված է] n տվյալ հարցման համար (այսինքն ՝ հավասար է իդեալական վարկանիշի OOO- ին):

Այսպիսով, OSS- ի չափանիշն օպտիմալացնելու (առավելագույնի հասցնելու) համար օբյեկտիվ գործառույթը (YM) կգրվի հետևյալ տեսքով

3. Որոնման արդյունքների դասակարգման որակի չափիչներ: Որոնման արդյունքներում փաստաթղթերը դասակարգելիս որակի չափիչները գործում են որպես չափանիշ: ISS- ի որակի գնահատման ընդհանուր ընդունված չափանիշների ցանկից ընտրվել է երեք հիմնականը, որոնք գնահատում են տեղեկատվության որոնման ճշգրտությունը, համապատասխանությունը և ամբողջականությունը:

1. Տեղեկատվության որոնման ճշգրտության չափանիշը

որտեղ a- ն գտնված համապատասխան փաստաթղթերի թիվն է, b- ը փաստաթղթերի քանակն է, որոնք սխալմամբ համապատասխան են:

2. Bpref չափանիշը, որը գնահատում է տեղեկատվության որոնման արդիականությունը, օգտագործվում է R համապատասխան փաստաթղթերով աշխատանք մշակելու համար և հաշվարկվում է բանաձևով

Bpref = - ^ (1 - Non Re ¡Նախքան (r) / R): (4)

Այստեղ r- ը նշանակում է հայտնի համապատասխան փաստաթուղթ, իսկ NonRelBefore (r) - հայտնի անհամապատասխան փաստաթղթերի թիվը r- ից բարձր դասակարգված (հաշվարկման ժամանակ հաշվի է առնվում գործնականում գնահատված անհամապատասխան փաստաթղթերի միայն առաջին R- ը):

3. Որոնման արդյունքների ամբողջականության չափանիշ

r = a / (a+ c),

որտեղ a- ն գտնված համապատասխան փաստաթղթերի քանակն է, c- ը չգտնված համապատասխան փաստաթղթերի քանակն է:

4. Փորձնական հավաքածուներ: Մեքենայական ուսուցման խնդրում դասակարգումը պահանջում է փաստաթղթերի և հարցումների փաթեթ `փորձագետների կողմից որոշված համապատասխանության համապատասխան գնահատականներով: Այս տվյալները օգտագործվում են դասակարգման գործառույթի մեքենայական ուսուցման, ինչպես նաև որակի գնահատման համար:

որոնման արդյունքների դասակարգումը ըստ համակարգի: ՓԼ գործընթացում թեստերի հավաքածուներն օգտագործվում են որպես ուսուցման հավաքածու և, հետևաբար, էական ազդեցություն են ունենում արդյունքների վրա: Հետազոտության համար օգտագործվել է փաստաթղթերի և պահանջների LETOR թեստային հավաքածու: Այս հավաքածուն օգտագործվում է Microsoft Research- ի կողմից տեղեկատվության որոնման հետազոտությունների համար: Աղյուսակ 1 -ը ցույց է տալիս LETOR թեստային հավաքածուների բնութագրերը:

5. Փոփոխված գենետիկական ալգորիթմ: Դասակարգման համար մեքենայական ուսուցման մեջ գենետիկական ալգորիթմներ օգտագործելու համար խնդիրը պետք է ձևակերպվի այնպես, որ լուծումը կոդավորվի որպես վեկտոր (գենոտիպ), որտեղ յուրաքանչյուր գեն կարող է լինել բիթ, թիվ կամ այլ օբյեկտ: Այս դեպքում գենոտիպը ներկայացված է համապատասխան վարկանիշային գործոնների համար կշռման գործոնների վեկտորով: Գենետիկական ալգորիթմի կատարումը դադարեցնելու պայմանը օպտիմալ լուծում գտնելն է, սերունդների թվի սպառումը կամ էվոլյուցիայի համար հատկացված ժամանակը:

Պետք է նշել, որ GA- ները ամենաարդյունավետն են գլոբալ ծայրահեղության տարածաշրջանը որոնելու համար, այնուամենայնիվ, դրանք կարող են դանդաղ աշխատել, երբ անհրաժեշտ է գտնել այս տարածաշրջանում տեղական նվազագույնը: Այս թերությունից խուսափելու առաջարկվող ձևը փոփոխված գենետիկական ալգորիթմի (MGA) ստեղծումն է, որը հիմնական GA- ի միջոցով գլոբալ օպտիմալ տարածաշրջանը գտնելուց հետո կանցնի տեղական (բարձր արագությամբ) օպտիմալացման ալգորիթմի: Առաջարկվող MGA- ն հիբրիդային մեթոդ է, որը հիմնված է դասական GA- ի և Nelder -Mead մեթոդի վրա (պարզեցված ալգորիթմ): Nelder -Mead մեթոդը, հաճախակի օգտագործվող ոչ գծային օպտիմալացման ալգորիթմը, բազմաչափ տարածքում օբյեկտիվ գործառույթի նվազագույնը գտնելու թվային մեթոդ է: Այս աշխատանքում առաջարկվող հիբրիդային MGA ալգորիթմը անցնում է Nelder - Mead մեթոդին GA- ի դադարեցման պայմանների բավարարումից հետո: MGA ալգորիթմի բլոկ -դիագրամը ներկայացված է Նկ. մեկը

Հետազոտությունը կատարելիս օբյեկտիվ ֆունկցիայի (Nrf = 16,000) հաշվարկների քանակի սահմանափակում է ընդունվել գլոբալ ծայրահեղական տարածաշրջանը որոնելիս և Nelder -Mead մեթոդի հիման վրա տեղական օպտիմալացման ալգորիթմի անցնելու պայմանը (հետո հիմնական գենետիկական ալգորիթմը կատարել է Nrf գործողությունների 75% -ը):

6. Արդյունքներ: Մեքենայական ուսուցման ալգորիթմի կիրառմամբ իրականացված հետազոտության արդյունքում

Աղյուսակ 1

Թեստային հավաքածուների փաստաթղթերի և հարցումների քանակը

Թեստերի հավաքածուի անվանումը ենթահամակարգի անվանումը Հարցումների քանակը Փաստաթղթերի քանակը

LETOR 4.0 MQ2007 1692 69623

LETOR 4.0 MQ2008 784 15211

ԴԱՍԸՆԹԱ 3.0 ՓՈԽՎԵԼ Է 106 16140

LETOR 3.0 Gov03td 50 49058

LETOR 3.0 Gov03np 150 148657

LETOR 3.0 Gov03hp 150 147606

LETOR 3.0 Gov04td 75 74146

LETOR 3.0 Gov04np 75 73834

LETOR 3.0 Gov04hp 75 74409

Բրինձ 1. Հիբրիդային MVL ալգորիթմի բլոկ-դիագրամ `հիմնված գենետիկական ալգորիթմների և Նելդեր-Միդի մեթոդի վրա

LTR-MGA- ի դասակարգման համար ձեռք է բերվում վարկանիշային ֆունկցիայի WC * կշիռների վեկտոր: Ավելին, LETOYA թեստային հավաքածուի տվյալների հիման վրա գնահատվել է վարկանիշի որակը, որի համար հաշվարկվել են որակի չափանիշներ: Դասակարգման որակի դիսկրետ չափիչ [էլփոստը պաշտպանված է]գնահատում է համակարգի արձագանքի առաջին n փաստաթղթերի որակը: Վարկանիշի որակի գնահատման ընդհանուր ընդունված չափանիշներն են [էլփոստը պաշտպանված է], [էլփոստը պաշտպանված է]եւ [էլփոստը պաշտպանված է]Այնուամենայնիվ, կախվածությունից կախված մետրային փոփոխությունների ավելի մանրամասն դիտարկման համար հաշվի են առնվել NDCG- ի արժեքները [էլփոստը պաշտպանված է]բոլոր n- ի համար `1 -ից 10 -ը: Մշակված ալգորիթմի արդյունավետությունը առկա լուծումների հետ համեմատելու համար համեմատական վերլուծություն կատարվեց` օգտագործելով LETOIA 3.0 հավաքածուներում ներկայացված վարկանիշային ալգորիթմները: TB2003 և TB2004 թեստային հավաքածուների ալգորիթմների գործարկման արդյունքները NDCG չափման համար ներկայացված են Նկ. 2. Արդյունքները ցույց են տալիս, որ LTR-MGA ալգորիթմը գերազանցում է փորձարկման ալգորիթմներին, որոնցից ամենաբարձր արժեքները

համար են [էլփոստը պաշտպանված է](առաջին փաստաթղթի մակարդակով): LTR-MGA ալգորիթմի գերազանցությունը պայմանավորված է նրանով, որ ի տարբերություն փորձերում դիտարկվող թեստային դասակարգման գործառույթների, վարկանիշային գործառույթը օպտիմալացնելու առաջարկվող մոտեցման մեջ հենց NDCG չափանիշն է օգտագործվում որպես օբյեկտիվ գործառույթ:

Առաջարկվող LTR-MGA ալգորիթմն օգտագործելիս վարկանիշի որակը գնահատելու համար հաշվարկվել են որոնման արդյունքներում փաստաթղթերի դասակարգման որակի չափանիշների արժեքները (նկ. 3): Վարկանիշավորման արդյունքների համեմատությունը (Աղյուսակ 2) հիմնական վարկանիշային գործառույթն օգտագործելիս, հիմնական LTR-GA ալգորիթմը և փոփոխված LTR-MGA ալգորիթմը ցույց են տալիս վերջինիս առավելությունը:

Բացի այդ, ուսումնասիրությունը գնահատել է MO վարկանիշի համար պահանջվող ժամանակը: Սա անհրաժեշտ է հաստատելու համար, որ առաջարկվող LTR-MGA մեթոդը այս ցուցանիշով գերազանցում է ավանդական օգտագործման վրա հիմնված մոտեցմանը:

Բրինձ 2. Վարկանիշավորման մեքենայական ուսուցման ալգորիթմների համեմատություն

NDCG չափիչով `փորձարկման հավաքածուների համար. ձախում` Gov03td տվյալների հավաքածու, աջում `Gov04td տվյալների հավաքածու

Բրինձ 3. Վարկանիշավորման հիմնական բանաձևի և LTR-GA և LTR-MGA դասակարգման որակի չափանիշների գնահատում

Մեքենայական ուսուցման տարբեր աստիճանների դասակարգման որակի չափանիշներ

սեղան 2

Գնահատման որակի չափիչ Հիմնական դասակարգման գործառույթ LTR-GA LTR-MGA Մետրային արժեքի բարձրացում,%

Uracyշգրտություն 0.201 0.251 0.267 26.81

[էլփոստը պաշտպանված է](առաջին 5 փաստաթուղթ) 0.149 0.31 0.339 90.47

[էլփոստը պաշտպանված է](առաջին 10 փաստաթուղթ) 0.265 0.342 0.362 29.14

Բպրեֆ 0.303 0.316 0.446 51.49

Լիարժեքություն 0.524 0.542 0.732 39.03

* Համապատասխան չափանիշի լավագույն արժեքներն ընդգծված են մոխրագույնով

onnogo գենետիկական ալգորիթմ (LTA-OL): LTY-OL և LTY-MOL ալգորիթմների կատարման վրա ծախսված ժամանակի համեմատության արդյունքները ներկայացված են աղյուսակում: 3

7. Եզրակացություն: Այսպիսով, կատարված ուսումնասիրությունները ցույց են տվել, որ առաջարկվող մոտեցումն օգտագործելիս ISS- ում դիտարկվող վարկանիշային ցուցանիշների արժեքները մեծանում են (միջինը 19.55% -ով LTL-OL ալգորիթմի համեմատ): Սա հաստատում է, որ LITA-MOL- ը ճիշտ է աշխատում և զգալիորեն բարելավում է վարկանիշային գործառույթը, այլ կերպ ասած ՝ այն հաջողությամբ լուծում է օպտիմալացման խնդիրը: Օգտագործելով փոփոխված ալգորիթմ

Տեղական օպտիմալացման մեթոդի կիրառման և օբյեկտիվ գործառույթի հաշվարկների թվի սահմանափակումների պատճառով մեքենայական ուսուցման ժամանակը նվազեց (միջինը 17,71% -ով `ավանդական գենետիկական ալգորիթմի LCHAOL- ի օգտագործման համեմատ):

LТY-MOL- ի դասակարգման համար մշակված մեքենայական ուսուցման ալգորիթմը կարող է օգտագործվել ISS- ում, որն օգտագործում է դասակարգման մոդել `հիմնված պարզ դասակարգման գործառույթների համադրության վրա: Այնուամենայնիվ, առաջարկվող մոտեցման կիրառման որոշ սահմանափակումներ պետք է հաշվի առնել: Հիմնված

Մեքենայական ուսուցման դասակարգման կատարման ժամանակը գնահատելը `կախված ուսուցման նմուշի չափից

Աղյուսակ 3

Տեքստային փաստաթղթերի հավաքածուի չափը

LTR-GA կատարման ժամանակը

LTR-MGA Runtime

Կատարման ժամանակի կրճատում,%

Միջին արժեքը

* Թեստերի հավաքածուի համապատասխան չափի լավագույն արժեքները ընդգծված են մոխրագույնով

ձեռք բերված արդյունքներից պարզվել է, որ ՓԼ -ից հետո ամենաբարձր աճը նկատվում է վարկանիշի որակի չափման մեջ, որի արժեքը որպես օբյեկտիվ գործառույթ է ընդունվել: Միևնույն ժամանակ, այլ չափանիշներ կարող են էական բարելավում չունենալ, և որոշ դեպքերում նույնիսկ վատթարացնել իրենց արժեքները: Որպես այս դեֆիցիտը վերացնելու հնարավոր մոտեցումներից մեկը, առաջարկվում է օպտիմալացման խնդիրը լուծել որպես բազմակողմանի խնդիր ՝ միատեսակ կատարելագործել որոնման արդյունքների մի քանի հիմնական վարկանիշային ցուցանիշները ՝ մեկը օպտիմալացնելու փոխարեն: Բացի այդ, հետագա ուսումնասիրություններում նախատեսվում է մշակել մեթոդաբանություն `օբյեկտիվ գործառույթի կառուցման համար` հիմնված վարկանիշի որակի հիմնական չափանիշների գծային համախմբման վրա `տեղեկատվության որոնման գործընթացը բարելավելու համար:

Մատենագիտական ցուցակ

1. Թայ-Յան Լյու: Տեղեկատվության որոնման համար դասակարգում սովորելը // Տեղեկությունների որոնման ամսագրերի հիմքերը և միտումները: Հատոր 3, համար 3. մարտ 2009. էջ 225-331:

2. Christopher J. C. Burges, Tal Shaked, Erin Renshaw. Սովորում ենք դասակարգել ՝ օգտագործելով գրադիենտ ծագում // Շարունակական ICML «05 Մեքենայական ուսուցման 22-րդ միջազգային գիտաժողովի նյութեր: 2005. էջ 89-96:

3. Սեմենիխին, Ս.Վ. - 2013. - No 2. - P. 82 - 85:

4. Վերահսկիչ համակարգերի սինթեզում գենետիկական ալգորիթմների հիման վրա բազմակողմանի օպտիմալացում. Մենագրություն: / L. A. Denisova. - Օմսկ. OmSTU հրատարակչություն, 2014:- 170 էջ: -ISBN 978-5-8149-1822-2:

5. Դենիսովա, Լ. Ա. Կառավարման համակարգի պարամետրիկ սինթեզի ավտոմատացում `օգտագործելով գենետիկական ալգորիթմ / Լ. Ա. Դենիսովա, Վ. Ա. Մեշչերյակով // Ավտոմատացում արդյունաբերության մեջ: - 2012. - No 7. - P. 34 - 38:

6. Huber, Peter J. Robust Estimation of a Location Parameter // Annals of Statistics. - 1964. - No 53. - P. 73-101:

7. Սեմենիխին, Ս. Վ. Տեղեկատվության որոնման ավտոմատացում `հիմնվելով բազմաչափ չափանիշների օպտիմալացման և գենետիկական ալգորիթմների վրա: / S. V. Semenikhin, L. A. Denisova // Համակարգերի, մեխանիզմների և մեքենաների դինամիկա: - 2014. - No 3. - P. 224 - 227:

8. Թայ-Յան Լյու, Junուն Սյու, Տաո inին, Վենինգ Սիոնգ և Հանգ Լի: LETOR: Տեղեկատվության որոնման համար դասակարգման ուսուցման վերաբերյալ հետազոտությունների բենչմարք տվյալների հավաքածու // SIGIR 2007 Տեղեկատվության որոնման համար դասակարգման սովորելու սեմինար: - 2007 .-- S. 3-10:

9. Ageev, MS Official metrics of RMIP "2004 / MS Ageev, IE Kuralenok // II ռուսերեն սեմինար` տեղեկատվության որոնման մեթոդների գնահատման վերաբերյալ (ROMIP 2004), Pushchino, 2004: tr.; Ed. S. Nekrest'yanova. - Սանկտ Պետերբուրգ. Քիմիայի գիտահետազոտական ինստիտուտ, Սանկտ Պետերբուրգի պետական համալսարան, - էջ 142-150:

10. J. A. Nelder, R. Mead, Ֆունկցիաների նվազեցման պարզեցված մեթոդ, The Computer Journal 7 (1965): 308-313 թթ.

Սվյատոսլավ Վիտալիևիչ ՍԵՄԵՆԻԽԻՆ, տեղեկատվության մշակման և վերահսկման ավտոմատացված համակարգերի ամբիոնի ասպիրանտ: Նամակագրության հասցե: [էլփոստը պաշտպանված է]ԴԵՆԻՍՈՎԱ Լյուդմիլա Ալբերտովնա, տեխնիկական գիտությունների դոկտոր, տեղեկատվության մշակման և վերահսկման ավտոմատացված համակարգերի ամբիոնի դոցենտ: Նամակագրության հասցե: [էլփոստը պաշտպանված է]