Ի՞նչ է նշանակում որակի չափանիշ մեքենայական ուսուցման մեջ: Վարկանիշային ուսուցում

GoTo ամառային դպրոցի ընդունելության թեստի առաջադրանքը պատրաստելու գործընթացում մենք պարզեցինք, որ ռուսերենում գործնականում չկա հիմնական վարկանիշային չափանիշների որակական նկարագրություն (առաջադրանքը վերաբերում էր վարկանիշային խնդրի հատուկ դեպքին. առաջարկող ալգորիթմի կառուցում) . Մենք E-Contenta-ում ակտիվորեն օգտագործում ենք տարբեր վարկանիշային չափանիշներ, ուստի որոշեցինք շտկել այս թյուրիմացությունը՝ գրելով այս հոդվածը:

Վարկանիշավորման խնդիրն այժմ առաջանում է ամենուր՝ վեբ էջերի տեսակավորում ըստ տվյալ որոնման հարցման, նորությունների հոսքի անհատականացում, տեսանյութեր, ապրանքներ, երաժշտություն առաջարկելը... Մի խոսքով, թեման թեժ է։ Մեքենայական ուսուցման մեջ նույնիսկ կա հատուկ ոլորտ, որը զբաղվում է ինքնուրույն սովորելու ունակ վարկանիշավորման ալգորիթմների ուսումնասիրությամբ՝ դասակարգել սովորելով: Ալգորիթմների և մոտեցումների ողջ բազմազանությունից լավագույնը ընտրելու համար անհրաժեշտ է կարողանալ քանակականացնել դրանց որակը: Ստորև կքննարկվեն դասակարգման որակի ամենատարածված ցուցանիշները:

Համառոտ վարկանիշային խնդրի մասին

Վարկանիշ - հավաքածու տեսակավորելու խնդիր տարրերՆրանց համար համապատասխանություն. Ամենից հաճախ համապատասխանությունը հասկացվում է ինչ-որ մեկի հետ կապված: օբյեկտ. Օրինակ, տեղեկատվության որոնման առաջադրանքում օբյեկտը հարցումն է, տարրերը բոլոր տեսակի փաստաթղթերն են (դրանց հղումները), և արդիականությունը փաստաթղթի համապատասխանությունն է հարցմանը, առաջարկությունների առաջադրանքում, օբյեկտը: օգտատերն է, տարրերը այս կամ այն առաջարկվող բովանդակությունն են (ապրանքներ, տեսանյութեր, երաժշտություն), և համապատասխանությունը հավանականությունն է, որ օգտատերը կօգտագործի (գնել/հավանել/դիտել) այս բովանդակությունը:

Ձևականորեն հաշվի առեք N օբյեկտ և M տարրեր: Օբյեկտի համար տարրերի դասակարգման ալգորիթմի արդյունքը քարտեզագրումն է, որը յուրաքանչյուր տարրի համար հատկացնում է կշիռ, որը բնութագրում է տարրի համապատասխանության աստիճանը օբյեկտի հետ (որքան մեծ է քաշը, այնքան ավելի համապատասխան է օբյեկտը): Միևնույն ժամանակ, կշիռների բազմությունը սահմանում է փոխակերպում տարրերի տարրերի բազմության վրա (մենք ենթադրում ենք, որ տարրերի բազմությունը դասավորված է)՝ հիմնվելով դրանց տեսակավորման վրա՝ ըստ քաշի նվազման կարգի:

Վարկանիշի որակը գնահատելու համար անհրաժեշտ է ունենալ որոշակի «տեղեկանք», որի հետ կարելի է համեմատել ալգորիթմի արդյունքները։ Դիտարկենք համապատասխանության հղման գործառույթը, որը բնութագրում է տարրերի «իրական» համապատասխանությունը տվյալ օբյեկտի համար (- տարրը իդեալականորեն համապատասխանում է, - ամբողջովին անտեղի), ինչպես նաև դրան համապատասխանող փոխակերպումը (նվազման կարգով):

Ստանալու երկու հիմնական եղանակ կա.
1. Պատմական տվյալների հիման վրա. Օրինակ, բովանդակության առաջարկների դեպքում կարող եք վերցնել օգտատիրոջ դիտումները (հավանումները, գնումները) և համապատասխան տարրերի դիտված կշիռները վերագրել 1-ին (), իսկ մնացածը՝ 0-ին։
2. Հիմնվելով գործընկերների վերանայման վրա: Օրինակ, որոնման առաջադրանքում, յուրաքանչյուր հարցման համար կարող եք ներգրավել գնահատողների թիմ, որոնք ձեռքով գնահատում են փաստաթղթերի համապատասխանությունը հարցմանը:

Հարկ է նշել, որ երբ այն վերցնում է միայն ծայրահեղ արժեքներ՝ 0 և 1, ապա փոխակերպումը սովորաբար հաշվի չի առնվում և հաշվի է առնվում միայն համապատասխան տարրերի հավաքածուն, որի համար .

Որակի վարկանիշավորման նպատակը- որոշել, թե ինչպես են համապատասխանում ալգորիթմով ստացված համապատասխանության գնահատականները և համապատասխան փոխակերպումը ճիշտհամապատասխանության արժեքները: Դիտարկենք հիմնական ցուցանիշները:

Միջին միջին ճշգրտություն

Միջին միջին ճշգրտությունը K ( [էլփոստը պաշտպանված է]) ամենաշատ օգտագործվող վարկանիշային որակի չափիչներից մեկն է: Հասկանալու համար, թե ինչպես է այն աշխատում, սկսենք «հիմունքներից»:

Նշում. «*precision» չափանիշն օգտագործվում է երկուական խնդիրների դեպքում, որտեղ այն ընդունում է միայն երկու արժեք՝ 0 և 1:

Ճշգրտությունը Կ

Ճշգրտություն K-ում ( [էլփոստը պաշտպանված է]) - ճշգրտություն K տարրերի վրա - մեկ օբյեկտի որակի հիմնական վարկանիշային չափանիշ: Ենթադրենք, մեր դասակարգման ալգորիթմը համապատասխանության միավորներ է արտադրել յուրաքանչյուր կետի համար: Ընտրելով առաջին տարրերը, որոնցից ամենամեծը, մենք կարող ենք հաշվարկել համապատասխանների համամասնությունը: Սա հենց այն է, ինչ անում է ճշգրտությունը K-ում.

Նշում. տարրը փոխակերպման արդյունքում հասկացվում է որպես -րդ դիրքում: Այսպիսով, ամենամեծն ունեցող տարրն է, մեծությամբ երկրորդ տարրն է և այլն:

Միջին ճշգրտությունը Կ

Ճշգրիտությունը K-ում չափիչ է, որը հեշտ է հասկանալ և իրականացնել, բայց ունի մի կարևոր թերություն՝ այն հաշվի չի առնում տարրերի դասավորությունը «վերևում»: Այսպիսով, եթե մենք կռահեցինք տասը տարրերից միայն մեկը, ապա կարևոր չէ, թե որտեղ էր այն՝ առաջինում, թե վերջինում, ամեն դեպքում: Ակնհայտ է, որ առաջին տարբերակը շատ ավելի լավն է։

Այս թերությունը փոխհատուցվում է վարկանիշային մետրով միջին ճշգրտություն K ( [էլփոստը պաշտպանված է]) , որը հավասար է գումարին [էլփոստը պաշտպանված է] k ինդեքսներով 1-ից Կ միայն համապատասխան իրերի համարբաժանված է K:

Այսպիսով, եթե երեք տարրերից միայն վերջին տեղում հայտնվածն է արդիական, ապա եթե կռահվի միայն առաջին տեղում գտնվողը, ապա, և եթե բոլորը գուշակված են, ապա .

այժմ և [էլփոստը պաշտպանված է]մեզ ատամների մեջ.

Միջին միջին ճշգրտությունը Կ

Միջին միջին ճշգրտությունը K ( [էլփոստը պաշտպանված է]) ամենաշատ օգտագործվող վարկանիշային որակի չափիչներից մեկն է: IN [էլփոստը պաշտպանված է]Եվ [էլփոստը պաշտպանված է]վարկանիշի որակը գնահատվում է մեկ օբյեկտի համար (օգտագործող, որոնման հարցում): Գործնականում կան բազմաթիվ օբյեկտներ՝ գործ ունենք հարյուր հազարավոր օգտատերերի, միլիոնավոր որոնման հարցումների հետ և այլն։ Գաղափար [էլփոստը պաշտպանված է]հաշվարկելն է [էլփոստը պաշտպանված է]յուրաքանչյուր օբյեկտի և միջինի համար.

Նշում. այս գաղափարը միանգամայն տրամաբանական է, եթե ենթադրենք, որ բոլոր օգտվողները հավասարապես անհրաժեշտ են և հավասարապես կարևոր: Եթե դա այդպես չէ, ապա պարզ միջինացման փոխարեն կարող եք օգտագործել կշռվածը՝ բազմապատկելով [էլփոստը պաշտպանված է]յուրաքանչյուր առարկա իր համապատասխան «կարևորության» կշռով:

Նորմալացված զեղչված կուտակային շահույթ

Նորմալացված զեղչված կուտակային շահույթ (nDCG)մեկ այլ ընդհանուր վարկանիշային որակի չափիչ է: Ինչպես այն դեպքում, երբ [էլփոստը պաշտպանված է]Սկսենք հիմունքներից:

Կուտակային շահույթը Կ

Դիտարկենք կրկին մեկ առարկա և տարրերը, որոնք ամենամեծն են: Կուտակային շահույթ K ( [էլփոստը պաշտպանված է]) - դասակարգման հիմնական չափանիշ, որն օգտագործում է պարզ գաղափար. որքան ավելի համապատասխան տարրեր այս վերևում, այնքան լավ.

Այս չափիչն ունի ակնհայտ թերություններ. այն նորմալացված չէ և հաշվի չի առնում համապատասխան տարրերի դիրքը:

Նշենք, որ, ի տարբերություն [էլփոստը պաշտպանված է], [էլփոստը պաշտպանված է]կարող է օգտագործվել նաև ոչ երկուական հղումների համապատասխանության արժեքների դեպքում:

Զեղչված կուտակային շահույթ Կ

Զեղչված կուտակային շահույթ K ( [էլփոստը պաշտպանված է]) - K-ում կուտակային շահույթի փոփոխություն՝ հաշվի առնելով ցանկի տարրերի հերթականությունը՝ տարրի համապատասխանությունը բազմապատկելով դիրքի համարի հակադարձ լոգարիթմին հավասար կշիռով.

Նշում․ եթե այն վերցնում է միայն 0 և 1 արժեքները, ապա , և բանաձևը ստանում է ավելի պարզ ձև.

Լոգարիթմի օգտագործումը որպես զեղչի ֆունկցիա կարելի է բացատրել հետևյալ ինտուիտիվ նկատառումներով. վարկանիշի առումով ցուցակի սկզբում դիրքերը շատ ավելի են տարբերվում, քան վերջինիս դիրքերը։ Այսպիսով, որոնման համակարգի դեպքում 1-ին և 11-րդ դիրքերի միջև կա մի ամբողջ անդունդ (հարյուրից միայն մի քանի դեպքում է օգտատերը դուրս գալիս որոնման արդյունքների առաջին էջից), և մեծ տարբերություն չկա միջև. 101 և 111 դիրքեր - քչերն են հասնում դրանց: Այս սուբյեկտիվ նկատառումները գեղեցիկ կերպով արտահայտված են լոգարիթմի միջոցով.

Զեղչված կուտակային շահույթը լուծում է համապատասխան տարրերի դիրքը հաշվի առնելու խնդիրը, բայց միայն խորացնում է խնդիրը նորմալացման բացակայության պատճառով. Հետևյալ չափանիշը նախատեսված է այս խնդիրը լուծելու համար.

Նորմալացված զեղչված կուտակային շահույթ K

Ինչպես կարող եք կռահել վերնագրից. նորմալացված զեղչված կուտակային շահույթ K ( [էլփոստը պաշտպանված է]) - ոչ այլ ինչ, քան նորմալացված տարբերակ [էլփոստը պաշտպանված է]:

որտեղ է առավելագույն (I - իդեալական) արժեքը: Քանի որ մենք պայմանավորվեցինք, որ դա արժեքներ է ընդունում, ուրեմն.

Այսպիսով, այն ժառանգում է ցուցակում տարրերի դիրքը հաշվի առնելուց և, միևնույն ժամանակ, արժեքներ է ընդունում 0-ից 1 միջակայքում:

Նշում. նման է [էլփոստը պաշտպանված է]կարելի է հաշվարկել, միջինացնել բոլոր օբյեկտները.

Միջին փոխադարձ աստիճան

Միջին փոխադարձ վարկանիշ (MRR)մեկ այլ հաճախ օգտագործվող վարկանիշային որակի չափիչ է: Այն տրվում է հետևյալ բանաձևով.

որտեղ - փոխադարձ աստիճան -րդ օբյեկտի համար՝ իր էությամբ շատ պարզ արժեք, հավասար է առաջին ճիշտ գուշակված տարրի հակառակ հերթականությունը.

Միջին փոխադարձ աստիճանը տարբերվում է միջակայքում և հաշվի է առնում տարրերի դիրքը: Ցավոք, նա դա անում է միայն մեկ տարրի համար՝ 1-ին ճիշտ կանխատեսված՝ անտեսելով բոլոր հաջորդները։

Չափումներ՝ հիմնված վարկանիշային հարաբերակցության վրա

Առանձին-առանձին, արժե առանձնացնել վարկանիշային որակի ցուցանիշները՝ հիմնված գործակիցներից մեկի վրա. աստիճանի հարաբերակցություն. Վիճակագրության մեջ վարկանիշի հարաբերակցության գործակիցը հարաբերակցության գործակից է, որը հաշվի չի առնում ինքնին արժեքները, այլ միայն դրանց դասակարգումը (կարգը): Դիտարկենք վարկանիշային հարաբերակցության երկու ամենասովորական գործակիցները՝ Սփիրմանի և Քենդալի գործակիցները:

Քենդալի աստիճանի հարաբերակցության գործակիցը

Դրանցից առաջինը Քենդալի հարաբերակցության գործակիցն է, որը հիմնված է համընկնողը հաշվելու վրա
(և անհետևողական) փոխակերպումների զույգեր - տարրերի զույգեր, որոնց փոխակերպումները վերագրել են նույն (տարբեր) կարգը.

Սփիրմանի աստիճանի հարաբերակցության գործակիցը

Երկրորդը` Սփիրմանի աստիճանի հարաբերակցության գործակիցը, ըստ էության ոչ այլ ինչ է, քան Պիրսոնի հարաբերակցությունը, որը հաշվարկվում է վարկանիշային արժեքների վրա: Կա բավականին հարմար բանաձև, որն արտահայտում է դա անմիջապես շարքերից.

որտեղ է Պիրսոնի հարաբերակցության գործակիցը:

Վարկանիշային հարաբերակցության վրա հիմնված չափումները ունեն մի թերություն, որը մենք արդեն գիտենք. նրանք հաշվի չեն առնում տարրերի դիրքը (նույնիսկ ավելի վատ, քան [էլփոստը պաշտպանված է], որովհետեւ հարաբերակցությունը հաշվարկվում է բոլոր տարրերի, և ոչ ամենաբարձր աստիճան ունեցող K տարրերի նկատմամբ): Հետեւաբար, դրանք գործնականում հազվադեպ են օգտագործվում:

Ջրվեժի վարքագծի մոդելի վրա հիմնված չափումներ

Մինչև այս պահը մենք չենք խորացել, թե ինչպես է օգտատերը (հետագայում մենք կդիտարկենք օբյեկտի հատուկ դեպքը՝ օգտատերը) ուսումնասիրում է իրեն առաջարկվող տարրերը։ Փաստորեն, մենք անուղղակիորեն ենթադրեցինք, որ դիտելով յուրաքանչյուր տարր անկախայլ տարրերի հայացքներից՝ մի տեսակ «միամտություն»։ Գործնականում տարրերը հաճախ դիտվում են օգտվողի կողմից հերթով, և արդյոք օգտագործողը դիտում է հաջորդ տարրը, կախված է նախորդներից նրա գոհունակությունից: Դիտարկենք օրինակ. ի պատասխան որոնման հարցման, վարկանիշային ալգորիթմը օգտվողին առաջարկել է մի քանի փաստաթուղթ: Եթե 1-ին և 2-րդ դիրքերում գտնվող փաստաթղթերը չափազանց կարևոր են, ապա հավանականությունը, որ օգտվողը կդիտի փաստաթուղթը 3-րդ դիրքում, քիչ է, քանի որ. նա միանգամայն գոհ կմնա առաջին երկուսով։

Օգտագործողի վարքագծի նմանատիպ մոդելները, որտեղ նրան առաջարկվող տարրերի ուսումնասիրությունը տեղի է ունենում հաջորդաբար, և տարրը դիտելու հավանականությունը կախված է նախորդների համապատասխանությունից, կոչվում են. կասկադային.

Ակնկալվող փոխադարձ կոչում

Ակնկալվող փոխադարձ վարկանիշ (ERR)ջրվեժի մոդելի վրա հիմնված որակի վարկանիշային չափման օրինակ է: Այն տրվում է հետևյալ բանաձևով.

որտեղ աստիճանը հասկացվում է նվազման կարգով: Այս չափման մեջ ամենահետաքրքիրը հավանականություններն են: Դրանք հաշվարկելիս օգտագործվում են կասկադի մոդելի ենթադրությունները.

որտեղ է հավանականությունը, որ օգտվողը գոհ կլինի դասակարգման օբյեկտից: Այս հավանականությունները հաշվարկվում են՝ հիմնվելով . Քանի որ մեր դեպքում մենք կարող ենք դիտարկել մի պարզ տարբերակ.

որը կարելի է կարդալ այսպես. իրի իրական համապատասխանությունը դիրքում Վերջապես, այստեղ կան մի քանի օգտակար հղումներ:

Յուրաքանչյուր ցանկի տարրերի վրա: Մասնակի հերթականությունը սովորաբար սահմանվում է՝ յուրաքանչյուր կետի համար միավոր նշելով (օրինակ՝ «համապատասխան» կամ «ոչ տեղին», հնարավոր է ավելի քան երկու աստիճանավորում): Վարկանիշային մոդելի նպատակն է լավագույնս (որոշ իմաստով) մոտավորել և ընդհանրացնել, թե ինչպես են դասընթացի դասակարգման աղյուսակը համապատասխանում նոր տվյալներին:

Վարկանիշային ուսուցումը դեռևս բավականին երիտասարդ, արագ զարգացող հետազոտության ոլորտ է, որն առաջացել է 2000-ականներին տեղեկատվության որոնման ոլորտում հետաքրքրության ի հայտ գալով՝ մեքենայական ուսուցման մեթոդները դասակարգելու խնդիրների համար:

Հանրագիտարան YouTube

1 / 5

Վարկանիշային մոդելի ուսուցման ընթացքում և դրա գործարկման ընթացքում յուրաքանչյուր փաստաթուղթ-խնդրանք զույգ թարգմանվում է դասակարգման հատկանիշների թվային վեկտորի (նաև կոչվում են վարկանիշային գործոններ կամ ազդանշաններ), որոնք բնութագրում են փաստաթղթի հատկությունները, հարցումը և նրանց հարաբերությունները: Այս նշանները կարելի է բաժանել երեք խմբի.

Հետևյալը դասակարգման առանձնահատկությունների մի քանի օրինակներ են, որոնք օգտագործվում են ոլորտում հայտնի LETOR տվյալների բազայում.

TF, TF-IDF, BM25 չափումների արժեքները և փաստաթղթերի տարբեր գոտիների պահանջներին համապատասխանող լեզվական մոդելը (վերնագիր, URL, հիմնական տեքստ, հղման տեքստ);
Փաստաթղթերի գոտիների երկարությունները և IDF գումարները.
Փաստաթղթերի վարկանիշները ստացվում են հղումների դասակարգման ալգորիթմների տարբեր տատանումներով, ինչպիսիք են PageRank-ը և HITS-ը:

Վարկանիշային որակի չափումներ

Կան մի քանի չափումներ, որոնք գնահատում և համեմատում են ընտրանքի վարկանիշավորման ալգորիթմների կատարողականը գործընկերների ակնարկների հետ: Հաճախ դասակարգման մոդելի պարամետրերը հակված են ճշգրտվելու այնպես, որ առավելագույնի հասցվի այս չափիչներից մեկի արժեքը:

Չափումների օրինակներ.

Ալգորիթմների դասակարգում

Իր «Սովորելով դասակարգվել տեղեկատվության որոնման համար» հոդվածում և թեմատիկ կոնֆերանսների ելույթներում, Microsoft Research Asia-ից Տայ-Յան Լյուն վերլուծել է դասակարգման սովորելու խնդիրը լուծելու համար ներկայումս առկա մեթոդները և առաջարկել դրանց դասակարգումը երեք մոտեցումների՝ կախված մուտքագրումից: օգտագործված տվյալների ներկայացում և ֆունկցիայի տուգանք.

Կետային մոտեցում

Նշումներ

Tie Yan Liu (2009) Տեղեկատվության առբերման դասակարգում սովորելը, Տեղեկատվության որոնման հիմունքներ և միտումներ. 3: No 3, էջ. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016. Հասանելի են սլայդներ Տ. Լյուի ելույթից WWW 2009 կոնֆերանսում:

Հե՜յ Հաբր։

Մեքենայի ուսուցման առաջադրանքներում չափիչները օգտագործվում են մոդելների որակը գնահատելու և տարբեր ալգորիթմներ համեմատելու համար, և դրանց ընտրությունն ու վերլուծությունը տվյալների գիտնականի աշխատանքի անփոխարինելի մասն է:

Այս հոդվածում մենք կդիտարկենք որակի որոշ չափանիշներ դասակարգման խնդիրներում, կքննարկենք, թե ինչն է կարևոր չափիչ ընտրելիս և ինչը կարող է սխալ լինել:

Չափանիշները դասակարգման խնդիրներում

Օգտակար հատկություններ ցուցադրելու համար սկլերանալև չափումների տեսողական ներկայացմամբ՝ մենք կօգտագործենք մեր հեռահաղորդակցական օպերատորի հաճախորդների ելքի տվյալների շտեմարանը, որը մենք հանդիպեցինք դասընթացի առաջին հոդվածում:

Ներբեռնեք անհրաժեշտ գրադարանները և դիտեք տվյալները

Ներմուծեք պանդաները որպես pd ներմուծում matplotlib.pyplot որպես plt matplotlib.pylab ներմուծում rc, գծագիր ներմուծում ծովում ծնված որպես sns sklearn.preprocessing ներմուծում LabelEncoder-ից, OneHotEncoder-ից sklearn.model_selection ներմուծում cross_val_score ներմուծում sklearn. sklearn.metrics-ից ներմուծել precision_recall_curve, classification_report from sklearn.model_selection ներմուծում train_test_split df = pd.read_csv("../../data/telecom_churn.csv")

Df.head (5)

Տվյալների նախնական մշակում

# Քարտեզագրեք երկուական սյունակները # և կեղծ ծածկագրեք վիճակը (պարզության համար ավելի լավ է դա չանել փայտե մոդելների համար) d = («Այո» : 1, «Ոչ» : 0) df[«Միջազգային պլան»] = df [" Միջազգային պլան"].map(d) df["Ձայնային փոստի ծրագիր"] = df["Ձայնային փոստի ծրագիր"].map(d) df["Churn"] = df["Churn"].atype(" int64" ) le = LabelEncoder() df["State"] = le.fit_transform(df["State"]) ohe = OneHotEncoder(sparse=False) encoded_state = ohe.fit_transform(df["State"].values.reshape (- 1, 1)) tmp = pd.DataFrame(encoded_state, columns=["state" + str(i) i-ի համար տիրույթում (encoded_state.shape)]) df = pd.concat(, առանցք=1)

Ճշգրտություն, ճշգրտություն և հիշեցում

Նախքան չափումների վրա անցնելը, անհրաժեշտ է ներմուծել մի կարևոր հայեցակարգ, որը նկարագրում է այս չափումները դասակարգման սխալների տեսանկյունից. շփոթության մատրիցա(սխալների մատրիցա):
Ենթադրենք, որ մենք ունենք երկու դաս և ալգորիթմ, որը կանխատեսում է, թե արդյոք յուրաքանչյուր օբյեկտ պատկանում է դասերից մեկին, ապա դասակարգման սխալի մատրիցը կունենա հետևյալ տեսքը.


	Իրական դրական (TP)	Կեղծ դրական (FP)
	Կեղծ բացասական (FN)	Իրական բացասական (TN)

ալգորիթմի պատասխանն է օբյեկտի վրա, և

Այս օբյեկտի իրական դասի պիտակը:
Այսպիսով, դասակարգման սխալների երկու տեսակ կա՝ կեղծ բացասական (FN) և կեղծ դրական (FP):

Ալգորիթմի ուսուցում և սխալների մատրիցայի կառուցում

X = df.drop("Churn", axis=1) y = df["Churn"] # Նմուշը բաժանեք գնացքի և փորձարկեք, բոլոր չափումները կգնահատվեն X_train, X_test, y_train, y_test = train_test_split( X, y , stratify=y, test_size=0.33, random_state=42) # Train native logistic regression lr = LogisticRegression(random_state=42) lr.fit(X_train, y_train) # Օգտագործեք ֆունկցիան՝ sklear փաստաթղթերից սխալի մատրիցա ստեղծելու համար: def plot_confusion_matrix(cm, classes , normalize=False, title="(!LANG:Confusion matrix", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="Շփոթության մատրիցա") plt.savefig("conf_matrix.png") plt.show()!}

Ճշգրտություն

Ինտուիտիվ, ակնհայտ և գրեթե չօգտագործված չափանիշը ճշգրտությունն է՝ ալգորիթմի ճիշտ պատասխանների տոկոսը.

Այս չափանիշը անօգուտ է անհավասար դասերի հետ կապված խնդիրներում և հեշտ է ցույց տալ օրինակով:

Ենթադրենք, մենք ուզում ենք գնահատել փոստի սպամի ֆիլտրի աշխատանքը: Մենք ունենք 100 ոչ սպամ էլ․ 5):
Այնուհետև ճշգրտությունը.

Այնուամենայնիվ, եթե մենք պարզապես կանխատեսում ենք բոլոր նամակները որպես ոչ սպամ, մենք ավելի բարձր ճշգրտություն ենք ստանում.

Միևնույն ժամանակ, մեր մոդելն ընդհանրապես որևէ կանխատեսող ուժ չունի, քանի որ ի սկզբանե ցանկանում էինք բացահայտել սպամ էլ. Բոլոր դասերի համար ընդհանուր չափիչից անցումը դասի որակի անհատական ցուցանիշներին կօգնի մեզ հաղթահարել դա:

Ճշգրիտություն, հետկանչում և F-չափում

Դասերից յուրաքանչյուրի վրա ալգորիթմի որակը առանձին-առանձին գնահատելու համար մենք ներկայացնում ենք չափումների ճշգրտությունը (ճշգրտությունը) և հիշելը (ամբողջականությունը):

Ճշգրիտությունը կարելի է մեկնաբանել որպես դասակարգչի կողմից դրական կոչվող օբյեկտների համամասնություն և միևնույն ժամանակ իսկապես դրական են, և հիշելը ցույց է տալիս, թե դրական դասի օբյեկտների որ մասնաբաժինը դրական դասի բոլոր օբյեկտներից է գտել ալգորիթմը:

Հենց ճշգրտության ներդրումն է, որը թույլ չի տալիս մեզ բոլոր օբյեկտները գրել մեկ դասի մեջ, քանի որ այս դեպքում մենք ստանում ենք False Positive մակարդակի աճ: Recall-ը ցույց է տալիս ալգորիթմի կարողությունը՝ ընդհանրապես տվյալ դասը հայտնաբերելու, մինչդեռ ճշգրտությունը ցույց է տալիս այս դասը մյուս դասերից տարբերելու ունակությունը:

Ինչպես արդեն նշեցինք, դասակարգման սխալների երկու տեսակ կա՝ կեղծ դրական և կեղծ բացասական: Վիճակագրության մեջ սխալների առաջին տեսակը կոչվում է I տիպի սխալ, իսկ երկրորդ տեսակը՝ II տիպի սխալ։ Բաժանորդների արտահոսքը որոշելու մեր առաջադրանքում առաջին տեսակի սխալը կլինի հավատարիմ բաժանորդի սխալը ելքայինի համար, քանի որ մեր զրոյական վարկածն այն է, որ բաժանորդներից ոչ մեկը արտահոսում է, և մենք մերժում ենք այս վարկածը: Համապատասխանաբար, երկրորդ տեսակի սխալը կլինի ելքային բաժանորդի «անցումը» և զրոյական վարկածի սխալ ընդունումը։

Ճշգրիտությունը և հետկանչումը, ի տարբերություն ճշգրտության, կախված չեն դասերի հարաբերակցությունից և, հետևաբար, կիրառելի են անհավասարակշիռ նմուշների պայմաններում:
Հաճախ իրական պրակտիկայում խնդիր է դրված գտնել օպտիմալ (հաճախորդի համար) հավասարակշռությունը այս երկու ցուցանիշների միջև: Դասական օրինակ է հաճախորդների արտահոսքի որոշման խնդիրը։
Պարզ է, որ չենք կարող գտնել բոլորըջղայնացնելով հաճախորդներին և միայննրանց. Բայց որոշելով հաճախորդների պահպանման ռազմավարությունը և ռեսուրսը, մենք կարող ենք ընտրել ճշգրտության և հիշելու համար անհրաժեշտ շեմերը: Օրինակ, մենք կարող ենք կենտրոնանալ միայն բարձր մարժա հաճախորդներին կամ նրանց, ովքեր ավելի հավանական է, որ խուսափեն, քանի որ մենք սահմանափակված ենք զանգերի կենտրոնի ռեսուրսներով:

Սովորաբար, երբ օպտիմիզացնում են ալգորիթմի հիպերպարամետրերը (օրինակ՝ ցանցի վրայով կրկնելու դեպքում. GridSearchCV) օգտագործում է մեկ չափիչ, որի բարելավումը մենք ակնկալում ենք տեսնել թեստային նմուշում:
Գոյություն ունեն մի քանի տարբեր եղանակներ՝ միավորելու ճշգրտությունը և հետ կանչելը ընդհանուր որակի չափման մեջ: F- չափում (ընդհանուր առմամբ

) - միջին ներդաշնակության ճշգրտություն և հիշեցում.

այս դեպքում որոշում է չափման ճշգրտության կշիռը և երբ

սա ներդաշնակ միջինն է (2 գործակցով, այնպես որ ճշգրտության դեպքում = 1 և հետ կանչելու դեպքում = 1 մենք ունենք

)
F-չափը հասնում է իր առավելագույնին, երբ հիշվում է, իսկ ճշգրտությունը հավասար է մեկի և մոտ է զրոյի, եթե արգումենտներից մեկը մոտ է զրոյին:
sklearn-ն ունի հարմար _metrics.classification ֆունկցիա հաշվետվությունորը վերադարձնում է հետկանչը, ճշգրտությունը և F-չափը դասերից յուրաքանչյուրի համար, ինչպես նաև յուրաքանչյուր դասի օրինակների քանակը:

Հաշվետվություն = classification_report(y_test, lr.predict(X_test), target_names=["Non-churned", "Churned"]) print(report)

դաս	ճշգրտություն	հիշել	f1 միավոր	աջակցություն
Չխռոված	0.88	0.97	0.93	941
Կծկված	0.60	0.25	0.35	159
միջին/ընդհանուր	0.84	0.87	0.84	1100

Այստեղ պետք է նշել, որ անհավասարակշռված դասերով առաջադրանքների դեպքում, որոնք գերակշռում են իրական պրակտիկայում, հաճախ անհրաժեշտ է լինում դիմել տվյալների բազայի արհեստական փոփոխության տեխնիկայի՝ դասերի հարաբերակցությունը հավասարեցնելու համար: Դրանք շատ են, և մենք նրանց չենք դիպչի, կարող եք նայել որոշ մեթոդներ և ընտրել այն, որը համապատասխանում է ձեր առաջադրանքին:

AUC-ROC և AUC-PR

Ալգորիթմի իրական պատասխանը (սովորաբար դասին պատկանելու հավանականությունը, տես SVM-ն առանձին) երկուական պիտակի վերածելիս մենք պետք է ընտրենք ինչ-որ շեմ, որի դեպքում 0-ը դառնում է 1: 0,5-ի շեմը թվում է բնական և մոտ, բայց դա այդպես է: միշտ չէ, որ օպտիմալ է ստացվում, օրինակ, դասակարգային հավասարակշռության վերոհիշյալ բացակայության դեպքում։

Մոդելը որպես ամբողջություն գնահատելու եղանակներից մեկը, առանց որևէ կոնկրետ շեմին կապվելու, AUC-ROC (կամ ROC AUC) - տարածքն է ( Առեա Uհարգել Գ urve) սխալի կորի տակ ( Ռընդունող Օգործելով Գբնորոշ կոր): Այս կորը (0.0)-ից մինչև (1.1) գիծ է Իրական դրական դրույքաչափով (TPR) և կեղծ դրական դրույքաչափով (FPR) կոորդինատներով.

Մենք արդեն գիտենք TPR-ը, սա ամբողջականություն է, և FPR-ը ցույց է տալիս, թե բացասական դասի օբյեկտների որ մասնաբաժինը սխալ է կանխատեսել ալգորիթմը: Իդեալական դեպքում, երբ դասակարգիչը սխալներ չի անում (FPR = 0, TPR = 1), մենք կորի տակի մակերեսը հավասար կլինի մեկի, հակառակ դեպքում, երբ դասակարգիչը պատահականորեն արտադրում է դասի հավանականություններ, AUC-ROC-ը հակված կլինի. 0.5, քանի որ դասակարգիչը կթողարկի նույն քանակությամբ TP և FP:
Գրաֆիկի յուրաքանչյուր կետ համապատասխանում է որոշ շեմի ընտրությանը: Կորի տակ գտնվող տարածքն այս դեպքում ցույց է տալիս ալգորիթմի որակը (ավելի շատ, այնքան լավ), բացի այդ, կորի կտրուկությունը ինքնին կարևոր է. կետը (0,1):

ROC-կորի գծագրման կոդը

sns.set(font_scale=1.5) sns.set_color_codes("խլացված") plt.figure(figsize=(10, 8)) fpr, tpr, շեմեր = roc_curve(y_test, lr.predict_proba(X_test)[:,1], pos_label=1) lw = 2 plt.plot(fpr, tpr, lw=lw, label="ROC կորի ") plt.plot(, ) plt.xlim() plt.ylim() plt.xlabel("Կեղծ դրական դրույքաչափ ") plt.ylabel("Իսկական դրական դրույքաչափ") plt.title("ROC կոր") plt.savefig("ROC.png") plt.show()

AUC-ROC չափանիշը դիմացկուն է անհավասարակշռված դասերի նկատմամբ (փչացող. ավաղ, ամեն ինչ այնքան էլ պարզ չէ) և կարող է մեկնաբանվել որպես հավանականություն, որ պատահականորեն ընտրված դրական օբյեկտը դասակարգչի կողմից ավելի բարձր դասակարգվի (այն ունենալու ավելի մեծ հավանականություն կունենա: դրական), քան պատահականորեն ընտրված բացասական օբյեկտը:

Դիտարկենք հետևյալ խնդիրը՝ 1 միլիոն փաստաթղթերից պետք է ընտրենք 100 համապատասխան փաստաթուղթ։ Մենք մեքենայական սովորել ենք երկու ալգորիթմ.

Ալգորիթմ 1վերադարձնում է 100 փաստաթուղթ, որից 90-ը՝ համապատասխան։ Այս կերպ,

Ալգորիթմ 2վերադարձնում է 2000 փաստաթուղթ, որից 90-ը՝ համապատասխան։ Այս կերպ,

Ամենայն հավանականությամբ, մենք կընտրեինք առաջին ալգորիթմը, որն արտադրում է շատ քիչ False Positives՝ համեմատած իր մրցակցի հետ։ Բայց այս երկու ալգորիթմների միջև կեղծ դրական դրույքաչափի տարբերությունը չափազանցփոքր - ընդամենը 0,0019: Սա հետևանք է այն բանի, որ AUC-ROC-ը չափում է False Positive-ի հարաբերակցությունը True Negative-ի նկատմամբ, և այն առաջադրանքներում, որտեղ երկրորդ (ավելի մեծ) դասը մեզ համար այնքան էլ կարևոր չէ, այն կարող է ամբողջովին համարժեք պատկեր չտալ ալգորիթմները համեմատելիս: .

Իրավիճակը շտկելու համար վերադառնանք ամբողջականությանը և ճշգրտությանը.

Ալգորիթմ 1

Ալգորիթմ 2

Երկու ալգորիթմների միջև արդեն զգալի տարբերություն կա՝ 0,855 ճշգրտությամբ։

Ճշգրիտությունը և հետկանչումը նույնպես օգտագործվում են կորը գծելու և, AUC-ROC-ի նման, դրա տակ գտնվող տարածքը գտնելու համար:

Այստեղ կարելի է նշել, որ փոքր տվյալների հավաքածուներում PR կորի տակ գտնվող տարածքը կարող է չափազանց լավատեսական լինել, քանի որ այն հաշվարկվում է trapezoid մեթոդով, բայց սովորաբար այդպիսի առաջադրանքների համար բավականաչափ տվյալներ կան: AUC-ROC-ի և AUC-PR-ի փոխհարաբերությունների վերաբերյալ մանրամասների համար տե՛ս այստեղ:

Լոգիստիկ կորուստ

Առանձին մնալը լոգիստիկ կորստի գործառույթն է, որը սահմանվում է որպես.

ալգորիթմի պատասխանն է

օհմ օբյեկտ,

իսկական դասի պիտակի վրա

օհմ օբյեկտ, և

նմուշի չափը.

Լոգիստիկ կորստի ֆունկցիայի մաթեմատիկական մեկնաբանության մասին մանրամասներն արդեն գրվել են գծային մոդելների մասին գրառման մեջ։
Այս չափանիշը հաճախ չի երևում բիզնեսի պահանջներում, այլ հաճախ՝ «kaggle» առաջադրանքներում:
Ինտուիտիվ կերպով, կարելի է պատկերացնել լոգոլորտի նվազագույնի հասցնելը որպես սխալ կանխատեսումների տուգանման միջոցով ճշգրտությունը առավելագույնի հասցնելու խնդիր: Այնուամենայնիվ, հարկ է նշել, որ logloss-ը խստորեն պատժում է դասակարգչի վստահությունը սխալ պատասխանի նկատմամբ:

Դիտարկենք մի օրինակ.

Def logloss_crutch(y_true, y_pred, eps=1e-15): return - (y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred)) print("Logloss անորոշ դասակարգմամբ %f " % logloss_crutch(1, 0.5)) >> Լոգլոս անորոշ դասակարգմամբ 0.693147 տպագիր ("Լոգլոս վստահ դասակարգմամբ և ճիշտ պատասխանով %f" % logloss_crutch(1, 0.9)) >> Լոգլոս վստահ դասակարգմամբ և ճիշտ պատասխանով 0.105361 տպագիր (" Լոգլոս հաստատ դասակարգման և սխալ պատասխանի համար %f" % logloss_crutch(1, 0.1)) >> Լոգլոս հաստատ դասակարգման և սխալ պատասխանի համար 2.302585

Նկատի ունեցեք, թե որքան կտրուկ ավելացավ լոգոլորտը սխալ պատասխանով և վստահ դասակարգմամբ:
Հետևաբար, մեկ օբյեկտի սխալը կարող է զգալի վատթարացնել նմուշի ընդհանուր սխալը: Նման օբյեկտները հաճախ դուրս են, որոնք պետք է հիշել զտելու կամ առանձին դիտարկելու համար:
Ամեն ինչ իր տեղը կընկնի, եթե դուք գծագրեք լոգարիթմական գրաֆիկ.

Կարելի է տեսնել, որ որքան մոտ է զրոյին հիմնային ճշմարտության համար ալգորիթմի պատասխանը = 1, այնքան մեծ է սխալի արժեքը և այնքան կտրուկ է աճում կորը:

Ամփոփելով.

Բազմադասային դասակարգման դեպքում դուք պետք է ուշադիր հետևեք դասերից յուրաքանչյուրի չափորոշիչներին և հետևեք լուծման տրամաբանությանը: առաջադրանքներ, այլ ոչ թե մետրային օպտիմալացնելը
Անհավասար դասերի դեպքում անհրաժեշտ է ընտրել ուսուցման համար դասերի հավասարակշռություն և չափիչ, որը ճիշտ կարտացոլի դասակարգման որակը.
Չափանիշի ընտրությունը պետք է կատարվի՝ կենտրոնանալով թեմայի վրա, նախապես մշակելով տվյալները և, հնարավոր է, սեգմենտավորումը (ինչպես հարուստ և աղքատ հաճախորդների բաժանման դեպքում):

օգտակար հղումներ

Դասընթաց Եվգենի Սոկոլովի կողմից. Սեմինար մոդելների ընտրության վերաբերյալ (կա տեղեկատվություն ռեգրեսիայի խնդիրների չափման վերաբերյալ)
Խնդիրներ AUC-ROC-ի համար Ա.Գ. Դյակոնովան
Դուք կարող եք ավելին կարդալ kaggle-ի այլ չափումների մասին: Մրցույթի հղումը, որտեղ այն օգտագործվել է, ավելացվել է յուրաքանչյուր չափման նկարագրությանը
Բոգդան Մելնիկի կողմից՝ aka ld86-ի ներկայացումը անհավասարակշիռ նմուշների վրա սովորելու մասին

UDC 519.816

Ս.Վ.ՍԵՄԵՆԻԽԻՆ Լ.Ա.ԴԵՆԻՍՈՎԱ

Օմսկի պետական տեխնիկական համալսարան

ՄԵՔԵՆԱՅԻՆ ՈՒՍՈՒՑՄԱՆ ՄԵԹՈԴ ՎԱՐԿԱՆԿՄԱՆ ՀԱՄԱՐ

ՀԻՄՆՎԱԾ ՓՈՓՈԽՎԱԾ ԳԵՆԵՏԻԿ ԱԼԳՈՐԻԹՄԻ ՀԱՄԱՐ URCO մետրիկ

Դիտարկվում է տեղեկատվության որոնման արդյունքների էջում փաստաթղթերի դասակարգման խնդիրը և մեքենայական ուսուցման վարկանիշի խնդիրները: Առաջարկվում է վարկանիշային ֆունկցիայի օպտիմալացման մոտեցում՝ օգտագործելով որակի մետրային LOCO-ն՝ հիմնված փոփոխված գենետիկական ալգորիթմի վրա: Մշակված ալգորիթմներն ուսումնասիրվել են (LETO^-ի թեստային հավաքածուների վրա) և ցուցադրվել է դրանց արդյունավետությունը մեքենայական ուսուցման վարկանիշում։

Բանալի բառեր՝ տեղեկատվության որոնում, մեքենայական ուսուցման դասակարգում, համապատասխանություն, օպտիմալացում, գենետիկական ալգորիթմներ:

1. Ներածություն. Ժամանակակից տեղեկատվության որոնման համակարգերում (IRS) տվյալների ծավալը, որի վրա համակարգը գործում է, այնքան մեծ է, որ հիմնական խնդիրն է համապատասխան փաստաթղթերը դասակարգել՝ ի պատասխան օգտվողի որոնման հարցման: IPS-ի զարգացման այս փուլում վարկանիշավորման համար մեքենայական ուսուցումը (ML) ամենամեծ հետաքրքրությունն է ներկայացնում։ Թվային մեթոդների (մասնավորապես, գրադիենտ մեթոդների) կամ վերլուծական հաշվարկների վրա հիմնված ՓԼ-ի առկա մոտեցումներն ունեն մի շարք թերություններ, որոնք էապես ազդում են տեղեկատվության որոնման որակի և համապատասխան փաստաթղթերի դասակարգման համար պահանջվող ժամանակի վրա:

Հետազոտության սկզբում դիտարկվել են մեքենայական ուսուցման վարկանիշավորման ցուցակային մոտեցումները, որոնցից շատերը օգտագործում են գրադիենտ իջնող մեթոդը: Դիտարկված աշխատանքներում ML-ը կրճատվում է դեպի որոնման որակի չափանիշների (QM) օպտիմալացում, սակայն օգտագործվում են միայն շարունակական գործառույթներով ներկայացված չափումներ: Այս սահմանափակումը հաճախ հանգեցնում է նրան, որ օպտիմալացման արդյունքում վարկանիշային ֆունկցիան ավելի ցածր միավորներ ունի շատ կարևոր ընդունված ցուցանիշների համար (DCG, nDCG, Graded Mean Reciprocal Rank և այլն), որոնք դիսկրետ ֆունկցիաներ են: Փաստաթուղթն առաջարկում է գենետիկական ալգորիթմների (GA) օգտագործումը ուսուցման դասակարգման համար՝ նվազագույնի հասցնելու Huber կորստի ֆունկցիան՝ օգտագործելով փորձագիտական համապատասխանության գնահատումները՝ որպես հղման արժեքներ: Առաջարկվել է նաև մոտեցում ՓԼ-ին, որը հիմնված է տեղեկատվության որոնման որակի դիսկրետ ցուցանիշների օպտիմալացման վրա:

2. Մեքենայի ուսուցման դասակարգման խնդրի մասին հայտարարություն: Ժամանակակից տեղեկատվության որոնման համակարգերում դասակարգման գործառույթը կառուցված է n պարզ դասակարգման ֆունկցիաների (PRF) հիման վրա և կարող է գրվել հետևյալ կերպ.

որտեղ SRF¡-ը d փաստաթղթի և d հարցման ¡-րդ պարզ վարկանիշային ֆունկցիան է, WCi-ն ¡-րդ պարզ դասակարգման ֆունկցիայի կշռման գործոնն է, n-ը վարկանիշային համակարգում FRP-ների թիվն է:

Վարկանիշի համար մեքենայական ուսուցման ընթացքում օգտագործվել է B և O հարցումների մի շարք LBTOT թեստային հավաքածուից: Բոլոր deO հարցումների համար յուրաքանչյուր deD փաստաթղթի հետ ձևավորվում է զույգ: Յուրաքանչյուր նման զույգի համար IPS-ը որոշում է համապատասխանության արժեքները, որոնք օգտագործվում են SERP-ի դասակարգման համար: Վարկանիշի որակը գնահատելու համար համակարգին անհրաժեշտ են համապատասխան E տեղեկատու արժեքներ յուրաքանչյուր զույգ փաստաթղթի հարցում t, e): Այդ նպատակների համար օգտագործվում են փորձագիտական համապատասխանության գնահատումներ:

Ուսումնասիրության համար օգտագործվել է IPS, որտեղ վարկանիշը հիմնված է N = 5 պարզ վարկանիշային ֆունկցիաների վրա՝ SRFi(WC)l r = 1, N, որոնք կազմում են վեկտորի օպտիմալության չափանիշ.

որտեղ WCе (WC) - փոփոխական պարամետրերի վեկտոր; (SHS), (YB) համապատասխանաբար պարամետրերի և վեկտորի չափանիշների տարածություններն են։

MO դասակարգման համար գենետիկական ալգորիթմների օգտագործումը հնարավորություն է տալիս առավելագույնի հասցնել դիսկրետ որակի չափումները, ինչպիսին է nDCG-ն: Որոնողական համակարգում փաստաթղթերի դասակարգման nDCG չափանիշը որոշվում է հետևյալ արտահայտության համաձայն.

DCG@n=X2---

RF(q, d)=XWC: ■ SRF., i=1 1 1

որտեղ գնահատականը (p)-ն արդյունքների ցանկում p դիրքում գտնվող փաստաթղթին փորձագետների կողմից նշանակված միջին համապատասխանության միավորն է, գնահատական; 1/log2(2 + p) - գործակից՝ կախված փաստաթղթի դիրքերից (առաջին փաստաթղթերն ավելի մեծ կշիռ ունեն)։

Այնուհետև ձևով կգրվի NDCG-ի նորմալացված տարբերակը

N000 @ n = RSD @ n / r,

որտեղ r-ը նորմալացման գործակիցն է, որը հավասար է 0C հնարավոր առավելագույն արժեքին [էլփոստը պաշտպանված է] n տվյալ հարցման համար (այսինքն՝ հավասար է իդեալական վարկանիշի OOO-ին):

Այսպիսով, SFR-ի չափումները օպտիմալացնելու (առավելագույնի հասցնելու) համար նպատակային ֆունկցիան (JM) կգրվի հետևյալ ձևով.

3. Որոնման արդյունքների վարկանիշի որակի չափումներ: Որոնման արդյունքներում փաստաթղթերը դասակարգելիս որակի չափորոշիչները գործում են որպես չափանիշ: Տեղեկատվության որոնման համակարգերի որակի գնահատման ընդհանուր ընդունված չափանիշների ցանկից ընտրվել են երեք հիմնական, որոնք գնահատում են տեղեկատվության որոնման ճշգրտությունը, համապատասխանությունը և ամբողջականությունը:

1. Տեղեկատվության որոնման ճշտության չափանիշ

որտեղ a-ն գտնված համապատասխան փաստաթղթերի թիվն է, b-ն այն փաստաթղթերի քանակն է, որոնք սխալմամբ համարվում են համապատասխան:

2. Bpref չափանիշը, որը գնահատում է տեղեկատվության որոնման համապատասխանությունը, օգտագործվում է առաջադրանքը R համապատասխան փաստաթղթերով մշակելու համար և հաշվարկվում է բանաձևով.

Bpref = - ^ (1 - Non Re ¡Before(r)/ R). (4)

Այստեղ r-ը նշանակում է հայտնի համապատասխան փաստաթուղթ, իսկ NonRelBefore(r)-ը r-ից բարձր դասված հայտնի անհամապատասխան փաստաթղթերի թիվն է (հաշվարկում հաշվի են առնվում միայն առաջին R գնահատված անհամապատասխան փաստաթղթերը գործարկումից):

3. Որոնման արդյունքների ամբողջականության չափանիշը

r = a / (a + c),

որտեղ a-ն գտնված համապատասխան փաստաթղթերի թիվն է, c-ն՝ չգտնված համապատասխան փաստաթղթերի թիվը:

4. Թեստային հավաքածուներ. Մեքենայի ուսուցման առաջադրանքում դասակարգումը պահանջում է փաստաթղթերի և հարցումների մի շարք՝ փորձագետների կողմից որոշված համապատասխան համապատասխան միավորներով: Այս տվյալները օգտագործվում են վարկանիշային ֆունկցիայի մեքենայական ուսուցման, ինչպես նաև որակի գնահատման համար:

որոնման արդյունքների դասակարգում ըստ համակարգի: ՓԼ գործընթացում թեստային հավաքածուները օգտագործվում են որպես վերապատրաստման հավաքածու և, հետևաբար, էական ազդեցություն ունեն արդյունքների վրա: Հետազոտության համար օգտագործվել է LETOR փաստաթղթերի և հարցումների թեստային հավաքածու: Այս հավաքածուն օգտագործվում է Microsoft Research-ի կողմից տեղեկատվության որոնման հետազոտության մեջ: Աղյուսակում. 1-ը ցույց է տալիս LETOR թեստային հավաքածուների բնութագրերը:

5. Փոփոխված գենետիկական ալգորիթմ. Գենետիկական ալգորիթմները մեքենայական ուսուցման դասակարգման համար օգտագործելու համար խնդիրը պետք է ձևակերպվի այնպես, որ լուծումը կոդավորվի որպես վեկտոր (գենոտիպ), որտեղ յուրաքանչյուր գեն կարող է լինել մի բիթ, թիվ կամ մեկ այլ առարկա: Այս դեպքում գենոտիպը ներկայացված է կշիռների վեկտորով համապատասխան վարկանիշային գործոնների համար: Գենետիկական ալգորիթմի կատարումը դադարեցնելու պայմանը օպտիմալ լուծում գտնելն է՝ սպառելով սերունդների թիվը կամ էվոլյուցիայի համար հատկացված ժամանակը։

Հարկ է նշել, որ ԳԱ-ներն ամենաարդյունավետն են գլոբալ էքստրեմալ շրջանը գտնելու համար, սակայն դրանք կարող են դանդաղ աշխատել, երբ անհրաժեշտ է գտնել այս տարածաշրջանում տեղական նվազագույնը: Այս թերությունից խուսափելու առաջարկվող միջոցը մոդիֆիկացված գենետիկական ալգորիթմի (MGA) ստեղծումն է, որը կանցնի տեղական (արագ) օպտիմալացման ալգորիթմի՝ բազային GA-ի միջոցով գլոբալ օպտիմալ տարածքը գտնելուց հետո: Փաստաթղթում առաջարկված MGA-ն հիբրիդային մեթոդ է, որը հիմնված է դասական GA-ի և Nelder-Mead մեթոդի վրա (պարզ ալգորիթմ): Nelder-Mead մեթոդը, որը սովորաբար օգտագործվում է ոչ գծային օպտիմալացման ալգորիթմ, թվային մեթոդ է բազմաչափ տարածության մեջ օբյեկտիվ ֆունկցիայի նվազագույնը գտնելու համար։ Այս հոդվածում առաջարկված հիբրիդային MGA ալգորիթմը անցնում է Նելդեր-Միդ մեթոդին, երբ բավարարվում են GA-ի դադարեցման պայմանները: MGA ալգորիթմի բլոկային դիագրամը ներկայացված է նկ. մեկ.

Հետազոտություն կատարելիս սահմանվել է օբյեկտիվ ֆունկցիայի հաշվարկների քանակի սահմանափակում (Nrf = 16,000) գլոբալ էքստրեմի տարածքը որոնելիս և պայման՝ անցնելու տեղական օպտիմալացման ալգորիթմին՝ հիմնված Նելդեր-Միդ մեթոդի վրա (հիմնական գենետիկական ալգորիթմից հետո: կատարում է Nrf գործառնությունների 75%-ը):

6. Արդյունքներ. Մեքենայի ուսուցման ալգորիթմի միջոցով իրականացված հետազոտության արդյունքում

Աղյուսակ 1

Թեստային հավաքածուներում փաստաթղթերի և հարցումների քանակը

Փորձնական հավաքածուի անվանումը Ենթահամակարգի անվանումը Հարցումների քանակը Փաստաթղթերի քանակը

LETOR 4.0 MQ2007 1692 69623

LETOR 4.0 MQ2008 784 15211

ԼԵՏՈՐ 3.0 ՕՀՍՈՒՄԵԴ 106 16140

LETOR 3.0 Gov03td 50 49058

LETOR 3.0 Gov03np 150 148657

LETOR 3.0 Gov03hp 150 147606

LETOR 3.0 Gov04td 75 74146

LETOR 3.0 Gov04np 75 73834

LETOR 3.0 Gov04hp 75 74409

Բրինձ. 1. Հիբրիդային MVL ալգորիթմի բլոկային դիագրամ՝ հիմնված գենետիկական ալգորիթմների և Նելդեր-Միդ մեթոդի վրա

LTR-MGA վարկանիշը ստացել է WC* քաշային գործակիցների վեկտորը վարկանիշային ֆունկցիայի համար: Այնուհետև, LETOY թեստային հավաքածուի տվյալների հիման վրա գնահատվել է վարկանիշային որակը, որի համար հաշվարկվել են որակի չափումներ: Դիսկրետ վարկանիշային որակի չափիչ [էլփոստը պաշտպանված է]գնահատում է համակարգի պատասխանի առաջին n փաստաթղթերի որակը: Վարկանիշի որակի գնահատման ընդհանուր ընդունված չափանիշներն են [էլփոստը պաշտպանված է], [էլփոստը պաշտպանված է]Եվ [էլփոստը պաշտպանված է]Այնուամենայնիվ, ավելի մանրամասն դիտարկելու համար հաշվի են առնվել չափումների փոփոխությունները՝ կախված արժեքներից [էլփոստը պաշտպանված է]Բոլոր n-ի համար՝ 1-ից մինչև 10: Մշակված ալգորիթմի արդյունավետությունը գոյություն ունեցող լուծումների հետ համեմատելու համար իրականացվել է համեմատական վերլուծություն՝ օգտագործելով LETOM 3.0 հավաքածուներում ներկայացված դասակարգման ալգորիթմները: TB2003 և TB2004 թեստային հավաքածուների համար NDCG չափման ալգորիթմների կատարման արդյունքները ներկայացված են նկ. 2. Արդյունքները ցույց են տալիս, որ LTR-MGA ալգորիթմը գերազանցում է փորձարկման ալգորիթմներին, որոնցից ամենաբարձր արժեքներն են.

համար են [էլփոստը պաշտպանված է](առաջին փաստաթղթի մակարդակով): LTR-MGA ալգորիթմի առավելությունը պայմանավորված է նրանով, որ, ի տարբերություն փորձարկումներում դիտարկված թեստային դասակարգման գործառույթների, վարկանիշային ֆունկցիայի օպտիմալացման առաջարկվող մոտեցման մեջ որպես նպատակային ֆունկցիա օգտագործվում է NDCG մետրիկը:

Առաջարկվող LTR-MGA ալգորիթմն օգտագործելիս վարկանիշի որակը գնահատելու համար հաշվարկվել են որոնման արդյունքներում փաստաթղթերի դասակարգման որակի չափանիշների արժեքները (նկ. 3): Վարկանիշային արդյունքների համեմատությունը (Աղյուսակ 2) օգտագործելով հիմնական վարկանիշային ֆունկցիան, հիմնական LTR-GA ալգորիթմը և փոփոխված LTR-MGA ալգորիթմը ցույց է տալիս վերջինիս առավելությունը:

Բացի այդ, ուսումնասիրությունը կատարել է MO վարկանիշավորման համար անհրաժեշտ ժամանակի գնահատում: Սա անհրաժեշտ է հաստատելու, որ առաջարկվող LTR-MGA մեթոդը այս ցուցանիշով գերազանցում է ավանդական մեթոդի կիրառման վրա հիմնված մոտեցմանը:

Բրինձ. 2. Մեքենայի ուսուցման ալգորիթմների համեմատություն վարկանիշի համար

ըստ NDCG չափման՝ փորձնական հավաքածուների համար՝ ձախում՝ Gov03td տվյալների բազա, աջում՝ Gov04td տվյալների բազա

Բրինձ. 3. Վարկանիշային որակի չափանիշների գնահատում հիմնական դասակարգման բանաձևի և LTR-GA և LTR-MGA ուսուցման ալգորիթմների համար

Մեքենաների ուսուցման տարբեր ալգորիթմների դասակարգման որակի չափումներ

աղյուսակ 2

Տարբերակվող որակի մետրիկ Հիմնական վարկանիշային ֆունկցիա LTR-GA LTR-MGA Մետրային աճ, %

Ճշգրտություն 0,201 0,251 0,267 26,81

[էլփոստը պաշտպանված է](առաջին 5 փաստաթղթեր) 0,149 0,31 0,339 90,47

[էլփոստը պաշտպանված է](առաջին 10 փաստաթղթեր) 0,265 0,342 0,362 29,14

Բպրեֆ 0,303 0,316 0,446 51,49

Ամբողջականություն 0,524 0,542 0,732 39,03

* Համապատասխան չափման լավագույն արժեքները ընդգծված են մոխրագույնով

գենետիկական ալգորիթմ (NTL-OL): LTN-OL և LTN-MOL ալգորիթմների կատարման վրա ծախսված ժամանակի համեմատության արդյունքները տրված են Աղյուսակում: 3.

7. Եզրակացություն. Այսպիսով, իրականացված ուսումնասիրությունները ցույց են տվել, որ առաջարկվող մոտեցումն օգտագործելիս IRS-ում դիտարկվող վարկանիշային չափումների արժեքները մեծանում են (միջինում 19,55%՝ LTR-OL ալգորիթմի համեմատ): Սա հաստատում է, որ LTR-MOL-ը ճիշտ է աշխատում և զգալիորեն բարելավում է վարկանիշային ֆունկցիան, այլ կերպ ասած՝ հաջողությամբ լուծում է օպտիմալացման խնդիրը։ Փոփոխված ալգորիթմով

տեղական օպտիմիզացման մեթոդի կիրառման և նպատակային ֆունկցիայի հաշվարկի քանակի վրա ներդրված սահմանափակումների շնորհիվ մեքենայական ուսուցման ժամանակը նվազել է (միջինում 17,71%՝ LTNOL ավանդական գենետիկ ալգորիթմի կիրառման համեմատ):

LTN-MOL-ի դասակարգման համար մշակված մեքենայական ուսուցման ալգորիթմը կարող է օգտագործվել IS-ներում՝ օգտագործելով դասակարգման մոդելը, որը հիմնված է դասակարգման պարզ գործառույթների համակցության վրա: Այնուամենայնիվ, պետք է հաշվի առնել առաջարկվող մոտեցման որոշ սահմանափակումներ: Հիմնված

Մեքենայի ուսուցման դասակարգման կատարման ժամանակի գնահատում` կախված ուսուցման նմուշի չափից

Աղյուսակ 3

Փաստաթղթերի տեքստի հավաքածուի չափը

Runtime LTR-GA

Runtime LTR-MGA

Կատարման ժամանակի նվազում, %

Նշանակում է

* Լավագույն արժեքները համապատասխան թեստային հավաքածուի չափի համար ընդգծված են մոխրագույնով:

ստացված արդյունքներից պարզվել է, որ MO-ից հետո ամենամեծ աճը գրանցվել է վարկանիշային որակի չափման մեջ, որի արժեքը վերցվել է որպես օբյեկտիվ ֆունկցիա: Միևնույն ժամանակ, այլ չափանիշները կարող են էական բարելավում չունենալ, իսկ որոշ դեպքերում նույնիսկ վատթարացնել դրանց արժեքները: Որպես այս թերությունը վերացնելու հնարավոր մոտեցումներից մեկը, ենթադրվում է, որ օպտիմալացման խնդիրը լուծվի որպես բազմաբնույթ խնդիր՝ միատեսակ բարելավել որոնման արդյունքների մի քանի հիմնական վարկանիշային չափումներ՝ մեկի օպտիմալացման փոխարեն: Բացի այդ, հետագա հետազոտություններում նախատեսվում է մշակել օբյեկտիվ ֆունկցիայի կառուցման մեթոդաբանություն՝ հիմնված հիմնական վարկանիշային որակի չափումների գծային կոնվուլյացիայի վրա՝ բարելավելու տեղեկատվության որոնման գործընթացը:

Մատենագիտական ցանկ

1. Թայ-Յան Լյու. Learning to Rank for Information Retrieval // Journal Foundations and Trends in Information Retrieval. Հատ. 3, թողարկում 3. Մարտ 2009. P. 225-331.

2. Christopher J. C. Burges, Tal Shaked, Erin Renshaw. Սովորում ենք դասակարգել՝ օգտագործելով գրադիենտ ծագում // Proceeding ICML «05 Մեքենայական ուսուցման 22-րդ միջազգային կոնֆերանսի նյութեր. 2005 թ. P. 89-96.

3. Սեմենիխին, Ս. Վ. Մեքենայի ուսուցման մոտեցումների հետազոտություն գենետիկական ալգորիթմների վրա հիմնված որոնման համակարգի կողմից փաստաթղթերի դասակարգման համար / Ս. Վ. Սեմենիխին // Երիտասարդ Ռուսաստան. արդյունաբերության առաջադեմ տեխնոլոգիաներ: - 2013. - No 2. - S. 82 - 85:

4. Գենետիկական ալգորիթմների հիման վրա բազմաչափ օպտիմիզացում կառավարման համակարգերի սինթեզում՝ մենագրություն. / L. A. Denisova. - Omsk: Publishing House of OmGTU, 2014. - 170 p. - ISBN 978-5-8149-1822-2։

5. Դենիսովա, Լ. Ա., Մեշչերյակով, Վ. Ա. Գենետիկական ալգորիթմի օգտագործմամբ կառավարման համակարգի պարամետրային սինթեզի ավտոմատացում: - 2012. - No 7. - S. 34 - 38:

6. Huber, Peter J. Robust Estimation of a Location Parameter // Annals of Statistics. - 1964. - No 53. - P. 73-101.

7. Սեմենիխին, Ս. Վ. Տեղեկատվության որոնման ավտոմատացում՝ հիմնված բազմաչափ օպտիմալացման և գենետիկական ալգորիթմների վրա / S. V. Semenikhin, L. A. Denisova // Համակարգերի, մեխանիզմների և մեքենաների դինամիկան: - 2014. - No 3. - S. 224 - 227:

8. Tie-Yan Liu, Jun Xu, Tao Qin, Wenying Xiong և Hang Li: LETOR. Հենանիշային տվյալների հավաքածու՝ ուսուցման դասակարգման համար տեղեկատվության որոնման համար հետազոտության համար // SIGIR 2007 Սեմինար՝ սովորելու դասակարգել տեղեկատվության որոնման համար: - 2007. - S. 3-10.

9. Ագեև, Մ. Պետերբուրգ, Սանկտ Պետերբուրգի պետական համալսարանի քիմիայի գիտահետազոտական ինստիտուտ, էջ 142-150:

10. J. A. Nelder, R. Mead, A simplex մեթոդ ֆունկցիաների նվազագույնի հասցնելու համար, The Computer Journal 7 (1965): 308-313 թթ.

ՍԵՄԵՆԻԽԻՆ Սվյատոսլավ Վիտալիևիչ, «Տեղեկատվության մշակման և կառավարման ավտոմատ համակարգեր» ամբիոնի ասպիրանտ։ Նամակագրության հասցե. [էլփոստը պաշտպանված է]ԴԵՆԻՍՈՎԱ Լյուդմիլա Ալբերտովնա, տեխնիկական գիտությունների դոկտոր, տեղեկատվության ավտոմատացված մշակման և կառավարման համակարգերի ամբիոնի դոցենտ։ Նամակագրության հասցե. [էլփոստը պաշտպանված է]

Այս գլխում ներկայացված են դասակարգման մոդելի որակի գնահատման հանրաճանաչ մեթոդներ, որոնք օգտագործվում են նաև այս թեմայի վերաբերյալ այլ աշխատանքներում: Տրված են դրանց նկարագրությունը և այս գնահատման համար օգտագործվող չափանիշների հիմնավորումը:

Որակի գնահատման չափումներ

Ամբողջական ճշգրտություն (ճշգրտություն)

Այս չափումը դասակարգման ալգորիթմների որակի գնահատման ամենապարզ և միևնույն ժամանակ ունիվերսալ չափորոշիչներից է։ Այս գործակցի արժեքը հաշվարկվում է որպես ճիշտ դասակարգված օբյեկտների համամասնությունը նմուշի օբյեկտների ընդհանուր թվից: Այս չափանիշը հայտնի է իր պարզության և ցանկացած թվով դասերի վրա տարածվելու ունակության շնորհիվ: Այս չափման հիմնական թերությունն այն է, որ այն բոլոր փաստաթղթերին տալիս է նույն կշիռը, ինչը կարող է սխալ լինել ուսումնական նմուշի փաստաթղթերի խիստ կողմնակալության դեպքում մեկ կամ մի քանի դասերի նկատմամբ: Այս չափանիշը կարող է ունենալ բարձր արժեք, բայց նույն դասի դասակարգիչը կարող է ցույց տալ աշխատանքի չափազանց ցածր որակ: Միևնույն ժամանակ, մետրիկը դա ոչ մի կերպ չի ազդարարում:

Ճշգրտություն, հետկանչում և F-չափում

Չափիչները, ինչպիսիք են ճշգրտությունը (ճշգրիտությունը) և հետկանչումը (հիշողությունը) առաջին անգամ լայնորեն կիրառվել են տեղեկատվության որոնման խնդիրը լուծող համակարգերի որակի գնահատման համար: Համակարգի ճշգրտությունը մեկ դասի ներսում այն օբյեկտների համամասնությունն է, որոնք իրականում պատկանում են որոշակի դասին, համակարգի կողմից այս դասին վերագրված բոլոր օբյեկտների նկատմամբ: Ամբողջականությունն արտահայտվում է որպես դասակարգչի կողմից հայտնաբերված օբյեկտների համամասնությունը՝ այս դասի բոլոր օբյեկտների նկատմամբ։ Աղյուսակ 4-ը առանձին դասի պատահական աղյուսակ է, որտեղ TP (ճշմարիտ դրական) ճշմարիտ դրական լուծում է, TN (ճշմարիտ բացասական) ճշմարիտ բացասական լուծում, FP (կեղծ դրական) կեղծ դրական լուծում և FN (կեղծ բացասական) կեղծ-բացասական որոշում է.

Աղյուսակ 1 - Օբյեկտի դասի պատահականության աղյուսակ

Այսպիսով, ճշգրտությունը և հետկանչումը հաշվարկվում են հետևյալ կերպ.

F- չափումը միավորում է գնահատվող ալգորիթմի ճշգրտության և ամբողջականության մասին տեղեկատվությունը: Այն հաշվարկվում է որպես ճշգրտության և հետկանչի ցուցիչների ներդաշնակ միջին.

Հաշվի առնելով այն հանգամանքը, որ F-չափը յուրաքանչյուր դասի համար հաշվարկվում է առանձին, հարմար է այն օգտագործել հատուկ ալգորիթմի սխալները որոնելու և վերլուծելու, մի քանի դասերով դասակարգումը գնահատելու համար։ Միևնույն ժամանակ, մեծ թվով դասերի դեպքում անհրաժեշտ է հատկանիշ, որը կհամախմբի ամբողջականությունն ու ճշգրտությունը բոլոր դասերի վրա և կբնութագրի համակարգի ընդհանուր վարքագիծը: Այս հոդվածում այս նպատակով օգտագործվում են հետևյալ ագրեգացված արժեքները՝ մակրո ճշգրտություն (մակրոճշգրտություն), որը հաշվարկվում է որպես ճշգրտության միջին թվաբանական բոլոր դասերի համար, մակրո հետկանչում (մակրո հետկանչում), որը հաշվարկվում է որպես թվաբանական միջին։ հետ կանչելու բոլոր դասերի համար, և մակրո F- չափումը (Macro F-score), որը նրանց միջև ներդաշնակ միջինն է:

Խաչի վավերացում

Լրիվ թեստավորման և տարբեր մեքենայական ուսուցման ալգորիթմների արդյունավետությունը գնահատելու ամենատարածված մեթոդներից մեկը խաչաձև վավերացումն է: Անկախ նմուշի համար այս մեթոդը թույլ է տալիս ստանալ սխալի հավանականության անաչառ գնահատական՝ ի տարբերություն ուսումնական նմուշի միջին սխալի, որը կարող է լինել ալգորիթմի գերհամապատասխանության պատճառով սխալի հավանականության կողմնակալ գնահատում: Այս ընթացակարգի մեկ այլ առավելություն ալգորիթմի սխալի հավանականության գնահատական ստանալու հնարավորությունն է՝ հատուկ փորձարկման համար նախատեսված հսկիչ նմուշի բացակայության դեպքում:

Ենթադրենք, որ դա օբյեկտների առանձնահատկությունների նկարագրությունների մի շարք է, որոնց վրա նշված է նախադեպերի վերջավոր նմուշ, որտեղ կա դասերի վերջավոր հավաքածու: Տրված է քարտեզագրում, որը նախադեպերի կամայական նմուշը կապում է ալգորիթմի հետ: Այնուհետև նախադեպերի կամայական նմուշի համար ալգորիթմի կատարումը գնահատվում է՝ օգտագործելով որակի ֆունկցիոնալը.

որտեղ կա որոշ ոչ բացասական ֆունկցիա, որը վերադարձնում է ալգորիթմի սխալի արժեքը՝ տրված ճիշտ դասի պիտակով: