რას ნიშნავს ხარისხის მეტრიკა მანქანურ სწავლაში. რეიტინგის ტრენინგი

GoTo საზაფხულო სკოლის შესასვლელი ტესტისთვის დავალების მომზადების პროცესში აღმოვაჩინეთ, რომ რუსულ ენაზე პრაქტიკულად არ არსებობს ძირითადი რანგის მეტრიკის ხარისხობრივი აღწერა (დავალება ეხებოდა რეიტინგის პრობლემის განსაკუთრებულ შემთხვევას - რეკომენდატორის ალგორითმის აგება). . ჩვენ E-Contenta-ში აქტიურად ვიყენებთ სხვადასხვა რეიტინგის მეტრიკას, ამიტომ გადავწყვიტეთ გამოვასწოროთ ეს გაუგებრობა ამ სტატიის დაწერით.

რეიტინგის ამოცანა ახლა ყველგან დგება: ვებ გვერდების დახარისხება მოცემული საძიებო მოთხოვნის მიხედვით, ახალი ამბების პერსონალიზირება, ვიდეოების, საქონლის, მუსიკის რეკომენდაცია... ერთი სიტყვით, თემა აქტუალურია. მანქანათმცოდნეობაში არის სპეციალური სფეროც კი, რომელიც ეხება რანჟირების ალგორითმების შესწავლას, რომლებსაც შეუძლიათ თვითსწავლება - რანჟირების სწავლა. იმისათვის, რომ ავირჩიოთ საუკეთესო ალგორითმებისა და მიდგომების მთელი მრავალფეროვნებიდან, აუცილებელია მათი ხარისხის რაოდენობრივი შეფასება. რეიტინგის ხარისხის ყველაზე გავრცელებული მეტრიკა ქვემოთ იქნება განხილული.

მოკლედ რეიტინგის პრობლემის შესახებ

რანჟირება - ნაკრების დახარისხების ამოცანა ელემენტებიმათთვის შესაბამისობა. ყველაზე ხშირად, შესაბამისობა ესმით ვინმესთან მიმართებაში. ობიექტი. მაგალითად, ინფორმაციის მოპოვების ამოცანაში, ობიექტი არის მოთხოვნა, ელემენტები არის ყველა სახის დოკუმენტი (მათთან ბმულები) და აქტუალობა არის დოკუმენტის შესაბამისობა მოთხოვნასთან, რეკომენდაციების ამოცანაში, ობიექტი. არის მომხმარებელი, ელემენტები წარმოადგენს ამა თუ იმ რეკომენდებულ კონტენტს (პროდუქტები, ვიდეოები, მუსიკა) და აქტუალობა არის იმის ალბათობა, რომ მომხმარებელი გამოიყენებს (შეიყიდოს/მოიწონოს/ნახოს) ეს კონტენტი.

ფორმალურად განიხილეთ N ობიექტი და M ელემენტები. ელემენტის რეიტინგის ალგორითმის გამომავალი ობიექტისთვის არის რუქა, რომელიც თითოეულ ელემენტს ანიჭებს წონას, რომელიც ახასიათებს ელემენტის შესაბამისობის ხარისხს ობიექტთან (რაც უფრო დიდია წონა, მით უფრო შესაბამისია ობიექტი). ამავდროულად, წონათა სიმრავლე განსაზღვრავს პერმუტაციას ელემენტების ელემენტების სიმრავლეზე (ვვარაუდობთ, რომ ელემენტების ნაკრები დალაგებულია) მათი დახარისხების მიხედვით წონის კლებადობით.

რეიტინგის ხარისხის შესაფასებლად საჭიროა გარკვეული „მინიშნება“, რომლის მიმართაც შეიძლება ალგორითმის შედეგების შედარება. განვიხილოთ - შესაბამისობის საცნობარო ფუნქცია, რომელიც ახასიათებს ელემენტების "რეალურ" შესაბამისობას მოცემული ობიექტისთვის ( - ელემენტი იდეალურად შეეფერება, - სრულიად შეუსაბამო), ისევე როგორც მის შესაბამისი პერმუტაცია (კლებადობით).

მიღების ორი ძირითადი გზა არსებობს:
1. ისტორიულ მონაცემებზე დაყრდნობით. მაგალითად, კონტენტის რეკომენდაციების შემთხვევაში, შეგიძლიათ აიღოთ მომხმარებლის ნახვები (მოწონებები, შესყიდვები) და შესაბამისი ელემენტების ნანახი წონა მიანიჭოთ 1-ს (), ხოლო დანარჩენი 0-ს.
2. მიმოხილვის საფუძველზე. მაგალითად, საძიებო დავალებაში, თითოეული შეკითხვისთვის, შეგიძლიათ ჩართოთ შემფასებელთა ჯგუფი, რომლებიც ხელით აფასებენ დოკუმენტების შესაბამისობას მოთხოვნასთან.

აღსანიშნავია, რომ როდესაც ის იღებს მხოლოდ უკიდურეს მნიშვნელობებს: 0 და 1, მაშინ პერმუტაცია ჩვეულებრივ არ განიხილება და მხედველობაში მიიღება მხოლოდ შესაბამისი ელემენტების ნაკრები, რისთვისაც .

ხარისხის მეტრიკის რეიტინგის მიზანი- დაადგინეთ, როგორ შეესაბამება ალგორითმის მიერ მიღებული შესაბამისობის შეფასებები და შესაბამისი პერმუტაცია მართალიაშესაბამისობის ღირებულებები. განვიხილოთ ძირითადი მეტრიკა.

საშუალო საშუალო სიზუსტე

საშუალო საშუალო სიზუსტე K-ზე ( [ელფოსტა დაცულია]) არის ერთ-ერთი ყველაზე ხშირად გამოყენებული რეიტინგის ხარისხის მეტრიკა. იმის გასაგებად, თუ როგორ მუშაობს ეს, დავიწყოთ "საფუძვლებით".

შენიშვნა: "*სიზუსტე" მეტრიკა გამოიყენება ბინარულ ამოცანებში, სადაც მხოლოდ ორ მნიშვნელობას იღებს: 0 და 1.

სიზუსტე კ

სიზუსტე K-ზე ( [ელფოსტა დაცულია]) - სიზუსტე K ელემენტებზე - ძირითადი რეიტინგის ხარისხის მეტრიკა ერთი ობიექტისთვის. ვთქვათ, ჩვენი რეიტინგის ალგორითმი აწარმოებდა შესაბამის ქულებს თითოეული ელემენტისთვის. პირველი ელემენტების შერჩევის შემდეგ, მათ შორის ყველაზე დიდი, შეგვიძლია გამოვთვალოთ შესაბამისის პროპორცია. ზუსტად ამას აკეთებს სიზუსტე K-ში:

შენიშვნა: ელემენტი გაგებულია, როგორც --ე პოზიციაზე პერმუტაციის შედეგად. ასე რომ, არის ელემენტი უდიდესი , არის ელემენტი სიდიდით მეორე და ა.შ.

საშუალო სიზუსტე კ

სიზუსტე K-ზე არის მეტრიკა, რომლის გაგება და განხორციელება მარტივია, მაგრამ აქვს მნიშვნელოვანი ნაკლი - ის არ ითვალისწინებს ელემენტების თანმიმდევრობას "ზედაში". ასე რომ, თუ ათი ელემენტიდან მხოლოდ ერთს გამოვიცნობთ, მაშინ არ აქვს მნიშვნელობა სად იყო ის: პირველში თუ ბოლოში, ნებისმიერ შემთხვევაში. აშკარაა, რომ პირველი ვარიანტი ბევრად უკეთესია.

ეს ხარვეზი კომპენსირდება რეიტინგის მეტრიკით საშუალო სიზუსტე K-ზე ( [ელფოსტა დაცულია]) , რომელიც უდრის ჯამს [ელფოსტა დაცულია] k ინდექსებით 1-დან K-მდე მხოლოდ შესაბამისი ნივთებისთვისგაყოფილი K-ზე:

ასე რომ, თუ სამი ელემენტიდან მხოლოდ ბოლო ადგილზე მყოფი აღმოჩნდა შესაბამისი, მაშინ თუ გამოიცნეს მხოლოდ პირველი ადგილი, მაშინ და თუ ყველა გამოიცნო, მაშინ .

ახლა და [ელფოსტა დაცულია]ჩვენ კბილებში.

საშუალო საშუალო სიზუსტე კ

საშუალო საშუალო სიზუსტე K-ზე ( [ელფოსტა დაცულია]) არის ერთ-ერთი ყველაზე ხშირად გამოყენებული რეიტინგის ხარისხის მეტრიკა. IN [ელფოსტა დაცულია]და [ელფოსტა დაცულია]რეიტინგის ხარისხი ფასდება ერთი ობიექტისთვის (მომხმარებელი, საძიებო მოთხოვნა). პრაქტიკაში ბევრი ობიექტია: საქმე გვაქვს ასიათასობით მომხმარებელთან, მილიონობით საძიებო მოთხოვნასთან და ა.შ. იდეა [ელფოსტა დაცულია]არის გამოთვლა [ელფოსტა დაცულია]თითოეული ობიექტისთვის და საშუალოდ:

შენიშვნა: ეს იდეა საკმაოდ ლოგიკურია, თუ ვივარაუდებთ, რომ ყველა მომხმარებელი თანაბრად საჭიროა და თანაბრად მნიშვნელოვანია. თუ ეს ასე არ არის, მაშინ მარტივი საშუალო შეფასების ნაცვლად, შეგიძლიათ გამოიყენოთ შეწონილი, გამრავლება [ელფოსტა დაცულია]თითოეული ობიექტი მისი შესაბამისი „მნიშვნელობის“ წონით.

ნორმალიზებული დისკონტირებული კუმულაციური მოგება

ნორმალიზებული დისკონტირებული კუმულაციური მოგება (nDCG)არის კიდევ ერთი საერთო რეიტინგის ხარისხის მეტრიკა. როგორც საქმეში [ელფოსტა დაცულია]დავიწყოთ საფუძვლებით.

კუმულაციური მოგება კ

კვლავ განვიხილოთ ერთი ობიექტი და ელემენტები ყველაზე დიდი. კუმულაციური მომატება K-ზე ( [ელფოსტა დაცულია]) - საბაზისო რეიტინგის მეტრიკა, რომელიც იყენებს მარტივ იდეას: რაც უფრო მეტი შესაბამისი ელემენტია ამ ზედა ნაწილში, მით უკეთესი:

ამ მეტრიკას აქვს აშკარა ნაკლოვანებები: ის არ არის ნორმალიზებული და არ ითვალისწინებს შესაბამისი ელემენტების პოზიციას.

გაითვალისწინეთ, რომ განსხვავებით [ელფოსტა დაცულია], [ელფოსტა დაცულია]ასევე შეიძლება გამოყენებულ იქნას არაორობითი მიმართვის შესაბამისობის მნიშვნელობების შემთხვევაში.

ფასდაკლებული კუმულატიური მოგება კ

დისკონტირებული კუმულაციური მოგება K-ზე ( [ელფოსტა დაცულია]) - K-ზე კუმულაციური მომატების მოდიფიკაცია, სიაში ელემენტების რიგის გათვალისწინებით, ელემენტის შესაბამისობის გამრავლებით წონით, რომელიც ტოლია პოზიციის ნომრის შებრუნებული ლოგარითმისა:

შენიშვნა: თუ ის იღებს მხოლოდ მნიშვნელობებს 0 და 1, მაშინ და ფორმულა უფრო მარტივ ფორმას იღებს:

ლოგარითმის, როგორც ფასდაკლების ფუნქციის გამოყენება შეიძლება აიხსნას შემდეგი ინტუიციური მოსაზრებებით: რეიტინგის თვალსაზრისით, სიის დასაწყისში პოზიციები ბევრად უფრო განსხვავდება, ვიდრე პოზიციები მის ბოლოს. ასე რომ, საძიებო სისტემის შემთხვევაში, 1 და 11 პოზიციებს შორის არის მთელი უფსკრული (ასიდან მხოლოდ რამდენიმე შემთხვევაში მომხმარებელი სცილდება ძიების შედეგების პირველ გვერდს) და დიდი განსხვავება არ არის. პოზიციები 101 და 111 - ცოტა ადამიანი აღწევს მათ. ეს სუბიექტური მოსაზრებები ლამაზად არის გამოხატული ლოგარითმის გამოყენებით:

დისკონტირებული კუმულაციური მოგება წყვეტს პრობლემას შესაბამისი ელემენტების პოზიციის გათვალისწინების შესახებ, მაგრამ მხოლოდ ამძაფრებს პრობლემას ნორმალიზაციის ნაკლებობით: თუ ის მერყეობს ფარგლებში, მაშინ ის უკვე იღებს მნიშვნელობებს სეგმენტზე, რომელიც ბოლომდე არ არის ნათელი. შემდეგი მეტრიკა შექმნილია ამ პრობლემის გადასაჭრელად.

ნორმალიზებული დისკონტირებული კუმულაციური მოგება კ

როგორც სათაურიდან მიხვდებით, ნორმალიზებული დისკონტირებული კუმულაციური მოგება K-ზე ( [ელფოსტა დაცულია]) - არაფერი, გარდა ნორმალიზებული ვერსიისა [ელფოსტა დაცულია]:

სად არის მაქსიმალური (I - იდეალური) მნიშვნელობა . ვინაიდან ჩვენ შევთანხმდით, რომ ეს ფასეულობებს იღებს, მაშინ.

ამრიგად, იგი მემკვიდრეობით იღებს სიაში ელემენტების პოზიციის გათვალისწინებას და, ამავე დროს, იღებს მნიშვნელობებს 0-დან 1-მდე დიაპაზონში.

შენიშვნა: მსგავსი [ელფოსტა დაცულია]შეიძლება გამოითვალოს, საშუალოდ გამოითვალოს ყველა ობიექტზე.

საშუალო საპასუხო წოდება

საშუალო ორმხრივი რანგი (MRR)არის კიდევ ერთი ხშირად გამოყენებული რეიტინგის ხარისხის მეტრიკა. იგი მოცემულია შემდეგი ფორმულით:

სადაც - საპასუხო წოდება -ე ობიექტისთვის - ძალიან მარტივი მნიშვნელობა თავისი არსით, ტოლი პირველი სწორად გამოცნობილი ელემენტის საპირისპირო თანმიმდევრობა.

საშუალო ორმხრივი რანგი მერყეობს დიაპაზონში და ითვალისწინებს ელემენტების პოზიციას. სამწუხაროდ, ის ამას აკეთებს მხოლოდ ერთი ელემენტისთვის - 1-ლი სწორად იწინასწარმეტყველა, უგულებელყოფს ყველა შემდგომს.

მეტრიკა, რომელიც დაფუძნებულია რანგის კორელაციაზე

ცალკე, ღირს ხაზგასმით აღვნიშნოთ ხარისხის მეტრიკა ერთ-ერთი კოეფიციენტის საფუძველზე წოდების კორელაცია. სტატისტიკაში, რანგის კორელაციის კოეფიციენტი არის კორელაციის კოეფიციენტი, რომელიც ითვალისწინებს არა თავად მნიშვნელობებს, არამედ მხოლოდ მათ წოდებას (მიმდევრობას). განვიხილოთ ორი ყველაზე გავრცელებული რანგის კორელაციის კოეფიციენტი: Spearman და Kendall კოეფიციენტები.

კენდალის წოდების კორელაციის კოეფიციენტი

პირველი მათგანი არის კენდალის კორელაციის კოეფიციენტი, რომელიც ეფუძნება შესატყვისთა რაოდენობას
(და არათანმიმდევრული) პერმუტაციების წყვილი - ელემენტების წყვილი, რომლებსაც პერმუტაციები ანიჭებენ ერთსა და იმავე (სხვადასხვა) თანმიმდევრობას:

სპირმენის წოდების კორელაციის კოეფიციენტი

მეორე - სპირმენის წოდების კორელაციის კოეფიციენტი - არსებითად სხვა არაფერია, თუ არა წოდების მნიშვნელობებზე გამოთვლილი პირსონის კორელაცია. არსებობს საკმაოდ მოსახერხებელი ფორმულა, რომელიც გამოხატავს მას პირდაპირ რიგებიდან:

სად არის პირსონის კორელაციის კოეფიციენტი.

რანგის კორელაციაზე დაფუძნებულ მეტრიკას აქვს ნაკლი, რომელიც ჩვენ უკვე ვიცით: ისინი არ ითვალისწინებენ ელემენტების პოზიციას (თუნდაც უარესს, ვიდრე [ელფოსტა დაცულია], იმიტომ კორელაცია გამოითვლება ყველა ელემენტზე და არა უმაღლესი რანგის მქონე K ელემენტებზე). ამიტომ, ისინი იშვიათად გამოიყენება პრაქტიკაში.

მეტრიკა, რომელიც დაფუძნებულია ჩანჩქერის ქცევის მოდელზე

ამ მომენტამდე ჩვენ არ ჩავუღრმავდით იმას, თუ როგორ იკვლევს მომხმარებელი (მოგვიანებით განვიხილავთ ობიექტის განსაკუთრებულ შემთხვევას - მომხმარებელი) მისთვის შემოთავაზებულ ელემენტებს. ფაქტობრივად, ჩვენ ირიბად გამოვთქვით ვარაუდი, რომ თითოეული ელემენტის დათვალიერება დამოუკიდებელისხვა ელემენტების შეხედულებებიდან – ერთგვარი „გულუბრყვილობა“. პრაქტიკაში, ელემენტებს მომხმარებელი ხშირად ათვალიერებს თავის მხრივ, და ნახულობს თუ არა მომხმარებელი შემდეგ ელემენტს, დამოკიდებულია მის კმაყოფილებაზე წინა ელემენტებით. განვიხილოთ მაგალითი: საძიებო მოთხოვნის საპასუხოდ, რეიტინგის ალგორითმი მომხმარებელს შესთავაზა რამდენიმე დოკუმენტი. თუ 1 და 2 პოზიციების დოკუმენტები უკიდურესად აქტუალურია, მაშინ იმის ალბათობა, რომ მომხმარებელი ნახულობს დოკუმენტს მე-3 პოზიციაზე, დაბალია, რადგან პირველი ორით საკმაოდ კმაყოფილი დარჩება.

მომხმარებლის ქცევის მსგავსი მოდელები, სადაც მისთვის შეთავაზებული ელემენტების შესწავლა ხდება თანმიმდევრულად და ელემენტის ნახვის ალბათობა დამოკიდებულია წინას შესაბამისობაზე, ე.წ. კასკადური.

მოსალოდნელია საპასუხო წოდება

მოსალოდნელი საპასუხო წოდება (ERR)არის ჩანჩქერის მოდელზე დაფუძნებული ხარისხის მეტრიკის რეიტინგის მაგალითი. იგი მოცემულია შემდეგი ფორმულით:

სადაც წოდება კლებადობით არის გაგებული. ამ მეტრიკის ყველაზე საინტერესო რამ არის ალბათობა. მათი გაანგარიშებისას გამოიყენება კასკადის მოდელის დაშვებები:

სად არის ალბათობა იმისა, რომ მომხმარებელი კმაყოფილი იქნება რანგის მქონე ობიექტით. ეს ალბათობები გამოითვლება მნიშვნელობების მიხედვით. ვინაიდან ჩვენს შემთხვევაში, ჩვენ შეგვიძლია განვიხილოთ მარტივი ვარიანტი:

რომელიც შეიძლება წაიკითხოს როგორც: ნივთის ჭეშმარიტ შესაბამისობას პოზიციაზე და ბოლოს, აქ არის რამდენიმე სასარგებლო ბმული.

თითოეულ სიაში არსებულ ელემენტებზე. ნაწილობრივი თანმიმდევრობა, როგორც წესი, მითითებულია თითოეული ნივთისთვის ქულის მითითებით (მაგ., „შესაბამისი“ ან „არარელევანტური“; შესაძლებელია ორზე მეტი გრადაცია). რეიტინგის მოდელის მიზანია საუკეთესოდ (გარკვეული გაგებით) მიახლოება და განზოგადება, თუ როგორ შეესაბამება რეიტინგები სასწავლო კომპლექტში ახალ მონაცემებთან.

რეიტინგული სწავლება ჯერ კიდევ საკმაოდ ახალგაზრდა, სწრაფად განვითარებადი კვლევის სფეროა, რომელიც წარმოიშვა 2000-იან წლებში ინფორმაციის მოძიების სფეროში ინტერესის გაჩენით, მანქანური სწავლების მეთოდების გამოყენებისას პრობლემების რანჟირებისას.

ენციკლოპედიური YouTube

  • 1 / 5

    რეიტინგის მოდელის ტრენინგის დროს და მისი მუშაობის დროს, თითოეული დოკუმენტი-მოთხოვნის წყვილი ითარგმნება რანგის მახასიათებლების რიცხვით ვექტორად (ასევე უწოდებენ რანგის ფაქტორებს ან სიგნალებს), რომლებიც ახასიათებენ დოკუმენტის თვისებებს, მოთხოვნას და მათ ურთიერთობას. ეს ნიშნები შეიძლება დაიყოს სამ ჯგუფად:

    ქვემოთ მოცემულია რეიტინგის ფუნქციების რამდენიმე მაგალითი, რომლებიც გამოიყენება ამ სფეროში ცნობილ LETOR მონაცემთა ბაზაში:

    • ზომების TF, TF-IDF, BM25 და სხვადასხვა დოკუმენტის ზონების მოთხოვნის შესატყვისი ენის მოდელი (სათაური, URL, ძირითადი ტექსტი, ბმული ტექსტი);
    • დოკუმენტების ზონების სიგრძე და IDF ჯამები;
    • დოკუმენტის რეიტინგები მიღებულია ბმულების რეიტინგის ალგორითმების სხვადასხვა ვარიაციით, როგორიცაა PageRank და HITS.

    ხარისხის მეტრიკის რანჟირება

    არსებობს რამდენიმე მეტრიკა, რომელიც აფასებს და ადარებს ნიმუშზე რანჟირების ალგორითმების შესრულებას თანატოლების მიმოხილვით. ხშირად რეიტინგის მოდელის პარამეტრების რეგულირება ხდება ისე, რომ მაქსიმალურად გაზარდოს ერთ-ერთი ამ მეტრიკის მნიშვნელობა.

    მეტრიკის მაგალითები:

    ალგორითმების კლასიფიკაცია

    თავის სტატიაში „ვისწავლოთ რანგის ინფორმაციის მოძიება“ და სიტყვით გამოსვლები თემატურ კონფერენციებზე, ტაი-იან ლიუმ Microsoft Research Asia–დან გააანალიზა რანგის სწავლის პრობლემის გადაჭრის ამჟამად არსებული მეთოდები და შესთავაზა მათი კლასიფიკაცია სამ მიდგომად, შეყვანის მიხედვით. გამოყენებული მონაცემების წარმოდგენა და ფუნქცია ჯარიმა:

    პუნქტუალური მიდგომა

    შენიშვნები

    1. ჰალსტუხი იან ლიუ (2009) სწავლა ინფორმაციის მისაღებად, საფუძვლები და ტენდენციები ინფორმაციის მოძიებაში: ტ. 3: No 3, გვ. 225-331, ISBN 978-1-60198-244-5 , DOI 10.1561/1500000016. სლაიდები T. Lew-ის გამოსვლიდან WWW 2009 კონფერენციაზე ხელმისაწვდომია.

    ჰეი ჰაბრ!

    მანქანათმცოდნეობის ამოცანებში მეტრიკა გამოიყენება მოდელების ხარისხის შესაფასებლად და სხვადასხვა ალგორითმების შესადარებლად, ხოლო მათი შერჩევა და ანალიზი მონაცემთა მეცნიერის მუშაობის შეუცვლელი ნაწილია.

    ამ სტატიაში ჩვენ განვიხილავთ ხარისხის კრიტერიუმებს კლასიფიკაციის პრობლემებში, განვიხილავთ რა არის მნიშვნელოვანი მეტრიკის არჩევისას და რა შეიძლება არასწორედ მოხდეს.

    მეტრიკა კლასიფიკაციის ამოცანებში

    სასარგებლო თვისებების დემონსტრირება იწვისდა მეტრიკის ვიზუალური წარმოდგენა, ჩვენ გამოვიყენებთ ჩვენი სატელეკომუნიკაციო ოპერატორის მომხმარებელთა გამორიცხვის მონაცემთა ბაზას, რომელსაც შევხვდით კურსის პირველ სტატიაში.

    ჩამოტვირთეთ საჭირო ბიბლიოთეკები და გადახედეთ მონაცემებს

    იმპორტი pandas როგორც pd იმპორტი matplotlib.pyplot როგორც plt matplotlib.pylab იმპორტი rc, ნაკვეთი იმპორტი ზღვაში, როგორც sns sklearn.preprocessing იმპორტი LabelEncoder, OneHotEncoder sklearn.model_selection import cross_val_score from sklearn. sklearn.metrics-დან იმპორტი precision_recall_curve, classification_report from sklearn.model_selection იმპორტი train_test_split df = pd.read_csv("../../data/telecom_churn.csv")

    Df.head(5)

    მონაცემთა წინასწარი დამუშავება

    # დააფიქსირეთ ორობითი სვეტები # და დაარეგისტრირეთ მდგომარეობა (სიმარტივისთვის, უმჯობესია ეს არ გააკეთოთ ხის მოდელებისთვის) d = ("დიახ" : 1, "არა" : 0) df["საერთაშორისო გეგმა"] = df [" საერთაშორისო გეგმა"].map(d) df["ხმოვანი ფოსტის გეგმა"] = df["ხმოვანი ფოსტის გეგმა"].map(d) df["Churn"] = df["Churn"].astype(" int64" ) le = LabelEncoder() df["State"] = le.fit_transform(df["State"]) ohe = OneHotEncoder(sparse=False) encoded_state = ohe.fit_transform(df["მდგომარეობა"].values.reshape (- 1, 1)) tmp = pd.DataFrame(encoded_state, columns=["state" + str(i) i-სთვის დიაპაზონში(encoded_state.shape)]) df = pd.concat(, ღერძი=1)

    სიზუსტე, სიზუსტე და გახსენება

    სანამ თავად მეტრიკაზე გადავიდოდეთ, საჭიროა მნიშვნელოვანი კონცეფციის შემოღება, რათა აღწეროთ ეს მეტრიკა კლასიფიკაციის შეცდომების თვალსაზრისით - დაბნეულობის მატრიცა(შეცდომის მატრიცა).
    დავუშვათ, რომ გვაქვს ორი კლასი და ალგორითმი, რომელიც პროგნოზირებს, ეკუთვნის თუ არა თითოეული ობიექტი ერთ-ერთ კლასს, მაშინ კლასიფიკაციის შეცდომის მატრიცა ასე გამოიყურება:

    ჭეშმარიტი პოზიტივი (TP) ცრუ დადებითი (FP)
    ცრუ უარყოფითი (FN) ჭეშმარიტი უარყოფითი (TN)

    არის ალგორითმის პასუხი ობიექტზე და

    ნამდვილი კლასის ეტიკეტი ამ ობიექტზე.
    ამრიგად, არსებობს ორი სახის კლასიფიკაციის შეცდომები: ცრუ უარყოფითი (FN) და ცრუ დადებითი (FP).

    ალგორითმის სწავლება და შეცდომის მატრიცის აგება

    X = df.drop("Churn", axis=1) y = df["Churn"] # დაყავით ნიმუში მატარებლად და შეამოწმეთ, ყველა მეტრიკა შეფასდება ტესტის მონაცემთა ნაკრების X_train, X_test, y_train, y_test = train_test_split( X, y, სტრატიფიკაცია=y, test_size=0.33, random_state=42) # მოამზადეთ მშობლიური ლოგისტიკური რეგრესია lr = LogisticRegression(random_state=42) lr.fit(X_train, y_train) # გამოიყენეთ ფუნქცია შეცდომის მატრიცის ასაგებად sklear-დან დოკუმენტაცია def plot_confusion_matrix(cm, classes , normalize=False, title="(!LANG:Confusion matrix", cmap=plt.cm.Blues): """ This function prints and plots the confusion matrix. Normalization can be applied by setting `normalize=True`. """ plt.imshow(cm, interpolation="nearest", cmap=cmap) plt.title(title) plt.colorbar() tick_marks = np.arange(len(classes)) plt.xticks(tick_marks, classes, rotation=45) plt.yticks(tick_marks, classes) if normalize: cm = cm.astype("float") / cm.sum(axis=1)[:, np.newaxis] print("Normalized confusion matrix") else: print("Confusion matrix, without normalization") print(cm) thresh = cm.max() / 2. for i, j in itertools.product(range(cm.shape), range(cm.shape)): plt.text(j, i, cm, horizontalalignment="center", color="white" if cm > thresh else "black") plt.tight_layout() plt.ylabel("True label") plt.xlabel("Predicted label") font = {"size" : 15} plt.rc("font", **font) cnf_matrix = confusion_matrix(y_test, lr.predict(X_test)) plt.figure(figsize=(10, 8)) plot_confusion_matrix(cnf_matrix, classes=["Non-churned", "Churned"], title="დაბნეულობის მატრიცა") plt.savefig("conf_matrix.png") plt.show()!}

    სიზუსტე

    ინტუიციური, აშკარა და თითქმის გამოუყენებელი მეტრიკა არის სიზუსტე - ალგორითმის სწორი პასუხების პროცენტი:

    ეს მეტრიკა გამოუსადეგარია არათანაბარი კლასების პრობლემებში და მარტივია მაგალითის ჩვენება.

    ვთქვათ, გვინდა შევაფასოთ ფოსტის სპამის ფილტრის მოქმედება. ჩვენ გვაქვს 100 არასპამი ელ.წერილი, რომელთაგან 90 ჩვენმა კლასიფიკატორმა სწორად დაადგინა (True Negative = 90, False Positive = 10) და 10 spam ელფოსტა, რომელთაგან 5 ასევე სწორად იქნა განსაზღვრული კლასიფიკატორის მიერ (True Positive = 5, False Negative = 5).
    შემდეგ სიზუსტე:

    თუმცა, თუ ჩვენ უბრალოდ ვიწინასწარმეტყველებთ ყველა წერილს, როგორც არასპამს, მივიღებთ უფრო მაღალ სიზუსტეს:

    ამავდროულად, ჩვენს მოდელს საერთოდ არ აქვს რაიმე პროგნოზირების ძალა, რადგან თავდაპირველად გვინდოდა სპამის ელფოსტის იდენტიფიცირება. ყველა კლასის საერთო მეტრიკიდან გადასვლა კლასის ხარისხის ინდივიდუალურ ინდიკატორებზე დაგვეხმარება ამის დაძლევაში.

    სიზუსტე, გახსენება და F-გაზომვა

    თითოეულ კლასზე ცალ-ცალკე ალგორითმის ხარისხის შესაფასებლად, ჩვენ წარმოგიდგენთ მეტრიკის სიზუსტეს (სიზუსტეს) და გახსენებას (სისრულეს).

    სიზუსტე შეიძლება განიმარტოს, როგორც კლასიფიკატორის მიერ დადებითად წოდებული ობიექტების პროპორცია და ამავდროულად მართლაც პოზიტიური, და გახსენება გვიჩვენებს, თუ რა პროპორცია პოზიტიური კლასის ობიექტებიდან პოზიტიური კლასის ყველა ობიექტიდან ალგორითმმა აღმოაჩინა.

    ეს არის სიზუსტის დანერგვა, რომელიც არ გვაძლევს საშუალებას დავწეროთ ყველა ობიექტი ერთ კლასში, რადგან ამ შემთხვევაში ვიღებთ False Positive დონის ზრდას. Recall აჩვენებს ალგორითმის უნარს, აღმოაჩინოს მოცემული კლასი საერთოდ, ხოლო სიზუსტე აჩვენებს ამ კლასის სხვა კლასებისგან განასხვავების უნარს.

    როგორც ადრე აღვნიშნეთ, არსებობს ორი სახის კლასიფიკაციის შეცდომები: ცრუ დადებითი და ცრუ უარყოფითი. სტატისტიკაში პირველი ტიპის შეცდომას ეწოდება I ტიპის შეცდომა, ხოლო მეორე ტიპს - II ტიპის შეცდომას. აბონენტების გადინების დადგენის ჩვენს ამოცანაში, პირველი ტიპის შეცდომა იქნება ლოიალური აბონენტის შეცდომა გამავალზე, რადგან ჩვენი ნულოვანი ჰიპოთეზაა, რომ არცერთი აბონენტი არ გადის და ჩვენ უარვყოფთ ამ ჰიპოთეზას. შესაბამისად, მეორე სახის შეცდომა იქნება გამავალი აბონენტის „გასვლა“ და ნულოვანი ჰიპოთეზის მცდარი მიღება.

    სიზუსტე და გახსენება არ არის დამოკიდებული, სიზუსტისგან განსხვავებით, კლასების თანაფარდობაზე და, შესაბამისად, გამოიყენება დაუბალანსებელი ნიმუშების პირობებში.
    ხშირად რეალურ პრაქტიკაში ამოცანაა ამ ორ მეტრიკას შორის ოპტიმალური (მომხმარებლისთვის) ბალანსის პოვნა. კლასიკური მაგალითია მომხმარებელთა გადინების განსაზღვრის პრობლემა.
    გასაგებია, რომ ვერ ვიპოვით ყველამომხმარებელთა გაფუჭება და მხოლოდმათ. მაგრამ მომხმარებელთა შენარჩუნების სტრატეგიისა და რესურსის დადგენის შემდეგ, ჩვენ შეგვიძლია შევარჩიოთ საჭირო ზღვრები სიზუსტისა და გახსენებისთვის. მაგალითად, ჩვენ შეგვიძლია ფოკუსირება მოვახდინოთ მხოლოდ მაღალი მარჟის მომხმარებელთა შენარჩუნებაზე ან მათზე, ვინც უფრო მეტად იშლება, რადგან ჩვენ შეზღუდული ვართ ქოლ ცენტრის რესურსებით.

    ჩვეულებრივ, ალგორითმის ჰიპერპარამეტრების ოპტიმიზაციისას (მაგალითად, ბადეზე გამეორების შემთხვევაში GridSearchCV) იყენებს ერთ მეტრს, რომლის გაუმჯობესებასაც ველოდებით ტესტის ნიმუშზე.
    სიზუსტისა და გახსენების გაერთიანების ხარისხის საზომად რამდენიმე განსხვავებული გზა არსებობს. F- საზომი (ზოგადად

    ) - საშუალო ჰარმონიული სიზუსტე და გახსენება:

    ამ შემთხვევაში განსაზღვრავს სიზუსტის წონას მეტრიკაში და როდის

    ეს არის ჰარმონიული საშუალო (2 კოეფიციენტით, ასე რომ სიზუსტის შემთხვევაში = 1 და გახსენება = 1 გვაქვს

    )
    F-ზომა აღწევს მაქსიმუმს გახსენებისას და სიზუსტით უდრის ერთს და ახლოს არის ნულთან, თუ ერთ-ერთი არგუმენტი ნულს უახლოვდება.
    sklearn-ს აქვს მოსახერხებელი _metrics.classification ფუნქცია ანგარიშირომელიც აბრუნებს გამოხმაურებას, სიზუსტეს და F- ზომას თითოეული კლასისთვის, ასევე თითოეული კლასის ინსტანციების რაოდენობას.

    ანგარიში = classification_report(y_test, lr.predict(X_test), target_names=["Non-churned", "Churned"]) print(report)

    კლასი სიზუსტე გახსენება f1 ქულა მხარდაჭერა
    არადამტვრეული 0.88 0.97 0.93 941
    გაჭედილი 0.60 0.25 0.35 159
    საშ./სულ 0.84 0.87 0.84 1100

    აქვე უნდა აღინიშნოს, რომ დაუბალანსებელი კლასებით დავალებების შემთხვევაში, რომლებიც ჭარბობს რეალურ პრაქტიკაში, ხშირად საჭიროა მონაცემთა ნაკრების ხელოვნური მოდიფიკაციის ტექნიკის გამოყენება კლასების თანაფარდობის გასათანაბრებლად. ბევრი მათგანია და ჩვენ მათ არ შევეხებით, შეგიძლიათ გადახედოთ რამდენიმე მეთოდს და აირჩიოთ ის, რომელიც შეესაბამება თქვენს ამოცანას.

    AUC-ROC და AUC-PR

    ალგორითმის რეალური პასუხის (ჩვეულებრივ, კლასს მიკუთვნების ალბათობა, იხილეთ SVM ცალკე) ორობით ეტიკეტად გადაქცევისას, უნდა ავირჩიოთ რაღაც ბარიერი, რომლის დროსაც 0 ​​ხდება 1. 0.5-ის ზღვარი ბუნებრივი და ახლო ჩანს, მაგრამ ეს ასეა. ყოველთვის არ გამოდის ოპტიმალური, მაგალითად, ზემოაღნიშნული კლასობრივი ბალანსის არარსებობისას.

    მოდელის მთლიანობაში შეფასების ერთ-ერთი გზა, კონკრეტულ ზღურბლთან მიბმულობის გარეშე, არის AUC-ROC (ან ROC AUC) - ფართობი ( რეა Uპატივს C urve) შეცდომის მრუდის ქვეშ ( მიმღები პერანგული Cდამახასიათებელი მრუდი). ეს მრუდი არის ხაზი (0.0)-დან (1.1-მდე) ჭეშმარიტი პოზიტიური სიხშირის (TPR) და ცრუ დადებითი სიხშირის (FPR) კოორდინატებში:

    ჩვენ უკვე ვიცით TPR, ეს არის სისრულე და FPR გვიჩვენებს უარყოფითი კლასის ობიექტების რა პროპორციას არასწორად იწინასწარმეტყველა ალგორითმი. იდეალურ შემთხვევაში, როდესაც კლასიფიკატორი არ უშვებს შეცდომებს (FPR = 0, TPR = 1), ჩვენ მივიღებთ მრუდის ქვეშ მდებარე ფართობს ერთის ტოლი, წინააღმდეგ შემთხვევაში, როდესაც კლასიფიკატორი შემთხვევით წარმოქმნის კლასის ალბათობებს, AUC-ROC მიდრეკილია. 0.5, ვინაიდან კლასიფიკატორი გამოსცემს იგივე რაოდენობის TP და FP.
    გრაფიკის თითოეული წერტილი შეესაბამება გარკვეული ზღურბლის არჩევანს. მრუდის ქვეშ არსებული ფართობი ამ შემთხვევაში აჩვენებს ალგორითმის ხარისხს (უფრო მეტი, მით უკეთესი), გარდა ამისა, მნიშვნელოვანია თავად მრუდის ციცაბოობა - ჩვენ გვინდა გავზარდოთ TPR, ხოლო FPR მინიმუმამდე მივიყვანოთ, რაც ნიშნავს, რომ ჩვენი მრუდი იდეალურად უნდა მიდრეკილი იყოს. წერტილი (0,1).

    ROC-მრუდის ნახაზის კოდი

    sns.set(font_scale=1.5) sns.set_color_codes("muted") plt.figure(figsize=(10, 8)) fpr, tpr, ზღურბლები = roc_curve(y_test, lr.predict_proba(X_test)[:,1], pos_label=1) lw = 2 plt.plot(fpr, tpr, lw=lw, label="ROC მრუდი ") plt.plot(, ) plt.xlim() plt.ylim() plt.xlabel("ცრუ დადებითი მაჩვენებელი ") plt.ylabel("ჭეშმარიტი პოზიტიური მაჩვენებელი") plt.title("ROC მრუდი") plt.savefig("ROC.png") plt.show()

    AUC-ROC კრიტერიუმი მდგრადია გაუწონასწორებელი კლასების მიმართ (სპოილერი: სამწუხაროდ, ყველაფერი ასე მარტივი არ არის) და შეიძლება განიმარტოს, როგორც ალბათობა იმისა, რომ შემთხვევით შერჩეული დადებითი ობიექტი კლასიფიკატორის მიერ უფრო მაღალი იქნება (მას ექნება არსებობის უფრო მაღალი ალბათობა. დადებითი), ვიდრე შემთხვევით შერჩეული უარყოფითი ობიექტი.

    განვიხილოთ შემდეგი პრობლემა: 1 მილიონი დოკუმენტიდან უნდა ავირჩიოთ 100 შესაბამისი დოკუმენტი. ჩვენ მანქანით ვისწავლეთ ორი ალგორითმი:

    • ალგორითმი 1აბრუნებს 100 დოკუმენტს, რომელთაგან 90 შესაბამისია. Ამგვარად,
    • ალგორითმი 2აბრუნებს 2000 დოკუმენტს, რომელთაგან 90 შესაბამისია. Ამგვარად,

    დიდი ალბათობით, ჩვენ ავირჩევთ პირველ ალგორითმს, რომელიც აწარმოებს ძალიან ცოტა ცრუ პოზიტივებს კონკურენტთან შედარებით. მაგრამ განსხვავება ცრუ პოზიტიურ მაჩვენებელში ამ ორ ალგორითმს შორის უკიდურესადპატარა - მხოლოდ 0.0019. ეს იმის შედეგია, რომ AUC-ROC ზომავს ცრუ პოზიტივის პროპორციას ჭეშმარიტ ნეგატივთან მიმართებაში და იმ ამოცანებში, სადაც მეორე (უფრო დიდი) კლასი ჩვენთვის არც ისე მნიშვნელოვანია, ალგორითმების შედარებისას შეიძლება სრულიად ადეკვატური სურათი არ მოგვცეს. .

    სიტუაციის გამოსწორების მიზნით, დავუბრუნდეთ სისრულეს და სიზუსტეს:

    • ალგორითმი 1
    • ალგორითმი 2

    უკვე არის მნიშვნელოვანი განსხვავება ორ ალგორითმს შორის - სიზუსტეში 0,855!

    სიზუსტე და გახსენება ასევე გამოიყენება მრუდის გამოსათვლელად და AUC-ROC-ის მსგავსად, მის ქვეშ არსებული ფართობის საპოვნელად.

    აქ შეიძლება აღინიშნოს, რომ მცირე მონაცემთა ნაკრებებზე, PR მრუდის ქვეშ არსებული ფართობი შეიძლება იყოს ზედმეტად ოპტიმისტური, რადგან ის გამოითვლება ტრაპეციის მეთოდით, მაგრამ, როგორც წესი, არის საკმარისი მონაცემები ასეთ ამოცანებში. AUC-ROC-სა და AUC-PR-ს შორის ურთიერთობის შესახებ დეტალებისთვის იხილეთ აქ.

    ლოგისტიკური ზარალი

    განცალკევებული არის ლოგისტიკური დანაკარგის ფუნქცია, რომელიც განისაზღვრება როგორც:

    არის ალგორითმის პასუხი

    ohm ობიექტი,

    ნამდვილი კლასის ეტიკეტი

    ohm ობიექტი და

    ნიმუშის ზომა.

    ლოგისტიკური დანაკარგის ფუნქციის მათემატიკური ინტერპრეტაციის შესახებ დეტალები უკვე დაიწერა პოსტში ხაზოვანი მოდელების შესახებ.
    ეს მეტრიკა ხშირად არ ჩნდება ბიზნესის მოთხოვნებში, მაგრამ ხშირად კაგლის ამოცანებში.
    ინტუიციურად, შეიძლება ვიფიქროთ ლოგოსის მინიმიზაციაზე, როგორც სიზუსტის მაქსიმიზაციის პრობლემა არასწორი პროგნოზების დაჯარიმებით. თუმცა, უნდა აღინიშნოს, რომ logloss მკაცრად არღვევს კლასიფიკატორის ნდობას არასწორი პასუხის მიმართ.

    განვიხილოთ მაგალითი:

    Def logloss_crutch(y_true, y_pred, eps=1e-15): return - (y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred)) print("Logloss გაურკვეველი კლასიფიკაციით %f " % logloss_crutch(1, 0.5)) >> Logloss გაურკვეველი კლასიფიკაციით 0.693147 print("Logloss თავდაჯერებული კლასიფიკაციით და სწორი პასუხით %f" % logloss_crutch(1, 0.9)) >> Logloss დამაჯერებელი კლასიფიკაციით და სწორი პასუხი 0.105361 Logloss დარწმუნებული კლასიფიკაციისთვის და არასწორი პასუხი %f" % logloss_crutch(1, 0.1)) >> Logloss დარწმუნებული კლასიფიკაციისთვის და არასწორი პასუხი 2.302585

    გაითვალისწინეთ, რამდენად მკვეთრად გაიზარდა ლოგოსი არასწორი პასუხით და თავდაჯერებული კლასიფიკაციით!
    ამრიგად, ერთ ობიექტზე დაშვებულმა შეცდომამ შეიძლება გამოიწვიოს ნიმუშის საერთო შეცდომის მნიშვნელოვანი გაუარესება. ასეთი ობიექტები ხშირად გამოკვეთილია, რომელთა გაფილტვრა ან ცალკე განხილვა უნდა გვახსოვდეს.
    ყველაფერი თავის ადგილზე დგება, თუ ლოგის გრაფიკს დახატავთ:

    ჩანს, რომ რაც უფრო ახლოს არის ნულთან ალგორითმის პასუხი გრუნტის სიმართლისთვის = 1, მით უფრო მაღალია შეცდომის მნიშვნელობა და მით უფრო ციცაბო იზრდება მრუდი.

    შეჯამება:

    • მრავალკლასიანი კლასიფიკაციის შემთხვევაში, თქვენ უნდა ყურადღებით აკონტროლოთ თითოეული კლასის მეტრიკა და მიჰყვეთ ამოხსნის ლოგიკას. დავალებებიმეტრიკის ოპტიმიზაციის ნაცვლად
    • უთანასწორო კლასების შემთხვევაში აუცილებელია ტრენინგისთვის კლასების ბალანსი და მეტრიკის შერჩევა, რომელიც სწორად ასახავს კლასიფიკაციის ხარისხს.
    • მეტრიკის არჩევა უნდა მოხდეს საგანზე ფოკუსირებით, მონაცემების წინასწარ დამუშავებით და, შესაძლოა, სეგმენტირებით (როგორც მდიდარ და ღარიბ მომხმარებლებად დაყოფის შემთხვევაში)

    გამოსადეგი ბმულები

    1. ევგენი სოკოლოვის კურსი: სემინარი მოდელების არჩევის შესახებ (არსებობს ინფორმაცია რეგრესიის პრობლემების მეტრიკის შესახებ)
    2. პრობლემები AUC-ROC-ისთვის A.G. დიაკონოვა
    3. შეგიძლიათ მეტი წაიკითხოთ კაგლის სხვა მეტრიკის შესახებ. თითოეული მეტრიკის აღწერას დაემატა კონკურსის ბმული, სადაც ის გამოიყენებოდა
    4. პრეზენტაცია ბოგდან მელნიკისგან, aka ld86, სწავლის შესახებ დაუბალანსებელ ნიმუშებზე

    UDC 519.816

    S. V. SEMENIKHIN L. A. DENISOVA

    ომსკის სახელმწიფო ტექნიკური უნივერსიტეტი

    მანქანით სწავლის მეთოდი რეიტინგისთვის

    დაფუძნებული შეცვლილი გენეტიკური ალგორითმზე URCO მეტრიკისთვის

    განხილულია ინფორმაციის ძიების შედეგების გვერდზე დოკუმენტების რეიტინგის პრობლემა და მანქანათმცოდნეობის რეიტინგის საკითხები. შემოთავაზებულია რანჟირების ფუნქციის ოპტიმიზაციის მიდგომა ხარისხის მეტრიკის LOCO-ს გამოყენებით, შეცვლილი გენეტიკური ალგორითმის საფუძველზე. შემუშავებული ალგორითმები შესწავლილია (LETO^-ის სატესტო კოლექციებზე) და ნაჩვენებია მათი ეფექტურობა მანქანათმცოდნეობის რეიტინგში.

    საკვანძო სიტყვები: ინფორმაციის მოძიება, მანქანათმცოდნეობის რეიტინგი, შესაბამისობა, ოპტიმიზაცია, გენეტიკური ალგორითმები.

    1. შესავალი. თანამედროვე ინფორმაციის მოძიების სისტემებში (IRS), მონაცემთა მოცულობა, რომელზედაც სისტემა მუშაობს, იმდენად დიდია, რომ მთავარი ამოცანაა შესაბამისი დოკუმენტების რანჟირება მომხმარებლის საძიებო მოთხოვნის საპასუხოდ. IPS-ის განვითარების ამ ეტაპზე, მანქანათმცოდნეობა (ML) რეიტინგისთვის ყველაზე დიდ ინტერესს იწვევს. ციფრულ მეთოდებზე (კერძოდ, გრადიენტურ მეთოდებზე) ან ანალიტიკურ გამოთვლებზე დაფუძნებული ML-ის არსებულ მიდგომებს აქვს მთელი რიგი ნაკლოვანებები, რაც მნიშვნელოვნად აისახება ინფორმაციის მოპოვების ხარისხზე და შესაბამისი დოკუმენტების რანჟირებისთვის საჭირო დროს.

    კვლევის დასაწყისში გათვალისწინებული იყო მანქანური სწავლების რეიტინგის სიის მიდგომები, რომელთა უმეტესობა იყენებს გრადიენტული დაღმართის მეთოდს. განხილულ სამუშაოებში ML დაყვანილია ძიების ხარისხის მეტრიკის ოპტიმიზაციამდე (QM), მაგრამ გამოიყენება მხოლოდ უწყვეტი ფუნქციებით წარმოდგენილი მეტრიკა. ეს შეზღუდვა ხშირად იწვევს იმ ფაქტს, რომ ოპტიმიზაციის შედეგად, რეიტინგის ფუნქციას აქვს დაბალი ქულები ბევრ მნიშვნელოვან მიღებულ ინდიკატორზე (DCG, nDCG, Graded Mean Reciprocal Rank და ა.შ.), რომლებიც დისკრეტული ფუნქციებია. ნაშრომი გვთავაზობს გენეტიკური ალგორითმების (GA) გამოყენებას სწავლის რეიტინგში, რათა მინიმუმამდე დაიყვანოს Huber-ის დანაკარგის ფუნქცია ექსპერტთა შესაბამისობის შეფასებით, როგორც საცნობარო მნიშვნელობები. ასევე შემოთავაზებული იყო მიდგომა ML-სთან მიმართებაში, რომელიც დაფუძნებული იყო დისკრეტული ინფორმაციის მოძიების ხარისხის მეტრიკის ოპტიმიზაციაზე.

    2. მანქანური სწავლების რეიტინგის პრობლემის განცხადება. ინფორმაციის მოძიების თანამედროვე სისტემების უმეტესობაში, რანგის ფუნქცია აგებულია n მარტივი რანგის ფუნქციის (PRF) საფუძველზე და შეიძლება დაიწეროს როგორც:

    სადაც SRF¡ არის ¡th მარტივი რანჟირების ფუნქცია დოკუმენტისთვის d და შეკითხვის d, WCi არის ¡th მარტივი რანგის ფუნქციის შეწონვის კოეფიციენტი, n არის PF-ების რაოდენობა რეიტინგის სისტემაში.

    რეიტინგისთვის მანქანათმცოდნეობის მსვლელობისას გამოყენებული იქნა საძიებო დოკუმენტების ნაკრები B და მოთხოვნები O ტესტის კოლექციიდან LBTOT. ყველა deO მოთხოვნისთვის, წყვილი იქმნება თითოეულ deD დოკუმენტთან. თითოეული ასეთი წყვილისთვის, IPS განსაზღვრავს შესაბამისობის მნიშვნელობებს, რომლებიც გამოიყენება SERP-ის რეიტინგისთვის. რეიტინგის ხარისხის შესაფასებლად სისტემას ესაჭიროება შესაბამისი E საცნობარო მნიშვნელობები ყოველი წყვილი დოკუმენტის მოთხოვნა-t, e). ამ მიზნებისათვის გამოიყენება ექსპერტთა შესაბამისობის შეფასებები.

    კვლევის ჩასატარებლად გამოიყენეს IPS, რომელშიც რეიტინგი ეფუძნება N = 5 მარტივი რანჟირების ფუნქციებს SRFi(WC)l r = 1, N, რომლებიც ქმნიან ვექტორული ოპტიმალურობის კრიტერიუმს:

    სადაც WCе (WC) - ცვლადი პარამეტრების ვექტორი; (SHS), (YB) არის პარამეტრების და ვექტორული კრიტერიუმების სივრცეები, შესაბამისად.

    გენეტიკური ალგორითმების გამოყენება MO-ს რეიტინგისთვის შესაძლებელს ხდის დისკრეტული ხარისხის მეტრიკის მაქსიმიზაციას, როგორიცაა nDCG. nDCG მეტრიკა საძიებო სისტემაში დოკუმენტების რეიტინგისთვის განისაზღვრება გამოთქმის შესაბამისად:

    DCG@n=X2---

    RF(q, d)=XWC. ■ SRF., i=1 1 1

    სადაც შეფასება(p) არის შედეგების სიაში p პოზიციაზე დოკუმენტისთვის ექსპერტების მიერ მინიჭებული საშუალო შესაბამისობის ქულა, gradee; 1/log2(2 + p) - კოეფიციენტი დოკუმენტის პოზიციებიდან გამომდინარე (პირველ დოკუმენტებს მეტი წონა აქვთ).

    შემდეგ ფორმაში ჩაიწერება NDCG-ის ნორმალიზებული ვერსია

    N000 @ n = RSD @ n / r,

    სადაც r არის ნორმალიზაციის ფაქტორი, რომელიც უდრის მაქსიმალურ შესაძლო მნიშვნელობას 0C [ელფოსტა დაცულია] n მოცემული მოთხოვნისთვის (ანუ უდრის იდეალური რეიტინგის OOO-ს).

    ამრიგად, SFR-ის მეტრიკის ოპტიმიზაციის (მაქსიმიზაციის) მიზნით, ობიექტური ფუნქცია (JM) დაიწერება შემდეგი ფორმით.

    3. ძიების შედეგების რეიტინგის ხარისხის მეტრიკა. ძიების შედეგებში დოკუმენტების რანჟირებისას, ხარისხის მეტრიკა მოქმედებს როგორც კრიტერიუმი. ინფორმაციის მოპოვების სისტემების ხარისხის შესაფასებლად ზოგადად მიღებული მეტრიკის სიიდან შეირჩა სამი ძირითადი, რომელიც აფასებს ინფორმაციის მოძიების სიზუსტეს, შესაბამისობას და სისრულეს.

    1. ინფორმაციის მოპოვების სიზუსტის კრიტერიუმი

    სადაც a არის ნაპოვნი შესაბამისი დოკუმენტების რაოდენობა, b არის დოკუმენტების რაოდენობა, რომლებიც შეცდომით არის შესწორებული.

    2. კრიტერიუმი Bpref, რომელიც აფასებს ინფორმაციის მოპოვების შესაბამისობას, გამოიყენება დავალების R შესაბამისი დოკუმენტებით დასამუშავებლად და გამოითვლება ფორმულით.

    Bpref = - ^ (1 - Non Re ¡Before(r)/ R). (4)

    აქ r აღნიშნავს ცნობილ შესაბამის დოკუმენტს, ხოლო NonRelBefore(r) არის ცნობილი არარელევანტური დოკუმენტების რაოდენობა, რომლებიც რეიტინგულები არიან r-ზე მაღალი (მხოლოდ პირველი R შეფასებული არარელევანტური დოკუმენტები გაშვებიდან განიხილება გაანგარიშებაში).

    3. ძიების შედეგების სისრულის კრიტერიუმი

    r = a / (a ​​+ c),

    სადაც a არის ნაპოვნი შესაბამისი დოკუმენტების რაოდენობა, c არის არ მოიძებნა შესაბამისი დოკუმენტების რაოდენობა.

    4. სატესტო კოლექციები. მანქანათმცოდნეობის ამოცანაში რანჟირება მოითხოვს დოკუმენტებისა და მოთხოვნების ერთობლიობას ექსპერტების მიერ განსაზღვრული შესაბამისი შესაბამისობის ქულებით. ეს მონაცემები გამოიყენება რანგის ფუნქციის მანქანური სწავლისთვის, ასევე ხარისხის შეფასებისთვის.

    ძიების შედეგების რეიტინგი სისტემის მიხედვით. ML პროცესში, ტესტების კოლექციები გამოიყენება როგორც სასწავლო ნაკრები და, შესაბამისად, მნიშვნელოვან გავლენას ახდენს შედეგებზე. კვლევისთვის გამოყენებული იქნა LETOR დოკუმენტებისა და მოთხოვნების სატესტო კოლექცია. ეს კოლექცია გამოიყენება Microsoft Research-ის მიერ ინფორმაციის მოძიებაში. მაგიდაზე. 1 გვიჩვენებს LETOR ტესტის კოლექციების მახასიათებლებს.

    5. მოდიფიცირებული გენეტიკური ალგორითმი. მანქანურ სწავლებაში გენეტიკური ალგორითმების რანჟირებისთვის გამოსაყენებლად, პრობლემა უნდა იყოს ჩამოყალიბებული ისე, რომ გამოსავალი იყოს დაშიფრული, როგორც ვექტორი (გენოტიპი), სადაც თითოეული გენი შეიძლება იყოს ბიტი, რიცხვი ან სხვა ობიექტი. ამ შემთხვევაში გენოტიპი წარმოდგენილია წონების ვექტორით შესაბამისი რანგის ფაქტორებისთვის. გენეტიკური ალგორითმის შესრულების შეჩერების პირობაა ოპტიმალური გადაწყვეტის პოვნა, თაობების რაოდენობის ან ევოლუციისთვის გამოყოფილი დროის ამოწურვა.

    უნდა აღინიშნოს, რომ GA-ები ყველაზე ეფექტურია გლობალური ექსტრემალური რეგიონის პოვნაში, თუმცა, მათ შეუძლიათ ნელი მუშაობა, როდესაც საჭიროა ამ რეგიონში ადგილობრივი მინიმუმის პოვნა. ამ ხარვეზის თავიდან აცილების შემოთავაზებული გზა არის შეცვლილი გენეტიკური ალგორითმის (MGA) შექმნა, რომელიც გადავა ლოკალურ (სწრაფ) ოპტიმიზაციის ალგორითმზე გლობალური ოპტიმალური არეალის პოვნის შემდეგ ბაზის GA-ს გამოყენებით. ნაშრომში შემოთავაზებული MGA არის ჰიბრიდული მეთოდი, რომელიც დაფუძნებულია კლასიკურ GA-ზე და Nelder-Mead მეთოდზე (მარტივი ალგორითმი). Nelder-Mead მეთოდი, ხშირად გამოყენებული არაწრფივი ოპტიმიზაციის ალგორითმი, არის რიცხვითი მეთოდი ობიექტური ფუნქციის მინიმალური საპოვნელად მრავალგანზომილებიან სივრცეში. ამ ნაშრომში შემოთავაზებული ჰიბრიდული MGA ალგორითმი გადადის ნელდერ-მიდის მეთოდზე GA-ს შეჩერების პირობების დაკმაყოფილების შემდეგ. MGA ალგორითმის ბლოკ-სქემა ნაჩვენებია ნახ. ერთი.

    კვლევის ჩატარებისას მიღებულ იქნა ლიმიტი ობიექტური ფუნქციის გამოთვლების რაოდენობაზე (Nrf = 16,000) გლობალური ექსტრემის არეალის ძიებისას და პირობა ლოკალური ოპტიმიზაციის ალგორითმზე გადასვლისთვის, რომელიც დაფუძნებულია ნელდერ-მიდის მეთოდზე (ძირითადი გენეტიკური ალგორითმის შემდეგ). ასრულებს Nrf ოპერაციების 75%-ს).

    6. შედეგები. მანქანური სწავლების ალგორითმის გამოყენებით ჩატარებული კვლევის შედეგად

    ცხრილი 1

    სატესტო კოლექციებში დოკუმენტების და მოთხოვნების რაოდენობა

    სატესტო კოლექციის სახელი ქვესისტემის სახელი მოთხოვნების რაოდენობა დოკუმენტების რაოდენობა

    LETOR 4.0 MQ2007 1692 69623

    LETOR 4.0 MQ2008 784 15211

    LETOR 3.0 OHSUMED 106 16140

    LETOR 3.0 Gov03td 50 49058

    LETOR 3.0 Gov03np 150 148657

    LETOR 3.0 Gov03hp 150 147606

    LETOR 3.0 Gov04td 75 74146

    LETOR 3.0 Gov04np 75 73834

    LETOR 3.0 Gov04hp 75 74409

    ბრინჯი. 1. ჰიბრიდული MVL ალგორითმის ბლოკ-სქემა, რომელიც დაფუძნებულია გენეტიკურ ალგორითმებზე და Nelder-Mead მეთოდზე.

    LTR-MGA რეიტინგმა მიიღო WC* წონის კოეფიციენტების ვექტორი რეიტინგის ფუნქციისთვის. გარდა ამისა, LETOY ტესტის კოლექციიდან მიღებული მონაცემების საფუძველზე, შეფასდა რეიტინგის ხარისხი, რისთვისაც გამოითვალა ხარისხის მეტრიკა. დისკრეტული რეიტინგის ხარისხის მეტრიკა [ელფოსტა დაცულია]აფასებს სისტემის პასუხის პირველი n დოკუმენტის ხარისხს. ზოგადად მიღებული მეტრიკა რეიტინგის ხარისხის შესაფასებლად არის [ელფოსტა დაცულია], [ელფოსტა დაცულია]და [ელფოსტა დაცულია]თუმცა, მნიშვნელობებზე დამოკიდებული მეტრიკის ცვლილებების უფრო დეტალური განხილვისთვის გათვალისწინებული იყო [ელფოსტა დაცულია]ყველა n-სთვის 1-დან 10-მდე. შემუშავებული ალგორითმის ეფექტურობის შესადარებლად არსებულ გადაწყვეტილებებთან, ჩატარდა შედარებითი ანალიზი LETOM 3.0 კრებულებში მოწოდებული რანგის ალგორითმების გამოყენებით. სატესტო კოლექციების TB2003 და TB2004 NDCG მეტრიკის ალგორითმების შესრულების შედეგები ნაჩვენებია ნახ. 2. შედეგები აჩვენებს, რომ LTR-MGA ალგორითმი აღემატება ტესტის ალგორითმს, უმაღლესი მნიშვნელობებით

    არიან ამისთვის [ელფოსტა დაცულია](პირველი დოკუმენტის დონეზე). LTR-MGA ალგორითმის უპირატესობა განპირობებულია იმით, რომ ექსპერიმენტებში განხილული ტესტის რანჟირების ფუნქციებისგან განსხვავებით, რანჟირების ფუნქციის ოპტიმიზაციის შემოთავაზებულ მიდგომაში, ეს არის NDCG მეტრიკა, რომელიც გამოიყენება როგორც ობიექტური ფუნქცია.

    შემოთავაზებული LTR-MGA ალგორითმის გამოყენებისას რეიტინგის ხარისხის შესაფასებლად, გამოითვალა ხარისხის მეტრიკის მნიშვნელობები ძიების შედეგებში დოკუმენტების რეიტინგისთვის (ნახ. 3). რეიტინგის შედეგების შედარება (ცხრილი 2) ძირითადი რეიტინგის ფუნქციის, ძირითადი LTR-GA ალგორითმის და შეცვლილი LTR-MGA ალგორითმის გამოყენებით მიუთითებს ამ უკანასკნელის უპირატესობაზე.

    გარდა ამისა, კვლევამ შეასრულა MO-ს რეიტინგისთვის საჭირო დროის შეფასება. ეს აუცილებელია იმის დასადასტურებლად, რომ შემოთავაზებული LTR-MGA მეთოდი აღემატება ამ ინდიკატორს ტრადიციულ გამოყენებაზე დაფუძნებულ მიდგომას.

    ბრინჯი. 2. მანქანათმცოდნეობის ალგორითმების შედარება რეიტინგისთვის

    NDCG მეტრიკის მიხედვით სატესტო კოლექციებისთვის: მარცხნივ - Gov03td მონაცემთა ნაკრები, მარჯვნივ - Gov04td მონაცემთა ნაკრები

    ბრინჯი. 3. რანჟირების ხარისხის მეტრიკის შეფასება ძირითადი რეიტინგის ფორმულისა და სასწავლო ალგორითმებისთვის LTR-GA და LTR-MGA

    რანჟირების ხარისხის მეტრიკა მანქანების სწავლების სხვადასხვა რანგის ალგორითმებისთვის

    ცხრილი 2

    ხარისხის მეტრიკის დიაპაზონი ძირითადი რეიტინგის ფუნქცია LTR-GA LTR-MGA მეტრიკული ზრდა, %

    სიზუსტე 0,201 0,251 0,267 26,81

    [ელფოსტა დაცულია](პირველი 5 დოკუმენტი) 0.149 0.31 0.339 90.47

    [ელფოსტა დაცულია](პირველი 10 დოკუმენტი) 0.265 0.342 0.362 29.14

    Bpref 0.303 0.316 0.446 51.49

    სისრულე 0.524 0.542 0.732 39.03

    * შესაბამისი მეტრიკის საუკეთესო მნიშვნელობები მონიშნულია ნაცრისფერში

    გენეტიკური ალგორითმი (NTL-OL). LTN-OL და LTN-MOL ალგორითმების შესრულებაზე დახარჯული დროის შედარების შედეგები მოცემულია ცხრილში. 3.

    7. დასკვნა. ამრიგად, ჩატარებულმა კვლევებმა აჩვენა, რომ შემოთავაზებული მიდგომის გამოყენებისას, IRS-ში განხილული რანჟირების მეტრიკის მნიშვნელობები იზრდება (საშუალოდ 19,55%-ით LTR-OL ალგორითმთან შედარებით). ეს ადასტურებს, რომ LTR-MOL მუშაობს სწორად და მნიშვნელოვნად აუმჯობესებს რეიტინგის ფუნქციას, სხვა სიტყვებით რომ ვთქვათ, წარმატებით წყვეტს ოპტიმიზაციის პრობლემას. შეცვლილი ალგორითმით

    ლოკალური ოპტიმიზაციის მეთოდის გამოყენებისა და ობიექტური ფუნქციის გამოთვლის რაოდენობაზე შემოღებული შეზღუდვების გამო, მანქანათმცოდნეობის დრო შემცირდა (საშუალოდ 17,71%-ით ტრადიციული გენეტიკური ალგორითმის LTNOL გამოყენებასთან შედარებით).

    შემუშავებული მანქანათმცოდნეობის ალგორითმი LTN-MOL-ის რეიტინგისთვის შეიძლება გამოყენებულ იქნას IS-ებში რანჟირების მოდელის გამოყენებით, რომელიც დაფუძნებულია მარტივი რანგის ფუნქციების კომბინაციაზე. თუმცა, შემოთავაზებული მიდგომის გარკვეული შეზღუდვები უნდა იქნას გათვალისწინებული. დაფუძნებული

    მანქანური სწავლების რეიტინგის შესრულების დროის შეფასება სასწავლო ნიმუშის ზომის მიხედვით

    ცხრილი 3

    დოკუმენტის ტექსტის კოლექციის ზომა

    გაშვების დრო LTR-GA

    გაშვების დრო LTR-MGA

    შესრულების დროის შემცირება, %

    ნიშნავს

    *საუკეთესო მნიშვნელობები შესაბამისი ტესტის კოლექციის ზომისთვის მონიშნულია ნაცრისფერში.

    მიღებული შედეგების მიხედვით, გამოვლინდა, რომ MO-ს შემდეგ ყველაზე დიდი მატებაა რეიტინგის ხარისხის მეტრიკაში, რომლის მნიშვნელობა მიღებულ იქნა სამიზნე ფუნქციად. ამავდროულად, სხვა მეტრიკებს შეიძლება არ ჰქონდეს მნიშვნელოვანი გაუმჯობესება და ზოგიერთ შემთხვევაში მათი მნიშვნელობების გაუარესებაც კი. როგორც ამ ხარვეზის აღმოსაფხვრელად ერთ-ერთი შესაძლო მიდგომა, ვარაუდობენ, რომ ოპტიმიზაციის პრობლემის გადაჭრა მრავალ ობიექტურია: ერთის ოპტიმიზაციის ნაცვლად, ძიების შედეგების რამდენიმე ძირითადი რეიტინგის მეტრიკის თანაბრად გაუმჯობესება. გარდა ამისა, შემდგომ კვლევაში დაგეგმილია ობიექტური ფუნქციის აგების მეთოდოლოგიის შემუშავება, რომელიც დაფუძნებულია ძირითადი რეიტინგის ხარისხის მეტრიკის წრფივ კონვოლუციაზე ინფორმაციის მოპოვების პროცესის გასაუმჯობესებლად.

    ბიბლიოგრაფიული სია

    1. ჰალსტუხი-იან ლიუ. ინფორმაციის მოძიებაში რანგის სწავლა // ჟურნალის საფუძვლები და ტენდენციები ინფორმაციის მოძიებაში. ტ. 3, ნომერი 3. მარტი 2009. გვ 225-331.

    2. Christopher J. C. Burges, Tal Shaked, Erin Renshaw. Gradient Descent-ის გამოყენებით რანგის სწავლა // Proceeding ICML "05 22-ე საერთაშორისო კონფერენციის შრომები მანქანათმცოდნეობის შესახებ. 2005 წ. გვ. 89-96.

    3. Semenikhin, S. V. მანქანური სწავლების მიდგომების კვლევა გენეტიკურ ალგორითმებზე დაფუძნებული საძიებო სისტემის მიერ დოკუმენტების რანჟირების მიზნით / S. V. Semenikhin // ახალგაზრდა რუსეთი: მოწინავე ტექნოლოგიები ინდუსტრიისთვის. - 2013. - No 2. - S. 82 - 85.

    4. მულტიკრიტერიუმების ოპტიმიზაცია გენეტიკური ალგორითმების საფუძველზე კონტროლის სისტემების სინთეზში: მონოგრაფია. / L. A. Denisova. - Omsk: Publishing House of OmGTU, 2014. - 170გვ. - ISBN 978-5-8149-1822-2.

    5. Denisova, L. A. კონტროლის სისტემის პარამეტრული სინთეზის ავტომატიზაცია გენეტიკური ალგორითმის გამოყენებით / L. A. Denisova, V. A. Meshcheryakov // ავტომატიზაცია ინდუსტრიაში. - 2012. - No 7. - S. 34 - 38.

    6. Huber, Peter J. Robust Estimation of a Location Parameter // Annals of Statistics. - 1964. - No 53. - გვ 73-101.

    7. Semenikhin, S. V. ინფორმაციის მოპოვების ავტომატიზაცია მულტიკრიტერიუმების ოპტიმიზაციისა და გენეტიკური ალგორითმების საფუძველზე / S. V. Semenikhin, L. A. Denisova // სისტემების, მექანიზმების და მანქანების დინამიკა. - 2014. - No3. - S. 224 - 227.

    8. Tie-Yan Liu, Jun Xu, Tao Qin, Wenying Xiong და Hang Li. LETOR: საორიენტაციო მონაცემთა ნაკრები კვლევის სწავლის რანჟირების შესახებ ინფორმაციის მოძიებისთვის // SIGIR 2007 სემინარი სწავლის რანჟირების შესახებ ინფორმაციის მოძიებაზე. - 2007. - S. 3-10.

    9. აგეევი, მ. პეტერბურგი: პეტერბურგის სახელმწიფო უნივერსიტეტის ქიმიის კვლევითი ინსტიტუტი, გვ. 142-150.

    10. J. A. Nelder, R. Mead, A simplex მეთოდი ფუნქციის მინიმიზაციისთვის, The Computer Journal 7 (1965). 308-313 წწ.

    სემენიხინი სვიატოსლავ ვიტალიევიჩი, ფაკულტეტის "ინფორმაციის დამუშავებისა და კონტროლის ავტომატური სისტემების" ასპირანტი. Მისამართი კორესპოდენციისთვის: [ელფოსტა დაცულია]დენისოვა ლუდმილა ალბერტოვნა, ტექნიკურ მეცნიერებათა დოქტორი, ინფორმაციის დამუშავებისა და კონტროლის ავტომატური სისტემების დეპარტამენტის ასოცირებული პროფესორი. Მისამართი კორესპოდენციისთვის: [ელფოსტა დაცულია]

    ამ თავში წარმოდგენილია კლასიფიკაციის მოდელის ხარისხის შეფასების პოპულარული მეთოდები, რომლებიც ასევე გამოიყენება ამ თემაზე სხვა ნაშრომებში. მოცემულია მათი აღწერა და ამ შეფასებისთვის გამოყენებული მეტრიკის დასაბუთება.

    ხარისხის შეფასების მეტრიკა

    სრული სიზუსტე (სიზუსტე)

    ეს მეტრიკა არის ერთ-ერთი უმარტივესი და ამავე დროს უნივერსალური მეტრიკა კლასიფიკაციის ალგორითმების ხარისხის შესაფასებლად. ამ კოეფიციენტის მნიშვნელობა გამოითვლება, როგორც სწორად კლასიფიცირებული ობიექტების პროპორცია ნიმუშში არსებული ობიექტების მთლიანი რაოდენობით. ეს მეტრიკა პოპულარულია მისი სიმარტივისა და კლასების ნებისმიერ რაოდენობაზე გაფართოების შესაძლებლობის გამო. ამ მეტრიკის მთავარი მინუსი არის ის, რომ იგი ანიჭებს ერთსა და იმავე წონას ყველა დოკუმენტს, რაც შეიძლება არასწორი იყოს სასწავლო ნიმუშში დოკუმენტების ძლიერი მიკერძოების შემთხვევაში ერთი ან მეტი კლასის მიმართ. ამ მეტრიკას შეიძლება ჰქონდეს მაღალი მნიშვნელობა, მაგრამ იმავე კლასის კლასიფიკატორმა შეიძლება აჩვენოს მუშაობის უკიდურესად დაბალი ხარისხი. ამავდროულად, მეტრიკა არანაირად არ მიუთითებს ამას.

    სიზუსტე, გახსენება და F-ზომა

    მეტრიკა, როგორიცაა სიზუსტე (სიზუსტე) და გახსენება (გახსენება) პირველად გახდა ფართოდ გამოყენებული სისტემების მუშაობის ხარისხის შესაფასებლად, რომლებიც წყვეტენ ინფორმაციის მოპოვების პრობლემას. სისტემის სიზუსტე ერთ კლასში არის ობიექტების პროპორცია, რომლებიც რეალურად ეკუთვნის გარკვეულ კლასს, სისტემის მიერ ამ კლასს მინიჭებულ ყველა ობიექტთან მიმართებაში. სისრულე გამოიხატება როგორც კლასიფიკატორის მიერ ნაპოვნი ობიექტების პროპორცია, რომელიც მიეკუთვნება კლასს ამ კლასის ყველა ობიექტთან მიმართებაში. ცხრილი 4 არის ცალკეული კლასის შემთხვევითი ცხრილი, სადაც TP (ჭეშმარიტი დადებითი) არის ჭეშმარიტი დადებითი ამონახსნები, TN (ჭეშმარიტი უარყოფითი) არის ჭეშმარიტი უარყოფითი ამონახსნები, FP (ცრუ დადებითი) არის ცრუ დადებითი ამონახვა და FN (ცრუ უარყოფითი) არის ცრუ-უარყოფითი გადაწყვეტილება.

    ცხრილი 1 - ობიექტის კლასის გაუთვალისწინებელი ცხრილი

    ასე რომ, სიზუსტე და გახსენება გამოითვლება შემდეგნაირად:

    F-ზომა აერთიანებს ინფორმაციას შეფასებული ალგორითმის სიზუსტისა და სისრულის შესახებ. იგი გამოითვლება, როგორც სიზუსტის და გახსენების ინდიკატორების ჰარმონიული საშუალო:

    იმის გამო, რომ F-ზომა გამოითვლება ცალ-ცალკე თითოეული კლასისთვის, მოსახერხებელია მისი გამოყენება კონკრეტული ალგორითმის შეცდომების მოსაძებნად და გასაანალიზებლად, კლასიფიკაციის შესაფასებლად რამდენიმე კლასით. ამავდროულად, კლასების დიდი რაოდენობის შემთხვევაში, საჭიროა მახასიათებელი, რომელიც დააგროვებს სისრულეს და სიზუსტეს ყველა კლასზე და ახასიათებს სისტემის ზოგად ქცევას. ამ ნაშრომში ამ მიზნით გამოიყენება შემდეგი აგრეგირებული მნიშვნელობები: მაკრო სიზუსტე (მაკრო სიზუსტე), რომელიც გამოითვლება, როგორც სიზუსტის არითმეტიკული საშუალო ყველა კლასისთვის, მაკრო გახსენება (მაკრო გახსენება), რომელიც გამოითვლება საშუალო არითმეტიკულად. გახსენების ყველა კლასისთვის და მაკრო F- საზომი (Macro F-score), რომელიც არის ჰარმონიული საშუალო მათ შორის.

    ჯვარედინი დადასტურება

    სრულფასოვანი ტესტირების ჩატარებისა და სხვადასხვა მანქანათმცოდნეობის ალგორითმის მუშაობის შეფასების ერთ-ერთი ყველაზე გავრცელებული მეთოდია ჯვარედინი ვალიდაცია. დამოუკიდებელი ნიმუშისთვის, ეს მეთოდი საშუალებას გაძლევთ მიიღოთ შეცდომის ალბათობის მიუკერძოებელი შეფასება, სავარჯიშო ნიმუშის საშუალო შეცდომისგან განსხვავებით, რომელიც შეიძლება იყოს შეცდომის ალბათობის მიკერძოებული შეფასება ალგორითმის გადაჭარბების გამო. ამ პროცედურის კიდევ ერთი უპირატესობა არის ალგორითმის შეცდომის ალბათობის შეფასების შესაძლებლობა, სპეციალურად ტესტირებისთვის შექმნილი საკონტროლო ნიმუშის არარსებობის შემთხვევაში.

    დავუშვათ, რომ ეს არის ობიექტების მახასიათებლების აღწერილობების ნაკრები, რომელზედაც მითითებულია პრეცედენტების სასრული ნიმუში, სადაც არის კლასების სასრული ნაკრები. მოცემულია რუქა, რომელიც აკავშირებს პრეცედენტების თვითნებურ ნიმუშს ალგორითმთან. შემდეგ ალგორითმის შესრულება პრეცედენტების თვითნებური ნიმუშისთვის შეფასებულია ხარისხის ფუნქციის გამოყენებით:

    სადაც არის რაიმე არაუარყოფითი ფუნქცია, რომელიც აბრუნებს ალგორითმის შეცდომის მნიშვნელობას, მოცემული სწორი კლასის ლეიბლით.