AlexNet არის კონვოლუციური ნერვული ქსელი გამოსახულების კლასიფიკაციისთვის. ხელოვნური ნერვული ქსელების აპარატზე დაფუძნებული გამოსახულების ამოცნობის სისტემის შემუშავება მრავალშრიანი ნერვული ქსელები

AlexNet არის კონვოლუციური ნერვული ქსელი, რომელმაც დიდი გავლენა მოახდინა მანქანათმცოდნეობის, განსაკუთრებით კომპიუტერული ხედვის ალგორითმების განვითარებაზე. 2012 წელს ქსელმა გაიმარჯვა ImageNet LSVRC-2012 გამოსახულების ამოცნობის კონკურსში დიდი სხვაობით (15.3% შეცდომით მეორე ადგილზე 26.2%-ის წინააღმდეგ).

AlexNet-ის არქიტექტურა მსგავსია Yann LeCum-ის LeNet-ის. თუმცა, AlexNet-ს აქვს მეტი ფილტრი თითო ფენაზე და ჩასმული კონვოლუციური ფენები. ქსელი მოიცავს კონვოლუციებს, მაქსიმალურ გაერთიანებას, ამოვარდნას, მონაცემთა გაზრდას, ReLU აქტივაციას და სტოქასტურ გრადიენტულ დაცემას.

AlexNet-ის მახასიათებლები

  1. როგორც აქტივაციის ფუნქცია, Relu გამოიყენება არქტანგენტის ნაცვლად მოდელს არაწრფივობის დასამატებლად. ამის გამო, მეთოდის იგივე სიზუსტით, სიჩქარე 6-ჯერ უფრო სწრაფი ხდება.
  2. რეგულაციის ნაცვლად სწავლის მიტოვების გამოყენება გადაჭრის პრობლემას. თუმცა, ვარჯიშის დრო გაორმაგდება 0.5-ის მიტოვების სიხშირით.
  3. გადახურვის შეერთებები ხორციელდება ქსელის ზომის შესამცირებლად. ამის გამო, პირველი და მეხუთე დონის ცდომილების დონე მცირდება შესაბამისად 0.4%-მდე და 0.3%-მდე.

ImageNet მონაცემთა ნაკრები

ImageNet არის 15 მილიონი მაღალი გარჩევადობის მონიშნული სურათის კოლექცია, რომელიც დაყოფილია 22000 კატეგორიად. სურათები შეგროვდა ონლაინში და ხელით დაფიქსირდა ამაზონის Mechanical Turk ბრაუდსორსინგის გამოყენებით. 2010 წლიდან ყოველწლიური ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) იმართება Pascal Visual Object Challenge-ის ფარგლებში. გამოწვევა იყენებს ImageNet მონაცემთა ნაწილს 1000 გამოსახულებით თითოეულ 1000 კატეგორიაში. სულ 1,2 მილიონი სურათი მიიღება ტრენინგისთვის, 50 000 სურათი გადამოწმებისთვის და 150 000 ტესტირებისთვის. ImageNet შედგება სხვადასხვა გარჩევადობის სურათებისგან. ამიტომ, კონკურსისთვის, ისინი მასშტაბირებულია ფიქსირებულ გარჩევადობამდე 256 × 256. თუ ორიგინალური გამოსახულება იყო მართკუთხა, მაშინ ის ამოჭრილია გამოსახულების ცენტრში კვადრატზე.

არქიტექტურა

სურათი 1

ქსელის არქიტექტურა ნაჩვენებია სურათზე 1. AlexNet შეიცავს რვა შეწონილ ფენას. პირველი ხუთი მათგანი კონვოლუციურია, დანარჩენი სამი კი სრულად დაკავშირებულია. გამომავალი გადადის softmax დაკარგვის ფუნქციით, რომელიც წარმოქმნის 1000 კლასის ლეიბლის განაწილებას. ქსელი ახდენს მულტიწრფივი ლოგისტიკური რეგრესიის მაქსიმიზაციას, რაც ექვივალენტურია საშუალოს მაქსიმიზაციის ყველა სასწავლო შემთხვევის ლოგარითმის სწორი მარკირების ალბათობის მოლოდინის განაწილებაზე. მეორე, მეოთხე და მეხუთე კონვოლუციური შრეების ბირთვები ასოცირდება მხოლოდ წინა ფენის ბირთვის რუკებთან, რომლებიც იმავე GPU-ზეა. მესამე კონვოლუციური ფენის ბირთვები დაკავშირებულია მეორე ფენის ყველა ბირთვთან. სრულად დაკავშირებული ფენების ნეირონები დაკავშირებულია წინა ფენის ყველა ნეირონთან.

ამრიგად, AlexNet შეიცავს 5 კონვოლუციურ ფენას და 3 სრულად დაკავშირებულ ფენას. Relu გამოიყენება ყოველი კონვოლუციური და სრულად დაკავშირებული ფენის შემდეგ. ამოვარდნა გამოიყენება პირველი და მეორე სრულად დაკავშირებული ფენების წინ. ქსელი შეიცავს 62,3 მილიონ პარამეტრს და მოითხოვს 1,1 მილიარდ გამოთვლას წინ გადასასვლელზე. კონვოლუციური ფენები, რომლებიც შეადგენენ ყველა პარამეტრის 6%-ს, აკეთებენ გამოთვლების 95%-ს.

Განათლება

AlexNet გადის 90 ეპოქას. ტრენინგს 6 დღე სჭირდება ორ Nvidia Geforce GTX 580 GPU-ზე, რაც არის ქსელის ორად გაყოფის მიზეზი. სტოქასტური გრადიენტური დაღმართი გამოიყენება სწავლის სიჩქარით 0.01, იმპულსით 0.9 და წონების დაშლით 0.0005. სიზუსტის გაჯერების შემდეგ სწავლის სიჩქარე იყოფა 10-ზე და ვარჯიშის განმავლობაში მცირდება 3-ჯერ. შეწონვის კოეფიციენტის განახლების სქემა როგორც ჩანს:

სადაც მე- გამეორების ნომერი, არის იმპულსური ცვლადი და ეფსილონი- სწავლის მაჩვენებელი. ტრენინგის მთელი ეტაპის განმავლობაში, სწავლის სიჩქარე არჩეული იყო თანაბარი ყველა ფენისთვის და დარეგულირდა ხელით. შემდგომი ევრისტიკა იყო სწავლის სიჩქარის 10-ზე გაყოფა, როდესაც ვალიდაციის შეცდომების რაოდენობა შეჩერდა.

გამოყენებისა და განხორციელების მაგალითები

შედეგები აჩვენებს, რომ დიდ, ღრმა კონვოლუციურ ნერვულ ქსელს შეუძლია მიაღწიოს რეკორდულ შედეგებს ძალიან რთულ მონაცემთა ნაკრებებზე მხოლოდ ზედამხედველობითი სწავლის გამოყენებით. AlexNet-ის გამოქვეყნებიდან ერთი წლის შემდეგ, ImageNet-ის ყველა კონკურსანტმა დაიწყო კონვოლუციური ნერვული ქსელების გამოყენება კლასიფიკაციის პრობლემის გადასაჭრელად. AlexNet იყო კონვოლუციური ნეირონული ქსელების პირველი დანერგვა და დაიწყო კვლევის ახალი ერა. ახლა უფრო ადვილი გახდა AlexNet-ის დანერგვა ღრმა სწავლების ბიბლიოთეკების გამოყენებით: PyTorch, TensorFlow, Keras.

შედეგი

ქსელი აღწევს შემდეგი დონის 1 და 5 შეცდომის მაჩვენებლებს: 37.5% და 17.0%, შესაბამისად. ILSVRC-2010 კონკურსში მიღწეული საუკეთესო შესრულება იყო 47.1% და 28.2% მიდგომის გამოყენებით, რომელიც საშუალოდ აფასებს პროგნოზებს ექვსი იშვიათი კოდირების მოდელიდან, მომზადებული სხვადასხვა ფუნქციების ვექტორებზე. მას შემდეგ შედეგები მიღწეულია: 45.7% და 25.7% მიდგომის გამოყენებით, რომელიც საშუალოდ აფასებს ფიშერის ვექტორებზე მომზადებული ორი კლასიფიკატორის პროგნოზებს. ILSVRC-2010 შედეგები ნაჩვენებია ცხრილში 1.


მარცხნივ: რვა ILSVRC-2010 სატესტო სურათი და ხუთი ტეგი, რომელიც მოდელის აზრით, სავარაუდოდ. სწორი ეტიკეტი იწერება თითოეული სურათის ქვეშ და ალბათობა ნაჩვენებია წითელი ზოლით, თუ ის პირველ ხუთეულშია. მარჯვნივ: ხუთი ILSVRC-2010 სატესტო სურათი პირველ სვეტში. დარჩენილი სვეტები აჩვენებს ექვს სასწავლო სურათს. 1

ნერვული ქსელი არის მათემატიკური მოდელი და მისი განხორციელება პროგრამული უზრუნველყოფის ან აპარატურულ-პროგრამული განხორციელების სახით, რომელიც ეფუძნება ბიოლოგიური ნერვული ქსელების აქტივობის მოდელირებას, რომლებიც წარმოადგენს ნეირონების ქსელებს ბიოლოგიურ ორგანიზმში. მეცნიერული ინტერესი ამ სტრუქტურის მიმართ გაჩნდა, რადგან მისი მოდელის შესწავლა საშუალებას იძლევა მიიღონ ინფორმაცია გარკვეული სისტემის შესახებ. ანუ, ასეთ მოდელს შეიძლება ჰქონდეს პრაქტიკული განხორციელება თანამედროვე მეცნიერებისა და ტექნოლოგიების მთელ რიგ დარგებში. სტატიაში განხილულია ნერვული ქსელების გამოყენებასთან დაკავშირებული საკითხები, რომლებიც ფართოდ გამოიყენება უსაფრთხოების სისტემებში გამოსახულების იდენტიფიკაციის სისტემების შესაქმნელად. დეტალურად არის გამოკვლეული სურათების ამოცნობის ალგორითმის თემასთან და მის გამოყენებასთან დაკავშირებული საკითხები. მოკლედ გვაწვდის ინფორმაციას ნერვული ქსელების მომზადების მეთოდოლოგიის შესახებ.

ნეირონული ქსელები

სწავლა ნერვული ქსელებით

გამოსახულების ამოცნობა

ადგილობრივი აღქმის პარადიგმა

უსაფრთხოების სისტემები

1. იან ლეკუნი, ჯ. დენკერი, ს. სოლა, რ.ე. ჰოვარდი და ლ.დ. ჯეკელი: ტვინის ოპტიმალური დაზიანება, Touretzky, David (Eds), Advances in Neural Information Processing Systems 2 (NIPS * 89). - 2000 .-- 100 გვ.

2. ჟიგალოვი კ.იუ. ლაზერული დიაპაზონის მონაცემების ფოტორეალისტური ვექტორიზაციის მეთოდი GIS-ში შემდგომი გამოყენებისთვის // Izvestiya vysshikh uchebnykh zavod. გეოდეზია და აერო ფოტოგრაფია. - 2007. - No 6. - გვ 285–287.

3. Ranzato Marc'Aurelio, Christopher Poultney, Sumit Chopra და Yann LeCun: Efficient Learning of Sparse Representations with the Energy Based Model, J. Platt et al. (Eds), Advances in Neural Information Processing Systems (NIPS 2006). - 2010 .-- 400 გვ.

4. ჟიგალოვი კ.იუ. გზის მშენებლობის ავტომატური მართვის სისტემებში გამოსაყენებლად აღჭურვილობის მომზადება // საბუნებისმეტყველო და ტექნიკური მეცნიერებები. - მ., 2014. - No1 (69). - S. 285–287.

5. Y. LeCun and Y. Bengio: Convolutional Networks for Images, Speech, and Time-Series, in Arbib, M. A. (eds) // The Handbook of Brain Theory and Neural Networks. - 2005 .-- 150გვ.

6. Y. LeCun, L. Bottou, G. Orr and K. Muller: Efficient BackProp, in Orr, G. and K. Muller (Eds) // Neural Networks: Tricks of the trade. - 2008 .-- 200 გვ.

დღეს ტექნოლოგიური და კვლევითი პროგრესი მოიცავს ყველა ახალ ჰორიზონტს, რომელიც სწრაფად ვითარდება. ერთ-ერთი მათგანია მიმდებარე ბუნებრივი სამყაროს მოდელირება მათემატიკური ალგორითმების გამოყენებით. ამ ასპექტში არის ტრივიალური, მაგალითად, ზღვის ვიბრაციების მოდელირება და უკიდურესად რთული, არატრივიალური, მრავალკომპონენტიანი ამოცანები, მაგალითად, ადამიანის ტვინის ფუნქციონირების მოდელირება. ამ საკითხის შესწავლის პროცესში გამოიკვეთა ცალკე კონცეფცია - ნერვული ქსელი. ნერვული ქსელი არის მათემატიკური მოდელი და მისი განხორციელება პროგრამული უზრუნველყოფის ან აპარატურულ-პროგრამული განხორციელების სახით, რომელიც ეფუძნება ბიოლოგიური ნერვული ქსელების აქტივობის მოდელირებას, რომლებიც წარმოადგენს ნეირონების ქსელებს ბიოლოგიურ ორგანიზმში. მეცნიერული ინტერესი ამ სტრუქტურის მიმართ გაჩნდა, რადგან მისი მოდელის შესწავლა საშუალებას იძლევა მიიღონ ინფორმაცია გარკვეული სისტემის შესახებ. ანუ, ასეთ მოდელს შეიძლება ჰქონდეს პრაქტიკული განხორციელება თანამედროვე მეცნიერებისა და ტექნოლოგიების მთელ რიგ დარგებში.

ნერვული ქსელების განვითარების მოკლე ისტორია

აღსანიშნავია, რომ თავდაპირველად „ნერვული ქსელის“ ცნება სათავეს იღებს ამერიკელი მათემატიკოსების, ნეიროლინგვისტებისა და ნეიროფსიქოლოგების W. McCulloch-ისა და W. Pitts-ის (1943) ნაშრომებში, სადაც ავტორები პირველად ახსენებენ მას, განსაზღვრავენ და აკეთებენ პირველ მცდელობას. შექმენით მოდელის ნერვული ქსელი. უკვე 1949 წელს D. Hebb-მა შემოგვთავაზა პირველი სასწავლო ალგორითმი. შემდეგ ჩატარდა მრავალი კვლევა ნერვული სწავლების სფეროში და პირველი სამუშაო პროტოტიპები გამოჩნდა დაახლოებით 1990-1991 წლებში. ბოლო საუკუნე. მიუხედავად ამისა, იმდროინდელი აღჭურვილობის გამოთვლითი ძალა არ იყო საკმარისი ნერვული ქსელების საკმარისად სწრაფი მუშაობისთვის. 2010 წლისთვის საგრძნობლად გაიზარდა GPU ვიდეო ბარათების სიმძლავრე და გაჩნდა უშუალოდ ვიდეო ბარათებზე პროგრამირების კონცეფცია, რამაც საგრძნობლად (3-4-ჯერ) გაზარდა კომპიუტერების მუშაობა. 2012 წელს ნერვულმა ქსელებმა პირველად მოიგეს ImageNet ჩემპიონატი, რამაც აღნიშნა მათი შემდგომი სწრაფი განვითარება და ტერმინი ღრმა სწავლება.

თანამედროვე სამყაროში ნერვულ ქსელებს აქვთ კოლოსალური გაშუქება, მეცნიერები მიიჩნევენ, რომ კვლევა ჩატარდა ნერვული ქსელების ქცევითი მახასიათებლებისა და მდგომარეობის შესწავლის სფეროში, უკიდურესად იმედისმომცემად. იმ სფეროების სია, რომლებშიც ნერვულმა ქსელებმა იპოვეს გამოყენება, უზარმაზარია. ეს მოიცავს სურათების ამოცნობას და კლასიფიკაციას, პროგნოზირებას, დაახლოების პრობლემების გადაწყვეტას და მონაცემთა შეკუმშვის ზოგიერთ ასპექტს, მონაცემთა ანალიზს და, რა თქმა უნდა, გამოყენებას სხვადასხვა ხასიათის უსაფრთხოების სისტემებში.

ნერვული ქსელების შესწავლა აქტიურად მიმდინარეობს სხვადასხვა ქვეყნის სამეცნიერო საზოგადოებაში. ასეთი გათვალისწინებით, იგი წარმოდგენილია, როგორც ნიმუშის ამოცნობის რიგი მეთოდების, დისკრიმინაციული ანალიზისა და კლასტერიზაციის მეთოდების განსაკუთრებული შემთხვევა.

აქვე უნდა აღინიშნოს, რომ გასული წლის განმავლობაში გამოსახულების ამოცნობის სისტემების სფეროში სტარტაპებისთვის დაფინანსება წინა 5 წელზე მეტია გამოიყო, რაც ბოლო ბაზარზე ამ ტიპის განვითარებაზე საკმაოდ მაღალ მოთხოვნაზე მიუთითებს.

ნეირონული ქსელების გამოყენება გამოსახულების ამოცნობისთვის

განვიხილოთ სტანდარტული ამოცანები, რომლებიც გადაჭრილია ნერვული ქსელებით სურათებზე გამოყენებისას:

● ობიექტების ამოცნობა;

● საგნების ნაწილების ამოცნობა (მაგალითად, სახეები, მკლავები, ფეხები და ა.შ.);

● ობიექტების საზღვრების სემანტიკური განსაზღვრა (გაძლევს საშუალებას სურათზე დატოვო მხოლოდ ობიექტების საზღვრები);

● სემანტიკური სეგმენტაცია (გამოსახულების დაყოფის საშუალებას გაძლევთ სხვადასხვა ცალკეულ ობიექტებად);

● ზედაპირული ნორმალების შერჩევა (საშუალებას გაძლევთ გადაიყვანოთ ორგანზომილებიანი გამოსახულება სამგანზომილებიან სურათებად);

● ყურადღების ობიექტების ხაზგასმა (საშუალებას გაძლევთ განსაზღვროთ რას მიაქცევს ადამიანი ყურადღებას მოცემულ სურათზე).

უნდა აღინიშნოს, რომ გამოსახულების ამოცნობის პრობლემას თვალწარმტაცი ხასიათი აქვს, ამ პრობლემის გადაწყვეტა რთული და არაჩვეულებრივი პროცესია. ამოცნობის ჩატარებისას ობიექტი შეიძლება იყოს ადამიანის სახე, ხელნაწერი ციფრი, ისევე როგორც მრავალი სხვა ობიექტი, რომელიც ხასიათდება მთელი რიგი უნიკალური მახასიათებლებით, რაც მნიშვნელოვნად ართულებს იდენტიფიკაციის პროცესს.

ამ კვლევაში განვიხილავთ ალგორითმს ნერვული ქსელის ხელნაწერი სიმბოლოების შექმნისა და ამოცნობის სწავლისთვის. გამოსახულება წაიკითხება ნერვული ქსელის ერთ-ერთი შეყვანით და ერთ-ერთი გამოსავალი იქნება გამოყენებული შედეგის გამოსატანად.

ამ ეტაპზე საჭიროა მოკლედ ვისაუბროთ ნერვული ქსელების კლასიფიკაციაზე. დღეს სამი ძირითადი ტიპია:

● კონვოლუციური ნერვული ქსელები (CNN);

● განმეორებადი ქსელები (ღრმა სწავლება);

● განმამტკიცებელი სწავლა.

ნერვული ქსელის აგების ერთ-ერთი ყველაზე გავრცელებული მაგალითია ნერვული ქსელის კლასიკური ტოპოლოგია. ასეთი ნერვული ქსელი შეიძლება წარმოდგენილი იყოს როგორც სრულად დაკავშირებული გრაფიკი, მისი დამახასიათებელი ნიშანია ინფორმაციის წინ გავრცელება და შეცდომის შესახებ სიგნალის უკან გავრცელება. ამ ტექნოლოგიას არ აქვს რეკურსიული თვისებები. საილუსტრაციო ნერვული ქსელი კლასიკური ტოპოლოგიით შეიძლება გამოსახული იყოს ნახ. 1.

ბრინჯი. 1. ნერვული ქსელი უმარტივესი ტოპოლოგიით

ბრინჯი. 2. ნერვული ქსელი ფარული ნეირონების 4 ფენით

ამ ქსელის ტოპოლოგიის ერთ-ერთი აშკარად მნიშვნელოვანი მინუსი არის სიჭარბე. სიჭარბის გამო მონაცემების მიწოდებისას, მაგალითად, ორგანზომილებიანი მატრიცის სახით შეყვანისას, შეიძლება მიიღოთ ერთგანზომილებიანი ვექტორი. ასე რომ, 34x34 მატრიცის გამოყენებით აღწერილი ხელნაწერი ლათინური ასოს გამოსახულებაზე საჭიროა 1156 შეყვანა. ეს ვარაუდობს, რომ ამ ალგორითმის პროგრამული და აპარატურის გადაწყვეტის განხორციელებაზე დახარჯული გამოთვლითი ძალა ძალიან დიდი იქნება.

პრობლემა გადაჭრა ამერიკელმა მეცნიერმა იან ლე კუმმა, რომელმაც გააანალიზა მედიცინაში ნობელის პრემიის ლაურეატთა ტ.ვტესელისა და დ.ჰუბელის მუშაობა. მათი კვლევის ფარგლებში, კვლევის ობიექტი იყო კატის ტვინის ვიზუალური ქერქი. შედეგების ანალიზმა აჩვენა, რომ ქერქი შეიცავს უამრავ მარტივ უჯრედს, ასევე უამრავ რთულ უჯრედს. მარტივი უჯრედები რეაგირებდნენ ვიზუალური რეცეპტორებიდან მიღებულ სწორი ხაზების გამოსახულებაზე, ხოლო რთული უჯრედები - მთარგმნელობით მოძრაობაზე ერთი მიმართულებით. შედეგად, განვითარდა ნერვული ქსელების აგების პრინციპი, რომელსაც უწოდებენ კონვოლუციონალურს. ამ პრინციპის იდეა იყო, რომ ნერვული ქსელის ფუნქციონირების განსახორციელებლად, კონვოლუციური ფენების მონაცვლეობა, რომლებიც ჩვეულებრივ აღინიშნება, როგორც C - ფენები, ქვენიმუშების ფენები S - ფენები და სრულად დაკავშირებული ფენები F - ფენები, გამოსავალზე. გამოიყენება ნერვული ქსელი.

ამ ტიპის ქსელის აგების ცენტრშია სამი პარადიგმა - ლოკალური აღქმის პარადიგმა, საერთო წონის პარადიგმა და ქვენიმუშების პარადიგმა.

ადგილობრივი აღქმის პარადიგმის არსი იმაში მდგომარეობს, რომ გამოსახულების მთელი მატრიცა არ მიეწოდება თითოეულ შეყვანის ნეირონს, არამედ მის ნაწილს. დანარჩენი ნაწილები მიეწოდება სხვა შეყვანის ნეირონებს. ამ შემთხვევაში, შეგიძლიათ დააკვირდეთ პარალელიზების მექანიზმს, ამ მეთოდის გამოყენებით შეგიძლიათ შეინახოთ გამოსახულების ტოპოლოგია ფენიდან ფენამდე, მრავალგანზომილებიანად დაამუშავოთ იგი, ანუ დამუშავების დროს შეიძლება გამოყენებულ იქნას მრავალი ნერვული ქსელი.

საერთო წონის პარადიგმა ვარაუდობს, რომ წონის მცირე ნაკრები შეიძლება გამოყენებულ იქნას მრავალი ურთიერთობისთვის. ამ კომპლექტებს ასევე უწოდებენ "ბირთვებს". გამოსახულების დამუშავების საბოლოო შედეგისთვის შეგვიძლია ვთქვათ, რომ საერთო წონები დადებითად მოქმედებს ნერვული ქსელის თვისებებზე, რომლის ქცევის შესწავლა ზრდის სურათებში ინვარიანტების პოვნის და ხმაურის კომპონენტების გაფილტვრის უნარს მათი დამუშავების გარეშე.

ზემოაღნიშნულიდან გამომდინარე, შეგვიძლია დავასკვნათ, რომ ბირთვის საფუძველზე გამოსახულების დასაკეცი პროცედურის გამოყენებისას, გამოჩნდება გამომავალი სურათი, რომლის ელემენტები იქნება ფილტრის შესაბამისობის ხარისხის მთავარი მახასიათებელი, ანუ შეიქმნება ფუნქციური რუკა. ეს ალგორითმი ნაჩვენებია ნახ. 3.

ბრინჯი. 3. ფუნქციური რუკის გენერირების ალგორითმი

ქვენიმუშების პარადიგმა არის ის, რომ შეყვანის სურათი მცირდება მისი მათემატიკური ეკვივალენტის - n-განზომილებიანი მატრიცის სივრცითი განზომილების შემცირებით. ქვენიმუშების აღების საჭიროება გამოიხატება ორიგინალური სურათის მასშტაბის უცვლელობაში. ალტერნატიული ფენების ტექნიკის გამოყენებისას შესაძლებელი ხდება ახალი ფუნქციების რუქების გენერირება არსებულიდან, ანუ ამ მეთოდის პრაქტიკული განხორციელება მოიცავს იმ ფაქტს, რომ მრავალგანზომილებიანი მატრიცის გადაგვარების შესაძლებლობა ვექტორულ მატრიცაში, შემდეგ კი მთლიანად. შეძენილი იქნება სკალარული მნიშვნელობა.

ნერვული ქსელის ტრენინგის განხორციელება

არსებული ქსელები სწავლის თვალსაზრისით იყოფა არქიტექტურის 3 კლასად:

● ზედამხედველობითი სწავლება (აღქმა);

● უკონტროლო სწავლა (ადაპტური რეზონანსული ქსელები);

● შერეული სწავლება (რადიალური ბაზის ფუნქციების ქსელები).

სურათის ამოცნობის შემთხვევაში ნერვული ქსელის მუშაობის შეფასების ერთ-ერთი ყველაზე მნიშვნელოვანი კრიტერიუმია გამოსახულების ამოცნობის ხარისხი. უნდა აღინიშნოს, რომ სურათის ამოცნობის ხარისხის რაოდენობრივი შეფასებისთვის, ნერვული ქსელის ფუნქციონირების გამოყენებით, ყველაზე ხშირად გამოიყენება root-საშუალო კვადრატული შეცდომის ალგორითმი:

(1)

ამ დამოკიდებულებაში, Ep არის p-th ამოცნობის შეცდომა ნეირონების წყვილისთვის,

Dp არის ნერვული ქსელის მოსალოდნელი გამომავალი შედეგი (ჩვეულებრივ, ქსელი უნდა იბრძოდეს 100% ამოცნობისკენ, მაგრამ ეს პრაქტიკაში არ ხდება), ხოლო კონსტრუქცია O (Ip, W) 2 არის ქსელის გამომავალი კვადრატი, რომელიც დამოკიდებულია pth შეყვანაზე და კომპლექტზე წონის კოეფიციენტები W. ეს კონსტრუქცია მოიცავს როგორც კონვოლუციის ბირთვებს, ასევე ყველა ფენის წონის კოეფიციენტებს. შეცდომის გამოთვლა შედგება ნეირონების ყველა წყვილის საშუალო არითმეტიკული მნიშვნელობის გამოთვლაში.

ანალიზის შედეგად გამოიკვეთა კანონზომიერება, რომ წონის ნომინალური მნიშვნელობა, როდესაც შეცდომის მნიშვნელობა მინიმალურია, შეიძლება გამოითვალოს ურთიერთობის საფუძველზე (2):

(2)

ამ დამოკიდებულებიდან შეგვიძლია ვთქვათ, რომ ოპტიმალური წონის გამოთვლის პრობლემაა პირველი რიგის შეცდომის ფუნქციის წარმოებულის არითმეტიკული სხვაობა წონასთან მიმართებაში, გაყოფილი მეორე რიგის შეცდომის ფუნქციის წარმოებულზე.

მოცემული დამოკიდებულებები შესაძლებელს ხდის ტრივიალურად გამოთვალოს შეცდომის გამომავალი ფენა. ნეირონების ფარულ ფენებში შეცდომის გამოთვლა შეიძლება განხორციელდეს შეცდომის უკან გავრცელების მეთოდის გამოყენებით. მეთოდის მთავარი იდეაა ინფორმაციის გავრცელება, შეცდომის სიგნალიზაციის სახით, გამომავალი ნეირონებიდან შეყვანის ნეირონებამდე, ანუ ნერვული ქსელის მეშვეობით სიგნალების გავრცელების საწინააღმდეგო მიმართულებით.

აღსანიშნავია ისიც, რომ ქსელის სწავლება ტარდება სპეციალურად მომზადებულ სურათების მონაცემთა ბაზებზე, რომლებიც კლასიფიცირებულია დიდ კლასებად და საკმაოდ დიდ დროს იღებს.
დღეს ყველაზე დიდი მონაცემთა ბაზაა ImageNet (www.image_net.org). მას აქვს თავისუფალი წვდომა აკადემიურ დაწესებულებებთან.

დასკვნა

ზემოაღნიშნულის შედეგად უნდა აღინიშნოს, რომ ნერვული ქსელები და ალგორითმები, დანერგილი მათი ფუნქციონირების პრინციპით, შეიძლება გამოყენებულ იქნეს შიდა საქმეთა ორგანოებისთვის თითის ანაბეჭდის ბარათის ამოცნობის სისტემებში. ხშირად, ეს არის პროგრამული უზრუნველყოფის და აპარატურის კომპლექსის პროგრამული კომპონენტი, რომელიც მიზნად ისახავს ისეთი უნიკალური რთული გამოსახულების ამოცნობას, როგორიცაა ნახატი, რომელიც არის საიდენტიფიკაციო მონაცემები, რომელიც სრულად არ წყვეტს მისთვის დაკისრებულ ამოცანებს. ნერვულ ქსელზე დაფუძნებული ალგორითმებზე დაფუძნებული პროგრამა გაცილებით ეფექტური იქნება.

შეჯამებისთვის, შეგვიძლია შევაჯამოთ შემდეგი:

● ნერვულ ქსელებს შეუძლიათ იპოვონ გამოყენება, როგორც სურათების, ასევე ტექსტების ამოცნობის საკითხში;

● ეს თეორია შესაძლებელს ხდის ვისაუბროთ მოდელების ახალი პერსპექტიული კლასის, კერძოდ, ინტელექტუალურ მოდელირებაზე დაფუძნებული მოდელების შექმნაზე;

● ნერვულ ქსელებს შეუძლიათ სწავლა, რაც მიუთითებს პროცესის ფუნქციონირების ოპტიმიზაციის შესაძლებლობაზე. ეს შესაძლებლობა უაღრესად მნიშვნელოვანი ვარიანტია ალგორითმის პრაქტიკული განხორციელებისთვის;

● ნიმუშების ამოცნობის ალგორითმის შეფასებას ნერვული ქსელის კვლევის გამოყენებით შეიძლება ჰქონდეს რაოდენობრივი მნიშვნელობა, შესაბამისად, არსებობს პარამეტრების მორგების მექანიზმები საჭირო სიდიდეზე საჭირო წონის კოეფიციენტების გამოთვლით.

დღეს, ნერვული ქსელების შემდგომი კვლევა, როგორც ჩანს, პერსპექტიული კვლევის სფეროა, რომელიც წარმატებით იქნება გამოყენებული მეცნიერებისა და ტექნოლოგიების კიდევ უფრო მეტ დარგში, ისევე როგორც ადამიანის საქმიანობაში. ამოცნობის თანამედროვე სისტემების შემუშავების მთავარი აქცენტი ახლა გადადის 3D სურათების სემანტიკური სეგმენტაციის სფეროში გეოდეზიაში, მედიცინაში, პროტოტიპირებაში და ადამიანის საქმიანობის სხვა სფეროებში - ეს საკმაოდ რთული ალგორითმებია და ეს გამოწვეულია:

● საცნობარო სურათების მონაცემთა ბაზების საკმარისი რაოდენობის ნაკლებობა;

● სისტემის საწყისი მომზადებისთვის საკმარისი რაოდენობის უფასო ექსპერტების არარსებობა;

● სურათები არ ინახება პიქსელებში, რაც მოითხოვს დამატებით რესურსებს როგორც კომპიუტერისგან, ასევე დეველოპერებისგან.

აქვე უნდა აღინიშნოს, რომ დღეს არსებობს დიდი რაოდენობით სტანდარტული არქიტექტურა ნერვული ქსელების ასაგებად, რაც მნიშვნელოვნად უწყობს ხელს ნერვული ქსელის აგების ამოცანას ნულიდან და ამცირებს მას კონკრეტული ამოცანისთვის შესაფერისი ქსელის სტრუქტურის არჩევამდე.

ამჟამად ბაზარზე საკმაოდ დიდია ინოვაციური კომპანიები, რომლებიც დაკავებულნი არიან გამოსახულების ამოცნობით სისტემისთვის ნერვული ქსელის სასწავლო ტექნოლოგიების გამოყენებით. დანამდვილებით ცნობილია, რომ მათ მიაღწიეს სურათის ამოცნობის სიზუსტეს რეგიონში 95% 10000 სურათის მონაცემთა ბაზის გამოყენებით. მიუხედავად ამისა, ყველა მიღწევა ეხება სტატიკურ სურათებს, ვიდეოს თანმიმდევრობით ამ მომენტში ყველაფერი ბევრად უფრო რთულია.

ბიბლიოგრაფიული მითითება

მარკოვა ს.ვ., ჟიგალოვი კ.იუ. გამოსახულების ამოცნობის სისტემის შესაქმნელად ნერვული ქსელის გამოყენება // ფუნდამენტური კვლევა. - 2017. - No8-1. - S. 60-64;
URL: http://fundamental-research.ru/ru/article/view?id=41621 (წვდომის თარიღი: 03.24. თქვენს ყურადღებას ვაწვდით "საბუნებისმეტყველო მეცნიერებათა აკადემიის" მიერ გამოცემულ ჟურნალებს.

მეგობრებო, ჩვენ ვაგრძელებთ ისტორიას ნეირონული ქსელების შესახებ, რომელიც ბოლოჯერ დავიწყეთ და ამის შესახებ.

რა არის ნერვული ქსელი

უმარტივეს შემთხვევაში, ნერვული ქსელი არის მათემატიკური მოდელი, რომელიც შედგება ელემენტების რამდენიმე ფენისგან, რომლებიც ასრულებენ პარალელურ გამოთვლებს. თავდაპირველად, ასეთი არქიტექტურა შეიქმნა ადამიანის ტვინის უმცირესი გამოთვლითი ელემენტების - ნეირონების ანალოგიით. ხელოვნური ნერვული ქსელის უმცირეს გამოთვლით ელემენტებს ასევე უწოდებენ ნეირონებს. ნერვული ქსელები ჩვეულებრივ შედგება სამი ან მეტი ფენისგან: შეყვანის ფენა, ფარული ფენა (ან ფენები) და გამომავალი ფენა (ნახ. 1), ზოგიერთ შემთხვევაში არ არის გათვალისწინებული შემავალი და გამომავალი ფენები, შემდეგ კი რაოდენობა. შრეები ქსელში დათვლილია ფარული ფენების რაოდენობით. ამ ტიპის ნერვულ ქსელს პერცეპტრონი ეწოდება.

ბრინჯი. 1. უმარტივესი პერცეპტრონი

ნერვული ქსელის მნიშვნელოვანი მახასიათებელია მისი მაგალითით სწავლის უნარი, ამას ეწოდება ზედამხედველობითი სწავლება. ნერვული ქსელი ივარჯიშება მაგალითების დიდ რაოდენობაზე, რომლებიც შედგება შემავალი-გამომავალი წყვილებისგან (შემავალი და გამომავალი ერთმანეთს შეესაბამება). ობიექტების ამოცნობის პრობლემებში ასეთი წყვილი იქნება შეყვანის სურათი და შესაბამისი ეტიკეტი - ობიექტის სახელი. ნერვული ქსელის სწავლება არის განმეორებითი პროცესი, რომელიც ამცირებს ქსელის გამომავალი გადახრას მოცემული „მასწავლებლის პასუხიდან“ - მოცემული სურათის შესაბამისი ეტიკეტი (ნახ. 2). ეს პროცესი შედგება საფეხურებისგან, რომლებსაც სასწავლო ეპოქები ეწოდება (ისინი, როგორც წესი, ათასობითა), რომელთაგან თითოეულში რეგულირდება ნერვული ქსელის „წონები“ - ქსელის ფარული ფენების პარამეტრები. ტრენინგის პროცესის დასრულების შემდეგ, ნერვული ქსელის ხარისხი, როგორც წესი, საკმარისად კარგია იმ დავალების შესასრულებლად, რისთვისაც იგი ვარჯიშობდა, თუმცა პარამეტრების ოპტიმალური ნაკრები, რომელიც შესანიშნავად ამოიცნობს ყველა სურათს, ხშირად შეუძლებელია.


ბრინჯი. 2. ნერვული ქსელის სწავლება

რა არის ღრმა ნერვული ქსელები

ღრმა ან ღრმა ნერვული ქსელები არის ნერვული ქსელები, რომლებიც შედგება რამდენიმე ფარული ფენისგან (ნახ. 3). ეს ფიგურა არის ღრმა ნერვული ქსელის გამოსახულება, რაც მკითხველს აძლევს ზოგად წარმოდგენას იმის შესახებ, თუ როგორ გამოიყურება ნერვული ქსელი. თუმცა ღრმა ნერვული ქსელების რეალური არქიტექტურა გაცილებით რთულია.


ბრინჯი. 3. ნერვული ქსელი მრავალი ფარული ფენით

კონვოლუციური ნერვული ქსელების შემქმნელები, რა თქმა უნდა, პირველად იყვნენ შთაგონებული ვიზუალური სისტემის ბიოლოგიური სტრუქტურებით. პირველი გამოთვლითი მოდელები, რომლებიც დაფუძნებულია პრიმატების იერარქიული ვიზუალური ნაკადის კონცეფციაზე, ცნობილია როგორც ფუკუშიმა ნეოკოგნიტრონი (სურათი 4). ვიზუალური სისტემის ფიზიოლოგიის თანამედროვე გაგება მსგავსია ინფორმაციის დამუშავების ტიპის კონვოლუციურ ქსელებში, ყოველ შემთხვევაში, ობიექტების სწრაფი ამოცნობისთვის.


ბრინჯი. 4. დიაგრამა, რომელიც აჩვენებს კავშირებს ფენებს შორის ნეოკოგნიტრონის მოდელში.

მოგვიანებით, ეს კონცეფცია განხორციელდა კანადელმა მკვლევარმა იან ლეკიუნმა თავის კონვოლუციურ ნერვულ ქსელში, რომელიც მან შექმნა ხელნაწერი სიმბოლოების ამოცნობისთვის. ეს ნერვული ქსელი შედგებოდა ორი ტიპის შრისგან: კონვოლუციური შრეები და ქვენიმუშების შრეები (ან გაერთიანებული ფენები). მასში თითოეულ ფენას აქვს ტოპოგრაფიული სტრუქტურა, ანუ თითოეული ნეირონი ასოცირდება ორიგინალური გამოსახულების ფიქსირებულ წერტილთან, ასევე მიმღებ ველთან (შეყვანის გამოსახულების ფართობი, რომელიც მუშავდება ამ ნეირონით). თითოეულ ფენაში თითოეულ ადგილას არის რამდენიმე განსხვავებული ნეირონი, თითოეულს აქვს შეყვანის წონის საკუთარი ნაკრები, რომლებიც დაკავშირებულია ნეირონებთან წინა ფენის მართკუთხა ნაჭერში. სხვადასხვა შეყვანის მართკუთხა ფრაგმენტები ერთიდაიგივე წონით ასოცირდება სხვადასხვა მდებარეობის ნეირონებთან.

ღრმა ნერვული ქსელის ზოგადი არქიტექტურა შაბლონის ამოცნობისთვის ნაჩვენებია სურათზე 5. შეყვანის სურათი წარმოდგენილია როგორც პიქსელების ნაკრები ან გამოსახულების მცირე არეები (მაგალითად, 5-დან 5 პიქსელზე)


ბრინჯი. 5. კონვოლუციური ნერვული ქსელის დიაგრამა

როგორც წესი, ღრმა ნერვული ქსელები გამოსახულია გამარტივებული ფორმით: დამუშავების ეტაპებად, რომლებსაც ზოგჯერ ფილტრებსაც უწოდებენ. თითოეული ეტაპი განსხვავდება მეორისგან რამდენიმე მახასიათებლით, როგორიცაა მიმღები ველის ზომით, ფუნქციების ტიპით, რომელსაც ქსელი სწავლობს მოცემულ ფენაში ამოცნობას და თითოეულ ეტაპზე შესრულებული გამოთვლის ტიპი.

ღრმა ნერვული ქსელების გამოყენების სფეროები, კონვოლუციური ქსელების ჩათვლით, არ შემოიფარგლება სახის ამოცნობით. ისინი ფართოდ გამოიყენება მეტყველებისა და აუდიო სიგნალების ამოცნობისთვის, სხვადასხვა ტიპის სენსორებიდან წაკითხვის დასამუშავებლად, ან რთული მრავალშრიანი სურათების სეგმენტაციისთვის (როგორიცაა სატელიტური რუქები) ან სამედიცინო გამოსახულებები (რენტგენის სურათები, fMRI სურათები - იხ.).

ნერვული ქსელები ბიომეტრიაში და სახის ამოცნობაში

ამოცნობის მაღალი სიზუსტის მისაღწევად, ნერვული ქსელი წინასწარ არის გაწვრთნილი სურათების დიდ მასივზე, მაგალითად, როგორიცაა MegaFace მონაცემთა ბაზაში. ეს არის სახის ამოცნობის ძირითადი ტრენინგის მეთოდი.


ბრინჯი. 6. MegaFace მონაცემთა ბაზა შეიცავს 690 ათასზე მეტი ადამიანის 1 მილიონ სურათს

მას შემდეგ, რაც ქსელი გაივლის ტრენინგს სახეების ამოცნობაში, სახის ამოცნობის პროცესი შეიძლება აღწერილი იყოს შემდეგნაირად (სურათი 7). პირველ რიგში, გამოსახულება მუშავდება სახის დეტექტორის გამოყენებით: ალგორითმი, რომელიც ამოიცნობს გამოსახულების მართკუთხა მონაკვეთს სახესთან ერთად. ეს ფრაგმენტი ნორმალიზდება, რათა გაადვილდეს ნერვული ქსელის მიერ დამუშავება: საუკეთესო შედეგი მიიღწევა, თუ ყველა შეყვანილი სურათი იქნება იგივე ზომის, ფერის და ა.შ. ალგორითმის მიხედვით. ეს ალგორითმი, როგორც წესი, კომპანიის უნიკალური განვითარებაა ამოცნობის ხარისხის გასაუმჯობესებლად, მაგრამ ასევე არსებობს ამ პრობლემის „სტანდარტული“ გადაწყვეტილებები. ნერვული ქსელი ქმნის უნიკალურ მახასიათებლის ვექტორს, რომელიც შემდეგ გადადის მონაცემთა ბაზაში. საძიებო სისტემა ადარებს მას მონაცემთა ბაზაში შენახულ ფუნქციების ყველა ვექტორთან და იძლევა ძიების შედეგს გარკვეული რაოდენობის სახელების ან მომხმარებლის პროფილების სახით მსგავსი სახის მახასიათებლებით, რომელთაგან თითოეულს ენიჭება გარკვეული ნომერი. ეს რიცხვი წარმოადგენს ჩვენი ფუნქციების ვექტორის მსგავსების ხარისხს მონაცემთა ბაზაში აღმოჩენილ ვექტორთან.


ბრინჯი. 7. სახის ამოცნობის პროცესი

ალგორითმის ხარისხის განსაზღვრა

სიზუსტე

როდესაც ვირჩევთ რომელი ალგორითმი გამოვიყენოთ ობიექტის ან სახის ამოცნობის პრობლემაზე, უნდა გვქონდეს სხვადასხვა ალგორითმის ეფექტურობის შედარების საშუალება. ამ ნაწილში ჩვენ აღვწერთ ინსტრუმენტებს, რომლითაც ეს კეთდება.

სახის ამოცნობის სისტემის ხარისხი ფასდება მეტრიკის ნაკრების გამოყენებით, რომელიც შეესაბამება ბიომეტრიის გამოყენებით ავტორიზაციის სისტემის გამოყენების ტიპურ სცენარებს.

როგორც წესი, ნებისმიერი ნერვული ქსელის ეფექტურობა შეიძლება შეფასდეს სიზუსტით: პარამეტრების დაყენების და ტრენინგის პროცესის დასრულების შემდეგ, ქსელი ტესტირება ხდება სატესტო კომპლექტზე, რომელზეც გვაქვს მასწავლებლის პასუხი, მაგრამ რომელიც განცალკევებულია. სავარჯიშო კომპლექტი. როგორც წესი, ეს პარამეტრი არის რაოდენობრივი საზომი: რიცხვი (ხშირად პროცენტულად), რომელიც მიუთითებს რამდენად კარგად შეუძლია სისტემას ამოიცნოს ახალი ობიექტები. კიდევ ერთი გავრცელებული ზომა არის შეცდომა (ის შეიძლება გამოიხატოს პროცენტულად ან რიცხვითი ეკვივალენტით). თუმცა, არსებობს უფრო ზუსტი ზომები ბიომეტრიისთვის.

ზოგადად ბიომეტრიაში და კონკრეტულად სახის ამოცნობის ბიომეტრიაში, არსებობს ორი სახის აპლიკაცია: გადამოწმება და იდენტიფიკაცია. ვერიფიკაცია არის გარკვეული იდენტურობის დადასტურების პროცესი ინდივიდის გამოსახულების (სახის თვისებების ვექტორის ან თვისებების სხვა ვექტორის, მაგალითად, ბადურის ან თითის ანაბეჭდების) გამოსახულების შედარებით ერთ ან რამდენიმე ადრე შენახულ შაბლონთან. იდენტიფიკაცია არის ინდივიდის ვინაობის დადგენის პროცესი. ბიომეტრიული ნიმუშები გროვდება და შედარებულია მონაცემთა ბაზის ყველა შაბლონთან. არსებობს იდენტიფიკაცია მახასიათებლების დახურულ კომპლექტში, თუ ვარაუდობენ, რომ ადამიანი არსებობს მონაცემთა ბაზაში. ამრიგად, აღიარება აერთიანებს ერთ ან ორივე ტერმინს - ვერიფიკაციას და იდენტიფიკაციას.

ხშირად, შედარების პირდაპირი შედეგის გარდა, საჭიროა სისტემის „ნდობის“ დონის შეფასება მის გადაწყვეტილებაში. ამ მნიშვნელობას ეწოდება "მსგავსების ქულა" (ან მსგავსების ქულა). უფრო მაღალი მსგავსების ქულა მიუთითებს იმაზე, რომ ორი შედარებული ბიომეტრიული ნიმუში უფრო მსგავსია.

არსებობს სისტემის ხარისხის შეფასების მრავალი მეთოდი (როგორც შემოწმების, ასევე იდენტიფიკაციის ამოცანისთვის). მათზე შემდეგ ჯერზე ვისაუბრებთ. და თქვენ დარჩით ჩვენთან და ნუ მოგერიდებათ კომენტარების დატოვება და კითხვების დასმა.

შენიშვნები

  1. ფუკუშიმა (1980) "ნეოკოგნიტრონი: თვითორგანიზებული ნერვული ქსელის მოდელი ნიმუშის ამოცნობის მექანიზმისთვის, რომელიც გავლენას არ ახდენს პოზიციის შეცვლაზე", ბიოლოგიური კიბერნეტიკა.
  2. ლეკუნი, ბ.ბოზერი, ჯ.ს. დენკერი, დ.ჰენდერსონი, რ.ე. ჰოვარდი, W. Hubbard და L.D. Jackel (1989) "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, ტ. 1, გვ., 541-551.
  3. Jiaxuan You, Xiaocheng Li, Melvin Low, David Lobell, Stefano Ermon Deep Gaussian პროცესი მოსავლის მოსავლიანობის პროგნოზირებისთვის დისტანციური ზონდირების მონაცემებზე დაყრდნობით.
  4. იან გუდფელოუ, იოშუა ბენჯიო, აარონ კურვილი (2016) ღრმა სწავლება. MIT პრესა.
  5. პოჰ, C-H. Chan, J. Kittler, Julian Fierrez (UAM) and Javier Galbally (UAM) (2012) ბიომეტრიული შესრულების შეფასების მეტრიკის აღწერა.