AlexNet je konvoluciona neuronska mreža za klasifikaciju slika. Razvoj sistema za prepoznavanje slike zasnovanog na aparatu umjetnih neuronskih mreža Višeslojne neuronske mreže

AlexNet je konvoluciona neuronska mreža koja je imala veliki uticaj na razvoj mašinskog učenja, posebno algoritama za računarski vid. Mreža je 2012. s velikom razlikom pobijedila na takmičenju ImageNet LSVRC-2012 za prepoznavanje slika (sa 15,3% grešaka naspram 26,2% na drugom mjestu).

Arhitektura AlexNeta je slična LeNetu Yanna LeCuma. Međutim, AlexNet ima više filtera po sloju i ugniježđenih konvolucijskih slojeva. Mreža uključuje konvolucije, maksimalno udruživanje, odustajanje, povećanje podataka, funkcije aktivacije ReLU -a i stohastičko gradijentno spuštanje.

Karakteristike AlexNeta

  1. Kao aktivacijska funkcija, Relu se koristi umjesto arctangenta za dodavanje nelinearnosti modelu. Zbog toga, s istom točnošću metode, brzina postaje 6 puta veća.
  2. Korištenje osipanja umjesto regularizacije rješava problem prekomjernog prilagođavanja. Međutim, vrijeme obuke se udvostručuje sa stopom odustajanja od 0,5.
  3. Preklapanje spojeva izvodi se radi smanjenja veličine mreže. Zbog toga se nivo grešaka prvog i petog nivoa smanjuje na 0,4% odnosno 0,3%.

Skup podataka ImageNet

ImageNet je zbirka od 15 miliona označenih slika visoke rezolucije, podijeljenih u 22.000 kategorija. Slike su prikupljene na mreži i ručno označene pomoću Amazon -ovog Mechanical Turk mnoštva izvora. Od 2010. godine održava se godišnji ImageNet Large-Scale Visual Recognition Challenge (ILSVRC) kao dio Pascal Visual Object Challenge-a. Izazov koristi dio skupa podataka ImageNet sa 1000 slika u svakoj od 1000 kategorija. Ukupno se dobije 1,2 miliona slika za obuku, 50 000 slika za provjeru valjanosti i 150 000 za testiranje. ImageNet se sastoji od slika različite rezolucije. Stoga su za konkurenciju skalirane na fiksnu rezoluciju 256 × 256. Ako je originalna slika bila pravokutna, tada se obrezuje na kvadrat u sredini slike.

Arhitektura

Slika 1

Arhitektura mreže prikazana je na slici 1. AlexNet sadrži osam ponderiranih slojeva. Prvih pet od njih su konvolucijski, a ostala tri su potpuno povezana. Izlaz se prenosi kroz softmax funkciju gubitka koja generira distribuciju 1000 oznaka klasa. Mreža maksimizira multilinearnu logističku regresiju, što je ekvivalentno maksimiziranju srednje vrijednosti u svim slučajevima obuke logaritma vjerovatnoće ispravnog označavanja u odnosu na distribuciju očekivanja. Jezgre drugog, četvrtog i petog konvolucijskog sloja povezane su samo s onim kartama jezgre u prethodnom sloju koje se nalaze na istom GPU -u. Jezgre trećeg konvolucijskog sloja povezane su sa svim kartama jezgri drugog sloja. Neuroni u potpuno povezanim slojevima povezani su sa svim neuronima u prethodnom sloju.

Dakle, AlexNet sadrži 5 konvolucionih slojeva i 3 potpuno povezana sloja. Relu se nanosi nakon svakog slojevitog i potpuno povezanog sloja. Ispadanje se primjenjuje prije prvog i drugog potpuno spojenog sloja. Mreža sadrži 62,3 miliona parametara i zahtijeva 1,1 milijardu proračuna pri prosljeđivanju. Konvolucijski slojevi, koji čine 6% svih parametara, rade 95% proračuna.

Obrazovanje

AlexNet prolazi kroz 90 era. Obuka traje 6 dana odjednom na dva Nvidia Geforce GTX 580 GPU -a, što je razlog zašto je mreža podijeljena na dva dijela. Stohastički gradijentni pad se koristi sa brzinom učenja od 0,01, impulsom od 0,9 i padom težine od 0,0005. Stopa učenja je djeljiva sa 10 nakon zasićenja preciznosti, a smanjuje se 3 puta tijekom treninga. Shema ažuriranja koeficijenta pondera w izgleda kao:

gdje i- broj ponavljanja, v Je varijabla impulsa i epsilon- stopa učenja. Tokom čitave faze obuke, brzina učenja je birana jednaka za sve slojeve i ručno se prilagođavala. Sledeća heuristika bila je da se brzina učenja podeli sa 10 kada se broj grešaka u validaciji prestao smanjivati.

Primjeri upotrebe i implementacije

Rezultati pokazuju da je velika, duboka konvoluciona neuronska mreža sposobna postići rekordne rezultate na vrlo složenim skupovima podataka koristeći samo nadzirano učenje. Godinu dana nakon objavljivanja AlexNeta, svi takmičari ImageNeta počeli su koristiti konvolucijske neuronske mreže za rješavanje problema klasifikacije. AlexNet je bila prva implementacija konvolucionih neuronskih mreža i otvorila je novu eru istraživanja. Sada je postalo lakše implementirati AlexNet pomoću biblioteka za duboko učenje: PyTorch, TensorFlow, Keras.

Rezultat

Mreža postiže sljedeće razine grešaka prvog i petog nivoa: 37,5% odnosno 17,0%. Najbolje performanse postignute na takmičenju ILSVRC-2010 bile su 47,1% i 28,2% koristeći pristup koji prosječno predviđa šest modela oskudnog kodiranja obučenih na različitim vektorima karakteristika. Od tada su postignuti rezultati: 45,7% i 25,7% primjenom pristupa koji prosječno predviđa dva klasifikatora obučena na Fisherovim vektorima. Rezultati ILSVRC-2010 prikazani su u tablici 1.


Lijevo: osam ILSVRC-2010 testnih slika i pet oznaka za koje model smatra da su najvjerovatnije. Ispod svake slike ispisana je ispravna oznaka, a vjerovatnoća je prikazana crvenom trakom ako je u prvih pet. Desno: pet testnih slika ILSVRC-2010 u prvoj koloni. Preostale kolone prikazuju šest slika za obuku. 1

Neuronska mreža je matematički model i njegova implementacija u obliku softvera ili hardversko-softverske implementacije, koja se temelji na modeliranju aktivnosti bioloških neuronskih mreža, koje su mreže neurona u biološkom organizmu. Znanstveno zanimanje za ovu strukturu nastalo je jer se proučavanjem njenog modela može doći do podataka o određenom sistemu. Odnosno, takav model može imati praktičnu primjenu u brojnim granama savremene nauke i tehnologije. U članku se raspravlja o pitanjima koja se odnose na upotrebu neuronskih mreža za izgradnju sistema za identifikaciju slika koji se široko koriste u sigurnosnim sistemima. Detaljno se istražuju pitanja vezana za temu algoritma za prepoznavanje slike i njegovu primjenu. Ukratko daje informacije o metodologiji obuke neuronskih mreža.

neuronske mreže

učenje putem neuronskih mreža

prepoznavanje slike

paradigma lokalne percepcije

sigurnosni sistemi

1. Yann LeCun, J.S. Denker, S. Solla, R.E. Howard i L. D. Jackel: Optimalna oštećenja mozga, u Touretzky, David (Eds), Napredak u neuronskim sistemima za obradu informacija 2 (NIPS * 89). - 2000.- 100 str.

2. Zhigalov K.Yu. Metoda fotorealističke vektorizacije podataka laserskog raspona za daljnju upotrebu u GIS -u // Izvestiya vysshikh učhebnykh zavod. Geodezija i snimanje iz zraka. - 2007. - br. 6. - str. 285–287.

3. Ranzato Marc'Aurelio, Christopher Poultney, Sumit Chopra i Yann LeCun: Efikasno učenje oskudnih prikaza pomoću modela zasnovanog na energiji, u J. Platt et al. (Eds), Napredak u neuronskim sistemima za obradu informacija (NIPS 2006). - 2010.- 400 str.

4. Zhigalov K.Yu. Priprema opreme za upotrebu u automatiziranim sustavima upravljanja cestogradnje // Prirodne i tehničke znanosti. - M., 2014. - br. 1 (69). - S. 285–287.

5. Y. LeCun i Y. Bengio: Konvolucijske mreže za slike, govor i vremenske serije, u Arbib, M. A. (Eds) // The Handbook of Brain Theory and Neural Networks. - 2005.- 150 str.

6. Y. LeCun, L. Bottou, G. Orr i K. Muller: Efficient BackProp, u Orr, G. i K. Muller (Eds) // Neural Networks: Tricks of the trade. - 2008.- 200 str.

Danas tehnološki i istraživački napredak pokriva sve nove horizonte, koji brzo napreduju. Jedan od njih je modeliranje okolnog prirodnog svijeta pomoću matematičkih algoritama. U tom aspektu postoje trivijalni, na primjer, modeliranje morskih vibracija, te izuzetno složeni, netrivijalni, višekomponentni zadaci, na primjer, modeliranje funkcioniranja ljudskog mozga. U procesu proučavanja ovog pitanja identificiran je zaseban koncept - neuronska mreža. Neuronska mreža je matematički model i njegova implementacija u obliku softvera ili hardversko-softverske implementacije, koja se temelji na modeliranju aktivnosti bioloških neuronskih mreža, koje su mreže neurona u biološkom organizmu. Znanstveno zanimanje za ovu strukturu nastalo je jer se proučavanjem njenog modela može doći do podataka o određenom sistemu. Odnosno, takav model može imati praktičnu primjenu u brojnim granama savremene nauke i tehnologije.

Kratka istorija razvoja neuronskih mreža

Treba napomenuti da u početku koncept "neuronske mreže" potječe iz rada američkih matematičara, neurolingvista i neuropsihologa W. McCullocha i W. Pittsa (1943), gdje ga autori prvi put spominju, definiraju i čine prvi pokušaj izgraditi model neuronske mreže. Već 1949. D. Hebb je predložio prvi algoritam učenja. Zatim je postojao niz studija u području neuronskog učenja, a prvi radni prototipovi pojavili su se oko 1990.-1991. prošlog veka. Ipak, računalna snaga tadašnje opreme nije bila dovoljna za dovoljno brz rad neuronskih mreža. Do 2010. godine moć GPU grafičkih kartica uvelike se povećala i pojavio se koncept programiranja direktno na video karticama, što je značajno (3-4 puta) povećalo performanse računara. Godine 2012. neuronske mreže prvi put su osvojile ImageNet šampionat, što je označilo njihov daljnji brzi razvoj i pojavu termina Deep Learning.

U modernom svijetu neuronske mreže imaju ogromnu pokrivenost, znanstvenici smatraju da su istraživanja provedena na području proučavanja karakteristika ponašanja i stanja neuronskih mreža izuzetno obećavajuća. Spisak područja u kojima su neuronske mreže našle primjenu je ogroman. To uključuje prepoznavanje i klasifikaciju slika, predviđanje i rješavanje problema aproksimacije, te neke aspekte kompresije podataka, analizu podataka i, naravno, primjenu u sigurnosnim sistemima različite prirode.

Proučavanje neuronskih mreža aktivno se odvija u naučnim zajednicama različitih zemalja. U takvom se razmatranju predstavlja kao poseban slučaj niza metoda prepoznavanja uzoraka, diskriminacijske analize i metoda grupiranja.

Također treba napomenuti da su se u proteklih godinu dana novčana sredstva dodjeljivala startupima u oblasti sistema za prepoznavanje slika više od prethodnih 5 godina, što ukazuje na prilično veliku potražnju za ovom vrstom razvoja na konačnom tržištu.

Primjena neuronskih mreža za prepoznavanje slika

Razmotrite standardne zadatke koje rješavaju neuronske mreže kada se primjenjuju na slike:

● identifikacija objekata;

● prepoznavanje delova predmeta (na primer, lica, ruku, nogu itd.);

● semantička definicija granica objekata (omogućava vam da ostavite samo granice objekata na slici);

● semantička segmentacija (omogućava vam da sliku podelite na različite zasebne objekte);

● izbor površinskih normala (omogućava vam da pretvorite dvodimenzionalne slike u trodimenzionalne);

● isticanje objekata pažnje (omogućava vam da odredite na šta bi osoba obratila pažnju na datoj slici).

Treba napomenuti da problem prepoznavanja slike ima upečatljiv karakter, rješenje ovog problema je složen i izvanredan proces. Prilikom izvođenja prepoznavanja objekt može biti ljudsko lice, rukom ispisana znamenka, kao i mnogi drugi objekti koji se odlikuju nizom jedinstvenih značajki, što značajno otežava proces identifikacije.

U ovoj studiji će se razmotriti algoritam za stvaranje i učenje prepoznavanja ručno napisanih simbola neuronske mreže. Sliku će čitati jedan od ulaza neuronske mreže, a jedan od izlaza će se koristiti za ispis rezultata.

U ovoj fazi potrebno je ukratko se zadržati na klasifikaciji neuronskih mreža. Danas postoje tri glavne vrste:

● konvolucijske neuronske mreže (CNN);

● mreže koje se ponavljaju (duboko učenje);

● pojačanje učenja.

Jedan od najčešćih primjera izgradnje neuronske mreže je klasična topologija neuronske mreže. Takva se neuronska mreža može predstaviti kao potpuno povezan graf, njezina karakteristična značajka je promicanje informacija unaprijed i širenje signalizacije greške unatrag. Ova tehnologija nema rekurzivna svojstva. Ilustrativna neuronska mreža s klasičnom topologijom može se prikazati na Sl. 1.

Pirinač. 1. Neuronska mreža s najjednostavnijom topologijom

Pirinač. 2. Neuronska mreža sa 4 sloja skrivenih neurona

Jedan od jasno značajnih nedostataka ove topologije mreže je redundantnost. Zbog redundancije pri dostavljanju podataka u obliku, na primjer, dvodimenzionalne matrice na ulaz, može se dobiti jednodimenzionalni vektor. Dakle, za sliku rukom pisanog latiničnog slova opisanog pomoću matrice 34x34 potrebno je 1156 unosa. Ovo sugerira da će računarska snaga utrošena na implementaciju softverskog i hardverskog rješenja ovog algoritma biti prevelika.

Problem je riješio američki naučnik Ian Le Koon, koji je analizirao rad dobitnika Nobelove nagrade za medicinu T. Wtesel i D. Hubel. Kao dio njihove studije, predmet istraživanja bio je vizualni korteks mačjeg mozga. Analiza rezultata pokazala je da kora sadrži brojne jednostavne ćelije, kao i brojne složene ćelije. Jednostavne ćelije reagirale su na sliku ravnih linija primljenih od vizualnih receptora, a složene ćelije na translacijsko kretanje u jednom smjeru. Kao rezultat toga, razvijen je princip izgradnje neuronskih mreža, nazvan konvolucijski. Ideja ovog principa bila je da se za implementaciju funkcioniranja neuronske mreže izmjeni konvolucijski sloj koji se obično označava kao C - slojevi, slojevi poduzorkovanja S - slojevi i potpuno povezani slojevi F - slojevi na izlazu neuronske mreže.

U srcu izgradnje mreže ove vrste su tri paradigme - paradigma lokalne percepcije, paradigma zajedničkih težina i paradigma poduzorkovanja.

Suština paradigme lokalne percepcije je u tome da se na svaki ulazni neuron ne dovodi cijela matrica slike, već njen dio. Ostatak dijelova se dovodi do drugih ulaznih neurona. U ovom slučaju možete promatrati mehanizam paralelizacije, koristeći ovu metodu, možete spremiti topologiju slike sa sloja na sloj, multidimenzionalno je obraditi, odnosno tijekom obrade se može koristiti niz neuronskih mreža.

Paradigma zajedničkih težina sugerira da se mali skup utega može koristiti za više odnosa. Ovi skupovi se nazivaju i "jezgre". Za konačni rezultat obrade slike možemo reći da zajedničke težine imaju pozitivan učinak na svojstva neuronske mreže, čije proučavanje ponašanja povećava mogućnost pronalaženja invarijanata na slikama i filtriranja komponenti šuma bez njihove obrade.

Na temelju prethodno navedenog možemo zaključiti da će se pri primjeni postupka presavijanja slike na temelju jezgre pojaviti izlazna slika čiji će elementi biti glavna karakteristika stupnja korespondencije filtru, odnosno bit će generirana karta obilježja. Ovaj algoritam prikazan je na Sl. 3.

Pirinač. 3. Algoritam za generiranje mape obilježja

Paradigma poduzorkovanja je da se ulazna slika smanjuje smanjenjem prostorne dimenzije njenog matematičkog ekvivalenta - n -dimenzionalne matrice. Potreba za poduzorkovanjem izražena je u invarijantnosti prema razmjeri izvorne slike. Primjenom tehnike izmjenjivanja slojeva, postaje moguće generirati nove karte značajki iz postojećih, odnosno, praktična implementacija ove metode je ta da se sposobnost degeneriranja višedimenzionalne matrice u vektorsku matricu, a zatim potpuno u skalarnu vrijednost će biti stečeno.

Implementacija obuke o neuronskim mrežama

Postojeće mreže podijeljene su u 3 klase arhitektura u smislu učenja:

● nadzirano učenje (percepton);

● učenje bez nadzora (adaptivne rezonantne mreže);

● mješovito učenje (mreže radijalno zasnovanih funkcija).

Jedan od najvažnijih kriterija za procjenu performansi neuronske mreže u slučaju prepoznavanja slike je kvaliteta prepoznavanja slike. Valja napomenuti da se za kvantitativnu procjenu kvalitete prepoznavanja slike pomoću funkcioniranja neuronske mreže najčešće koristi algoritam kvadratne greške korijena srednje vrijednosti:

(1)

U ovoj ovisnosti, Ep je p-ta greška prepoznavanja za par neurona,

Dp je očekivani izlazni rezultat neuronske mreže (obično bi mreža trebala težiti 100% prepoznavanju, ali to se u praksi ne događa), a konstrukcija O (Ip, W) 2 je kvadrat mrežnog izlaza, koji ovisi na p-tom ulazu i postavljenom težinskom koeficijentu W. Ova konstrukcija uključuje i jezgre konvolucije i težinske koeficijente svih slojeva. Izračun greške sastoji se u izračunavanju aritmetičke srednje vrijednosti za sve parove neurona.

Kao rezultat analize, izvedena je pravilnost da se nominalna vrijednost pondera, kada je vrijednost greške minimalna, može izračunati na osnovu zavisnosti (2):

(2)

Iz ove ovisnosti možemo reći da je problem izračunavanja optimalne težine aritmetička razlika derivacije funkcije greške prvog reda s obzirom na težinu, podijeljena s derivacijom funkcije pogreške drugog reda.

Navedene ovisnosti omogućuju trivijalno izračunavanje greške u izlaznom sloju. Proračun greške u skrivenim slojevima neurona može se provesti metodom greške u prostiranju greške. Glavna ideja metode je širenje informacija, u obliku signaliziranja greške, s izlaznih neurona na ulazne neurone, odnosno u smjeru suprotnom od širenja signala kroz neuronsku mrežu.

Također je vrijedno napomenuti da se obuka mreže provodi na posebno pripremljenim bazama podataka slika razvrstanih u veliki broj klasa, a to traje prilično dugo.
Danas je najveća baza podataka ImageNet (www.image_net.org). Ima slobodan pristup akademskim institucijama.

Zaključak

Kao rezultat navedenog, valja napomenuti da se neuronske mreže i algoritmi, implementirani na principu njihovog funkcioniranja, mogu koristiti u sistemima za prepoznavanje kartice otiska prsta za organe unutrašnjih poslova. Često je to softverska komponenta softversko -hardverskog kompleksa usmjerena na prepoznavanje tako jedinstvene složene slike kao crteža, koji je identifikacijski podatak, koji ne rješava u potpunosti zadatke koji su mu dodijeljeni. Program zasnovan na algoritmima zasnovanim na neuronskoj mreži bit će mnogo efikasniji.

Da rezimiramo, možemo sažeti sljedeće:

● neuronske mreže mogu pronaći primjenu, kako po pitanju prepoznavanja slika, tako i tekstova;

● ova teorija omogućava da se govori o stvaranju nove obećavajuće klase modela, naime modela zasnovanih na inteligentnom modeliranju;

● neuronske mreže su sposobne za učenje, što ukazuje na mogućnost optimizacije procesa od funkcioniranja. Ova mogućnost je izuzetno važna opcija za praktičnu implementaciju algoritma;

● Evaluacija algoritma za prepoznavanje uzoraka pomoću studije neuronske mreže može imati kvantitativnu vrijednost, odnosno postoje mehanizmi za prilagođavanje parametara potrebnoj vrijednosti izračunavanjem potrebnih težinskih koeficijenata.

Danas se čini da je daljnje istraživanje neuronskih mreža obećavajuće područje istraživanja koje će se uspješno primijeniti u još više grana znanosti i tehnologije, kao i u ljudskim aktivnostima. Glavni naglasak u razvoju modernih sustava prepoznavanja sada se prebacuje na polje semantičke segmentacije 3D slika u geodeziji, medicini, izradi prototipova i drugim područjima ljudske aktivnosti - to su prilično složeni algoritmi, a to je posljedica:

● nedostatak dovoljnog broja baza podataka referentnih slika;

● nedostatak dovoljnog broja besplatnih stručnjaka za početnu obuku sistema;

● slike se ne čuvaju u pikselima, što zahtijeva dodatna sredstva i od računara i od programera.

Također treba napomenuti da danas postoji veliki broj standardnih arhitektura za izgradnju neuronskih mreža, što uvelike olakšava zadatak izgradnje neuronske mreže od nule i svodi je na odabir mrežne strukture pogodne za određeni zadatak.

Trenutno na tržištu postoji veliki broj inovativnih kompanija koje se bave prepoznavanjem slika pomoću tehnologija za učenje neuronskih mreža za sistem. Sigurno je poznato da su pomoću baze podataka od 10.000 slika postigli tačnost prepoznavanja slike u području od 95%. Ipak, sva postignuća odnose se na statične slike, s video sekvencama u ovom trenutku sve je mnogo složenije.

Bibliografska referenca

Markova S.V., Zhigalov K.Yu. PRIMJENA NEuronske mreže za stvaranje sustava prepoznavanja slika // Fundamentalna istraživanja. - 2017. - br. 8-1. - S. 60-64;
URL: http://fundamental-research.ru/ru/article/view?id=41621 (datum pristupa: 03.24. Skrećemo vam pažnju časopise koje objavljuje "Akademija prirodnih nauka"

Prijatelji, nastavljamo priču o neuronskim mrežama, o kojoj smo započeli prošli put.

Šta je neuronska mreža

U najjednostavnijem slučaju, neuronska mreža je matematički model koji se sastoji od nekoliko slojeva elemenata koji izvode paralelna izračunavanja. U početku je takva arhitektura stvorena po analogiji s najmanjim računalnim elementima ljudskog mozga - neuronima. Najmanji računski elementi umjetne neuronske mreže nazivaju se i neuroni. Neuronske mreže obično se sastoje od tri ili više slojeva: ulaznog sloja, skrivenog sloja (ili slojeva) i izlaznog sloja (slika 1), u nekim slučajevima se ne uzimaju u obzir ulazni i izlazni slojevi, a zatim broj slojevi u mreži broje se po broju skrivenih slojeva. Ova vrsta neuronske mreže naziva se perceptron.

Pirinač. 1. Najjednostavniji perceptron

Važna karakteristika neuronske mreže je njena sposobnost učenja na primjeru, to se naziva nadzirano učenje. Neuronska mreža je obučena na velikom broju primjera koji se sastoje od ulazno-izlaznih parova (ulaz i izlaz odgovaraju jedan drugom). U problemima prepoznavanja objekata, takav par će biti ulazna slika i odgovarajuća oznaka - naziv objekta. Obuka neuronske mreže je iterativni proces koji smanjuje odstupanje izlazne mreže od datog „učiteljevog odgovora“ - oznake koja odgovara datoj slici (slika 2). Ovaj proces se sastoji od koraka, nazvanih epoha učenja (obično ih ima u hiljadama), u svakom od njih se prilagođavaju "težine" neuronske mreže - parametri skrivenih slojeva mreže. Po završetku procesa obuke, kvaliteta neuronske mreže obično je dovoljno dobra da izvrši zadatak za koji je obučena, iako je često nemoguće pronaći optimalan skup parametara koji idealno prepoznaje sve slike.


Pirinač. 2. Obuka neuronske mreže

Šta su duboke neuronske mreže

Duboke ili duboke neuronske mreže su neuronske mreže koje se sastoje od nekoliko skrivenih slojeva (slika 3). Ova brojka je slika duboke neuronske mreže koja čitatelju daje opću ideju o tome kako izgleda neuronska mreža. Međutim, stvarna arhitektura dubokih neuronskih mreža mnogo je složenija.


Pirinač. 3. Neuronska mreža sa mnogo skrivenih slojeva

Tvorci konvolucionih neuronskih mreža, naravno, u početku su bili inspirisani biološkim strukturama vizuelnog sistema. Prvi računski modeli zasnovani na konceptu hijerarhijskog vizuelnog toka primata poznati su pod imenom Fukošima neokoggnitron (slika 4). Suvremeno razumijevanje fiziologije vizualnog sistema slično je vrsti obrade informacija u konvolucijskim mrežama, barem za brzo prepoznavanje objekata.


Pirinač. 4. Dijagram koji prikazuje veze između slojeva u modelu Neocognitron.

Kasnije je ovaj koncept implementirao kanadski istraživač Ian LeCoon u svojoj zavojnoj neuronskoj mreži, koju je stvorio za prepoznavanje rukom pisanih likova. Ova neuronska mreža sastojala se od dvije vrste slojeva: konvolucijski slojevi i slojevi poduzorkovanja (ili slojevi za udruživanje). U njemu svaki sloj ima topografsku strukturu, odnosno svaki je neuron povezan s fiksnom točkom izvorne slike, kao i s receptivnim poljem (područje ulazne slike koju obrađuje ovaj neuron). Na svakoj lokaciji u svakom sloju postoji niz različitih neurona, svaki sa svojim vlastitim skupom ulaznih težina povezanih s neuronima u pravokutnom presjeku prethodnog sloja. Različiti ulazni pravokutni fragmenti s istim skupom težina povezani su s neuronima s različitih lokacija.

Opća arhitektura duboke neuronske mreže za prepoznavanje uzoraka prikazana je na slici 5. Ulazna slika predstavljena je kao skup piksela ili malih područja slike (na primjer, 5 do 5 piksela)


Pirinač. 5. Dijagram konvolucione neuronske mreže

U pravilu se duboke neuronske mreže prikazuju u pojednostavljenom obliku: kao faze obrade, koje se ponekad nazivaju i filtri. Svaka faza se razlikuje od druge po brojnim karakteristikama, kao što su veličina prijemnog polja, vrsta značajki koje mreža uči prepoznati u danom sloju i vrsta računanja koja se izvodi u svakoj fazi.

Područja primjene dubokih neuronskih mreža, uključujući i konvolucijske mreže, nisu ograničena na prepoznavanje lica. Široko se koriste za prepoznavanje govora i audio signala, obradu očitavanja s različitih tipova senzora ili za segmentaciju složenih višeslojnih slika (poput satelitskih karata) ili medicinskih slika (rendgenske slike, fMRI slike-vidi).

Neuronske mreže u biometriji i prepoznavanju lica

Da bi se postigla velika preciznost prepoznavanja, neuronska mreža je unaprijed obučena na velikom nizu slika, na primjer, na primjer u bazi podataka MegaFace. Ovo je glavna metoda obuke za prepoznavanje lica.


Pirinač. 6. Baza podataka MegaFace sadrži 1 milion slika više od 690 hiljada ljudi

Nakon što je mreža obučena za prepoznavanje lica, proces prepoznavanja lica može se opisati na sljedeći način (slika 7). Prvo se slika obrađuje pomoću detektora lica: algoritma koji detektira pravokutni dio slike s licem. Ovaj fragment je normaliziran kako bi ga neuronska mreža lakše obradila: najbolji rezultat će se postići ako su sve ulazne slike iste veličine, boje itd. Normalizirana slika se šalje na ulaz neuronske mreže radi obrade po algoritmu. Ovaj algoritam je obično jedinstven razvoj kompanije za poboljšanje kvalitete prepoznavanja, ali postoje i "standardna" rješenja za ovaj problem. Neuronska mreža gradi jedinstveni vektor karakteristika, koji se zatim prenosi u bazu podataka. Tražilica ga uspoređuje sa svim vektorima obilježja pohranjenih u bazi podataka i daje rezultat pretraživanja u obliku određenog broja imena ili korisničkih profila sa sličnim crtama lica, od kojih je svakom dodijeljen određeni broj. Ovaj broj predstavlja stupanj sličnosti našeg vektora obilježja s onim koji se nalazi u bazi podataka.


Pirinač. 7. Proces prepoznavanja lica

Određivanje kvalitete algoritma

Tačnost

Kada odaberemo koji algoritam primijeniti na problem prepoznavanja objekta ili lica, moramo imati sredstva za usporedbu učinkovitosti različitih algoritama. U ovom dijelu ćemo opisati alate pomoću kojih se to radi.

Kvalitet sistema za prepoznavanje lica procjenjuje se pomoću skupa metrika koje odgovaraju tipičnim scenarijima korištenja sistema za autentifikaciju pomoću biometrije.

U pravilu se performanse bilo koje neuronske mreže mogu mjeriti u smislu tačnosti: nakon postavljanja parametara i završetka procesa obuke, mreža se testira na skupu testova za koji imamo odgovor nastavnika, ali koji je odvojen od set za obuku. Obično je ovaj parametar kvantitativna mjera: broj (često kao postotak) koji pokazuje koliko je sistem u stanju prepoznati nove objekte. Druga uobičajena mjera je greška (može se izraziti kao postotak ili u numeričkom ekvivalentu). Međutim, postoje preciznije mjere za biometriju.

U biometriji općenito, a posebno u biometriji za prepoznavanje lica, postoje dvije vrste aplikacija: provjera i identifikacija. Verifikacija je postupak potvrđivanja određenog identiteta usporedbom slike pojedinca (vektor crta lica ili drugi vektor crta lica, na primjer, mrežnica ili otisci prstiju) s jednim ili više prethodno spremljenih predložaka. Identifikacija je proces utvrđivanja identiteta pojedinca. Biometrijski uzorci se prikupljaju i uspoređuju sa svim predlošcima u bazi podataka. Postoji identifikacija u zatvorenom skupu funkcija ako se pretpostavi da osoba postoji u bazi podataka. Dakle, prepoznavanje kombinira jedan ili oba pojma - provjera i identifikacija.

Često je, pored direktnog rezultata poređenja, potrebno procijeniti i nivo "povjerenja" sistema u njegovu odluku. Ova vrijednost se naziva "ocjena sličnosti" (ili ocjena sličnosti). Veća ocjena sličnosti ukazuje na to da su dva upoređena biometrijska uzorka sličnija.

Postoji niz metoda za procjenu kvaliteta sistema (kako za zadatak provjere tako i za identifikaciju). O njima ćemo sljedeći put. I ostanite s nama i ne ustručavajte se ostavljati komentare i postavljati pitanja.

NAPOMENE

  1. Fukushima (1980) "Neocognitron: Samoorganizirani model neuronske mreže za mehanizam prepoznavanja uzoraka bez utjecaja promjene položaja", Biološka kibernetika.
  2. LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard i L.D. Jackel (1989) "Propagacija unatrag primijenjena na prepoznavanje ručno napisanog poštanskog broja", Neural Computation, vol. 1, str., 541-551.
  3. Jiaxuan Vi, Xiaocheng Li, Melvin Low, David Lobell, Stefano Ermon Deep Gaussov proces predviđanja prinosa usjeva na temelju podataka daljinskog mjerenja.
  4. Ian Goodfellow, Yoshua Bengio, Aaron Courville (2016) Deep Learning. MIT press.
  5. Poh, C-H. Chan, J. Kittler, Julian Fierrez (UAM) i Javier Galbally (UAM) (2012) Opis metrike za procjenu biometrijskih performansi.