Az AlexNet egy konvolúciós neurális hálózat a képek osztályozásához. Képfelismerő rendszer kifejlesztése mesterséges neurális hálózatok készülékén Többrétegű neurális hálózatok

Az AlexNet egy konvolúciós neurális hálózat, amely nagy hatással volt a gépi tanulás fejlesztésére, különösen a számítógépes látás algoritmusaira. A hálózat 2012-ben nagy fölénnyel nyerte meg az ImageNet LSVRC-2012 képfelismerési versenyt (15,3% -os hibával, míg 26,2% -kal a második helyen).

Az AlexNet architektúrája hasonló Yann LeCum LeNetéhez. Az AlexNet azonban több szűrőt tartalmaz rétegenként és beágyazott konvolúciós rétegeket. A hálózat magában foglalja a konvolúciókat, a maximális összevonást, a lemorzsolódást, az adatok bővítését, a ReLU aktiválását és a sztochasztikus gradiens leszállást.

Az AlexNet jellemzői

  1. Aktiválási funkcióként a Relu -t használják arctangens helyett, hogy nemlinearitást adjunk a modellhez. Ennek köszönhetően a módszer azonos pontosságával a sebesség hatszorosa lesz.
  2. A lemorzsolódás használata a rendszeresítés helyett megoldja a túllépési problémát. A képzési idő azonban megduplázódik 0,5 -ös lemorzsolódással.
  3. Az átfedéseket a hálózat méretének csökkentése érdekében hajtják végre. Emiatt az első és az ötödik szint hibaszintje 0,4% -ra, illetve 0,3% -ra csökken.

ImageNet adatkészlet

Az ImageNet 15 millió nagy felbontású, címkézett kép gyűjteménye, 22 000 kategóriába osztva. A képeket online gyűjtötték össze, és manuálisan címkézték az Amazon Mechanical Turk tömeges forrás segítségével. 2010 óta a Pascal Visual Object Challenge keretében kerül megrendezésre az éves ImageNet Large-Scale Visual Recognition Challenge (ILSVRC). A kihívás az ImageNet adatkészlet egy részét használja, 1000 képpel az 1000 kategóriában. Összesen 1,2 millió képzés képzésre, 50 000 kép validálásra és 150 000 tesztelésre kapható. Az ImageNet különböző felbontású képekből áll. Ezért a versenyhez 256 × 256 fix felbontásra méretezik őket. Ha az eredeti kép téglalap alakú volt, akkor a kép közepén lévő négyzetre van vágva.

Építészet

1. kép

A hálózati architektúra az 1. ábrán látható. Az AlexNet nyolc súlyozott réteget tartalmaz. Az első öt közülük konvolúciós, a másik három teljesen össze van kötve. A kimenet egy softmax veszteségfüggvényen megy keresztül, amely 1000 osztályú címke eloszlását generálja. A hálózat maximalizálja a többsoros logisztikai regressziót, ami egyenértékű azzal, hogy a várakozások eloszlása ​​felett a helyes címkézés valószínűségének logaritmusának átlagát maximalizálják minden képzési esetben. A második, negyedik és ötödik konvolúciós réteg magjai csak az előző réteg azon kerneltérképeihez vannak társítva, amelyek ugyanazon a GPU -n vannak. A harmadik konvolúciós réteg magjai a második réteg kerneljeinek összes térképéhez vannak társítva. A teljesen összekapcsolt rétegek neuronjai az előző réteg összes neuronjához kapcsolódnak.

Így az AlexNet 5 konvolúciós réteget és 3 teljesen összekapcsolt réteget tartalmaz. A Relu -t minden konvolúciós és teljesen összekapcsolt réteg után alkalmazzák. A kiesést az első és a második teljesen összekapcsolt réteg előtt alkalmazzák. A hálózat 62,3 millió paramétert tartalmaz, és 1,1 milliárd számítást igényel előre továbbításkor. A konvolúciós rétegek, amelyek az összes paraméter 6% -át teszik ki, elvégzik a számítások 95% -át.

Oktatás

Az AlexNet 90 korszakon megy keresztül. A képzés egyszerre 6 napot vesz igénybe két Nvidia Geforce GTX 580 GPU -n, ezért a hálózat ketté van osztva. A sztochasztikus gradiens ereszkedést 0,01 tanulási gyakorisággal, 0,9 impulzussal és 0,0005 súlycsökkenéssel használják. A tanulási arány 10 -tel osztható a pontosság telítettsége után, és 3 -szor csökken az edzés során. Súlyozási együttható frissítési sémája wúgy néz ki, mint a:

ahol én- iterációs szám, v Az impulzus változó, és epsilon- tanulási arány. A teljes képzési szakaszban a tanulási arányt minden réteg számára egyenlőnek választották, és manuálisan állították be. Egy későbbi heurisztika az volt, hogy a tanulási arányt elosztották 10 -gyel, amikor az érvényesítési hibák száma nem csökkent.

Példák a felhasználásra és a megvalósításra

Az eredmények azt mutatják, hogy egy nagy, mély konvolúciós ideghálózat képes rekord eredményeket elérni nagyon összetett adatkészleteken, csak felügyelt tanulással. Egy évvel az AlexNet megjelenése után minden ImageNet versenyző konvolúciós neurális hálózatokat kezdett használni az osztályozási probléma megoldásához. Az AlexNet a konvolúciós neurális hálózatok első megvalósítása volt, és új kutatási korszakot nyitott meg. Most könnyebbé vált az AlexNet implementálása mély tanulási könyvtárak használatával: PyTorch, TensorFlow, Keras.

Eredmény

A hálózat a következő hibaszinteket éri el az első és az ötödik szinten: 37,5% és 17,0%. Az ILSVRC-2010 versenyen elért legjobb teljesítmény 47,1% és 28,2% volt egy olyan megközelítés alkalmazásával, amely átlagolja az előrejelzéseket hat, különböző tulajdonságvektorokon betanított ritka kódolási modellből. Azóta elérték az eredményeket: 45,7% és 25,7% egy olyan megközelítést alkalmazva, amely átlagolja két Fisher -vektoron képzett osztályozó előrejelzéseit. Az ILSVRC-2010 eredményeit az 1. táblázat tartalmazza.


Balra: nyolc ILSVRC-2010 tesztkép és öt címke, amelyet a modell a legvalószínűbbnek tart. Minden kép alá a helyes címkét írják, és a valószínűséget piros sáv jelzi, ha az első ötben van. Jobbra: öt ILSVRC-2010 tesztkép az első oszlopban. A többi oszlopban hat kép látható. 1

A neurális hálózat egy matematikai modell és annak megvalósítása szoftver vagy hardver-szoftver megvalósítás formájában, amely a biológiai ideghálózatok aktivitásának modellezésén alapul, amelyek egy biológiai szervezet neuronhálózatai. A tudományos érdeklődés e struktúra iránt felmerült, mert modelljének tanulmányozása lehetővé teszi az információk megszerzését egy bizonyos rendszerről. Vagyis egy ilyen modellnek gyakorlati megvalósítása lehet a modern tudomány és technológia számos ágában. A cikk a biztonsági rendszerekben széles körben használt képazonosító rendszerek építéséhez használt neurális hálózatok használatával kapcsolatos kérdéseket tárgyalja. A képfelismerő algoritmus témájával és alkalmazásával kapcsolatos kérdéseket részletesen vizsgálják. Röviden tájékoztatást nyújt a neurális hálózatok képzésének módszertanáról.

neurális hálózatok

tanulás neurális hálózatokkal

képfelismerés

helyi észlelési paradigma

biztonsági rendszerek

1. Yann LeCun, J.S. Denker, S. Solla, R.E. Howard és L. D. Jackel: Optimal Brain Damage, in Touretzky, David (Eds), Advances in Neural Information Processing Systems 2 (NIPS * 89). - 2000 .-- 100 p.

2. Zhigalov K.Yu. A lézeres távolságmérési adatok fotorealisztikus vektorizálásának módja a GIS -ben való további felhasználáshoz // Izvestiya vysshikh uchebnykh zavod. Geodézia és légi fényképezés. - 2007. - 6. szám - P. 285–287.

3. Ranzato Marc'Aurelio, Christopher Poultney, Sumit Chopra és Yann LeCun: A ritka ábrázolások hatékony tanulása energiaalapú modellel, J. Platt et al. (Szerk.), A neurális információfeldolgozó rendszerek fejlődése (NIPS 2006). - 2010 .-- 400 p.

4. Zhigalov K.Yu. Berendezések előkészítése útépítéshez használt automatizált vezérlőrendszerekben // Természet- és műszaki tudományok. - M., 2014. - 1. (69). - S. 285–287.

5. Y. LeCun és Y. Bengio: Convolutional Networks for Images, Speech, and Time-Series, in Arbib, M. A. (szerk.) // The Brain Theory and Neural Networks. - 2005 .-- 150 p.

6. Y. LeCun, L. Bottou, G. Orr és K. Muller: Efficient BackProp, in Orr, G. és K. Muller (szerk.) // Neural Networks: Tricks of the trade. - 2008 .-- 200 p.

Ma a technológiai és kutatási haladás minden új horizontot lefed, gyorsan haladva. Az egyik a környező természeti világ modellezése matematikai algoritmusok segítségével. Ebben a vonatkozásban vannak triviális, például a tengeri rezgések modellezése, és rendkívül bonyolult, nem triviális, többkomponensű feladatok, például az emberi agy működésének modellezése. Ennek a kérdésnek a tanulmányozása során külön fogalmat azonosítottak - egy neurális hálózatot. A neurális hálózat egy matematikai modell és annak megvalósítása szoftver vagy hardver-szoftver megvalósítás formájában, amely a biológiai ideghálózatok aktivitásának modellezésén alapul, amelyek egy biológiai szervezet neuronhálózatai. A tudományos érdeklődés e struktúra iránt felmerült, mert modelljének tanulmányozása lehetővé teszi az információk megszerzését egy bizonyos rendszerről. Vagyis egy ilyen modellnek gyakorlati megvalósítása lehet a modern tudomány és technológia számos ágában.

A neurális hálózatok fejlődésének rövid története

Meg kell jegyezni, hogy kezdetben a "neurális hálózat" fogalma W. McCulloch és W. Pitts (1943) amerikai matematikusok, idegnyelvészek és neuropszichológusok munkájából ered, ahol a szerzők először megemlítik, meghatározzák és megteszik az első kísérletet arra, hogy modell neurális hálózat kiépítése. D. Hebb már 1949 -ben javasolta az első tanulási algoritmust. Aztán számos tanulmány volt a neurális tanulás területén, és az első működő prototípusok 1990-1991 körül jelentek meg. múlt század. Ennek ellenére az akkori berendezések számítási teljesítménye nem volt elegendő a neurális hálózatok elég gyors működéséhez. 2010-re a GPU videokártyák teljesítménye nagymértékben megnőtt, és megjelent a közvetlenül a videokártyákra történő programozás koncepciója, ami jelentősen (3-4-szer) növelte a számítógépek teljesítményét. 2012 -ben a neurális hálózatok nyerték először az ImageNet bajnokságot, ami további gyors fejlődésüket és a Deep Learning kifejezés megjelenését jelentette.

A modern világban a neurális hálózatok kolosszális lefedettséggel rendelkeznek, a tudósok rendkívül ígéretesnek tartják a neurális hálózatok viselkedési jellemzőinek és állapotának tanulmányozása területén végzett kutatásokat. Hatalmas azoknak a területeknek a listája, amelyeken a neurális hálózatok alkalmazást találtak. Ez magában foglalja a minták felismerését és osztályozását, valamint az előrejelzést és a közelítési problémák megoldását, valamint az adatok tömörítésének, az adatok elemzésének és természetesen más jellegű biztonsági rendszerekben való alkalmazásának egyes aspektusait.

A neurális hálózatok tanulmányozása aktívan zajlik a különböző országok tudományos közösségeiben. Ilyen megfontolásként számos mintafelismerési módszer, diszkriminancia -elemzés és klaszterezési módszer különleges eseteként kerül bemutatásra.

Azt is meg kell jegyezni, hogy az elmúlt évben a képfelismerő rendszerek területén induló vállalkozásoknak több mint öt éve folyósítottak finanszírozást, ami azt jelzi, hogy a végső piacon meglehetősen nagy igény mutatkozik az ilyen típusú fejlesztések iránt.

Neurális hálózatok alkalmazása képfelismerésre

Tekintsük a neurális hálózatok által képekre alkalmazott szabványos feladatokat:

● tárgyak azonosítása;

● tárgyak egyes részeinek felismerése (például arcok, karok, lábak stb.);

● az objektumok határainak szemantikai meghatározása (lehetővé teszi, hogy csak a tárgyak határait hagyja a képen);

● szemantikai szegmentálás (lehetővé teszi a kép különálló objektumokra bontását);

● a felületi normálok kiválasztása (lehetővé teszi a kétdimenziós képek háromdimenziós képekké alakítását);

● a figyelem tárgyainak kiemelése (lehetővé teszi annak meghatározását, hogy egy személy mire figyelne egy adott képen).

Meg kell jegyezni, hogy a képfelismerés problémája feltűnő jellegű, e probléma megoldása összetett és rendkívüli folyamat. A felismerés során a tárgy lehet emberi arc, kézzel írt számjegy, valamint sok más tárgy, amelyekre számos egyedi jellemző jellemző, ami jelentősen megnehezíti az azonosítási folyamatot.

Ebben a tanulmányban egy neurális hálózat kézzel írt szimbólumainak létrehozására és felismerésére szolgáló algoritmust veszünk figyelembe. A képet a neurális hálózat egyik bemenete olvassa, és az egyik kimenetet használja az eredmény kiadására.

Ebben a szakaszban röviden foglalkozni kell a neurális hálózatok osztályozásával. Ma három fő típus létezik:

● konvolúciós neurális hálózatok (CNN);

● visszatérő hálózatok (mély tanulás);

● megerősítő tanulás.

A neurális hálózat kiépítésének egyik leggyakoribb példája a klasszikus neurális hálózat topológia. Egy ilyen neurális hálózat teljesen összekapcsolt gráfként ábrázolható, jellemző jellemzője az információ előremenő terjedése és a hibajelzés visszafelé terjedése. Ez a technológia nem rendelkezik rekurzív tulajdonságokkal. Ábrán szemléltető, klasszikus topológiájú neurális hálózat ábrázolható. 1.

Rizs. 1. Ideghálózat a legegyszerűbb topológiával

Rizs. 2. Ideghálózat 4 réteg rejtett idegsejttel

Ennek a hálózati topológiának az egyik egyértelműen jelentős hátránya a redundancia. A redundancia miatt, amikor például kétdimenziós mátrix formájában adunk adatokat a bemenethez, lehetséges egydimenziós vektor megszerzése. Tehát a 34x34 mátrix segítségével leírt, kézzel írt latin betű képéhez 1156 bemenet szükséges. Ez arra utal, hogy az algoritmus szoftver- és hardvermegoldásának megvalósítására fordított számítási teljesítmény túl nagy lesz.

A problémát Ian Le Koon amerikai tudós oldotta meg, aki T. Wtesel és D. Hubel orvosi Nobel -díjasok munkáját elemezte. Vizsgálatuk részeként a vizsgálat tárgya a macska agyának vizuális kérege volt. Az eredmények elemzése azt mutatta, hogy a kéreg számos egyszerű sejtet, valamint számos komplex sejtet tartalmaz. Az egyszerű sejtek reagáltak a vizuális receptoroktól kapott egyenes vonalak képére, a komplex sejtek pedig egy irányú transzlációs mozgásra. Ennek eredményeként kifejlődött a neurális hálózatok építésének elve, amelyet konvolúciósnak neveznek. Ennek az elvnek az volt az ötlete, hogy a neurális hálózat működésének megvalósításához a konvolúciós rétegek váltakozását, amelyeket általában C -rétegeknek, S -rétegek almintavételi rétegeknek és teljesen összekapcsolt F -rétegeknek neveznek a kimeneten a neurális hálózatot használják.

Egy ilyen hálózat kiépítésének középpontjában három paradigma áll - a helyi észlelés paradigmája, a megosztott súlyok paradigmája és az almintavétel paradigmája.

A lokális észlelési paradigma lényege, hogy nem a teljes képmátrix kerül betáplálásra az egyes bemeneti idegsejtekhez, hanem annak egy része. A többi részt más bemeneti idegsejtek táplálják. Ebben az esetben megfigyelheti a párhuzamosítás mechanizmusát, ezzel a módszerrel elmentheti a kép topológiáját rétegről rétegre, többdimenziós feldolgozásával, vagyis számos neurális hálózat használható a feldolgozás során.

A megosztott súlyparadigma azt sugallja, hogy egy kis súlykészlet több kapcsolatra is használható. Ezeket a készleteket "magoknak" is nevezik. A képfeldolgozás végeredményére nézve elmondhatjuk, hogy a megosztott súlyok pozitív hatással vannak az ideghálózat tulajdonságaira, amelyek viselkedésének vizsgálata növeli a képtelen invariánsok megtalálásának képességét és a zajkomponensek szűrését anélkül, hogy feldolgoznák azokat.

A fentiek alapján azt a következtetést vonhatjuk le, hogy a kernel alapján a képhajtogatási eljárás alkalmazásakor megjelenik egy kimeneti kép, amelynek elemei lesznek a szűrőnek való megfelelés fokának fő jellemzői, azaz egy szolgáltatás térkép jön létre. Ezt az algoritmust az ábra mutatja. 3.

Rizs. 3. A funkciótérkép előállításának algoritmusa

A részmintavételezési paradigma az, hogy a bemeneti kép csökken, ha csökkenti a matematikai megfelelője - egy n -dimenziós mátrix - térbeli méretét. Az almintavétel szükségessége az eredeti kép méretarányának változatlanságában fejeződik ki. A váltakozó rétegek technikájának alkalmazásakor lehetségessé válik új jellemzőtérképek létrehozása a meglévőkből, vagyis ennek a módszernek a gyakorlati megvalósítása abban áll, hogy egy többdimenziós mátrix vektor mátrixgá, majd teljesen skaláris értéket kap.

Ideghálózati tréning megvalósítása

A meglévő hálózatok a tanulás szempontjából 3 architektúrákra oszthatók:

● felügyelt tanulás (percepton);

● felügyelet nélküli tanulás (adaptív rezonanciahálózatok);

● vegyes tanulás (radiális alapú függvények hálózata).

A neurális hálózat teljesítményének értékeléséhez az egyik legfontosabb kritérium képfelismerés esetén a képfelismerés minősége. Meg kell jegyezni, hogy a képfelismerés minőségének kvantitatív értékeléséhez egy neurális hálózat működését használva leggyakrabban a gyökérték-négyzet hiba algoritmust használják:

(1)

Ebben a függőségben Ep az idegsejtek p-edik felismerési hibája,

A Dp a neurális hálózat várható kimenete (általában a hálózatnak 100% -os felismerésre kell törekednie, de ez a gyakorlatban nem fordul elő), és az O (Ip, W) 2 konstrukció a hálózati kimenet négyzete, amely attól függ, hogy a p-edik bemenet és a W súlyszám együttható. Ez a konstrukció tartalmazza a konvolúciós magokat és az összes réteg súly együtthatóit. A hiba számítása abból áll, hogy kiszámítják az összes neuronpár aritmetikai átlagértékét.

Az elemzés eredményeként egy olyan szabályszerűséget vezettek le, amely szerint a súly névleges értéke, ha a hibaérték minimális, a kapcsolat alapján kiszámítható (2):

(2)

Ebből a függőségből azt mondhatjuk, hogy az optimális súly kiszámításának problémája az elsőrendű hibafüggvény deriváltjának súlyhoz viszonyított számtani különbsége, elosztva a másodrendű hibafüggvény deriváltjával.

A megadott függőségek lehetővé teszik a kimeneti rétegben található hiba triviális kiszámítását. A hiba kiszámítása az idegsejtek rejtett rétegeiben a hibák visszaszorítási módszerével valósítható meg. A módszer fő gondolata az információ terjesztése hibajelzés formájában a kimenő neuronoktól a bemeneti neuronokig, vagyis a jelek neurális hálózaton keresztüli terjedésével ellentétes irányban.

Érdemes megjegyezni azt is, hogy a hálózat képzését nagyszámú osztályba sorolt ​​képek speciálisan elkészített adatbázisain végzik, és ez elég sok időt vesz igénybe.
Ma a legnagyobb adatbázis az ImageNet (www.image_net.org). Ingyenes hozzáférést biztosít a tudományos intézményekhez.

Következtetés

A fentiek eredményeként meg kell jegyezni, hogy működésük elvén megvalósított ideghálózatok és algoritmusok megtalálhatják alkalmazásukat a belügyi szervek ujjlenyomat -kártya -felismerő rendszereiben. Gyakran előfordul, hogy egy szoftveres és hardveres komplexum szoftverösszetevője, amelynek célja egy ilyen egyedi komplex kép rajzi felismerése, amely azonosító adat, nem oldja meg teljesen a rábízott feladatokat. A neurális hálózaton alapuló algoritmusokon alapuló program sokkal hatékonyabb lesz.

Összefoglalva a következőket foglalhatjuk össze:

● a neurális hálózatok találhatnak alkalmazást, mind a képek, mind a szövegek felismerése terén;

● ez az elmélet lehetővé teszi a modellek új, ígéretes osztályának létrehozásáról, nevezetesen az intelligens modellezésen alapuló modellek létrehozásáról;

● a neurális hálózatok képesek tanulni, ami jelzi a folyamat optimalizálásának lehetőségét a működésből. Ez a lehetőség rendkívül fontos lehetőség az algoritmus gyakorlati megvalósításához;

● A mintafelismerő algoritmus kiértékelése egy neurális hálózat vizsgálatával kvantitatív értékkel rendelkezhet, illetve vannak mechanizmusok a paramétereknek a kívánt értékre történő beállításához a szükséges súly együtthatóinak kiszámításával.

Ma a neurális hálózatok további kutatása ígéretes kutatási területnek tűnik, amelyet sikeresen alkalmaznak a tudomány és a technológia több ágában, valamint az emberi tevékenységekben. A modern felismerési rendszerek kifejlesztésének fő hangsúlya most a 3D képek szemantikai szegmentálásának területére helyeződik át a geodézia, az orvostudomány, a prototípus -készítés és az emberi tevékenység más területein - ezek meglehetősen bonyolult algoritmusok, és ennek oka:

● nincs elegendő számú referenciakép -adatbázis;

● nincs elegendő számú szabad szakértő a rendszer alapképzésére;

● a képeket nem tárolják képpontokban, ami további erőforrásokat igényel mind a számítógéptől, mind a fejlesztőktől.

Azt is meg kell jegyezni, hogy manapság nagyszámú szabványos architektúra létezik a neurális hálózatok felépítéséhez, ami nagyban megkönnyíti a neurális hálózat kiépítésének feladatát a semmiből, és lecsökkenti azt egy adott feladatra alkalmas hálózati struktúra kiválasztására.

Jelenleg meglehetősen sok innovatív vállalat van a piacon, amelyek képfelismeréssel foglalkoznak a rendszer neurális hálózati tanulási technológiáival. Bizonyos, hogy 10 000 képből álló adatbázis segítségével 95% körüli képfelismerési pontosságot értek el. Ennek ellenére minden eredmény statikus képekhez kapcsolódik, videósorozatokkal jelenleg minden sokkal bonyolultabb.

Bibliográfiai hivatkozás

Markova S.V., Zhigalov K.Yu. A TERMÉSZETES HÁLÓZAT ALKALMAZÁSA A KÉPFELISMERŐ RENDSZER LÉTREHOZÁSÁHOZ // Alapvető kutatás. - 2017. - 8-1. - S. 60-64;
URL: http://fundamental-research.ru/ru/article/view?id=41621 (hozzáférés dátuma: 03.24. Felhívjuk figyelmét a "Természettudományi Akadémia" által kiadott folyóiratokra

Barátaim, folytatjuk a neurális hálózatokról szóló történetet, amelyet a múltkor elkezdtünk, és kb.

Mi az a neurális hálózat

A legegyszerűbb esetben a neurális hálózat egy matematikai modell, amely több réteg elemből áll, amelyek párhuzamos számításokat végeznek. Kezdetben egy ilyen architektúrát analógia útján hoztak létre az emberi agy legkisebb számítási elemeivel - a neuronokkal. A mesterséges ideghálózat legkisebb számítási elemeit neuronoknak is nevezik. A neurális hálózatok általában három vagy több rétegből állnak: egy bemeneti rétegből, egy rejtett rétegből (vagy rétegekből) és egy kimeneti rétegből (1. ábra), egyes esetekben a bemeneti és kimeneti rétegeket nem veszik figyelembe, majd a a hálózat rétegeit a rejtett rétegek száma számolja. Ezt a típusú neurális hálózatot perceptronnak nevezik.

Rizs. 1. A legegyszerűbb perceptron

A neurális hálózat fontos jellemzője, hogy példamutatóan tanul, ezt nevezik felügyelt tanulásnak. A neurális hálózat számos példán alapul, amelyek bemenet-kimenet párokból állnak (egymásnak megfelelő bemenet és kimenet). Az objektumfelismerés problémáiban ilyen pár lesz a bemeneti kép és a megfelelő címke - az objektum neve. A neurális hálózatok képzése egy iteratív folyamat, amely csökkenti a hálózati kimenet eltérését egy adott „tanári válasz” - egy adott képnek megfelelő címke (2. ábra). Ez a folyamat tanulási korszakoknak nevezett lépésekből áll (ezek általában több ezerben vannak), amelyek mindegyikénél beállítják a neurális hálózat "súlyát" - a hálózat rejtett rétegeinek paramétereit. A képzési folyamat befejezése után az ideghálózat minősége általában elég jó ahhoz, hogy elvégezze azt a feladatot, amelyre betanították, bár az optimális paraméterkészletet, amely minden képet tökéletesen felismer, gyakran nem lehet megtalálni.


Rizs. 2. A neurális hálózat képzése

Mik azok a mély idegi hálózatok?

A mély vagy mély idegi hálózatok több rejtett rétegből álló neurális hálózatok (3. ábra). Ez az ábra egy mély ideghálózat ábrázolása, amely általános képet ad az olvasónak arról, hogyan néz ki egy neurális hálózat. A mély neurális hálózatok valódi architektúrája azonban sokkal összetettebb.


Rizs. 3. Neurális hálózat, sok rejtett réteggel

A konvolúciós neurális hálózatok alkotóit természetesen kezdetben a vizuális rendszer biológiai struktúrái inspirálták. Az első számítási modellek, amelyek a főemlősök vizuális áramlásának hierarchikus szervezésének koncepcióján alapulnak, Fukushima Neocognitron néven ismertek (4. ábra). A vizuális rendszer fiziológiájának modern megértése hasonló a konvolúciós hálózatok információfeldolgozásának típusához, legalábbis a gyors objektumfelismeréshez.


Rizs. 4. A Neocognitron modell rétegei közötti kapcsolatokat bemutató diagram.

Később ezt a koncepciót Ian LeCune kanadai kutató valósította meg konvolúciós ideghálózatában, amelyet a kézzel írt karakterek felismerésére hozott létre. Ez a neurális hálózat kétféle rétegből állt: konvolúciós rétegekből és almintavételi rétegekből (vagy gyűjtő rétegekből). Ebben minden rétegnek topográfiai szerkezete van, vagyis minden neuron az eredeti kép rögzített pontjához, valamint egy befogadó mezőhöz (a bemeneti kép egy területe, amelyet ez a neuron feldolgoz) társít. Az egyes rétegek minden egyes helyén számos különböző neuron található, amelyek mindegyike saját bemeneti súlykészlettel rendelkezik az előző réteg téglalap alakú szeletében található idegsejtekhez. Különböző bemeneti téglalap alakú töredékek azonos súlykészlettel kapcsolódnak a különböző helyekről származó neuronokhoz.

A mély ideghálózat általános architektúrája a mintafelismeréshez az 5. ábrán látható. A bemeneti kép képpontok vagy a kép kis területei (például 5 × 5 képpont)


Rizs. 5. Konvolúciós neurális hálózat diagram

Általában a mély neurális hálózatokat egyszerűsített formában ábrázolják: feldolgozási szakaszként, amelyeket néha szűrőknek neveznek. Az egyes szakaszok számos jellemzőben különböznek a másiktól, például a befogadó mező méretétől, a hálózat azon jellemzőinek típusától, amelyeket egy adott rétegben megtanul felismerni, és az egyes szakaszokban elvégzett számítás típusától.

A mély neurális hálózatok, beleértve a konvolúciós hálózatokat, alkalmazási területei nem korlátozódnak az arcfelismerésre. Széles körben használják beszéd- és hangjel -felismerésre, különböző típusú érzékelőkből származó leolvasások feldolgozására, vagy összetett többrétegű képek (például műholdas térképek) vagy orvosi képek (röntgenfelvételek, fMRI -képek - lásd) szegmentálására.

Neurális hálózatok a biometriában és az arcfelismerésben

A magas felismerési pontosság elérése érdekében az ideghálózatot nagy képsorozatra, például a MegaFace adatbázisba előzetesen kiképezik.Ez a fő képzési módszer az arcfelismerésre.


Rizs. 6. A MegaFace adatbázis 1 millió képet tartalmaz több mint 690 ezer emberről

Miután a hálózatot az arcok felismerésére tanították, az arcfelismerési folyamat a következőképpen írható le (7. ábra). Először a képet egy arcérzékelővel dolgozzák fel: egy algoritmussal, amely a kép téglalap alakú metszetét érzékeli arccal. Ezt a töredéket normalizálják annak érdekében, hogy a neurális hálózat könnyebben feldolgozhassa: a legjobb eredmény akkor érhető el, ha minden bemeneti kép azonos méretű, színű stb. az algoritmus által. Ez az algoritmus általában a vállalat egyedi fejlesztése a felismerés minőségének javítása érdekében, de erre a problémára is vannak „szabványos” megoldások. A neurális hálózat egyedi jellemzővektorot épít fel, amelyet ezután átvisz az adatbázisba. A keresőmotor összehasonlítja az adatbázisban tárolt jellemzők összes vektorával, és a keresési eredményt bizonyos számú név vagy hasonló arcvonással rendelkező felhasználói profil formájában adja meg, amelyek mindegyikéhez egy bizonyos szám tartozik. Ez a szám jelöli jellemzővektorunk hasonlóságát az adatbázisban találhatóval.


Rizs. 7. Arcfelismerési folyamat

Az algoritmus minőségének meghatározása

Pontosság

Amikor kiválasztjuk, hogy melyik algoritmust alkalmazzuk egy tárgy- vagy arcfelismerési problémára, rendelkeznünk kell a különböző algoritmusok hatékonyságának összehasonlítására szolgáló eszközökkel. Ebben a részben ismertetjük azokat az eszközöket, amelyekkel ezt meg lehet tenni.

Az arcfelismerő rendszer minőségét olyan mérőszámok segítségével értékelik, amelyek megfelelnek a rendszer biometrikus hitelesítési rendszerre vonatkozó tipikus forgatókönyveinek.

Általános szabály, hogy bármely neurális hálózat teljesítménye mérhető a pontosság szempontjából: a paraméterek beállítása és a képzési folyamat befejezése után a hálózatot egy olyan tesztkészlettel tesztelik, amelyre tanári válaszunk van, de amely elkülönül a edzőkészlet. Általában ez a paraméter mennyiségi mérőszám: egy szám (gyakran százalékban), amely azt jelzi, hogy a rendszer mennyire képes felismerni az új objektumokat. Egy másik gyakori mérőszám a hiba (százalékban vagy numerikus egyenértékben fejezhető ki). Vannak azonban pontosabb mérőszámok a biometriára.

A biometriában általában és különösen az arcfelismerő biometriában kétféle alkalmazás létezik: ellenőrzés és azonosítás. Az ellenőrzés egy bizonyos személyazonosság megerősítésének folyamata, ha összehasonlítjuk az egyén képét (az arcvonások vektorát vagy más vonóvektorokat, például a retinát vagy az ujjlenyomatokat) egy vagy több korábban mentett sablonnal. Az azonosítás az egyén személyazonosságának meghatározásának folyamata. A biometrikus mintákat összegyűjtik, és összehasonlítják az adatbázisban található összes sablonnal. A szolgáltatás zárt halmazában van azonosítás, ha feltételezzük, hogy egy személy létezik az adatbázisban. Így az elismerés egyesíti a kifejezések egyikét vagy mindkettőt - az ellenőrzést és az azonosítást.

Gyakran az összehasonlítás közvetlen eredménye mellett fel kell mérni a rendszer „bizalmának” szintjét a döntésben. Ezt az értéket "hasonlósági pontszámnak" (vagy hasonlósági pontszámnak) nevezik. A magasabb hasonlósági pontszám azt jelzi, hogy a két összehasonlított biometrikus minta hasonlóbb.

A rendszer minőségének értékelésére számos módszer létezik (mind az ellenőrzés, mind az azonosítás feladata). Róluk legközelebb beszélünk. És maradjon velünk, és ne habozzon megjegyzéseket hagyni és kérdéseket feltenni.

MEGJEGYZÉSEK

  1. Fukushima (1980) "Neocognitron: Önszerveződő ideghálózati modell a mintafelismerés mechanizmusához, amelyet nem befolyásol a pozícióváltás", Biological Cybernetics.
  2. LeCun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard és L. D. Jackel (1989) "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, vol. 1, 541-551.
  3. Jiaxuan You, Xiaocheng Li, Melvin Low, David Lobell, Stefano Ermon Deep Gaussian Process for Curt Hield Prediction Remote Sensing Data alapján.
  4. Ian Goodfellow, Yoshua Bengio, Aaron Courville (2016) Mély tanulás. MIT sajtó.
  5. Poh, C-H. Chan, J. Kittler, Julian Fierrez (UAM) és Javier Galbally (UAM) (2012) Metrics Description for the Evaluation of Biometric Performance.