AlexNet е конволюционна невронна мрежа за класификация на изображения. Разработване на система за разпознаване на изображения, базирана на апарата от изкуствени невронни мрежи Многослойни невронни мрежи

AlexNet е конволюционна невронна мрежа, която има голямо влияние върху развитието на машинното обучение, особено алгоритмите за компютърно зрение. Мрежата спечели конкурса за разпознаване на изображения ImageNet LSVRC-2012 с голяма разлика през 2012 г. (с 15,3% грешки срещу 26,2% на второ място).

Архитектурата на AlexNet е подобна на тази на LeNet на Yann LeCum. AlexNet обаче има повече филтри на слой и вложени конволюционни слоеве. Мрежата включва извивки, максимално обединяване, отпадане, увеличаване на данните, функции за активиране на ReLU и стохастично спускане на градиента.

Характеристики на AlexNet

  1. Като функция за активиране, Relu се използва вместо arctangent за добавяне на нелинейност към модела. Поради това, със същата точност на метода, скоростта става 6 пъти по -бърза.
  2. Използването на отпадане вместо регулиране решава проблема с пренастройването. Времето за обучение обаче се удвоява със степен на отпадане 0,5.
  3. Припокриващи се съединения се извършват, за да се намали размерът на мрежата. Поради това нивото на грешки на първо и пето ниво се намалява съответно до 0.4% и 0.3%.

Набор от данни на ImageNet

ImageNet е колекция от 15 милиона маркирани изображения с висока разделителна способност, разделени в 22 000 категории. Изображенията бяха събрани онлайн и маркирани ръчно с помощта на Amazon's Mechanical Turk краудсорсинг. От 2010 г. годишното предизвикателство за широкомащабно визуално разпознаване на ImageNet (ILSVRC) се провежда като част от предизвикателството Pascal Visual Object Challenge. Предизвикателството използва част от набора от данни ImageNet с 1000 изображения във всяка от 1000 категории. Общо 1,2 милиона изображения се получават за обучение, 50 000 изображения за проверка и 150 000 за тестване. ImageNet се състои от изображения с различна разделителна способност. Следователно, за състезанието, те са мащабирани до фиксирана разделителна способност 256 × 256. Ако оригиналното изображение е правоъгълно, то то се изрязва до квадрат в центъра на изображението.

Архитектура

Снимка 1

Архитектурата на мрежата е показана на Фигура 1. AlexNet съдържа осем претеглени слоя. Първите пет от тях са сверточни, а другите три са напълно свързани. Изходът се предава чрез функция за загуба на softmax, която генерира разпределение на 1000 етикета на класа. Мрежата максимизира многолинейната логистична регресия, което е еквивалентно на максимизиране на средната стойност за всички обучителни случаи на логаритъма на вероятността за правилно етикетиране над разпределението на очакванията. Ядрата на втория, четвъртия и петия конволюционен слой са свързани само с тези карти на ядрото в предишния слой, които са на един и същ графичен процесор. Ядрата на третия свертен слой са свързани с всички карти на ядрата на втория слой. Невроните в напълно свързани слоеве са свързани с всички неврони в предишния слой.

По този начин AlexNet съдържа 5 конволюционни слоя и 3 напълно свързани слоя. Relu се прилага след всеки свит и напълно свързан слой. Отпадането се прилага преди първия и втория напълно свързани слоеве. Мрежата съдържа 62,3 милиона параметъра и изисква 1,1 милиарда изчисления при преминаване напред. Конволюционните слоеве, които представляват 6% от всички параметри, извършват 95% от изчисленията.

Образование

AlexNet преминава през 90 епохи. Обучението отнема 6 дни наведнъж на два графични процесора Nvidia Geforce GTX 580, поради което мрежата е разделена на две. Използва се стохастично спускане с градиент с учебна скорост 0,01, импулс 0,9 и спад на теглата 0,0005. Скоростта на обучение се дели на 10 след наситеност на прецизността и намалява с 3 пъти по време на обучението. Схема за актуализиране на коефициента на тежест wизглежда като:

където i- номер на итерация, vДали импулсната променлива е и ипсилон- степен на учене. По време на целия етап на обучение, скоростта на обучение се избираше равна за всички слоеве и се регулира ръчно. Последваща евристика беше да се раздели скоростта на обучение на 10, когато броят на грешките при валидирането спре да намалява.

Примери за използване и изпълнение

Резултатите показват, че голяма, дълбока конволюционна невронна мрежа е в състояние да постигне рекордни резултати върху много сложни масиви от данни, използвайки само контролирано обучение. Година след публикуването на AlexNet, всички участници в ImageNet започнаха да използват конволюционни невронни мрежи за решаване на проблема с класификацията. AlexNet беше първото внедряване на конволюционни невронни мрежи и откри нова ера на изследване. Сега стана по -лесно да се внедри AlexNet с помощта на библиотеки за задълбочено обучение: PyTorch, TensorFlow, Keras.

Резултат

Мрежата постига следните нива на грешки от първо и пето ниво: съответно 37,5% и 17,0%. Най-доброто представяне, постигнато в състезанието ILSVRC-2010, беше 47,1% и 28,2%, като се използва подход, който осреднява прогнозите от шест модела на оскъдно кодиране, обучени на различни вектори на функции. Оттогава резултатите са постигнати: 45,7% и 25,7%, използвайки подход, който осреднява прогнозите на два класификатора, обучени по векторите на Фишър. Резултатите от ILSVRC-2010 са показани в Таблица 1.


Вляво: осем тестови изображения на ILSVRC-2010 и пет тагове, които моделът смята за най-вероятни. Под всяко изображение е изписан правилният етикет, а вероятността се показва с червена лента, ако е в първите пет. Вдясно: пет тестови изображения на ILSVRC-2010 в първата колона. Останалите колони показват шест учебни изображения. 1

Невронната мрежа е математически модел и неговото изпълнение под формата на софтуер или хардуерно-софтуерно внедряване, което се основава на моделиране на активността на биологичните невронни мрежи, които са мрежи от неврони в биологичен организъм. Научният интерес към тази структура възникна, защото изучаването на нейния модел позволява да се получи информация за определена система. Тоест такъв модел може да има практическо внедряване в редица клонове на съвременната наука и технологии. В статията се обсъждат въпроси, свързани с използването на невронни мрежи за изграждане на системи за идентификация на изображения, които са широко използвани в системите за сигурност. Подробно се изследват въпроси, свързани с темата за алгоритъма за разпознаване на изображения и неговото приложение. Накратко предоставя информация за методологията за обучение на невронни мрежи.

невронни мрежи

учене с невронни мрежи

разпознаване на изображения

парадигма на местното възприятие

системи за сигурност

1. Yann LeCun, J.S. Denker, S. Solla, R.E. Хауърд и Л. Д. Жакел: Оптимално увреждане на мозъка, в Touretzky, David (Eds), Напредък в системите за обработка на невронна информация 2 (NIPS * 89). - 2000.- 100 стр.

2. Жигалов К.Ю. Метод на фотореалистична векторизация на данни за лазерно измерване за по -нататъшно използване в ГИС // Известия на висшите учебни заводи. Геодезия и въздушна фотография. - 2007. - No 6. - С. 285–287.

3. Ranzato Marc'Aurelio, Christopher Poultney, Sumit Chopra и Yann LeCun: Ефективно изучаване на оскъдни представи с енергиен модел, в J. Platt et al. (Eds), Напредък в системите за невронна обработка на информация (NIPS 2006). - 2010.- 400 стр.

4. Жигалов К.Ю. Подготовка на оборудване за използване в автоматизирани системи за управление на пътното строителство // Естествени и технически науки. - М., 2014. - No 1 (69). - С. 285–287.

5. Y. LeCun и Y. Bengio: Конволюционни мрежи за изображения, реч и времеви серии, в Arbib, M. A. (Eds) // The Handbook of Brain Theory and Neural Networks. - 2005.- 150 стр.

6. Y. LeCun, L. Bottou, G. Orr и K. Muller: Efficient BackProp, in Orr, G. and K. Muller (Eds) // Neural Networks: Tricks of the trade. - 2008.- 200 стр.

Днес технологичният и изследователският напредък обхваща всички нови хоризонти, които напредват бързо. Един от тях е моделирането на околния природен свят с помощта на математически алгоритми. В този аспект има тривиални, например моделиране на морски вибрации и изключително сложни, нетривиални, многокомпонентни задачи, например моделиране на функционирането на човешкия мозък. В процеса на изучаване на този въпрос беше идентифицирано отделно понятие - невронна мрежа. Невронната мрежа е математически модел и неговото изпълнение под формата на софтуер или хардуерно-софтуерно внедряване, което се основава на моделиране на активността на биологичните невронни мрежи, които са мрежи от неврони в биологичен организъм. Научният интерес към тази структура възникна, защото изучаването на нейния модел позволява да се получи информация за определена система. Тоест такъв модел може да има практическо внедряване в редица клонове на съвременната наука и технологии.

Кратка история на развитието на невронните мрежи

Трябва да се отбележи, че първоначално понятието „невронна мрежа“ произхожда от работата на американските математици, невролингвисти и невропсихолози У. Маккълъх и У. Питс (1943), където авторите за първи път го споменават, определят го и правят първия опит да изграждане на модел невронна мрежа. Още през 1949 г. Д. Хеб предлага първия учебен алгоритъм. След това имаше редица изследвания в областта на невронното обучение, а първите работещи прототипи се появиха около 1990-1991 г. последния век. Въпреки това изчислителната мощ на тогавашното оборудване не беше достатъчна за достатъчно бързото функциониране на невронните мрежи. До 2010 г. мощността на графичните видеокарти се е увеличила значително и се появява концепцията за програмиране директно върху видеокарти, което значително (3-4 пъти) повишава производителността на компютрите. През 2012 г. невронните мрежи за първи път спечелиха шампионата на ImageNet, което бележи по -нататъшното им бързо развитие и появата на термина Deep Learning.

В съвременния свят невронните мрежи имат колосално покритие, учените смятат изследванията, проведени в областта на изучаването на поведенческите характеристики и състояния на невронните мрежи, за изключително обещаващи. Списъкът на областите, в които невронните мрежи са намерили приложение, е огромен. Това включва разпознаване и класифициране на модели, прогнозиране и решаване на проблеми на сближаването, както и някои аспекти на компресиране на данни, анализ на данни и, разбира се, приложение в системи за сигурност от различно естество.

Изучаването на невронни мрежи се извършва активно в научните общности на различни страни. В такова разглеждане той е представен като частен случай на редица методи за разпознаване на образи, дискриминационен анализ и методи за групиране.

Трябва също така да се отбележи, че през последната година бяха разпределени средства за стартиращи компании в областта на системите за разпознаване на изображения за повече от предходните 5 години, което показва доста голямо търсене на този тип развитие на крайния пазар.

Приложение на невронни мрежи за разпознаване на изображения

Помислете за стандартните задачи, решени от невронните мрежи, когато се прилагат към изображения:

● идентификация на обекти;

● разпознаване на части от обекти (например лица, ръце, крака и т.н.);

● семантично определяне на границите на обектите (позволява ви да оставите само границите на обектите в картината);

● семантична сегментация (позволява ви да разделите изображението на различни отделни обекти);

● избор на нормали на повърхността (позволява ви да конвертирате двуизмерни изображения в триизмерни изображения);

● подчертаване на обекти на внимание (позволява ви да определите на какво човек би обърнал внимание в дадено изображение).

Трябва да се отбележи, че проблемът с разпознаването на изображения има поразителен характер, решението на този проблем е сложен и необикновен процес. При извършване на разпознаване обектът може да бъде човешко лице, ръкописна цифра, както и много други обекти, които се характеризират с редица уникални характеристики, което значително усложнява процеса на идентификация.

В това изследване ще бъде разгледан алгоритъм за създаване и обучение за разпознаване на ръкописни символи на невронна мрежа. Изображението ще се чете от един от входовете на невронната мрежа и един от изходите ще се използва за извеждане на резултата.

На този етап е необходимо накратко да се спрем на класификацията на невронните мрежи. Днес има три основни типа:

● конволюционни невронни мрежи (CNN);

● повтарящи се мрежи (задълбочено обучение);

● обучение за подсилване.

Един от най -често срещаните примери за изграждане на невронна мрежа е класическата топология на невронната мрежа. Такава невронна мрежа може да бъде представена като напълно свързана графика, нейната характерна черта е разпространението на информация напред и обратно разпространение на сигнализация за грешка. Тази технология няма рекурсивни свойства. Илюстративна невронна мрежа с класическа топология може да бъде изобразена на фиг. 1.

Ориз. 1. Невронна мрежа с най -проста топология

Ориз. 2. Невронна мрежа с 4 слоя скрити неврони

Един от очевидно значимите недостатъци на тази топология на мрежата е излишъкът. Поради излишъка при подаване на данни под формата например на двумерна матрица към входа е възможно да се получи едноизмерен вектор. Така че, за изображението на ръкописна латинска буква, описана с помощта на матрица 34x34, са необходими 1156 входа. Това предполага, че изчислителната мощност, изразходвана за внедряването на софтуерното и хардуерното решение на този алгоритъм, ще бъде твърде голяма.

Проблемът беше решен от американския учен Иън Льо Кун, който анализира работата на лауреатите на Нобелова награда по медицина Т. Втесел и Д. Хубел. Като част от тяхното изследване, обект на изследването беше визуалната кора на мозъка на котката. Анализът на резултатите показа, че кората съдържа редица прости клетки, както и редица сложни клетки. Простите клетки реагираха на изображението на прави линии, получени от визуалните рецептори, а сложните клетки - на транслационното движение в една посока. В резултат на това беше разработен принципът за изграждане на невронни мрежи, наречен конволюционен. Идеята на този принцип беше, че за да се осъществи функционирането на невронната мрежа, редуването на конволюционни слоеве, които обикновено се означават като C - слоеве, поддискретични слоеве S - слоеве и напълно свързани слоеве F - слоеве, на изхода на невронната мрежа се използват.

В основата на изграждането на мрежа от този вид са три парадигми - парадигмата на локалното възприятие, парадигмата на споделените тежести и парадигмата на поддискретизацията.

Същността на парадигмата за локално възприятие е, че не цялата матрица на изображението се подава към всеки входен неврон, а част от него. Останалите части се подават към други входни неврони. В този случай можете да наблюдавате механизма на паралелизиране, като използвате този метод, можете да запазите топологията на изображението от слой на слой, като го обработвате многомерно, тоест по време на обработката могат да се използват редица невронни мрежи.

Парадигмата за споделени тегла предполага, че малък набор от тегла може да се използва за множество взаимоотношения. Тези набори се наричат ​​още "ядра". За крайния резултат от обработката на изображението можем да кажем, че споделените тегла имат положителен ефект върху свойствата на невронната мрежа, изучаването на поведението на която увеличава способността да се намират инвариантите в изображенията и да се филтрират шумовите компоненти без тяхната обработка.

Въз основа на горното можем да заключим, че при прилагане на процедурата за сгъване на изображение въз основа на ядрото, ще се появи изходно изображение, чиито елементи ще бъдат основната характеристика на степента на съответствие с филтъра, т.е. ще бъде генерирана карта на характеристиките. Този алгоритъм е показан на фиг. 3.

Ориз. 3. Алгоритъм за генериране на карта с характеристики

Парадигмата на поддискретизацията е, че входното изображение се намалява чрез намаляване на пространственото измерение на неговия математически еквивалент - n -мерна матрица. Необходимостта от поддискретизация се изразява в инвариантност спрямо мащаба на оригиналното изображение. При прилагане на техниката на редуващи се слоеве става възможно генерирането на нови характеристики на карти от съществуващи, тоест практическата реализация на този метод се състои в това, че способността да се дегенерира многоизмерна матрица във векторна матрица, а след това напълно в ще бъде придобита скаларна стойност.

Прилагане на обучение за невронни мрежи

Съществуващите мрежи са разделени на 3 класа архитектури по отношение на обучението:

● контролирано обучение (перцептон);

● обучение без надзор (адаптивни резонансни мрежи);

● смесено обучение (мрежи от радиално базирани функции).

Един от най -важните критерии за оценка на работата на невронна мрежа в случай на разпознаване на изображение е качеството на разпознаване на изображение. Трябва да се отбележи, че за количествена оценка на качеството на разпознаване на изображения, използвайки функционирането на невронна мрежа, най -често се използва алгоритъмът за средноквадратична грешка:

(1)

В тази зависимост Ep е p-та грешка при разпознаване за двойка неврони,

Dp е очакваният изход на невронната мрежа (обикновено мрежата трябва да се стреми към 100% разпознаване, но това не се случва на практика), а конструкцията O (Ip, W) 2 е квадратът на изхода на мрежата, който зависи от p-тият вход и зададените коефициенти на тегло W. Тази конструкция включва както ядрата на конволюцията, така и коефициентите на тегло на всички слоеве. Изчисляването на грешката се състои в изчисляване на средната аритметична стойност за всички двойки неврони.

В резултат на анализа беше изведена закономерност, че номиналната стойност на теглото, когато стойността на грешката е минимална, може да бъде изчислена въз основа на зависимостта (2):

(2)

От тази зависимост можем да кажем, че проблемът за изчисляване на оптималното тегло е аритметичната разлика на производната на функцията за грешка от първи ред по отношение на теглото, разделена на производната на функцията за грешка от втори ред.

Дадените зависимости позволяват тривиално да се изчисли грешката, която е в изходния слой. Изчисляването на грешката в скритите слоеве на невроните може да се осъществи с помощта на метода за обратно разпространение на грешки. Основната идея на метода е да се разпространява информация, под формата на сигнализиране за грешка, от изходните неврони до входните неврони, тоест в посока, противоположна на разпространението на сигнали през невронната мрежа.

Заслужава да се отбележи, че обучението на мрежата се извършва върху специално подготвени бази данни от изображения, класифицирани в голям брой класове, и отнема доста дълго време.
Днес най -голямата база данни е ImageNet (www.image_net.org). Той има свободен достъп до академични институции.

Заключение

В резултат на гореизложеното трябва да се отбележи, че невронните мрежи и алгоритми, реализирани на принципа на тяхното функциониране, могат да се използват в системи за разпознаване на карта с пръстови отпечатъци за органите на вътрешните работи. Често софтуерният компонент на софтуерен и хардуерен комплекс, насочен към разпознаване на такъв уникален сложен образ като чертеж, който представлява идентификационни данни, не решава напълно задачите, които са му възложени. Програма, базирана на алгоритми, базирани на невронна мрежа, ще бъде много по -ефективна.

За да обобщим, можем да обобщим следното:

● невронните мрежи могат да намерят приложение, както по въпроса за разпознаването на изображения, така и на текстове;

● тази теория дава възможност да се говори за създаването на нов обещаващ клас модели, а именно модели, базирани на интелигентно моделиране;

● невронните мрежи са способни на учене, което показва възможността за оптимизиране на процеса от функциониране. Тази възможност е изключително важен вариант за практическата реализация на алгоритъма;

● Оценката на алгоритъма за разпознаване на модели с помощта на изследване на невронна мрежа може да има количествена стойност, съответно има механизми за коригиране на параметрите до необходимата стойност чрез изчисляване на необходимите коефициенти на тегло.

Днес по -нататъшните изследвания на невронните мрежи изглеждат обещаваща област на изследване, която ще бъде успешно приложена в още повече клонове на науката и технологиите, както и в човешката дейност. Основният акцент в развитието на съвременните системи за разпознаване сега се измества в областта на семантичната сегментация на 3D изображения в геодезията, медицината, прототипирането и други области на човешката дейност - това са доста сложни алгоритми и това се дължи на:

● липса на достатъчен брой бази данни с референтни изображения;

● липса на достатъчен брой безплатни експерти за първоначалното обучение на системата;

● изображенията не се съхраняват в пиксели, което изисква допълнителни ресурси както от компютъра, така и от разработчиците.

Трябва също така да се отбележи, че днес има голям брой стандартни архитектури за изграждане на невронни мрежи, което значително улеснява задачата за изграждане на невронна мрежа от нулата и я свежда до избора на мрежова структура, подходяща за конкретна задача.

В момента на пазара има доста голям брой иновативни компании, които се занимават с разпознаване на изображения, използвайки технологии за обучение на невронни мрежи за системата. Известно е, че те са постигнали точност на разпознаване на изображения в района на 95%, използвайки база данни от 10 000 изображения. Независимо от това, всички постижения са свързани със статични изображения, с видео поредици в момента всичко е много по -сложно.

Библиографска справка

Маркова С.В., Жигалов К.Ю. ПРИЛОЖЕНИЕ НА НЕЙРАЛНАТА МРЕЖА ЗА СЪЗДАВАНЕ НА СИСТЕМАТА ЗА ПРИЗНАВАНЕ НА ИЗОБРАЖЕНИЯ // Фундаментални изследвания. - 2017. - No 8-1. - С. 60-64;
URL: http://fundamental-research.ru/ru/article/view?id=41621 (дата на достъп: 03.24. Предлагаме на вашето внимание списанията, публикувани от "Природонаучната академия"

Приятели, продължаваме историята за невронните мрежи, която започнахме миналия път и за.

Какво е невронна мрежа

В най -простия случай невронната мрежа е математически модел, състоящ се от няколко слоя елементи, които извършват паралелни изчисления. Първоначално такава архитектура е създадена по аналогия с най -малките изчислителни елементи на човешкия мозък - неврони. Най -малките изчислителни елементи на изкуствена невронна мрежа се наричат ​​още неврони. Невронните мрежи обикновено се състоят от три или повече слоя: входен слой, скрит слой (или слоеве) и изходен слой (фиг. 1), в някои случаи входните и изходните слоеве не се вземат предвид, а след това броят на слоевете в мрежата се брои по броя на скритите слоеве. Този тип невронна мрежа се нарича перцептрон.

Ориз. 1. Най -простият перцептрон

Важна характеристика на невронната мрежа е способността й да учи чрез пример, това се нарича контролирано обучение. Невронната мрежа се обучава на голям брой примери, състоящи се от двойки вход-изход (вход и изход, съответстващи един на друг). При проблеми с разпознаването на обекти такава двойка ще бъде входното изображение и съответният етикет - името на обекта. Обучението за невронна мрежа е итеративен процес, който намалява отклонението на изхода на мрежата от даден „отговор на учителя“ - етикет, съответстващ на дадено изображение (фиг. 2). Този процес се състои от стъпки, наречени учебни епохи (те обикновено са хиляди), на всяка от които се коригират "тежестите" на невронната мрежа - параметрите на скритите слоеве на мрежата. След завършване на тренировъчния процес качеството на невронната мрежа обикновено е достатъчно добро, за да изпълни задачата, за която е обучена, въпреки че оптималният набор от параметри, който отлично разпознава всички изображения, често е невъзможно да се намери.


Ориз. 2. Обучение на невронната мрежа

Какво представляват дълбоките невронни мрежи

Дълбоките или дълбоки невронни мрежи са невронни мрежи, състоящи се от няколко скрити слоя (фиг. 3). Тази цифра е изображение на дълбока невронна мрежа, даваща на читателя обща представа за това как изглежда една невронна мрежа. Истинската архитектура на дълбоките невронни мрежи обаче е много по -сложна.


Ориз. 3. Невронна мрежа с много скрити слоеве

Създателите на конволюционни невронни мрежи, разбира се, първоначално бяха вдъхновени от биологичните структури на визуалната система. Първите изчислителни модели, базирани на концепцията за йерархична организация на визуалния поток на приматите, са известни като неокогнитрон Фукушима (фиг. 4). Съвременното разбиране за физиологията на визуалната система е подобно на типа обработка на информация в конволюционните мрежи, поне за бързо разпознаване на обекти.


Ориз. 4. Диаграма, показваща връзки между слоевете в модела Neocognitron.

По -късно тази концепция е внедрена от канадския изследовател Иън ЛеКон в неговата свита невронна мрежа, която той създава за разпознаване на ръкописни знаци. Тази невронна мрежа се състои от два типа слоеве: конволюционни слоеве и поддискретични слоеве (или обединяващи слоеве). В него всеки слой има топографска структура, тоест всеки неврон е свързан с фиксирана точка на оригиналното изображение, както и с рецептивно поле (област на входното изображение, която се обработва от този неврон). На всяко място във всеки слой има редица различни неврони, всеки със собствен набор от входни тегла, свързани с невроните в правоъгълната част на предишния слой. Различни входни правоъгълни фрагменти със същия набор от тегла са свързани с неврони от различни места.

Общата архитектура на дълбока невронна мрежа за разпознаване на образи е показана на фигура 5. Входното изображение е представено като набор от пиксели или малки области на изображението (например 5 на 5 пиксела)


Ориз. 5. Диаграма на конволюционна невронна мрежа

По правило дълбоките невронни мрежи се изобразяват в опростена форма: като етапи на обработка, които понякога се наричат ​​филтри. Всеки етап се различава от другия по редица характеристики, като например размера на възприемчивото поле, вида на функциите, които мрежата се научава да разпознава в даден слой, и вида на изчисленията, извършени на всеки етап.

Областите на приложение на дълбоки невронни мрежи, включително конволюционни мрежи, не се ограничават до разпознаване на лица. Те се използват широко за разпознаване на реч и аудио сигнал, обработка на показания от различни видове сензори или за сегментиране на сложни многослойни изображения (като сателитни карти) или медицински изображения (рентгенови изображения, fMRI изображения-вижте).

Невронни мрежи в биометрията и разпознаването на лица

За да се постигне висока точност на разпознаване, невронната мрежа е предварително обучена върху голям набор от изображения, например, например в базата данни MegaFace.Това е основният метод за обучение за разпознаване на лица.


Ориз. 6. Базата данни на MegaFace съдържа 1 милион изображения на повече от 690 хиляди души

След като мрежата е обучена да разпознава лица, процесът на разпознаване на лица може да бъде описан по следния начин (Фигура 7). Първо, изображението се обработва с помощта на детектор на лице: алгоритъм, който открива правоъгълна част на изображението с лице. Този фрагмент е нормализиран, за да бъде по -лесен за обработка от невронната мрежа: най -добрият резултат ще бъде постигнат, ако всички входни изображения са с еднакъв размер, цвят и т.н. Нормализираното изображение се подава на входа на невронната мрежа за обработка по алгоритъма. Този алгоритъм обикновено е уникална разработка на компанията за подобряване качеството на разпознаване, но има и "стандартни" решения за този проблем. Невронната мрежа изгражда уникален вектор на характеристиките, който след това се прехвърля в базата данни. Търсачката го сравнява с всички вектори на функции, съхранявани в базата данни, и дава резултата от търсенето под формата на определен брой имена или потребителски профили със сходни черти на лицето, на всеки от които е присвоен определен номер. Това число представлява степента на сходство на нашия вектор на характеристиките с този, който се намира в базата данни.


Ориз. 7. Процес на разпознаване на лица

Определяне качеството на алгоритъма

Точност

Когато избираме кой алгоритъм да приложим към проблем с разпознаването на обект или лице, трябва да имаме средства за сравняване на ефективността на различните алгоритми. В тази част ще опишем инструментите, с които това се прави.

Качеството на системата за разпознаване на лица се оценява с помощта на набор от показатели, които съответстват на типичните сценарии за използване на системата за удостоверяване чрез биометрични данни.

По правило ефективността на всяка невронна мрежа може да бъде измерена от гледна точка на точност: след задаване на параметрите и завършване на тренировъчния процес мрежата се тества на набор от тестове, за които имаме отговор на учителя, но който е отделен от тренировъчния комплект. Обикновено този параметър е количествена мярка: число (често като процент), което показва колко добре системата е в състояние да разпознава нови обекти. Друга често срещана мярка е грешката (тя може да бъде изразена като процент или в числов еквивалент). Съществуват обаче по -точни мерки за биометрията.

В биометрията като цяло и по -специално в биометрията за разпознаване на лица има два вида приложения: проверка и идентификация. Проверката е процесът на потвърждаване на определена идентичност чрез сравняване на изображение на индивид (вектор на черти на лицето или друг вектор на черти, например ретина или пръстови отпечатъци) с един или повече предварително запазени шаблони. Идентификацията е процесът на определяне на самоличността на индивида. Биометричните проби се събират и сравняват с всички шаблони в базата данни. Има идентификация в затворен набор от функции, ако се приеме, че в базата данни съществува човек. По този начин разпознаването комбинира един или и двата термина - проверка и идентификация.

Често, в допълнение към директния резултат от сравнението, се изисква да се оцени нивото на "доверие" на системата в нейното решение. Тази стойност се нарича "оценка на сходството" (или оценка на сходството). По -високата оценка на сходството показва, че двете сравнени биометрични проби са по -сходни.

Съществуват редица методи за оценка на качеството на системата (както за задачата за проверка, така и за идентификация). Следващия път ще говорим за тях. А вие останете с нас и не се колебайте да оставяте коментари и да задавате въпроси.

ЗАБЕЛЕЖКИ

  1. Фукушима (1980) "Неокогнитрон: Самоорганизиращ се модел на невронна мрежа за механизъм за разпознаване на модели, незасегнат от промяна в позицията", Биологична кибернетика.
  2. LeCun, B. Boser, J.S. Денкер, Д. Хендерсън, Р.Е. Хауърд, У. Хъбард и Л.Д. Jackel (1989) "Обратно разпространение, приложено към ръкописно разпознаване на пощенски код", Neural Computation, vol. 1, стр., 541-551.
  3. Jiaxuan You, Xiaocheng Li, Melvin Low, David Lobell, Stefano Ermon Deep Gaussian Процес за прогнозиране на добива на култури въз основа на данни за дистанционно наблюдение.
  4. Ian Goodfellow, Yoshua Bengio, Aaron Courville (2016) Deep Learning. MIT преса.
  5. Пох, C-H. Chan, J. Kittler, Julian Fierrez (UAM) и Javier Galbally (UAM) (2012) Описание на показателите за оценка на биометричните показатели.