Խոսքի ճանաչման ռուսերեն ծրագրեր. Ձայնի ճանաչման տեխնոլոգիաների ակնարկ և դրանց կիրառման եղանակները

«Gnome R» և «Gnome 2M» թվային ձայնագրիչներով ձայնագրված հնչյունագրերը համապատասխանում են հնչյունագրերի պահանջներին, որոնք ներկայացվում են ֆոնոսկոպիկ փորձաքննության և հարմար են մարդկանց ձայնով և խոսքով նույնականացնելու համար:

պետի առաջին տեղակալ

Gnome 2M ձայնագրիչը բազմիցս օգտագործվել է դժվար ակուստիկ միջավայրում կոնֆերանսների և սեմինարների ձայնագրման համար, ձայնագրված սաունդթրեքերը բարձր որակ են: Ներկառուցված աղմուկի նվազեցման գործառույթը թույլ է տալիս բարելավել սաունդթրեքերի նվագարկման որակը...

IPK BNTU-ի առաջատար ինժեներ

Կադրերի առաջադեմ հետազոտությունների և վերապատրաստման ինստիտուտ BNTU

Իր ծառայության ընթացքում «Gnome R»-ն ապացուցել է իր դրական կողմը: Բարձրորակ ձայնագրում՝ նվազագույն չափերով, ձայնագրման երկար տևողությամբ, ձայնագրիչի ներկառուցված հիշողությունից կուտակված տեղեկատվության արագ փոխանցում դեպի համակարգիչ...

Յոթերորդ տնօրինության 3-րդ բաժնի ավագ սպա

Բելառուսի Հանրապետության զինված ուժերի գլխավոր շտաբ

Forget-Me-Not II համակարգի միջոցով ձայնագրված հնչյունագրերը համապատասխանում են հեռախոսային կապի ուղիներով ձայնային հաղորդագրությունները ձայնագրելու բազմալիք թվային համակարգերի պահանջներին և հարմար են ձայնով և խոսքով անձին նույնականացնելու համար...

կենտրոնի ղեկավար

Պետական ​​դատաբժշկական փորձագիտական ​​կենտրոն

Անսահմանափակ թվով ծանուցված բաժանորդներ, միաժամանակ մշակված մեծ թվով առաջադրանքներ «Ռուպոր»-ին կդարձնեն անփոխարինելի օգնական ԲԲԸ-ի թիվ 524 մասնաճյուղի վարկային բաժնի աշխատակիցների աշխատանքում «JSSB Belarusbank...

Փոխտնօրեն – Մանրածախ բիզնես կենտրոնի ղեկավար

«ASB Belarusbank» ԲԲԸ-ի թիվ 524 մասնաճյուղ

Rupor ավտոմատ նախազգուշացման համակարգը աշխատել է անալոգային հեռախոսագծերի վրա և փորձարկվել է անձնակազմին ծանուցելու համար: Համակարգը սպասարկել է 100 բաժանորդի, աշխատել է կայուն և մշտական ​​սպասարկում չի պահանջում...

Զինվորական կոմիսարի պաշտոնակատար

Մինսկի զինվորական կոմիսարիատ

Forget-Me-Not II ձայնագրման համակարգը ապահովում է բնակիչների ձայնային հաղորդագրությունների ընդունումը, դրանց բարձրորակ ձայնագրումը համակարգչով, ձայնագրված հաղորդագրությունները լսելու և տեքստային տվյալների բազա մուտքագրելու հնարավորություն: «Ռուպոր» ծանուցման համակարգը ավտոմատ կերպով տեղեկացնում է պարտապաններին...

ACS բաժնի վարիչ

«Մինսկի ԺՌԵՈ Սովետսկի շրջան» ունիտար ձեռնարկություն

Rupor համակարգը կարճ ժամանակում ծանուցում է մեծ թվով բաժանորդների՝ սահմանված պարամետրերին համապատասխան՝ ծանուցման մասին հաշվետվության տրամադրմամբ, աշխատում է հուսալիորեն, լիովին համապատասխանում է դրա պահանջներին...

Մանրածախ բիզնեսի բաժնի տնօրեն

Խոսքի ձայնագրման և փաստաթղթերի շարժական «Protocol» համակարգը ներառում է թվային ձայնագրիչ «Gnome 2M» և համակարգչային արտագրող «Caesar»: Gnome 2M ձայնագրիչը թույլ է տալիս ստանալ հանդիպումների և նիստերի բարձրորակ ձայնագրություններ, իսկ Caesar transcriber-ը զգալիորեն մեծացնում է աուդիո տեղեկատվության տեքստային փաստաթղթի թարգմանության արագությունը...

Առաջատար մասնագետ

Բելառուսի Հանրապետության Գիտությունների ակադեմիայի Պետության և իրավունքի ինստիտուտ

Նույնականացում ձայնով

Ժամանակակից աշխարհում աճում է հետաքրքրությունը կենսաչափական տեխնոլոգիաների և կենսաչափական անձի նույնականացման համակարգերի նկատմամբ, և այդ հետաքրքրությունը միանգամայն հասկանալի է:

Կենսաչափական նույնականացումը հիմնված է մարդու մարմնի եզակի հատկանիշների ճանաչման և համեմատման սկզբունքի վրա: Մարդու կենսաչափական բնութագրերի հիմնական աղբյուրներն են մատնահետքերը, ծիածանաթաղանթը և ցանցաթաղանթը, ձայնը, դեմքը, ստորագրությունը, քայլվածքը և այլն։ Այս կենսաչափական նույնացուցիչները պատկանում են անձին և նրա անբաժանելի մասն են։ Նրանք չեն կարող մոռանալ, թողնել կամ կորցնել ինչ-որ տեղ:

Կենսաչափական նույնականացման համար կարող են օգտագործվել մարդու տարբեր հատկանիշներ և գծեր: Այս հոդվածը ներկայացնում է համառոտ ակնարկ, թե ինչպես են աշխատում կենսաչափական տեխնոլոգիաները՝ օգտագործելով ձայնի ճանաչման համակարգի օրինակը:

Կենսաչափության համար ձայնային տեխնոլոգիայի արժեքը բազմիցս ապացուցվել է: Այնուամենայնիվ, միայն բարձրորակ ավտոմատ ճանաչման համակարգերի ներդրումը կարող է իրականում նման տեխնոլոգիաներ կիրառել գործնականում: Նմանատիպ համակարգեր արդեն գոյություն ունեն։ Դրանք օգտագործվում են անվտանգության համակարգերում, բանկային տեխնոլոգիաներում, էլեկտրոնային առևտրում և իրավապահ պրակտիկայում:

Բարձրախոսների ճանաչման համակարգերի օգտագործումը համակարգչի կամ տեղեկատվության փոխանցման համակարգեր չարտոնված մուտքի, ինչպես նաև ցանցի կամ տեղեկատվական ռեսուրսների բազմաստիճան մուտքի վերահսկման խնդիրները լուծելու ամենաբնական և տնտեսական միջոցն է:

Բարձրախոսների ճանաչման համակարգերը կարող են լուծել երկու խնդիր՝ բացահայտել անհատին մարդկանց տվյալ, սահմանափակ ցուցակից (անձնական նույնականացում) կամ հաստատել խոսողի ինքնությունը (ինքնության ստուգում): Ձայնի միջոցով անձի նույնականացումը և ստուգումը խոսքի մշակման տեխնոլոգիայի զարգացման ոլորտներն են:

Բրինձ. 1 – Բարձրախոսի ճանաչում

Խոսքը ազդանշան է, որն առաջանում է փոխակերպումների արդյունքում, որոնք տեղի են ունենում մի քանի տարբեր մակարդակներում՝ իմաստային, լեզվական, հոդային և ակուստիկ: Ինչպես հայտնի է, խոսքի ազդանշանի աղբյուրը ձայնային տրակտն է, որը հուզում է ձայնային ալիքները առաձգական օդային միջավայրում: Ձայնային տրակտը սովորաբար վերաբերում է խոսք արտադրող օրգանին, որը գտնվում է ձայնալարերի վերևում: Ինչպես երևում է Նկար 2-ից, ձայնային տրակտը բաղկացած է հիպոֆարինքսից, օրոֆարինքսից, բերանի խոռոչից, քիթ-կոկորդից և քթի խոռոչից:


Բրինձ. 2 – Մարդու ձայնային տրակտի կառուցվածքը

Մարդու ձայնն առաջանում է, երբ օդը թոքերից շնչափողով անցնում է կոկորդ, ձայնալարերի միջով, այնուհետև՝ կոկորդ, բերան և քթի խոռոչ: Երբ ձայնային ալիքը անցնում է ձայնային տրակտով, նրա հաճախականության սպեկտրը փոխվում է ձայնային տրակտի թրթռումներով: Ձայնային տրակտի թրթռումները կոչվում են ֆորմանտներ։ Բարձրախոսի ստուգման համակարգերը սովորաբար ճանաչում են խոսքի ազդանշանի տարբերակիչ առանձնահատկությունները, որոնք արտացոլում են անհատի ձայնային տրակտի մկանային գործունեության անհատական ​​բնութագրերը:

Եկեք ավելի սերտ նայենք բարձրախոսների ստուգման համակարգին: Ձայնի ստուգումն այն գործընթացն է, որը թույլ է տալիս պարզել, թե արդյոք խոսողն այն է, ինչ իրենք են ասում: Համակարգում նախկինում գրանցված օգտատերը արտասանում է իր նույնացուցիչը, որը գրանցման համար է, գաղտնաբառ կամ արտահայտություն: Տեքստից կախված ճանաչման ժամանակ գաղտնաբառի բառը հայտնի է համակարգին, և այն «խնդրում է» օգտագործողին արտասանել այն: Գաղտնաբառ բառը ցուցադրվում է էկրանին, և անձը խոսում է այն խոսափողի մեջ: Տեքստից անկախ ճանաչման դեպքում օգտագործողի կողմից ասված գաղտնաբառ բառը չի համընկնում հղման բառի հետ, այսինքն. Օգտագործողը կարող է կամայական բառ կամ արտահայտություն ասել որպես գաղտնաբառ: Ստուգման համակարգը ստանում է խոսքի ազդանշանը, մշակում այն ​​և որոշում ընդունելու կամ մերժելու օգտատիրոջ ներկայացրած նույնացուցիչը: Համակարգը կարող է տեղեկացնել օգտատիրոջը, որ նրա ձայնը չի համապատասխանում առկա ստանդարտին և խնդրել նրան տրամադրել լրացուցիչ տեղեկատվություն՝ վերջնական որոշում կայացնելու համար։


Բրինձ. 3 – Մարդու փոխազդեցությունը համակարգի հետ

Ձայնի վրա հիմնված ինքնության հաստատման համակարգի հետ անձի փոխազդեցության դիագրամը ներկայացված է Նկար 3-ում: Օգտագործողը խոսափողի մեջ խոսում է համակարգի կողմից իրեն առաջարկված համարը, որպեսզի համակարգը ստուգի, թե արդյոք նրա ձայնը համապատասխանում է համակարգում պահվող ստանդարտին: տվյալների բազա։ Սովորաբար, ձայնի ճանաչման ճշգրտության և խոսքի ընտրանքի չափի միջև փոխզիջում կա, այսինքն. Որքան երկար է խոսքի նմուշը, այնքան բարձր է ճանաչման ճշգրտությունը: Բացի ձայնից, խոսափող կարող են ներթափանցել արձագանքներ և կողմնակի աղմուկ:

Կան մի շարք գործոններ, որոնք կարող են նպաստել ստուգման և նույնականացման սխալներին, օրինակ.

  • գաղտնաբառի բառի կամ արտահայտության սխալ արտասանություն կամ ընթերցում.
  • բանախոսի հուզական վիճակը (սթրես, գաղտնաբառ արտասանել հարկադրանքի տակ և այլն);
  • դժվար ակուստիկ միջավայր (աղմուկ, միջամտություն, ռադիոալիքներ և այլն);
  • տարբեր հաղորդակցման ուղիներ (տարբեր խոսափողերի օգտագործում բարձրախոսների գրանցման և ստուգման ժամանակ);
  • մրսածություն;
  • ձայնի բնական փոփոխությունները.

Դրանցից մի քանիսը կարելի է վերացնել, օրինակ՝ օգտագործելով ավելի լավ խոսափողներ:

Ձայնի միջոցով ինքնության ստուգման գործընթացը բաղկացած է 5 փուլից՝ խոսքի ազդանշանի ընդունում, պարամետրացում կամ ձայնի տարբերակիչ հատկանիշների ընդգծում, ստացված ձայնի նմուշի համեմատում նախկինում սահմանված ստանդարտի հետ, «ընդունել/մերժել» որոշում կայացնել, ուսուցում, կամ հղման մոդելի թարմացում: Ստուգման սխեման ներկայացված է Նկար 4-ում:


Բրինձ. 4 – Ստուգման սխեմա

Գրանցման ժամանակ նոր օգտատերը մուտքագրում է իր ID-ն, այնուհետև մի քանի անգամ ասում է հիմնաբառ կամ արտահայտություն՝ այդպիսով ստեղծելով չափորոշիչներ: Հիմնական արտահայտության կրկնությունների քանակը կարող է տարբեր լինել յուրաքանչյուր օգտագործողի համար, կամ կարող է մշտական ​​լինել բոլորի համար:

Որպեսզի համակարգիչը մշակի խոսքի ազդանշան, ձայնային ալիքը վերածվում է անալոգային, այնուհետև թվային ազդանշանի:

Ձայնի առանձնահատկությունների արդյունահանման փուլում խոսքի ազդանշանը բաժանվում է առանձին ձայնային շրջանակների, որոնք հետագայում վերածվում են թվային մոդելի։ Այս օրինաչափությունները կոչվում են «ձայնային տպիչներ»: Նոր ստացված «ձայնային տպագրությունը» համեմատվում է նախկինում հաստատված ստանդարտի հետ: Բարձրախոսի ինքնությունը ճանաչելու համար ամենակարևորը ձայնի ամենավառ տարբերակիչ հատկանիշներն են, որոնք թույլ կտան համակարգին ճշգրիտ ճանաչել յուրաքանչյուր կոնկրետ օգտագործողի ձայնը:

Վերջապես, համակարգը որոշում է ընդունում ընդունել կամ մերժել օգտատիրոջ մուտքը` կախված նրանից, թե արդյոք նրա ձայնը համապատասխանում է սահմանված ստանդարտին, թե ոչ: Եթե ​​համակարգը սխալ է համապատասխանում իրեն ներկայացված ձայնին ստանդարտին, ապա տեղի է ունենում «կեղծ ընդունման» (FA) սխալ: Եթե ​​համակարգը չի ճանաչում կենսաչափական հատկանիշը, որը համապատասխանում է իր պարունակած ստանդարտին, ապա դա կոչվում է «կեղծ մերժում» (FR) սխալ: Կեղծ ընդունման սխալը բաց է ստեղծում անվտանգության համակարգում, իսկ կեղծ մերժման սխալը հանգեցնում է համակարգի օգտագործելիության նվազմանը, որը երբեմն առաջին անգամ չի ճանաչում մարդուն: Մեկ սխալի առաջացման հավանականությունը նվազեցնելու փորձը հանգեցնում է մյուսի ավելի հաճախակի առաջացմանը, հետևաբար, կախված համակարգի պահանջներից, ընտրվում է որոշակի փոխզիջում, այսինքն. որոշման շեմ է սահմանվել.

Եզրակացություն

Ձայնի նույնականացման մեթոդները նույնպես կիրառվում են գործնականում: Ընկերության ձայնով նույնականացման տեխնոլոգիան թույլ է տալիս կազմակերպել կարգավորվող օգտատերերի մուտքը՝ օգտագործելով տվյալ գաղտնաբառի արտահայտությունը ձեռնարկության ռեսուրսներին, հեռախոսային և WEB ծառայություններին: Տեխնոլոգիաների օգտագործումը կարող է զգալիորեն բարձրացնել համակարգերի անվտանգությունը և միևնույն ժամանակ պարզեցնել օգտատերերի նույնականացման գործընթացը։ Voice Key տեխնոլոգիան կապահովի համակարգի բարձր հուսալիություն և կայունություն, ինչպես նաև կօգնի բարելավել հաճախորդների սպասարկման որակը:

Այս կայքում տեղադրված բոլոր նյութերը թույլատրվում են հրապարակման և տպագրման այլ ռեսուրսների և տպագիր հրապարակումների վրա միայն Speech Technologies LLC-ի գրավոր թույլտվությամբ:


Գիտե՞ք, որ ձայնի ճանաչման տեխնոլոգիան գոյություն ունի արդեն 50 տարի: Գիտնականներն այս խնդիրը լուծում են արդեն կես դար, և միայն վերջին մի քանի տասնամյակներում են ՏՏ ընկերությունները ներգրավվել դրա լուծման գործում։ Աշխատանքի վերջին տարվա արդյունքը եղել է ճանաչման ճշգրտության նոր մակարդակ և տեխնոլոգիաների լայն կիրառում առօրյա և մասնագիտական ​​կյանքում:

Տեխնոլոգիան կյանքում

Ամեն օր մենք օգտագործում ենք որոնման համակարգերը: Մենք փնտրում ենք, թե որտեղ պետք է ճաշել, ինչպես հասնել որոշակի վայր կամ փորձում ենք գտնել անհայտ տերմինի իմաստը: Ձայնի ճանաչման տեխնոլոգիան, որն օգտագործվում է, օրինակ, Google-ի կամ Yandex.Navigator-ի կողմից, օգնում է մեզ նվազագույն ժամանակ հատկացնել որոնմանը: Դա պարզ է և հարմար:

Պրոֆեսիոնալ միջավայրում տեխնոլոգիան օգնում է մի քանի անգամ պարզեցնել աշխատանքը: Օրինակ, բժշկության մեջ բժշկի խոսքը փոխակերպվում է բժշկական պատմության տեքստի և դեղատոմսի անմիջապես նշանակման ժամանակ: Սա խնայում է ժամանակը հիվանդի տվյալները փաստաթղթերում մուտքագրելու համար: Ավտոմեքենայի համակարգչի մեջ ներկառուցված համակարգը պատասխանում է վարորդի խնդրանքներին, օրինակ՝ օգնում է գտնել մոտակա բենզալցակայանը: Հաշմանդամություն ունեցող անձանց համար կարևոր է համակարգերի ներդրումը կենցաղային տեխնիկայի ծրագրային ապահովման մեջ՝ դրանք ձայնի միջոցով կառավարելու համար:

Ձայնի ճանաչման համակարգերի մշակում

Խոսքի ճանաչման գաղափարը միշտ խոստումնալից է թվացել: Բայց արդեն թվերի և ամենապարզ բառերի ճանաչման փուլում հետազոտողները բախվել են խնդրի հետ. Ճանաչման էությունը կրճատվել է ակուստիկ մոդելի կառուցման վրա, երբ խոսքը ներկայացվել է որպես վիճակագրական մոդել, որը համեմատվել է պատրաստի կաղապարների հետ։ Եթե ​​մոդելը համապատասխանում էր կաղապարին, ապա համակարգը որոշեց, որ հրամանը կամ համարը ճանաչվել է: Բառարանների աճը, որոնք համակարգը կարող էր ճանաչել, պահանջում էր հաշվողական համակարգերի հզորության ավելացում:

ԳՀամակարգչի կատարողականի աճի գծապատկերներ և անգլերեն խոսքի ձայնի ճանաչման համակարգերում ճանաչման սխալների կրճատում
Աղբյուրներ:
Հերբ Սաթեր. Անվճար լանչն ավարտվեց. հիմնարար շրջադարձ դեպի համաժամանակյա ծրագրային ապահովում
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Այսօր ճանաչման ալգորիթմները համալրվել են լեզվի մոդելներով, որոնք նկարագրում են լեզվի կառուցվածքը, օրինակ՝ բառերի բնորոշ հաջորդականությունը։ Համակարգը պատրաստված է իրական խոսքի նյութի վրա:

Տեխնոլոգիաների զարգացման նոր փուլը նեյրոնային ցանցերի օգտագործումն էր։ Ճանաչման համակարգը նախագծված է այնպես, որ յուրաքանչյուր նոր ճանաչում ազդի ապագայում ճանաչման ճշգրտության վրա: Համակարգը դառնում է ուսանելի։


Ձայնի ճանաչման համակարգերի որակը

Տեխնոլոգիաների զարգացման իրերի վիճակն այսօր արտահայտվում է նպատակով՝ խոսքի ճանաչումից մինչև հասկացողություն։ Այդ նպատակով ընտրվել է առանցքային ցուցանիշ՝ ճանաչման սխալների տոկոսը։ Արժե ասել, որ այս ցուցանիշը կիրառվում է նաև մեկ մարդու խոսքը մյուսի կողմից ճանաչելու համար։ Մենք բաց ենք թողնում որոշ բառեր՝ հաշվի առնելով այլ գործոններ, օրինակ՝ համատեքստը: Սա մեզ թույլ է տալիս հասկանալ խոսքը նույնիսկ առանց առանձին բառերի իմաստը հասկանալու: Մարդկանց համար ճանաչման սխալի մակարդակը կազմում է 5,1%:

Լեզուն հասկանալու համար խոսքի ճանաչման համակարգի ուսուցման այլ դժվարություններ կլինեն զգացմունքները, խոսակցության թեմայի անսպասելի փոփոխությունները, ժարգոնների օգտագործումը և խոսողի անհատական ​​\u200b\u200bբնութագրերը. խոսքի արագությունը, տեմբրը, հնչյունների արտասանությունը:


Համաշխարհային շուկայի խաղացողներ

Ձայնի ճանաչման հարթակի շուկայում մի քանի գլոբալ խաղացողներ հայտնի են: Դրանք են՝ Apple-ը, Google-ը, Microsoft-ը, IBM-ը։ Այս ընկերություններն ունեն բավարար ռեսուրսներ հետազոտությունների համար և լայն բազա՝ սեփական համակարգերի վերապատրաստման համար: Օրինակ՝ Google-ը ուսուցման համար օգտագործում է միլիոնավոր որոնման հարցումներ, որոնք օգտատերերը հաճույքով հարցնում են իրենց: Սա մի կողմից մեծացնում է ճանաչման ճշգրտությունը, բայց մյուս կողմից՝ սահմանափակումներ. համակարգը ճանաչում է խոսքը 15 վայրկյանանոց հատվածներում և հիմնվում է «ընդհանուր պրոֆիլի հարցի» վրա։ Google համակարգի ճանաչման սխալը կազմում է 4,9%: IBM-ի համար այս ցուցանիշը կազմում է 5,5%, իսկ Microsoft-ի համար՝ 6,3% 2016 թվականի վերջում։

Մասնագիտական ​​ոլորտներում օգտագործելու հարթակը մշակում է ամերիկյան Nuance ընկերությունը։ Կիրառման ոլորտներից՝ բժշկություն, իրավունք, ֆինանսներ, լրագրություն, շինարարություն, անվտանգություն, ավտոմոբիլաշինություն։

Ռուսաստանում Խոսքի տեխնոլոգիաների կենտրոնը պրոֆեսիոնալ ձայնի ճանաչման և խոսքի սինթեզի գործիքների խոշորագույն արտադրողն է: Ընկերության լուծումները ներդրվել են աշխարհի 67 երկրներում։ Աշխատանքի հիմնական ոլորտները. ձայնի կենսաչափություն – ձայնի նույնականացում; ինքնասպասարկման խոսքի համակարգեր – IVR, որն օգտագործվում է զանգերի կենտրոններում; խոսքի սինթեզատորներ. ԱՄՆ-ում ռուսական ընկերությունը գործում է SpeechPro ապրանքանիշի ներքո և կատարում է անգլերեն խոսքի ճանաչման հետազոտություն։ Ճանաչման արդյունքները ներառված են TOP 5 արդյունքներում՝ ըստ սխալի արժեքի:


Ձայնի ճանաչման արժեքը մարքեթինգում

Մարքեթինգի նպատակն է ուսումնասիրել շուկայի կարիքները և կազմակերպել բիզնեսը դրանց համապատասխան՝ շահութաբերությունն ու արդյունավետությունը բարձրացնելու համար: Ձայնը հետաքրքրում է մարքեթոլոգներին երկու դեպքում՝ եթե հաճախորդը խոսում է, և եթե աշխատողը խոսում է։ Ուստի մարքեթոլոգների ուսումնասիրության առարկան և տեխնոլոգիայի կիրառման շրջանակը հեռախոսազանգերն են։

Այսօր հեռախոսային խոսակցությունների վերլուծությունը թույլ է զարգացած: Զանգերը ոչ միայն պետք է ձայնագրել, այլ նաև լսել, գնահատել և հետո միայն վերլուծել: Թեև ձայնագրություն կազմակերպելը հեշտ է. ցանկացած վիրտուալ PBX կամ զանգերի հետագծման ծառայություն կարող է դա անել, զանգերի ունկնդրման կազմակերպումն ավելի դժվար է: Այս խնդիրը լուծում է կամ ընկերության անհատը, կամ զանգերի կենտրոնի ղեկավարը։ Զանգերի ունկնդրումը նույնպես արտապատվիրված է: Ամեն դեպքում, զանգերի գնահատման սխալը խնդիր է, որը կասկածի տակ է դնում վերլուծության արդյունքները և դրանց հիման վրա կայացված որոշումները։

Մեր ժամանակակից, իրադարձություններով լի աշխարհում տեղեկատվության հետ աշխատելու արագությունը հաջողության հասնելու հիմնաքարերից մեկն է: Մեր աշխատանքի արդյունավետությունը և արտադրողականությունը, և, հետևաբար, մեր անմիջական նյութական հարստությունը կախված են նրանից, թե որքան արագ ենք մենք ստանում, ստեղծում և մշակում տեղեկատվությունը: Գործիքների շարքում, որոնք կարող են բարելավել մեր աշխատանքային կարողությունները, կարևոր տեղ են գրավում խոսքը տեքստի թարգմանելու ծրագրերը, որոնք թույլ են տալիս զգալիորեն մեծացնել մեզ անհրաժեշտ տեքստերի մուտքագրման արագությունը։ Այս նյութում ես ձեզ կասեմ, թե ինչ հայտնի ծրագրեր կան աուդիո ձայնը տեքստի թարգմանելու համար և որոնք են դրանց առանձնահատկությունները:

Աուդիո ձայնը տեքստի թարգմանելու հավելված՝ համակարգի պահանջներ

Ձայնը տեքստի թարգմանելու ներկայումս գործող ծրագրերի մեծ մասը վճարովի է՝ միկրոֆոնի վրա դնելով մի շարք պահանջներ (այն դեպքում, երբ ծրագիրը նախատեսված է համակարգչի համար)։ Խիստ խորհուրդ չի տրվում աշխատել վեբ-տեսախցիկի մեջ ներկառուցված կամ ստանդարտ նոութբուքի կորպուսում տեղադրված խոսափողի հետ (նման սարքերից խոսքի ճանաչման որակը բավականին ցածր է): Բացի այդ, բավականին կարևոր է ունենալ հանգիստ միջավայր՝ առանց ավելորդ աղմուկի, որն ուղղակիորեն կարող է ազդել ձեր խոսքի ճանաչման մակարդակի վրա։

Ավելին, այս ծրագրերի մեծ մասն ի վիճակի է ոչ միայն խոսքը վերափոխել համակարգչի էկրանին տեքստի, այլև օգտագործել ձայնային հրամաններ՝ ձեր համակարգիչը կառավարելու համար (ծրագրեր գործարկել և փակել, էլ. նամակներ ստանալ և ուղարկել, կայքեր բացել և փակել և այլն):

Խոսք դեպի տեքստ ծրագիր

Եկեք անցնենք ծրագրերի ուղղակի նկարագրությանը, որոնք կարող են օգնել թարգմանել խոսքը տեքստի:

Laitis ծրագիր

Ռուսալեզու ձայնի ճանաչման անվճար «Laitis» ծրագիրը ունի խոսքի ըմբռնման լավ որակ և, ըստ դրա ստեղծողների, կարող է գրեթե ամբողջությամբ փոխարինել օգտագործողի սովորական ստեղնաշարը: Ծրագիրը լավ է աշխատում նաև ձայնային հրամանների հետ՝ թույլ տալով կատարել բազմաթիվ գործողություններ՝ ձեր համակարգիչը կառավարելու համար:

Իր գործունեության համար ծրագիրը պահանջում է գերարագ ինտերնետ համակարգչի վրա (ծրագիրը օգտագործում է Google-ի և Yandex-ի ցանցային ձայնի ճանաչման ծառայություններ): Ծրագրի հնարավորությունները նաև թույլ են տալիս կառավարել ձեր զննարկիչը ձայնային հրամանների միջոցով, ինչը պահանջում է «Laitis»-ից (Chrome, Mozilla, Opera) հատուկ ընդլայնում տեղադրել ձեր վեբ նավիգատորում:

«Dragon Professional» - աուդիո ձայնագրությունները տեքստի վերծանում

Այս նյութը գրելու պահին թվային անգլերեն լեզվով արտադրանք է « Dragon Professional Individual»-ը ճանաչված տեքստերի որակի համաշխարհային առաջատարներից է։ Ծրագիրը հասկանում է յոթ լեզու (միայն Dragon Anywhere բջջային հավելվածը և առայժմ աշխատում է ռուսերենով), ունի ձայնի բարձր որակի ճանաչում և կարող է կատարել մի շարք ձայնային հրամաններ։ Ընդ որում, այս ապրանքը բացառապես վճարովի է (հիմնական ծրագրի արժեքը 300 ԱՄՆ դոլար է, իսկ Dragon Home արտադրանքի «տնային» տարբերակի համար գնորդը պետք է վճարի 75 ԱՄՆ դոլար)։

Գործելու համար Nuance Communications-ի այս արտադրանքը պահանջում է ստեղծել ձեր սեփական պրոֆիլը, որը նախատեսված է ծրագրի հնարավորությունները հարմարեցնելու ձեր ձայնի առանձնահատկություններին: Բացի տեքստը ուղղակիորեն թելադրելուց, դուք կարող եք ուսուցանել ծրագրին մի շարք հրամաններ կատարելու՝ դրանով իսկ ավելի համահունչ և հարմար դարձնելով ձեր փոխգործակցությունը համակարգչի հետ:

«RealSpeaker» - խոսքի չափազանց ճշգրիտ ճանաչող

Ձայնը տեքստի վերածելու «RealSpeaker» ծրագիրը, ի լրումն այս տեսակի ծրագրերի ստանդարտ գործառույթների, թույլ է տալիս օգտագործել ձեր համակարգչի վեբ-տեսախցիկի հնարավորությունները: Այժմ ծրագիրը ոչ միայն կարդում է ձայնի աուդիո բաղադրիչը, այլև ձայնագրում է խոսողի շուրթերի անկյունների շարժումը՝ դրանով իսկ ավելի ճիշտ ճանաչելով նրա արտասանած բառերը:


«RealSpeaker»-ը կարդում է խոսքի գործընթացի ոչ միայն ձայնային, այլև տեսողական բաղադրիչը

Հավելվածն աջակցում է ավելի քան տասը լեզուների (ներառյալ ռուսերենը), թույլ է տալիս խոսքի ճանաչում՝ հաշվի առնելով շեշտադրումները և բարբառները, թույլ է տալիս արտագրել աուդիո և վիդեո, հնարավորություն է տալիս մուտք գործել ամպ և շատ ավելին: Ծրագիրը shareware է, բայց վճարովի տարբերակի համար դուք պետք է իրական գումար վճարեք:

«Voco» - ծրագիրը արագորեն ձեր ձայնը կվերածի տեքստային փաստաթղթի

Ձայնից տեքստ մեկ այլ փոխարկիչ է «Voco» վճարովի թվային արտադրանքը, որի «տնային» տարբերակի գինը այժմ կազմում է մոտ 1700 ռուբլի: Այս ծրագրի ավելի առաջադեմ և թանկ տարբերակները՝ «Voco.Professional»-ը և «Voco.Enterprise»-ն ունեն մի շարք լրացուցիչ հնարավորություններ, որոնցից մեկը խոսքի ճանաչումն է օգտատիրոջ ձայնագրություններից:

Voco-ի առանձնահատկությունների թվում կցանկանայի նշել ծրագրի բառապաշարը ընդլայնելու հնարավորությունը (ներկայումս ծրագրի բառապաշարը ներառում է ավելի քան 85 հազար բառ), ինչպես նաև ցանցից դրա ինքնավար աշխատանքը, որը թույլ է տալիս կախված չլինել ձեր ինտերնետ կապից: .


Voco-ի առավելությունների թվում է ծրագրի բարձր ուսուցման կորը:

Հավելվածը միացված է բավականին պարզ՝ պարզապես երկու անգամ սեղմեք «Ctrl» ստեղնը: Gboard-ում ձայնային ներածումն ակտիվացնելու համար պարզապես սեղմեք և պահեք բացատողը

Հավելվածը բացարձակապես անվճար է, աջակցում է մի քանի տասնյակ լեզուների, այդ թվում՝ ռուսերենի։

Եզրակացություն

Վերևում ես թվարկեցի ձեր աուդիո ձայնագրությունը տեքստի թարգմանելու ծրագրեր, նկարագրեցի դրանց ընդհանուր ֆունկցիոնալությունը և բնորոշ առանձնահատկությունները: Այս ապրանքների մեծ մասը սովորաբար վճարովի է, և ռուսալեզու ծրագրերի տեսականին և որակը որակապես զիջում են իրենց անգլերեն լեզվով աշխատող գործընկերներին: Նման հավելվածների հետ աշխատելիս խորհուրդ եմ տալիս հատուկ ուշադրություն դարձնել ձեր խոսափողին և դրա կարգավորումներին. սա կարևոր է խոսքի ճանաչման գործընթացում, քանի որ վատ խոսափողը կարող է ժխտել նույնիսկ իմ դիտարկած տեսակի ամենաբարձր որակի ծրագրակազմը:

Հանրագիտարան YouTube

  • 1 / 5

    Խոսքի ճանաչման վրա աշխատանքը սկսվել է անցյալ դարի կեսերից: Առաջին համակարգը ստեղծվել է 1950-ականների սկզբին. դրա մշակողները իրենց առջեւ խնդիր են դրել ճանաչել թվերը: Մշակված համակարգը կարող էր նույնականացնել թվերը, բայց միաձայն արտահայտված, ինչպես, օրինակ, Bell Laboratories «Audrey» համակարգը: Այն աշխատում էր յուրաքանչյուր խոսքի հատվածի ուժային սպեկտրում ֆորմանտը բացահայտելով: Ընդհանուր առմամբ, համակարգը բաղկացած էր երեք հիմնական մասից՝ անալիզատորներ և քվանտիզատորներ, ցանցային համապատասխանող օրինաչափություններ և, վերջապես, սենսորներ։ Այն ստեղծվել է, համապատասխանաբար, տարբեր հաճախականության ֆիլտրերի, անջատիչների տարրական հիմքի վրա, և սենսորները ներառում էին նաև գազով լցված խողովակներ [ ] .

    Տասնամյակի վերջում ի հայտ եկան համակարգեր, որոնք ձայնավորները ճանաչում էին խոսողից անկախ։ 70-ականներին սկսեցին կիրառվել նոր մեթոդներ, որոնք հնարավորություն տվեցին հասնել ավելի առաջադեմ արդյունքների՝ դինամիկ ծրագրավորման մեթոդը և գծային կանխատեսման մեթոդը (Linear Predictive Coding - LPC): Վերոնշյալ ընկերությունը՝ Bell Laboratories, ստեղծել է համակարգեր՝ օգտագործելով հենց այս մեթոդները։ 80-ականներին ձայնի ճանաչման համակարգերի զարգացման հաջորդ քայլը եղել է Hidden Markov Models (HMM) օգտագործումը։ Այդ ժամանակ սկսեցին ի հայտ գալ ձայնի ճանաչման առաջին խոշոր ծրագրերը, ինչպիսին է Կուրցվեյլի տեքստը-խոսքը։ 80-ականների վերջին սկսեցին կիրառվել նաև արհեստական ​​նեյրոնային ցանցերի (Artificial Neural Network - ANN) մեթոդները։ 1987 թվականին շուկայում հայտնվեցին Worlds of Wonder's Julie տիկնիկները, որոնք ընդունակ էին հասկանալ ձայները։ Եվ 10 տարի անց Dragon Systems-ը թողարկեց «NaturalSpeaking 1.0» ծրագիրը:

    Հուսալիություն

    Ձայնի ճանաչման սխալների հիմնական աղբյուրներն են.

    Սեռի ճանաչումը կարելի է առանձնացնել որպես խնդրի առանձին տեսակ, որը լուծվում է բավականին հաջող. մեծ քանակությամբ նախնական տվյալների դեպքում սեռը որոշվում է գրեթե առանց սխալի, իսկ կարճ հատվածներում, ինչպիսին է ընդգծված ձայնավոր ձայնը, սխալի հավանականությունը 5,3 է: % տղամարդկանց և 3,1% կանանց համար։

    Դիտարկվել է նաև ձայնի իմիտացիայի խնդիրը։ France Telecom-ի հետազոտությունը ցույց է տվել, որ պրոֆեսիոնալ ձայնի նմանակումը գործնականում չի մեծացնում ինքնության սխալի հավանականությունը. նմանակողները ձայնը կեղծում են միայն արտաքինից՝ ընդգծելով խոսքի առանձնահատկությունները, բայց չեն կարողանում կեղծել ձայնի հիմնական ուրվագիծը: Նույնիսկ մտերիմների, երկվորյակների ձայները տարբերություն կունենան, թեկուզ վերահսկման դինամիկայի մեջ։ Բայց համակարգչային տեխնոլոգիաների զարգացման հետ մեկտեղ նոր խնդիր է առաջացել, որը պահանջում է վերլուծության նոր մեթոդների կիրառում` ձայնի փոխակերպում, ինչը սխալի հավանականությունը մեծացնում է մինչև 50%:

    Համակարգի հուսալիությունը նկարագրելու համար օգտագործվում է երկու չափանիշ՝ FRR (False Rejection Rate) - մուտքի կեղծ մերժման հավանականությունը (առաջին տեսակի սխալ) և FAR (False Acceptance Rate) - կեղծ ընդունման հավանականությունը: երբ համակարգը սխալմամբ ճանաչում է օտարին որպես իր սեփական (երկրորդ տեսակի սխալ): Նաև երբեմն ճանաչման համակարգերը բնութագրվում են այնպիսի պարամետրով, ինչպիսին է EER (Equal Error Rates), որը ներկայացնում է FRR և FAR հավանականությունների համընկնման կետը: Որքան հուսալի է համակարգը, այնքան ցածր է EER-ը:

    Նույնականացման սխալի արժեքները տարբեր կենսաչափական եղանակների համար

    Դիմում

    Ճանաչումը կարելի է բաժանել երկու հիմնական ուղղության՝ նույնականացում և ստուգում: Առաջին դեպքում համակարգը պետք է ինքնուրույն ճանաչի օգտագործողին ձայնով. երկրորդ դեպքում համակարգը պետք է հաստատի կամ հերքի օգտագործողի կողմից ներկայացված նույնացուցիչը: Ուսումնասիրվող խոսնակի որոշումը բաղկացած է ձայնային մոդելների զույգ-զույգ համեմատությունից, որը հաշվի է առնում յուրաքանչյուր խոսնակի անհատական ​​խոսքի առանձնահատկությունները: Այսպիսով, մենք նախ պետք է հավաքենք բավականին մեծ տվյալների բազա։ Եվ այս համեմատության արդյունքների հիման վրա կարող է ստեղծվել հնչյունագրերի ցանկ, որոնք, որոշ հավանականությամբ, մեզ հետաքրքրող օգտատիրոջ խոսքն են։

    Չնայած ձայնի ճանաչումը չի կարող երաշխավորել 100% ճիշտ արդյունք, այն կարող է բավականին արդյունավետ օգտագործվել այնպիսի ոլորտներում, ինչպիսիք են դատաբժշկական և դատաբժշկական փորձաքննությունը. հետախուզական ծառայություն; հակաահաբեկչական մոնիտորինգ; անվտանգություն; բանկային և այլն:

    Վերլուծություն

    Խոսքի ազդանշանի մշակման ամբողջ գործընթացը կարելի է բաժանել մի քանի հիմնական փուլերի.

    • ազդանշանի նախնական մշակում;
    • կարևորելով չափանիշները;
    • բարձրախոսի ճանաչում:

    Յուրաքանչյուր փուլ ներկայացնում է ալգորիթմ կամ ալգորիթմների մի շարք, որն ի վերջո տալիս է պահանջվող արդյունքը:

    Ձայնի հիմնական առանձնահատկությունները ձևավորվում են երեք հիմնական հատկություններով. վոկալ ծալքերի թրթռման մեխանիզմը, ձայնային տրակտի անատոմիան և հոդակապման կառավարման համակարգը: Բացի այդ, երբեմն հնարավոր է օգտագործել բանախոսի բառարանը, նրա խոսքի պատկերները: Հիմնական հատկանիշները, որոնցով որոշում է կայացվում բանախոսի անձի վերաբերյալ, ձևավորվում են հաշվի առնելով խոսքի արտադրության գործընթացի բոլոր գործոնները. վերահսկողություն. Եթե ​​ավելի մանրամասն նայենք աղբյուրներին, ապա ձայնի աղբյուրի հատկությունները ներառում են՝ հիմնական տոնի միջին հաճախականությունը, հիմնական հաճախականության եզրագիծը և տատանումները և գրգռման իմպուլսի ձևը։ Վոկալ տրակտի սպեկտրալ բնութագրերը նկարագրվում են սպեկտրի ծրարով և դրա միջին թեքությամբ, ֆորմանտի հաճախականությամբ, երկարաժամկետ սպեկտրով կամ գլխուղեղով: Բացի այդ, հաշվի են առնվում նաև բառերի տեւողությունը, ռիթմը (սթրեսի բաշխումը), ազդանշանի մակարդակը, դադարների հաճախականությունը եւ տեւողությունը։ Այս բնութագրերը որոշելու համար անհրաժեշտ է օգտագործել բավականին բարդ ալգորիթմներ, բայց քանի որ, օրինակ, ֆորմանտի հաճախականությունների սխալը բավականին մեծ է, սպեկտրի գործակիցները հաշվարկվում են սպեկտրի ծրարից կամ ձայնային տրակտի փոխանցման ֆունկցիայից, որը գտնվել է գծային կանխատեսման մեթոդով։ օգտագործվում են այն պարզեցնելու համար: Բացի նշված ցեպստրումի գործակիցներից, օգտագործվում են նաև դրանց առաջին և երկրորդ անգամ տարբերությունները։ Այս մեթոդն առաջին անգամ առաջարկվել է Դևիսի և Մերմելշտեյնի աշխատություններում։

    Cepstral վերլուծություն

    Ձայնի ճանաչման աշխատանքներում ամենատարածված մեթոդը խոսքի ազդանշանների սպեկտրի գլխուղեղային փոխակերպումն է։ Մեթոդի սխեման հետևյալն է. 10-20 ms ժամանակային միջակայքում հաշվարկվում է ընթացիկ հզորության սպեկտրը, այնուհետև կիրառվում է այս սպեկտրի լոգարիթմի հակադարձ Ֆուրիեի փոխակերպումը (ցեպստրում) և գտնում են գործակիցները. c n = 1 Θ ∫ 0 Θ ∣ S (j , ω , t) ∣ 2 exp − j n ω Ω ⁡ d ω (\displaystyle c_(n)=(\frac (1)(\Theta))\int _(0 )^(\Theta)(\mid S(j,\omega,t)\mid )^(2)\exp ^(-jn\omega \Omega)d\omega), Ω = 2 2 π Θ , Θ (\displaystyle \Omega =2(\frac (2\pi)(\Theta)),\Theta)- խոսքի ազդանշանի սպեկտրում ամենաբարձր հաճախականությունը, ∣ S (j, ω, t) ∣ 2 (\ցուցադրման ոճ (\mid S(j,\omega,t)\mid)^(2))- հզորության սպեկտր. Գլխուղեղային գործակիցների թիվը n կախված է պահանջվող սպեկտրի հարթեցումից և տատանվում է 20-ից 40-ի սահմաններում: c n = ∑ m = 1 N log ⁡ Y (m) 2 cos ⁡ π n M (m − 1 2)) (\displaystyle c_(n)=\sum _(m=1)^(N)\log (Y (m)^(2))\cos ((\frac (\pi n)(M))(m-(\frac (1)(2)))))), որտեղ Y(m) m-րդ ֆիլտրի ելքային ազդանշանն է, c n (\displaystyle c_(n))- n-րդ գլխուղեղի գործակիցը:

    Լսողության հատկությունները հաշվի են առնվում ոչ գծային հաճախականության սանդղակի փոխակերպման միջոցով, սովորաբար կավիճ սանդղակի վրա: Այս սանդղակը ձևավորվում է լսողության մեջ այսպես կոչված կրիտիկական գոտիների առկայության հիման վրա, այնպես, որ կրիտիկական գոտու ներսում ցանկացած հաճախականության ազդանշանները չեն տարբերվում: Կավիճի սանդղակը հաշվարկվում է որպես M (f) = 1125 ln ⁡ (1 + f 700) (\displaystyle M(f)=1125\ln ((1+(\frac (f)(700))))), որտեղ f-ը Հց-ով հաճախականությունն է, M-ը՝ կավիճով։ Կամ օգտագործվում է մեկ այլ սանդղակ՝ կեղև, այնպիսին, որ երկու հաճախականությունների միջև տարբերությունը կրիտիկական գոտուն հավասար է 1 կեղևի։ Հաճախականությունը B հաշվարկվում է որպես B = 13 a r c t g (0 . 00076 f) + 3. 5 a r c t g f 7500 (\displaystyle B=13\operator name (arctg(((0.00076f)))) +3.5\operator name (arctg(\frac (f)(7500))) ). Հայտնաբերված գործակիցները գրականության մեջ երբեմն կոչվում են MFCC - Mel Frequiency Cepstral Coefficients: Դրանց թիվը տատանվում է 10-ից 30-ի միջև: Գլխուղեղային գործակիցների առաջին և երկրորդ անգամ տարբերությունների օգտագործումը եռապատկում է որոշումների տարածության չափը, բայց բարելավում է բարձրախոսների ճանաչման արդյունավետությունը:

    Սեպստրումը նկարագրում է ազդանշանային սպեկտրի ծրարի ձևը, որի վրա ազդում են ինչպես գրգռման աղբյուրի հատկությունները, այնպես էլ վոկալ տրակտի առանձնահատկությունները: Փորձերը ցույց են տվել, որ սպեկտրի ծրարը ուժեղ ազդեցություն ունի ձայնի ճանաչման վրա: Հետևաբար, ձայնի ճանաչման նպատակով սպեկտրի ծրարի վերլուծության տարբեր մեթոդների օգտագործումը միանգամայն արդարացված է:

    Մեթոդներ

    GMM մեթոդը հետևում է թեորեմից, որ հավանականության խտության ցանկացած ֆունկցիա կարող է ներկայացվել որպես նորմալ բաշխումների կշռված գումար.

    P (x | λ) = ∑ j = 1 k ω j ϕ (χ , Θ j) (\displaystyle p(x|\lambda)=\sum _(j=1)^(k)(\omega _(j) )\phi (\chi ,\Theta _(j)))); λ (\displaystyle \lambda)- բարձրախոսի մոդել, k - մոդելի բաղադրիչների քանակը. ω j (\ցուցադրման ոճ (\omega _(j)))- բաղադրիչների կշիռներն այնպիսին են, որ ∑ j = 1 n ω j = 1. (\displaystyle \sum _(j=1)^(n)(\omega _(j))=1.) ϕ (χ, Θ j) (\displaystyle \phi (\chi,\Theta _(j)))- բազմաչափ արգումենտի բաշխման ֆունկցիա χ , Θ j (\displaystyle \chi ,\Theta _(j)) .ϕ (χ , Θ j) = p (χ ∣ μ j , R j) = 1 (2 π) n 2 ∣ R j ∣ 1 2 exp ⁡ − 1 (χ − μ j) T R j − 1 (χ − μ ժ) 2 (\displaystyle \phi (\chi ,\Theta _(j))=p(\chi \mid \mu _(j),R_(j))=(\frac (1)((2\ pi ))^(\frac (n)(2))(\mid R_(j)\mid )^(\frac (1)(2))\exp (\frac (-1(\chi -\ mu _(ժ))^(Տ)Ռ_(ջ)^(-1)(\չի -\մու _(ջ)))(2))), ω j (\displaystyle \omega _(j))- դրա քաշը, k - խառնուրդի բաղադրիչների քանակը: Այստեղ n-ը հատկանիշի տարածության չափն է, μ j ∈ R n (\displaystyle \mu _(j)\in \mathbb (R) ^(n))- խառնուրդի j-րդ բաղադրիչի մաթեմատիկական սպասման վեկտորը, R j ∈ R n × n (\displaystyle R_(j)\in \mathbb (R) ^(n\times n))- կովարիանսի մատրիցա.

    Շատ հաճախ այս մոդելով համակարգերը օգտագործում են անկյունագծային կովարիանսի մատրիցա: Այն կարող է օգտագործվել մոդելի բոլոր բաղադրիչների կամ նույնիսկ բոլոր մոդելների համար: Կովարիանսի մատրիցը, կշիռները, միջոցների վեկտորները գտնելու համար հաճախ օգտագործվում է ԷՄ ալգորիթմը։ Մուտքում մենք ունենք X = (x 1 , . . . , x T ) վեկտորների ուսուցման հաջորդականություն: Մոդելի պարամետրերը սկզբնավորվում են սկզբնական արժեքներով, այնուհետև պարամետրերը վերագնահատվում են ալգորիթմի յուրաքանչյուր կրկնության ժամանակ: Սկզբնական պարամետրերը որոշելու համար սովորաբար օգտագործվում է կլաստերավորման ալգորիթմ, ինչպիսին է K-means ալգորիթմը: Ուսուցման վեկտորների բազմությունը M կլաստերների բաժանվելուց հետո մոդելի պարամետրերը կարող են որոշվել հետևյալ կերպ. սկզբնական արժեքներ. μ j (\ցուցադրման ոճ \mu _(j))համընկնում են կլաստերների կենտրոնների հետ, կովարիանսային մատրիցները հաշվարկվում են տվյալ կլաստերում ներառված վեկտորների հիման վրա, բաղադրիչների կշիռները որոշվում են տվյալ կլաստերի վեկտորների հարաբերակցությամբ ուսումնական վեկտորների ընդհանուր թվի մեջ:

    Պարամետրերի վերագնահատումը տեղի է ունենում հետևյալ բանաձևերի համաձայն.

    GMM-ը կարելի է անվանել նաև վեկտորային քվանտացման մեթոդի շարունակություն (ցենտրոիդ մեթոդ): Այն ստեղծում է կոդերի գիրք առանձին շրջանների համար հատկանշական տարածության համար (հաճախ օգտագործում է K-միջոցների կլաստերավորում): Վեկտորային քվանտացումը ամենապարզ մոդելն է համատեքստից անկախ ճանաչման համակարգերում:

    Աջակցող վեկտորային մեքենան (SVM) կառուցում է հիպերպլան բազմաչափ տարածության մեջ, որը բաժանում է երկու դաս՝ թիրախային բարձրախոսի պարամետրերը և բարձրախոսների պարամետրերը հղման բազայից: Հիպերպլանը հաշվարկվում է աջակցության վեկտորների միջոցով՝ ընտրված հատուկ ձևով: Կկատարվի չափված պարամետրերի տարածության ոչ գծային փոխակերպում ավելի բարձր չափերի հատկանիշներով որոշ տարածության, քանի որ բաժանարար մակերեսը կարող է չհամապատասխանել հիպերպլանին: Հիպերպլանում բաժանարար մակերեսը կառուցվում է հենակետային վեկտորի մեքենայի մեթոդով, եթե նոր հատկանիշային տարածության մեջ գծային բաժանելիության պայմանը բավարարված է: Այսպիսով, SMM-ի օգտագործման հաջողությունը կախված է յուրաքանչյուր կոնկրետ դեպքում ընտրված ոչ գծային փոխակերպումից: Աջակցող վեկտորի մեքենան հաճախ օգտագործվում է GMM կամ HMM մեթոդով: Սովորաբար, մի քանի վայրկյան տևողությամբ կարճ արտահայտությունների համար հնչյունային կախված HMM-ներն ավելի հարմար են համատեքստից կախված մոտեցմանը:

    Հանրաճանաչություն

    Նյու Յորքում գործող International Biometric Group խորհրդատվական ընկերության տվյալներով՝ ամենատարածված տեխնոլոգիան մատնահետքի սկանավորումն է: Նշվում է, որ կենսաչափական սարքերի վաճառքից ստացված 127 մլն դոլարի հասույթից 44%-ը ստացվում է մատնահետքերի սկաներներից։ Դեմքի ճանաչման համակարգերը պահանջարկի առումով երկրորդ տեղում են՝ 14%, որին հաջորդում են ափի ձևը ճանաչող սարքերը (13%), ձայնի ճանաչման համակարգերը (10%) և ծիածանաթաղանթի ճանաչման սարքերը (8%): Ստորագրության ստուգման սարքերը կազմում են այս ցանկի 2%-ը: Ձայնային կենսաչափական շուկայում ամենահայտնի արտադրողներից են Nuance Communications-ը, SpeechWorks-ը, VeriVoice-ը:

    2016 թվականի փետրվարին The Telegraph-ը հրապարակեց հոդված, որտեղ նշվում էր, որ բրիտանական HSBC բանկի հաճախորդները կկարողանան մուտք գործել հաշիվներ և գործարքներ կատարել ձայնային նույնականացման միջոցով: Անցումը պետք է տեղի ունենար ամռան սկզբին

    Մարդուն միշտ գրավել է բնական լեզվով մեքենա կառավարելու գաղափարը: Թերևս դա մասամբ պայմանավորված է մարդու ցանկությամբ՝ մեքենայից ՎԵՐՋ լինելու։ Այսպես ասած՝ բարձր զգալ։ Սակայն հիմնական ուղերձը արհեստական ​​ինտելեկտի հետ մարդու փոխազդեցության պարզեցումն է: Ձայնային կառավարումը Linux-ում տարբեր աստիճանի հաջողությամբ իրականացվել է գրեթե քառորդ դար: Եկեք նայենք խնդրին և փորձենք հնարավորինս մոտենալ մեր ՕՀ-ին:

    Հարցի առանցքը

    Linux-ի համար մարդու ձայնի հետ աշխատելու համակարգերը վաղուց գոյություն ունեն, և դրանցից շատերը կան: Բայց ոչ բոլորն են ճիշտ մշակում ռուսերեն խոսքը։ Ոմանք ամբողջությամբ լքվել են ծրագրավորողների կողմից: Մեր վերանայման առաջին մասում մենք ուղղակիորեն կխոսենք խոսքի ճանաչման համակարգերի և ձայնային օգնականների մասին, իսկ երկրորդում՝ կդիտարկենք Linux աշխատասեղանի վրա դրանց օգտագործման կոնկրետ օրինակներ:

    Անհրաժեշտ է տարբերակել խոսքի ճանաչման համակարգերը (խոսքի թարգմանությունը տեքստի կամ հրամանների), ինչպիսիք են, օրինակ, CMU Sphinx, Julius, ինչպես նաև այս երկու շարժիչների վրա հիմնված հավելվածները և ձայնային օգնականները, որոնք հայտնի են դարձել: սմարթֆոնների և պլանշետների մշակման հետ: Սա, ավելի շուտ, խոսքի ճանաչման համակարգերի կողմնակի արդյունքն է, դրանց հետագա զարգացումը և ձայնի ճանաչման բոլոր հաջողված գաղափարների իրականացումը, դրանց կիրառումը գործնականում: Սրանցից մի քանիսը դեռ կան Linux աշխատասեղանների համար:

    Դուք պետք է հասկանաք, որ խոսքի ճանաչման շարժիչը և դրա միջերեսը երկու տարբեր բաներ են: Սա Linux-ի ճարտարապետության հիմնական սկզբունքն է՝ բարդ մեխանիզմը ավելի պարզ բաղադրիչների բաժանելը: Ամենադժվար գործն ընկնում է շարժիչների ուսերին։ Սա սովորաբար ձանձրալի կոնսոլային ծրագիր է, որն աշխատում է օգտագործողի կողմից աննկատ: Օգտվողը շփվում է հիմնականում ինտերֆեյսի ծրագրի հետ: Ինտերֆեյսի ստեղծումը դժվար չէ, ուստի մշակողները իրենց հիմնական ջանքերը կենտրոնացնում են բաց կոդով խոսքի ճանաչման շարժիչների մշակման վրա:

    Ինչ է եղել նախկինում

    Պատմականորեն, բոլոր խոսքի մշակման համակարգերը Linux-ում զարգացել են դանդաղ և արագընթաց: Պատճառը ոչ թե մշակողների ծուռությունն է, այլ զարգացման միջավայր մուտք գործելու բարձր մակարդակը։ Ձայնի հետ աշխատելու համար համակարգի կոդ գրելու համար անհրաժեշտ է բարձր որակավորում ունեցող ծրագրավորող: Հետևաբար, նախքան Linux-ում խոսքի համակարգերը հասկանալը սկսելը, անհրաժեշտ է կարճ էքսկուրս կատարել պատմության մեջ։ IBM-ը ժամանակին ուներ այսպիսի հրաշալի օպերացիոն համակարգ՝ OS/2 Warp (Merlin): Այն դուրս եկավ սեպտեմբերին դեռ 1996թ. Բացի այն, որ այն ակնհայտ առավելություններ ուներ մյուս բոլոր օպերացիոն համակարգերի նկատմամբ, OS/2-ը հագեցած էր խոսքի ճանաչման շատ առաջադեմ համակարգով՝ IBM ViaVoice: Այն ժամանակ սա շատ լավ էր՝ հաշվի առնելով, որ ՕՀ-ն աշխատում էր 486 պրոցեսորով 8 ՄԲ օպերատիվ հիշողությամբ (!) համակարգերով։

    Ինչպես գիտեք, OS/2-ը պարտվեց Windows-ի հետ պայքարում, սակայն դրա բաղադրիչներից շատերը շարունակեցին գոյություն ունենալ ինքնուրույն: Այդ բաղադրիչներից մեկը նույն IBM ViaVoice-ն էր, որը վերածվեց անկախ արտադրանքի։ Քանի որ IBM-ը միշտ սիրում էր Linux-ը, ViaVoice-ը տեղափոխվեց այս ՕՀ-ում, ինչը Լինուս Տորվալդսի մտահղացմանը տվեց իր ժամանակի ամենաառաջադեմ խոսքի ճանաչման համակարգը:

    Ցավոք, ViaVoice-ի ճակատագիրը չդասավորվեց այնպես, ինչպես կցանկանային Linux-ի օգտատերերը: Շարժիչն ինքը բաժանվել է անվճար, սակայն դրա աղբյուրները փակ են մնացել։ 2003 թվականին IBM-ը տեխնոլոգիայի իրավունքները վաճառեց կանադա-ամերիկյան Nuance ընկերությանը: Nuance-ը, որը մշակել է խոսքի ճանաչման թերևս ամենահաջող կոմերցիոն արտադրանքը՝ Dragon Naturally Speeking-ը, դեռևս կենդանի է այսօր: Սա Linux-ում ViaVoice-ի անփառունակ պատմության գրեթե ավարտն է: Այն կարճ ժամանակում, երբ ViaVoice-ն անվճար էր և հասանելի էր Linux-ի օգտատերերին, դրա համար մշակվեցին մի քանի ինտերֆեյսներ, օրինակ՝ Xvoice-ը։ Այնուամենայնիվ, նախագիծը վաղուց լքված է և այժմ գործնականում անգործունակ է:

    ՏԵՂԵԿՈՒԹՅՈՒՆՆԵՐ

    Մեքենայի խոսքի ճանաչման ամենադժվար մասը մարդկային բնական լեզուն է:

    Ի՞նչ այսօր:

    Այսօր ամեն ինչ շատ ավելի լավ է։ Վերջին տարիներին, Google Voice API աղբյուրների հայտնաբերումից հետո, Linux-ում խոսքի ճանաչման համակարգերի զարգացման հետ կապված իրավիճակը զգալիորեն բարելավվել է, իսկ ճանաչման որակը բարձրացել է։ Օրինակ, Google Voice API-ի վրա հիմնված Linux Speech Recognition նախագիծը շատ լավ արդյունքներ է ցույց տալիս ռուսաց լեզվի համար։ Բոլոր շարժիչները մոտավորապես նույնն են աշխատում. նախ՝ օգտագործողի սարքի խոսափողից ձայնը մտնում է ճանաչման համակարգ, որից հետո կամ ձայնը մշակվում է տեղական սարքում, կամ ձայնագրությունն ուղարկվում է հեռավոր սերվեր՝ հետագա մշակման համար: Երկրորդ տարբերակը ավելի հարմար է սմարթֆոնների կամ պլանշետների համար։ Իրականում հենց այսպես են աշխատում առևտրային շարժիչները՝ Siri, Google Now և Cortana:

    Մարդու ձայնի հետ աշխատելու շարժիչների բազմազանությունից կան մի քանիսը, որոնք ներկայումս ակտիվ են:

    ԶԳՈՒՇԱՑՈՒՄ

    Նկարագրված խոսքի ճանաչման համակարգերից շատերի տեղադրումը աննշան խնդիր է:

    CMU Սֆինքս

    CMU Sphinx-ի զարգացման մեծ մասը տեղի է ունենում Կարնեգի Մելլոնի համալսարանում: Տարբեր ժամանակներում նախագծի վրա աշխատել են և՛ Մասաչուսեթսի տեխնոլոգիական ինստիտուտը, և՛ այժմ մահացած Sun Microsystems կորպորացիան: Շարժիչի աղբյուրները բաշխվում են BSD լիցենզիայի ներքո և հասանելի են ինչպես առևտրային, այնպես էլ ոչ առևտրային օգտագործման համար: Sphinx-ը հատուկ հավելված չէ, այլ ավելի շուտ գործիքների մի շարք, որոնք կարող են օգտագործվել վերջնական օգտագործողի հավելվածներ մշակելու համար: Sphinx-ն այժմ խոսքի ճանաչման ամենամեծ նախագիծն է: Այն բաղկացած է մի քանի մասերից.

    • Pocketsphinx-ը փոքր, արագ ծրագիր է, որը մշակում է ձայնը, ակուստիկ մոդելները, քերականությունները և բառարանները;
    • Sphinxbase գրադարան, որն անհրաժեշտ է Pocketsphinx-ի աշխատանքի համար;
    • Sphinx4 - փաստացի ճանաչման գրադարան;
    • Sphinxtrain-ը ակուստիկ մոդելներ (մարդու ձայնի ձայնագրություններ) մարզելու ծրագիր է:

    Նախագիծը դանդաղ, բայց հաստատ զարգանում է: Եվ ամենակարեւորը, այն կարելի է կիրառել գործնականում: Եվ ոչ միայն համակարգիչների, այլ նաև շարժական սարքերի վրա: Բացի այդ, շարժիչը շատ լավ է աշխատում ռուսերենի հետ: Եթե ​​ունեք ուղիղ ձեռքեր և մաքուր գլուխ, կարող եք կարգավորել ռուսերեն խոսքի ճանաչումը Sphinx-ի միջոցով՝ կենցաղային տեխնիկան կամ խելացի տունը կառավարելու համար: Փաստորեն, դուք կարող եք սովորական բնակարանը վերածել խելացի տան, ինչը մենք կանենք այս վերանայման երկրորդ մասում: Sphinx-ի իրականացումը հասանելի է Android-ի, iOS-ի և նույնիսկ Windows Phone-ի համար: Ի տարբերություն ամպային մեթոդի, երբ խոսքի ճանաչման աշխատանքը ընկնում է Google ASR կամ Yandex SpeechKit սերվերների ուսերին, Sphinx-ն աշխատում է ավելի ճշգրիտ, ավելի արագ և էժան։ Եվ ամբողջովին տեղական: Ցանկության դեպքում կարող եք Sphinx-ին սովորեցնել ռուսաց լեզվի մոդելը և օգտատերերի հարցումների քերականությունը։ Այո, տեղադրման ժամանակ ստիպված կլինեք մի փոքր աշխատել։ Ճիշտ այնպես, ինչպես Sphinx ձայնային մոդելների և գրադարանների ստեղծումը սկսնակների համար գործունեություն չէ: Քանի որ CMU Sphinx-ի առանցքը՝ Sphinx4 գրադարանը, գրված է Java-ով, դուք կարող եք դրա կոդը ներառել ձեր խոսքի ճանաչման հավելվածներում: Օգտագործման կոնկրետ օրինակներ կներկայացվեն մեր վերանայման երկրորդ մասում:

    VoxForge

    Հատկապես առանձնացնենք խոսքի կորպուս հասկացությունը։ Խոսքի կորպուսը խոսքի բեկորների կառուցվածքային հավաքածու է, որն ապահովված է կորպուսի առանձին տարրեր մուտք գործելու համար նախատեսված ծրագրերով: Այսինքն՝ մարդկային ձայների ամբողջություն է տարբեր լեզուներով։ Առանց խոսքի կորպուսի խոսքի ճանաչման ոչ մի համակարգ չի կարող գործել: Դժվար է ստեղծել բարձրորակ բաց խոսքի կորպուս միայնակ կամ նույնիսկ փոքր թիմի հետ, ուստի հատուկ նախագիծ է հավաքում մարդկային ձայների ձայնագրությունները՝ VoxForge-ը:

    Ինտերնետ հասանելիություն ունեցող յուրաքանչյուր ոք կարող է նպաստել խոսքի կորպուսի ստեղծմանը` պարզապես ձայնագրելով և ներկայացնելով խոսքի հատված: Դա կարելի է անել նույնիսկ հեռախոսով, բայց ավելի հարմար է օգտվել կայքից։ Իհարկե, բացի բուն ձայնագրությունից, խոսքի կորպուսը պետք է ներառի լրացուցիչ տեղեկություններ, օրինակ՝ հնչյունական տառադարձում։ Առանց դրա խոսքի ձայնագրումն անիմաստ է ճանաչման համակարգի համար։


    HTK, Julius եւ Simon

    HTK - Hidden Markov Model Toolkit-ը թաքնված Մարկովյան մոդելների օգտագործմամբ խոսքի ճանաչման գործիքների հետազոտման և մշակման գործիքակազմ է, որը մշակվել է Քեմբրիջի համալսարանում Microsoft-ի հովանավորությամբ (Մայքրոսոֆթը մի անգամ գնել է այս կոդը Entropic Cambridge Research Laboratory Ltd առևտրային ձեռնարկությունից, և այնուհետև վերադարձրեց այն Քեմբրիջը սահմանափակող լիցենզիայի հետ միասին): Ծրագրի աղբյուրները հասանելի են բոլորին, սակայն վերջնական օգտագործողների համար նախատեսված արտադրանքներում HTK կոդի օգտագործումն արգելված է լիցենզիայի համաձայն։

    Այնուամենայնիվ, դա չի նշանակում, որ HTK-ն անիմաստ է Linux մշակողների համար. այն կարող է օգտագործվել որպես օժանդակ գործիք բաց կոդով (և առևտրային) խոսքի ճանաչման գործիքներ մշակելիս, ինչը բաց կոդով Julius շարժիչի մշակողները: մշակվելով Ճապոնիայում, անել. Ջուլիուսը լավագույնս աշխատում է ճապոներենի հետ: Մեծն ու հզորը նույնպես զրկված չէ, քանի որ նույն VoxForge-ն օգտագործվում է որպես ձայնային տվյալների բազա։

    Շարունակությունը հասանելի է միայն անդամներին

    Տարբերակ 1. Միացեք «կայքի» համայնքին՝ կայքի բոլոր նյութերը կարդալու համար

    Նշված ժամանակահատվածում համայնքին անդամակցությունը ձեզ հնարավորություն կտա մուտք գործել ԲՈԼՈՐ Հաքերային նյութերը, կավելացնի ձեր անձնական կուտակային զեղչը և թույլ կտա ձեզ կուտակել պրոֆեսիոնալ Xakep Score վարկանիշ: