Programe rusești de recunoaștere a vorbirii. Prezentare generală a tehnologiilor de recunoaștere a vocii și a modului de utilizare a acestora

Fonogramele înregistrate cu ajutorul înregistratoarelor vocale digitale „Gnome R” și „Gnome 2M” îndeplinesc cerințele pentru fonogramele prezentate pentru examinări fonoscopice și sunt potrivite pentru identificarea persoanelor prin voce și vorbire...

Prim-adjunctul șefului

Recorderul vocal Gnome 2M a fost folosit în mod repetat pentru a înregistra conferințe și seminarii în medii acustice dificile; coloanele sonore înregistrate sunt de înaltă calitate. Funcția de reducere a zgomotului încorporată vă permite să îmbunătățiți calitatea redării coloanelor sonore...

Inginer lider al IPK BNTU

Institutul de Studii Avansate și Recalificarea Personalului BNTU

Pe parcursul duratei sale de viață, „Gnome R” s-a dovedit pozitiv. Înregistrare de înaltă calitate cu dimensiuni minime, durată lungă de înregistrare a sunetului, transfer prompt al informațiilor acumulate din memoria încorporată a reportofonului pe computer...

Ofițer superior al departamentului 3 al direcției a șaptea

Statul Major al Forțelor Armate ale Republicii Belarus

Fonogramele înregistrate folosind sistemul Forget-Me-Not II îndeplinesc cerințele pentru sistemele digitale multicanal pentru înregistrarea mesajelor vocale prin canalele de comunicare telefonică și sunt potrivite pentru identificarea unei persoane prin voce și vorbire...

Șeful centrului

Centrul de expertiză criminalistică de stat

Un număr nelimitat de abonați notificați, un număr mare de sarcini procesate simultan vor face din „Rupor” un asistent indispensabil în munca angajaților departamentului de credit al sucursalei nr. 524 a OJSC „JSSB Belarusbank...

Director adjunct – Șef centru de afaceri retail

Sucursala nr. 524 a SA „ASB Belarusbank”

Sistemul de avertizare automată Rupor a funcționat pe linii telefonice analogice și a fost testat pentru a anunța personalul. Sistemul a deservit 100 de abonați, a funcționat stabil și nu a necesitat întreținere constantă...

Comisar militar interimar

Comisariatul militar din Minsk

Sistemul de înregistrare Forget-Me-Not II asigură recepția mesajelor vocale de la rezidenți, înregistrarea lor de înaltă calitate pe computer, capacitatea de a asculta mesajele înregistrate și de a introduce informații într-o bază de date text. Sistemul de notificare „Rupor” anunță automat debitorii...

Şeful Departamentului ACS

Întreprinderea unitară „ZhREO Sovetsky district din Minsk”

Sistemul Rupor oferă notificare unui număr mare de abonați într-un timp scurt, în conformitate cu parametrii stabiliți, cu furnizarea unui raport privind notificarea, funcționează în mod fiabil, respectă pe deplin cerințele pentru aceasta...

Director al departamentului de afaceri cu amănuntul

Sistemul mobil de înregistrare și documentare a vorbirii „Protocol” include un înregistrator digital de voce „Gnome 2M” și un transcriptor de computer „Caesar”. Înregistratorul vocal Gnome 2M vă permite să obțineți înregistrări de înaltă calitate ale întâlnirilor și sesiunilor, iar transcriptorul Caesar crește semnificativ viteza de traducere a informațiilor audio într-un document text...

Specialist de frunte

Institutul de Stat și Drept al Academiei de Științe a Republicii Belarus

Identificare prin voce

În lumea modernă, există un interes din ce în ce mai mare pentru tehnologiile biometrice și sistemele biometrice de identificare personală, iar acest interes este destul de de înțeles.

Identificarea biometrică se bazează pe principiul recunoașterii și comparării caracteristicilor unice ale corpului uman. Principalele surse ale caracteristicilor biometrice ale unei persoane sunt amprentele digitale, irisul și retina, vocea, fața, semnătura, mersul etc. Acești identificatori biometrici aparțin persoanei și sunt parte integrantă a acesteia. Ele nu pot fi uitate, lăsate sau pierdute undeva.

Pentru identificarea biometrică pot fi utilizate diverse caracteristici și trăsături ale unei persoane. Acest articol oferă o scurtă prezentare generală a modului în care funcționează tehnologiile biometrice folosind exemplul unui sistem de recunoaștere a vocii.

Valoarea tehnologiei vocale pentru biometrie a fost dovedită în repetate rânduri. Cu toate acestea, doar implementarea de înaltă calitate a sistemelor automate de recunoaștere a vorbitorilor poate introduce astfel de tehnologii în practică. Sisteme similare există deja. Ele sunt utilizate în sistemele de securitate, tehnologiile bancare, comerțul electronic și practicile de aplicare a legii.

Utilizarea sistemelor de recunoaștere a vorbitorilor este cea mai naturală și economică modalitate de a rezolva problemele de acces neautorizat la un computer sau sisteme de transmisie a informațiilor, precum și problemele de control al accesului pe mai multe niveluri la resursele de rețea sau de informații.

Sistemele de recunoaștere a vorbitorului pot rezolva două probleme: identificarea unui individ dintr-o listă limitată de persoane (identificare personală) sau confirmarea identității vorbitorului (verificarea identității). Identificarea și verificarea personalității prin voce sunt domenii de dezvoltare a tehnologiei de procesare a vorbirii.

Orez. 1 – Recunoașterea difuzorului

Vorbirea este un semnal care apare ca urmare a transformărilor care au loc la mai multe niveluri diferite: semantic, lingvistic, articulator și acustic. După cum se știe, sursa unui semnal de vorbire este tractul vocal, care excită undele sonore într-un mediu de aer elastic. Tractul vocal se referă de obicei la organul care produce vorbirea situat deasupra corzilor vocale. După cum se poate observa din figura 2, tractul vocal este format din hipofaringe, orofaringe, cavitatea bucală, nazofaringe și cavitatea nazală.


Orez. 2 – Structura tractului vocal uman

Vocea umană apare atunci când aerul trece din plămâni prin trahee în laringe, pe lângă corzile vocale și apoi în faringe și gură și cavitatea nazală. Când o undă sonoră trece prin tractul vocal, spectrul său de frecvență este modificat de vibrațiile din tractul vocal. Vibrațiile tractului vocal se numesc formanți. Sistemele de verificare a vorbitorului recunosc de obicei trăsături distinctive ale semnalului de vorbire, care reflectă caracteristicile individuale ale activității musculare a tractului vocal al individului.

Să aruncăm o privire mai atentă asupra sistemului de verificare a difuzorului. Verificarea vocală este procesul prin care se stabilește dacă vorbitorul este cine spune că este. Un utilizator înregistrat anterior în sistem își pronunță identificatorul, care este un număr de înregistrare, un cuvânt sau o expresie de parolă. În recunoașterea dependentă de text, cuvântul de parolă este cunoscut de sistem și „cere” utilizatorului să îl pronunțe. Cuvântul de parolă este afișat pe ecran și persoana îl rostește în microfon. Cu recunoașterea independentă de text, cuvântul de parolă rostit de utilizator nu coincide cu cuvântul de referință, adică. Utilizatorul poate spune un cuvânt sau o expresie arbitrară ca parolă. Sistemul de verificare primește semnalul de vorbire, îl prelucrează și decide dacă acceptă sau respinge identificatorul prezentat de utilizator. Sistemul poate informa utilizatorul că vocea sa nu corespunde standardului existent și îi poate cere să furnizeze informații suplimentare pentru a lua o decizie finală.


Orez. 3 – Interacțiunea umană cu sistemul

Diagrama interacțiunii unei persoane cu sistemul de verificare a identității pe bază de voce este prezentată în Figura 3. Utilizatorul vorbește în microfon numărul oferit de sistem, astfel încât sistemul să verifice dacă vocea sa corespunde standardului stocat în sistem. Bază de date. De obicei, există un compromis între acuratețea recunoașterii vocii și dimensiunea eșantionului de vorbire, de exemplu. Cu cât eșantionul de vorbire este mai lung, cu atât acuratețea recunoașterii este mai mare. Pe lângă voce, ecourile și zgomotele străine pot pătrunde în microfon.

Există o serie de factori care pot contribui la erori de verificare și identificare, de exemplu:

  • pronunție sau citire incorectă a unui cuvânt sau a unei expresii de parolă;
  • starea emoțională a vorbitorului (stresul, pronunțarea unei fraze de acces sub constrângere etc.);
  • mediu acustic dificil (zgomot, interferențe, unde radio etc.);
  • diferite canale de comunicare (utilizarea diferitelor microfoane în timpul înregistrării și verificării difuzorului);
  • raceli;
  • modificări naturale ale vocii.

Unele dintre acestea pot fi eliminate, de exemplu prin utilizarea unor microfoane mai bune.

Procesul de verificare a identității prin voce constă din 5 etape: primirea unui semnal de vorbire, parametrizare, sau evidențierea trăsăturilor distinctive ale vocii, compararea probei de voce rezultată cu un standard stabilit anterior, luarea unei decizii de „admitere/respingere”, instruire, sau actualizarea modelului de referință. Schema de verificare este prezentată în Figura 4.


Orez. 4 – Schema de verificare

În timpul înregistrării, un utilizator nou își introduce ID-ul și apoi spune un cuvânt cheie sau o expresie de mai multe ori, creând astfel repere. Numărul de repetări ale unei fraze cheie poate varia pentru fiecare utilizator sau poate fi constant pentru toată lumea.

Pentru ca un computer să proceseze un semnal de vorbire, unda sonoră este convertită într-un semnal analog și apoi într-un semnal digital.

În etapa extragerii caracteristicilor vocale, semnalul de vorbire este împărțit în cadre sonore separate, care sunt ulterior convertite într-un model digital. Aceste modele sunt numite „amprente vocale”. „Imprimarea vocală” nou obținută este comparată cu un standard stabilit anterior. Pentru a recunoaște identitatea vorbitorului, cele mai importante sunt caracteristicile distinctive cele mai izbitoare ale vocii, care ar permite sistemului să recunoască cu acuratețe vocea fiecărui utilizator specific.

În cele din urmă, sistemul ia decizia de a admite sau de a refuza accesul utilizatorului în funcție de faptul că vocea acestuia se potrivește sau nu cu standardul stabilit. Dacă sistemul corespunde incorect vocea prezentată cu standardul, atunci apare o eroare de „admitere falsă” (FA). Dacă sistemul nu recunoaște o caracteristică biometrică care corespunde standardului pe care îl conține, atunci se numește eroare de „refuz fals” (FR). O eroare de admitere falsă creează un gol în sistemul de securitate, iar o eroare de respingere falsă duce la o scădere a gradului de utilizare a sistemului, care uneori nu recunoaște o persoană prima dată. O încercare de a reduce probabilitatea de apariție a unei erori duce la o apariție mai frecventă a alteia, prin urmare, în funcție de cerințele pentru sistem, se alege un anumit compromis, adică. este stabilit un prag de decizie.

Concluzie

Metodele de identificare vocală sunt de asemenea utilizate în practică. Tehnologia de identificare prin vocea companiei vă permite să organizați accesul reglementat al utilizatorilor folosind o anumită expresie de parolă la resursele întreprinderii, la telefon și la serviciile WEB. Utilizarea tehnologiei poate crește semnificativ securitatea sistemelor și, în același timp, poate simplifica procesul de identificare a utilizatorilor. Tehnologia Voice Key va asigura fiabilitate și stabilitate ridicată a sistemului și, de asemenea, va contribui la îmbunătățirea calității serviciilor pentru clienți.

Toate materialele postate pe acest site sunt permise pentru publicare și tipărire pe alte resurse și publicații tipărite numai cu permisiunea scrisă a Speech Technologies LLC.


Știați că tehnologia de recunoaștere a vocii există de 50 de ani? Oamenii de știință rezolvă această problemă de o jumătate de secol și doar în ultimele decenii companiile IT s-au implicat în rezolvarea ei. Rezultatul ultimului an de muncă a fost un nou nivel de acuratețe a recunoașterii și utilizarea pe scară largă a tehnologiei în viața de zi cu zi și profesională.

Tehnologia în viață

În fiecare zi folosim motoarele de căutare. Căutăm unde să luăm prânzul, cum să ajungem într-un anumit loc sau încercăm să găsim sensul unui termen necunoscut. Tehnologia de recunoaștere a vocii, care este folosită, de exemplu, de Google sau Yandex.Navigator, ne ajută să petrecem un minim de timp căutând. Este simplu și convenabil.

Într-un mediu profesional, tehnologia ajută la simplificarea muncii de mai multe ori. De exemplu, în medicină, discursul medicului este convertit în textul unui istoric medical și o rețetă imediat la programare. Acest lucru economisește timp la introducerea informațiilor despre pacient în documente. Sistemul încorporat în computerul de bord al mașinii răspunde solicitărilor șoferului, de exemplu, ajută la găsirea celei mai apropiate benzinării. Pentru persoanele cu dizabilități, este important să implementeze sisteme în software-ul aparatelor de uz casnic pentru a le controla prin voce.

Dezvoltarea sistemelor de recunoaștere a vocii

Ideea recunoașterii vorbirii a părut întotdeauna promițătoare. Dar deja în stadiul de recunoaștere a numerelor și a celor mai simple cuvinte, cercetătorii au întâmpinat o problemă. Esența recunoașterii a fost redusă la construirea unui model acustic, când vorbirea a fost prezentată ca model statistic, care a fost comparat cu șabloane gata făcute. Dacă modelul se potrivea cu șablonul, atunci sistemul a decis că comanda sau numărul a fost recunoscut. Creșterea dicționarelor pe care sistemul le putea recunoaște a necesitat o creștere a puterii sistemelor de calcul.

GDiagrame de creștere a performanței computerului și reducerea erorilor de recunoaștere în sistemele de recunoaștere a vocii pentru vorbirea engleză
Surse:
Herb Sutter. Prânzul gratuit s-a încheiat: o întorsătură fundamentală către concurența în software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Astăzi, algoritmii de recunoaștere au fost completați de modele de limbaj care descriu structura unei limbi, de exemplu, o secvență tipică de cuvinte. Sistemul este antrenat pe material de vorbire real.

O nouă etapă în dezvoltarea tehnologiei a fost utilizarea rețelelor neuronale. Sistemul de recunoaștere este proiectat în așa fel încât fiecare nouă recunoaștere să afecteze acuratețea recunoașterii în viitor. Sistemul devine învățabil.


Calitatea sistemelor de recunoaștere a vocii

Starea de lucruri în dezvoltarea tehnologiei de astăzi este exprimată prin scopul: de la recunoașterea vorbirii până la înțelegere. În acest scop, a fost ales un indicator cheie - procentul de erori în recunoaștere. Merită spus că acest indicator este folosit și în recunoașterea vorbirii unei persoane de către alta. Omitem unele cuvinte în timp ce luăm în considerare alți factori, cum ar fi contextul. Acest lucru ne permite să înțelegem vorbirea chiar și fără a înțelege sensul cuvintelor individuale. Pentru oameni, rata de eroare de recunoaștere este de 5,1%.

Alte dificultăți în pregătirea unui sistem de recunoaștere a vorbirii pentru a înțelege o limbă vor fi emoțiile, schimbările neașteptate ale subiectului conversației, utilizarea argoului și caracteristicile individuale ale vorbitorului: ritmul vorbirii, timbrul, pronunția sunetelor.


Jucătorii de pe piața globală

Câțiva jucători globali de pe piața platformelor de recunoaștere a vocii sunt bine cunoscuți. Aceștia sunt Apple, Google, Microsoft, IBM. Aceste companii au suficiente resurse pentru cercetare și o bază extinsă pentru formarea propriilor sisteme. De exemplu, Google folosește milioane de interogări de căutare pentru instruire, pe care utilizatorii sunt bucuroși să le pună. Pe de o parte, acest lucru crește acuratețea recunoașterii, dar, pe de altă parte, impune restricții: sistemul recunoaște vorbirea în segmente de 15 secunde și se bazează pe o „întrebare de profil general”. Eroarea de recunoaștere a sistemului Google este de 4,9%. Pentru IBM această cifră este de 5,5%, iar pentru Microsoft este de 6,3% la sfârșitul anului 2016.

Platforma de utilizare în domenii profesionale este dezvoltată de compania americană Nuance. Printre domeniile de aplicare: medicină, drept, finanțe, jurnalism, construcții, securitate, auto.

În Rusia, Center for Speech Technologies este cel mai mare producător de instrumente profesionale de recunoaștere a vocii și de sinteză a vorbirii. Soluțiile companiei au fost implementate în 67 de țări din întreaga lume. Domenii principale de activitate: biometria vocii – identificarea vocii; sisteme de vorbire cu autoservire – IVR, utilizate în centre de apel; sintetizatoare de vorbire. În SUA, compania rusă operează sub brandul SpeechPro și efectuează cercetări privind recunoașterea vorbirii în limba engleză. Rezultatele recunoașterii sunt incluse în TOP 5 rezultate după valoarea erorii.


Valoarea recunoașterii vocii în marketing

Scopul marketingului este de a studia nevoile pieței și de a organiza afacerile în conformitate cu acestea pentru a crește profitabilitatea și eficiența. Vocea este de interes pentru marketeri în două cazuri: dacă vorbește clientul și dacă vorbește angajatul. Prin urmare, obiectul de studiu pentru marketeri și domeniul de aplicare al tehnologiei sunt apelurile telefonice.

Astăzi, analiza conversațiilor telefonice este slab dezvoltată. Apelurile nu trebuie doar înregistrate, ci și ascultate, evaluate și abia apoi analizate. În timp ce organizarea unei înregistrări este ușoară - orice PBX virtual sau serviciu de urmărire a apelurilor poate face acest lucru - organizarea ascultării apelurilor este mai dificilă. Această problemă este rezolvată fie de o persoană fizică din companie, fie de șeful call center-ului. Ascultarea apelurilor este, de asemenea, externalizată. În orice caz, eroarea în evaluarea apelurilor este o problemă care pune sub semnul întrebării rezultatele analizelor și deciziile luate pe baza acestora.

În lumea noastră modernă și plină de evenimente, viteza de lucru cu informații este una dintre pietrele de temelie ale obținerii succesului. Performanța în muncă și productivitatea noastră și, prin urmare, bogăția noastră materială imediată, depind de cât de repede primim, creăm și procesăm informațiile. Printre instrumentele care ne pot îmbunătăți capacitățile de lucru, programele de traducere a vorbirii în text ocupă un loc important, permițându-ne să creștem semnificativ viteza de tastare a textelor de care avem nevoie. În acest material vă voi spune ce programe populare există pentru traducerea vocii audio în text și care sunt caracteristicile acestora.

Aplicație pentru traducerea vocii audio în text - cerințe de sistem

Cele mai multe dintre programele existente în prezent pentru traducerea vocii în text sunt plătite, punând o serie de cerințe pe microfon (în cazul în care programul este destinat unui computer). Nu este foarte recomandat să lucrați cu un microfon încorporat într-o cameră web sau situat în corpul unui laptop standard (calitatea recunoașterii vorbirii de la astfel de dispozitive este destul de scăzută). În plus, este destul de important să ai un mediu liniștit, fără zgomot inutil care îți poate afecta direct nivelul de recunoaștere a vorbirii.

Mai mult, majoritatea acestor programe sunt capabile nu numai să transforme vorbirea în text pe ecranul computerului, ci și să utilizeze comenzi vocale pentru a vă controla computerul (lansarea și închiderea programelor, primirea și trimiterea de e-mailuri, deschiderea și închiderea site-urilor web și așa mai departe).

Program de vorbire în text

Să trecem la o descriere directă a programelor care pot ajuta la traducerea vorbirii în text.

Programul Laitis

Programul gratuit de recunoaștere a vocii în limba rusă „Laitis” are o bună calitate a înțelegerii vorbirii și, potrivit creatorilor săi, poate înlocui aproape complet tastatura obișnuită a utilizatorului. Programul funcționează bine și cu comenzi vocale, permițându-vă să efectuați multe acțiuni pentru a vă controla computerul.

Pentru funcționarea sa, programul necesită internet de mare viteză pe computer (programul folosește servicii de recunoaștere a vocii în rețea de la Google și Yandex). Capacitățile programului vă permit, de asemenea, să vă controlați browserul utilizând comenzi vocale, ceea ce necesită instalarea unei extensii speciale de la „Laitis” (Chrome, Mozilla, Opera) pe navigatorul dvs. web.

„Dragon Professional” - transcrierea înregistrărilor audio în text

La momentul scrierii acestui material, un produs digital în limba engleză « Dragon Professional Individual” este unul dintre liderii mondiali în calitatea textelor recunoscute. Programul înțelege șapte limbi (doar aplicația mobilă Dragon Anywhere și funcționează cu limba rusă până acum), are recunoaștere a vocii de înaltă calitate și poate executa o serie de comenzi vocale. Mai mult, acest produs este plătit exclusiv (prețul pentru programul principal este de 300 de dolari SUA, iar pentru versiunea „acasă” a produsului Dragon Home cumpărătorul va trebui să plătească 75 de dolari).

Pentru a funcționa, acest produs de la Nuance Communications necesită crearea propriului profil, care este conceput pentru a adapta capacitățile programului la specificul vocii tale. Pe lângă dictarea directă a textului, puteți antrena programul să execute o serie de comenzi, făcând astfel interacțiunea cu computerul și mai congruentă și mai convenabilă.

„RealSpeaker” - recunoaștere a vorbirii ultra-precise

Programul pentru transformarea vocii în text „RealSpeaker”, pe lângă funcțiile standard pentru programe de acest fel, vă permite să utilizați capacitățile camerei web a computerului dvs. Acum, programul nu numai că citește componenta audio a sunetului, ci înregistrează și mișcarea colțurilor buzelor vorbitorului, recunoscând astfel mai corect cuvintele pe care le pronunță.


„RealSpeaker” citește nu numai audio, ci și componenta vizuală a procesului de vorbire

Aplicația acceptă mai mult de zece limbi (inclusiv rusă), permite recunoașterea vorbirii ținând cont de accente și dialecte, vă permite să transcrieți audio și video, oferă acces la cloud și multe altele. Programul este shareware, dar pentru versiunea plătită va trebui să plătiți bani reali.

„Voco” - programul vă va traduce rapid vocea într-un document text

Un alt convertor de voce în text este produsul digital plătit „Voco”, al cărui preț al versiunii „acasă” este acum de aproximativ 1.700 de ruble. Versiunile mai avansate și mai scumpe ale acestui program - „Voco.Professional” și „Voco.Enterprise” au o serie de caracteristici suplimentare, dintre care una este recunoașterea vorbirii din înregistrările audio ale utilizatorului.

Printre caracteristicile Voco, aș dori să remarc capacitatea de a extinde vocabularul programului (în prezent vocabularul programului include mai mult de 85 de mii de cuvinte), precum și funcționarea sa autonomă din rețea, permițându-vă să nu depindeți de conexiunea dvs. la internet .


Printre avantajele Voco se numără curba mare de învățare a programului.

Aplicația este activată destul de simplu - trebuie doar să apăsați tasta „Ctrl” de două ori. Pentru a activa introducerea vocală în Gboard, trebuie doar să țineți apăsată bara de spațiu

Aplicația este absolut gratuită, acceptă câteva zeci de limbi, inclusiv rusă.

Concluzie

Mai sus, am enumerat programe pentru traducerea înregistrării vocii audio în text, am descris funcționalitatea generală și caracteristicile lor. Cele mai multe dintre aceste produse sunt de obicei plătite, iar gama și calitatea programelor în limba rusă este calitativ inferioară față de omologii lor în limba engleză. Când lucrați cu astfel de aplicații, vă recomand să acordați o atenție deosebită microfonului și setărilor acestuia - acest lucru este important în procesul de recunoaștere a vorbirii, deoarece un microfon prost poate anula chiar și software-ul de cea mai înaltă calitate de tipul pe care l-am revizuit.

YouTube enciclopedic

  • 1 / 5

    Lucrările privind recunoașterea vorbirii datează de la mijlocul secolului trecut. Primul sistem a fost creat la începutul anilor 1950: dezvoltatorii săi și-au stabilit sarcina de a recunoaște numerele. Sistemul dezvoltat ar putea identifica numerele, dar vorbite într-o singură voce, cum ar fi sistemul „Audrey” de la Bell Laboratories. A funcționat prin identificarea formantului din spectrul de putere al fiecărui pasaj de vorbire. În termeni generali, sistemul a constat din trei părți principale: analizoare și cuantificatoare, modele de potrivire a rețelei și, în final, senzori. A fost creat, în consecință, pe baza elementară a diferitelor filtre de frecvență, întrerupătoare, iar senzorii au inclus și tuburi umplute cu gaz [ ] .

    Până la sfârșitul deceniului, au apărut sisteme care recunosc vocalele independent de vorbitor. În anii 70 au început să fie folosite noi metode care au făcut posibilă obținerea unor rezultate mai avansate - metoda de programare dinamică și metoda de predicție liniară (Linear Predictive Coding - LPC). Compania menționată mai sus, Bell Laboratories, a creat sisteme folosind exact aceste metode. În anii 80, următorul pas în dezvoltarea sistemelor de recunoaștere a vocii a fost utilizarea modelelor Markov ascunse (HMM). În acest moment, au început să apară primele programe mari de recunoaștere a vocii, cum ar fi text-to-speech Kurzweil. La sfârșitul anilor 80, au început să fie folosite și metodele rețelelor neuronale artificiale (Artificial Neural Network - ANN). În 1987, au apărut pe piață păpușile Julie din Worlds of Wonder, care erau capabile să înțeleagă vocile. Și 10 ani mai târziu, Dragon Systems a lansat programul „NaturallySpeaking 1.0”.

    Fiabilitate

    Principalele surse de erori de recunoaștere a vocii sunt:

    Recunoașterea genului poate fi distinsă ca un tip separat de problemă, care este rezolvată destul de cu succes - cu cantități mari de date inițiale, genul este determinat aproape fără eroare, iar în pasaje scurte, cum ar fi un sunet vocal accentuat, probabilitatea de eroare este de 5,3. % pentru bărbați și 3,1% pentru femei.

    S-a luat în considerare și problema imitației vocii. Cercetările efectuate de France Telecom au arătat că imitarea profesională a vocii practic nu crește probabilitatea unei erori de identitate - imitatorii falsifică vocea doar extern, subliniind caracteristicile vorbirii, dar nu sunt capabili să falsească conturul de bază al vocii. Chiar și vocile rudelor apropiate, gemenele, vor avea o diferență, cel puțin în dinamica controlului. Dar odată cu dezvoltarea tehnologiei informatice, a apărut o nouă problemă care necesită utilizarea unor noi metode de analiză - transformarea vocii, care crește probabilitatea de eroare la 50%.

    Pentru a descrie fiabilitatea sistemului, sunt utilizate două criterii: FRR (False Rejection Rate) - probabilitatea unei false refuzuri de acces (eroare de primul fel) și FAR (False Acceptance Rate) - probabilitatea unei admiteri false. când sistemul identifică în mod eronat un străin ca fiind al său (eroare de al doilea tip) . De asemenea, uneori sistemele de recunoaștere sunt caracterizate de un parametru precum EER (Equal Error Rates), care reprezintă punctul de coincidență al probabilităților FRR și FAR. Cu cât sistemul este mai fiabil, cu atât EER este mai scăzut.

    Valori de eroare de identificare pentru diferite modalități biometrice

    Aplicație

    Recunoașterea poate fi împărțită în două domenii principale: identificare și verificare. În primul caz, sistemul trebuie să identifice independent utilizatorul prin voce; în al doilea caz, sistemul trebuie să confirme sau să infirme identificatorul prezentat de utilizator. Determinarea vorbitorului studiat constă într-o comparație în perechi a modelelor de voce care iau în considerare caracteristicile individuale de vorbire ale fiecărui vorbitor. Astfel, trebuie mai întâi să colectăm o bază de date destul de mare. Și pe baza rezultatelor acestei comparații, se poate genera o listă de fonograme care, cu o oarecare probabilitate, sunt vorbirea utilizatorului de care ne interesează.

    Deși recunoașterea vocii nu poate garanta un rezultat 100% corect, poate fi folosită destul de eficient în domenii precum criminalistica și criminalistica; serviciul de informații; monitorizare antiteroristă; Siguranță; bancar și așa mai departe.

    Analiză

    Întregul proces de procesare a unui semnal de vorbire poate fi împărțit în mai multe etape principale:

    • preprocesarea semnalului;
    • evidențierea criteriilor;
    • recunoașterea vorbitorului.

    Fiecare etapă reprezintă un algoritm sau un set de algoritmi, care în cele din urmă produce rezultatul necesar.

    Principalele caracteristici ale vocii sunt formate din trei proprietăți principale: mecanica vibrației corzilor vocale, anatomia tractului vocal și sistemul de control al articulației. În plus, uneori este posibil să folosiți dicționarul vorbitorului, figurile sale de stil. Principalele caracteristici prin care se ia o decizie cu privire la personalitatea vorbitorului se formează luând în considerare toți factorii procesului de producere a vorbirii: sursa vocii, frecvențele de rezonanță ale tractului vocal și atenuarea acestora, precum și dinamica articulației. Control. Dacă ne uităm la surse mai detaliat, proprietățile sursei vocale includ: frecvența medie a tonului fundamental, conturul și fluctuațiile frecvenței fundamentale și forma pulsului de excitație. Caracteristicile spectrale ale tractului vocal sunt descrise de anvelopa spectrului și panta medie a acestuia, frecvențele formantelor, spectrul pe termen lung sau cepstrul. În plus, sunt luate în considerare și durata cuvintelor, ritmul (distribuția stresului), nivelul semnalului, frecvența și durata pauzelor. Pentru a determina aceste caracteristici, este necesar să se utilizeze algoritmi destul de complecși, dar întrucât, de exemplu, eroarea frecvențelor formanților este destul de mare, coeficienții de cepstru se calculează din anvelopa spectrului sau funcția de transfer a tractului vocal găsită prin metoda predicției liniare. sunt folosite pentru a o simplifica. Pe lângă coeficienții de cepstru menționați, sunt utilizate și diferențele lor de timp prima și a doua. Această metodă a fost propusă pentru prima dată în lucrările lui Davis și Mermelstein.

    Analiza cepstrală

    În lucrările de recunoaștere a vocii, cea mai populară metodă este transformarea cepstrală a spectrului de semnale de vorbire. Schema metodei este următoarea: pe un interval de timp de 10 - 20 ms, se calculează spectrul de putere curent, apoi se aplică transformata Fourier inversă a logaritmului acestui spectru (cepstrum) și se găsesc coeficienții: c n = 1 Θ ∫ 0 Θ ∣ S (j , ω , t) ∣ 2 exp − j n ω Ω ⁡ d ω (\displaystyle c_(n)=(\frac (1)(\Theta))\int _(0 )^(\Theta )(\mid S(j,\omega ,t)\mid )^(2)\exp ^(-jn\omega \Omega )d\omega ), Ω = 2 2 π Θ , Θ (\displaystyle \Omega =2(\frac (2\pi)(\Theta)),\Theta)- cea mai mare frecvență din spectrul semnalului de vorbire, ∣ S (j , ω , t) ∣ 2 (\displaystyle (\mid S(j,\omega,t)\mid )^(2))- spectrul puterii. Numărul de coeficienți cepstrali n depinde de netezirea necesară a spectrului și variază de la 20 la 40. Dacă se folosește un pieptene de filtre trece-bandă, atunci coeficienții de transformare cepstrală discretă sunt calculați ca c n = ∑ m = 1 N log ⁡ Y (m) 2 cos ⁡ π n M (m - 1 2)) (\displaystyle c_(n)=\sum _(m=1)^(N)\log (Y (m)^(2))\cos ((\frac (\pi n)(M))(m-(\frac (1)(2)))))), unde Y(m) este semnalul de ieșire al filtrului al-lea, c n (\displaystyle c_(n))- al n-lea coeficient de cepstru.

    Proprietățile auzului sunt luate în considerare printr-o transformare neliniară a scării de frecvență, de obicei pe scara cretă. Această scară se formează pe baza prezenței așa-numitelor benzi critice în auz, astfel încât semnalele de orice frecvență din banda critică să nu se distingă. Scara de cretă este calculată ca M (f) = 1125 ln ⁡ (1 + f 700) (\displaystyle M(f)=1125\ln ((1+(\frac (f)(700))))), unde f este frecvența în Hz, M este frecvența în cretă. Sau se folosește o altă scară - scoarță, astfel încât diferența dintre cele două frecvențe, egală cu banda critică, să fie de 1 scoarță. Frecvența B se calculează ca B = 13 a r c t g (0. 00076 f) + 3. 5 a r c t g f 7500 (\displaystyle B=13\operatorname (arctg((0.00076f))) +3.5\operatorname (arctg(\frac (f)(7500)) ). Coeficienții găsiți sunt uneori denumiți în literatură ca MFCC - Mel Frequiency Cepstral Coeficienti. Numărul acestora variază de la 10 la 30. Utilizarea primei și a doua diferențe de timp ale coeficienților cepstrali triplează dimensiunea spațiului de decizie, dar îmbunătățește eficiența recunoașterii vorbitorului.

    Cepstrul descrie forma anvelopei spectrului de semnal, care este influențată atât de proprietățile sursei de excitație, cât și de caracteristicile tractului vocal. Experimentele au arătat că învelișul spectrului are o influență puternică asupra recunoașterii vocii. Prin urmare, utilizarea diferitelor metode de analiză a anvelopei spectrului în scopuri de recunoaștere a vocii este destul de justificată.

    Metode

    Metoda GMM rezultă din teorema că orice funcție de densitate de probabilitate poate fi reprezentată ca o sumă ponderată a distribuțiilor normale:

    P (x | λ) = ∑ j = 1 k ω j ϕ (χ , Θ j) (\displaystyle p(x|\lambda)=\sum _(j=1)^(k)(\omega _(j) )\phi (\chi ,\Theta _(j)))); λ (\displaystyle \lambda)- modelul difuzorului;k - numărul componentelor modelului; ω j (\displaystyle (\omega _(j)))- greutăţile componentelor sunt astfel încât ∑ j = 1 n ω j = 1. (\displaystyle \sum _(j=1)^(n)(\omega _(j))=1.) ϕ (χ, Θ j) (\displaystyle \phi (\chi,\Theta _(j)))- funcţia de distribuţie a unui argument multidimensional χ , Θ j (\displaystyle \chi ,\Theta _(j)) .ϕ (χ , Θ j) = p (χ ∣ μ j , R j) = 1 (2 π) n 2 ∣ R j ∣ 1 2 exp ⁡ − 1 (χ − μ j) T R j − 1 (χ − μ μ j) 2 (\displaystyle \phi (\chi,\Theta _(j))=p(\chi \mid \mu _(j),R_(j))=(\frac (1)(((2\) pi ))^(\frac (n)(2))(\mid R_(j)\mid )^(\frac (1)(2)))\exp (\frac (-1(\chi -\ mu _(j))^(T)R_(j)^(-1)(\chi -\mu _(j)))(2))), ω j (\displaystyle \omega _(j))- greutatea sa, k - numărul de componente din amestec. Aici n este dimensiunea spațiului caracteristic, μ j ∈ R n (\displaystyle \mu _(j)\in \mathbb (R) ^(n))- vector de așteptare matematică a j-a componentă a amestecului, R j ∈ R n × n (\displaystyle R_(j)\in \mathbb (R) ^(n\times n))- matricea de covarianță.

    Foarte des, sistemele cu acest model folosesc o matrice de covarianță diagonală. Poate fi folosit pentru toate componentele modelului sau chiar pentru toate modelele. Pentru a găsi matricea de covarianță, greutățile, vectorii mediilor, se folosește adesea algoritmul EM. La intrare avem o secvență de antrenament de vectori X = (x 1 , . . . , x T ) . Parametrii modelului sunt inițializați cu valori inițiale și apoi parametrii sunt re-estimați la fiecare iterație a algoritmului. Pentru a determina parametrii inițiali, se utilizează de obicei un algoritm de grupare, cum ar fi algoritmul K-means. După ce setul de vectori de antrenament a fost împărțit în M clustere, parametrii modelului pot fi determinați după cum urmează: valori inițiale μ j (\displaystyle \mu _(j)) coincid cu centrele clusterelor, matricele de covarianță sunt calculate pe baza vectorilor incluși într-un cluster dat, ponderile componentelor sunt determinate de proporția vectorilor unui cluster dat din numărul total de vectori de antrenament.

    Reevaluarea parametrilor are loc după următoarele formule:

    GMM poate fi numit și o continuare a metodei de cuantizare vectorială (metoda centroid). Acesta creează o carte de coduri pentru regiunile disjunse din spațiul de caracteristici (folosind adesea gruparea K-means). Cuantizarea vectorială este cel mai simplu model în sistemele de recunoaștere independente de context.

    Mașina vectorului de suport (SVM) construiește un hiperplan într-un spațiu multidimensional care separă două clase - parametrii difuzorului țintă și parametrii difuzoarelor de baza de referință. Hiperplanul se calculează folosind vectori suport - aleși într-un mod special. Se va realiza o transformare neliniară a spațiului parametrilor măsurați într-un spațiu de caracteristici de dimensiuni superioare, deoarece suprafața de divizare poate să nu corespundă hiperplanului. Suprafața de împărțire în hiperplan este construită prin metoda mașinii vectorului suport dacă este îndeplinită condiția de separabilitate liniară în spațiul caracteristic nou. Astfel, succesul utilizării SMM depinde de transformarea neliniară selectată în fiecare caz specific. Mașina vector de suport este adesea folosită cu metoda GMM sau HMM. De obicei, pentru fraze scurte care durează câteva secunde, HMM-urile dependente de fonem sunt mai potrivite pentru abordarea dependentă de context.

    Popularitate

    Potrivit companiei de consultanță International Biometric Group din New York, cea mai comună tehnologie este scanarea amprentelor digitale. Se observă că din veniturile de 127 de milioane de dolari din vânzarea de dispozitive biometrice, 44% provin din scanerele de amprente. Sistemele de recunoaștere facială ocupă locul al doilea în ceea ce privește cererea, la 14%, urmate de dispozitivele de recunoaștere a formei palmei (13%), recunoașterea vocii (10%) și recunoașterea irisului (8%). Dispozitivele de verificare a semnăturii reprezintă 2% din această listă. Unii dintre cei mai cunoscuți producători de pe piața biometrică vocală sunt Nuance Communications, SpeechWorks, VeriVoice.

    În februarie 2016, The Telegraph a publicat un articol în care raporta că clienții băncii britanice HSBC ar putea să acceseze conturi și să efectueze tranzacții folosind identificarea vocală. Tranziția trebuia să aibă loc la începutul verii

    Omul a fost întotdeauna atras de ideea de a controla o mașină folosind limbajul natural. Poate că acest lucru se datorează parțial dorinței omului de a fi DEAsupra mașinii. Ca să zic așa, să te simți superior. Dar mesajul principal este de a simplifica interacțiunea umană cu inteligența artificială. Controlul vocal în Linux a fost implementat cu diferite grade de succes timp de aproape un sfert de secol. Să analizăm problema și să încercăm să ne apropiem cât mai mult de sistemul nostru de operare.

    Miezul problemei

    Sistemele de lucru cu voce umană pentru Linux există de mult timp și există foarte multe dintre ele. Dar nu toți procesează corect vorbirea rusă. Unele au fost complet abandonate de dezvoltatori. În prima parte a revizuirii noastre, vom vorbi direct despre sistemele de recunoaștere a vorbirii și asistenții vocali, iar în a doua, vom analiza exemple specifice de utilizare a acestora pe un desktop Linux.

    Este necesar să se facă distincția între sistemele de recunoaștere a vorbirii în sine (traducerea vorbirii în text sau în comenzi), cum ar fi, de exemplu, CMU Sphinx, Julius, precum și aplicațiile bazate pe aceste două motoare și asistenții vocali, care au devenit populari. odată cu dezvoltarea smartphone-urilor și a tabletelor. Acesta este, mai degrabă, un produs secundar al sistemelor de recunoaștere a vorbirii, dezvoltarea lor ulterioară și implementarea tuturor ideilor de succes de recunoaștere a vocii, aplicarea lor în practică. Există încă puține dintre acestea pentru desktop-urile Linux.

    Trebuie să înțelegeți că motorul de recunoaștere a vorbirii și interfața cu acesta sunt două lucruri diferite. Acesta este principiul de bază al arhitecturii Linux - împărțirea unui mecanism complex în componente mai simple. Cea mai dificilă muncă cade pe umerii motoarelor. Acesta este de obicei un program de consolă plictisitor care rulează neobservat de utilizator. Utilizatorul interacționează în principal cu programul de interfață. Crearea unei interfețe nu este dificilă, așa că dezvoltatorii își concentrează principalele eforturi pe dezvoltarea motoarelor de recunoaștere a vorbirii open-source.

    Ce sa întâmplat înainte

    Din punct de vedere istoric, toate sistemele de procesare a vorbirii din Linux s-au dezvoltat lent și la un pas. Motivul nu este strâmbătatea dezvoltatorilor, ci nivelul ridicat de intrare în mediul de dezvoltare. Scrierea codului de sistem pentru a lucra cu voce necesită un programator înalt calificat. Prin urmare, înainte de a începe să înțelegeți sistemele de vorbire în Linux, este necesar să faceți o scurtă excursie în istorie. IBM a avut cândva un sistem de operare atât de minunat - OS/2 Warp (Merlin). A apărut în septembrie, în 1996. Pe lângă faptul că avea avantaje evidente față de toate celelalte sisteme de operare, OS/2 era echipat cu un sistem foarte avansat de recunoaștere a vorbirii – IBM ViaVoice. Pentru acea vreme, acest lucru a fost foarte mișto, având în vedere că sistemul de operare rula pe sisteme cu un procesor 486 cu 8 MB de RAM (!).

    După cum știți, OS/2 a pierdut lupta în fața Windows, dar multe dintre componentele sale au continuat să existe independent. Una dintre aceste componente a fost aceeași IBM ViaVoice, care s-a transformat într-un produs independent. Deoarece IBM a iubit întotdeauna Linux, ViaVoice a fost portat pe acest sistem de operare, ceea ce a oferit creației lui Linus Torvalds cel mai avansat sistem de recunoaștere a vorbirii din timpul său.

    Din păcate, soarta ViaVoice nu a ieșit așa cum și-ar fi dorit utilizatorii Linux. Motorul în sine a fost distribuit gratuit, dar sursele sale au rămas închise. În 2003, IBM a vândut drepturile asupra tehnologiei companiei canadian-americane Nuance. Nuance, care a dezvoltat poate cel mai de succes produs comercial de recunoaștere a vorbirii - Dragon Naturally Speeking, este încă în viață și astăzi. Acesta este aproape sfârșitul istoriei fără glorie a ViaVoice pe Linux. În timpul scurt în care ViaVoice a fost gratuit și disponibil pentru utilizatorii Linux, au fost dezvoltate mai multe interfețe pentru acesta, cum ar fi Xvoice. Cu toate acestea, proiectul a fost abandonat de mult și acum este practic inoperabil.

    INFO

    Cea mai dificilă parte a recunoașterii automate a vorbirii este limbajul uman natural.

    Ce azi?

    Astăzi totul este mult mai bine. În ultimii ani, după descoperirea surselor Google Voice API, situația cu dezvoltarea sistemelor de recunoaștere a vorbirii în Linux s-a îmbunătățit semnificativ, iar calitatea recunoașterii a crescut. De exemplu, proiectul Linux Speech Recognition bazat pe API-ul Google Voice arată rezultate foarte bune pentru limba rusă. Toate motoarele funcționează aproximativ la fel: mai întâi, sunetul de la microfonul dispozitivului utilizatorului intră în sistemul de recunoaștere, după care fie vocea este procesată pe dispozitivul local, fie înregistrarea este trimisă la un server la distanță pentru procesare ulterioară. A doua opțiune este mai potrivită pentru smartphone-uri sau tablete. De fapt, așa funcționează motoarele comerciale - Siri, Google Now și Cortana.

    Din varietatea de motoare pentru lucrul cu vocea umană, există câteva care sunt active în prezent.

    AVERTIZARE

    Instalarea multor sisteme de recunoaștere a vorbirii descrise este o sarcină non-trivială!

    Sfinxul CMU

    O mare parte din dezvoltarea CMU Sphinx are loc la Universitatea Carnegie Mellon. În momente diferite, atât Institutul de Tehnologie din Massachusetts, cât și corporația Sun Microsystems, acum decedată, au lucrat la proiect. Sursele de motor sunt distribuite sub licența BSD și sunt disponibile atât pentru uz comercial, cât și necomercial. Sphinx nu este o aplicație personalizată, ci mai degrabă un set de instrumente care pot fi folosite pentru a dezvolta aplicații pentru utilizatorii finali. Sphinx este acum cel mai mare proiect de recunoaștere a vorbirii. Este format din mai multe părți:

    • Pocketsphinx este un program mic, rapid, care procesează sunet, modele acustice, gramatici și dicționare;
    • Biblioteca Sphinxbase, necesară pentru ca Pocketsphinx să funcționeze;
    • Sphinx4 - biblioteca de recunoaștere reală;
    • Sphinxtrain este un program de antrenament de modele acustice (înregistrări ale vocii umane).

    Proiectul se dezvoltă încet, dar sigur. Și cel mai important, poate fi folosit în practică. Și nu numai pe computere, ci și pe dispozitive mobile. În plus, motorul funcționează foarte bine cu vorbirea rusă. Dacă aveți mâinile drepte și capul limpede, puteți configura recunoașterea vorbirii rusești folosind Sphinx pentru a controla aparatele electrocasnice sau o casă inteligentă. De fapt, puteți transforma un apartament obișnuit într-o casă inteligentă, ceea ce vom face în a doua parte a acestei recenzii. Implementările Sphinx sunt disponibile pentru Android, iOS și chiar Windows Phone. Spre deosebire de metoda cloud, atunci când munca de recunoaștere a vorbirii cade pe umerii serverelor Google ASR sau Yandex SpeechKit, Sphinx funcționează mai precis, mai rapid și mai ieftin. Și complet local. Dacă doriți, puteți învăța Sphinx modelul în limba rusă și gramatica interogărilor utilizatorilor. Da, va trebui să lucrați puțin în timpul instalării. Așa cum configurarea modelelor și bibliotecilor de voce Sphinx nu este o activitate pentru începători. Deoarece nucleul CMU Sphinx, biblioteca Sphinx4, este scris în Java, puteți include codul acestuia în aplicațiile de recunoaștere a vorbirii. Exemple specifice de utilizare vor fi descrise în a doua parte a revizuirii noastre.

    VoxForge

    Să subliniem în special conceptul de corpus de vorbire. Un corpus de vorbire este un set structurat de fragmente de vorbire, care este prevăzut cu software pentru accesarea elementelor individuale ale corpusului. Cu alte cuvinte, este un set de voci umane în diferite limbi. Fără un corpus de vorbire, niciun sistem de recunoaștere a vorbirii nu poate funcționa. Este dificil să creezi un corpus de vorbire deschisă de înaltă calitate singur sau chiar cu o echipă mică, așa că un proiect special colectează înregistrări ale vocilor umane - VoxForge.

    Oricine are acces la Internet poate contribui la crearea unui corpus de vorbire prin simpla înregistrare și trimitere a unui fragment de vorbire. Acest lucru se poate face chiar și prin telefon, dar este mai convenabil să utilizați site-ul. Desigur, pe lângă înregistrarea audio în sine, corpus de vorbire trebuie să includă informații suplimentare, cum ar fi transcrierea fonetică. Fără aceasta, înregistrarea vorbirii este lipsită de sens pentru sistemul de recunoaștere.


    HTK, Julius și Simon

    HTK - Hidden Markov Model Toolkit este un set de instrumente pentru cercetarea și dezvoltarea instrumentelor de recunoaștere a vorbirii folosind modele Markov ascunse, dezvoltat la Universitatea din Cambridge sub patronajul Microsoft (Microsoft a cumpărat odată acest cod de la o întreprindere comercială Entropic Cambridge Research Laboratory Ltd și apoi a returnat-o Cambridge împreună cu o licență restrictivă). Sursele proiectului sunt disponibile pentru toată lumea, dar utilizarea codului HTK în produsele destinate utilizatorilor finali este interzisă de licență.

    Cu toate acestea, acest lucru nu înseamnă că HTK este inutil pentru dezvoltatorii Linux: poate fi folosit ca instrument auxiliar atunci când se dezvoltă instrumente de recunoaștere a vorbirii open-source (și comerciale), ceea ce este ceea ce dezvoltatorii motorului Julius open-source, care este fiind dezvoltat în Japonia, nu. Julius funcționează cel mai bine cu japoneza. De asemenea, cel mare și puternic nu este lipsit, deoarece același VoxForge este folosit ca bază de date vocală.

    Continuarea este disponibilă numai pentru membri

    Opțiunea 1. Alăturați-vă comunității „site” pentru a citi toate materialele de pe site

    Calitatea de membru al comunității în perioada specificată vă va oferi acces la TOATE materialele Hacker, vă va crește discountul cumulat personal și vă va permite să acumulați un rating profesional Xakep Score!