Ruski programi za prepoznavanje govora. Pregled tehnologija za prepoznavanje glasa i kako ih koristiti

Fonogrami snimljeni digitalnim diktafonima "Gnome R" i "Gnome 2M" ispunjavaju uslove za fonograme koji se predaju na fonoskopska ispitivanja i pogodni su za identifikaciju pojedinaca po glasu i govoru...

Prvi zamjenik načelnika

Gnome 2M diktafon je više puta korišćen za snimanje konferencija i seminara u teškim akustičnim okruženjima, snimljeni zvučni zapisi su visokog kvaliteta. Ugrađena funkcija smanjenja šuma omogućava vam da poboljšate kvalitetu reprodukcije zvučnih zapisa...

Vodeći inženjer IPK BNTU

Institut za usavršavanje i prekvalifikaciju kadrova BNTU

Tokom svog radnog vijeka, “Gnome R” se pokazao sa pozitivne strane. Snimak visokog kvaliteta sa minimalnim dimenzijama, dugotrajnost snimanja zvuka, brz prenos akumuliranih informacija iz ugrađene memorije diktafona na računar...

Viši referent 3. odjeljenja sedme uprave

Generalštab Oružanih snaga Republike Bjelorusije

Fonogrami snimljeni sistemom Forget-Me-Not II ispunjavaju uslove za višekanalne digitalne sisteme za snimanje glasovnih poruka preko telefonskih komunikacijskih kanala, te su pogodni za identifikaciju osobe po glasu i govoru...

Šef centra

Državni centar za forenzička vještačenja

Neograničen broj prijavljenih pretplatnika, veliki broj istovremeno obrađenih zadataka učiniće "Rupor" nezaobilaznim pomoćnikom u radu zaposlenih u kreditnom odjelu filijale br. 524 OJSC "JSSB Belarusbank...

Zamenik direktora – rukovodilac Maloprodajnog poslovnog centra

Filijala br. 524 AD "ASB Belarusbank"

Ruporov automatski sistem upozorenja radio je preko analognih telefonskih linija i testiran je kako bi obavijestio osoblje. Sistem je opsluživao 100 pretplatnika, radio je stabilno i nije zahtijevao stalno održavanje...

Vršilac dužnosti vojnog komesara

Vojni komesarijat Minsk

Forget-Me-Not II sistem snimanja osigurava prijem glasovnih poruka od stanara, kvalitetno snimanje istih na kompjuteru, mogućnost slušanja snimljenih poruka i unosa informacija u tekstualnu bazu podataka. Sistem obavještavanja "Rupor" automatski obavještava dužnike...

Šef odeljenja ACS

Unitarno preduzeće "ZhREO Sovetsky okrug Minska"

Rupor sistem u kratkom roku obezbjeđuje obavještavanje velikog broja pretplatnika u skladu sa utvrđenim parametrima uz obezbjeđivanje izvještaja o obavještenju, radi pouzdano, u potpunosti ispunjava uslove za njega...

Direktor sektora maloprodaje

Mobilni sistem za snimanje i dokumentaciju govora „Protokol“ uključuje digitalni diktafon „Gnom 2M“ i kompjuterski prepisivač „Cezar“. Gnome 2M diktafon vam omogućava da dobijete visokokvalitetne snimke sastanaka i sesija, a Caesar transkribator značajno povećava brzinu prevođenja audio informacija u tekstualni dokument...

Vodeći specijalista

Institut za državu i pravo Akademije nauka Republike Bjelorusije

Identifikacija glasom

U savremenom svetu sve je veći interes za biometrijske tehnologije i biometrijske sisteme identifikacije ličnosti, i to interesovanje je sasvim razumljivo.

Biometrijska identifikacija se zasniva na principu prepoznavanja i poređenja jedinstvenih karakteristika ljudskog tela. Glavni izvori biometrijskih karakteristika osobe su otisci prstiju, šarenica i mrežnica, glas, lice, potpis, hod itd. Ovi biometrijski identifikatori pripadaju osobi i njen su sastavni dio. Ne mogu se zaboraviti, ostaviti ili negdje izgubiti.

Za biometrijsku identifikaciju mogu se koristiti različite karakteristike i osobine osobe. Ovaj članak daje kratak pregled kako biometrijske tehnologije funkcionišu koristeći primjer sistema za prepoznavanje glasa.

Vrijednost glasovne tehnologije za biometriju je dokazana iznova i iznova. Međutim, samo visokokvalitetna implementacija sistema za automatsko prepoznavanje govornika može zaista uvesti takve tehnologije u praksu. Slični sistemi već postoje. Koriste se u sigurnosnim sistemima, bankarskim tehnologijama, e-trgovini i praksi provođenja zakona.

Upotreba sistema za prepoznavanje govornika je najprirodniji i najekonomičniji način rješavanja problema neovlaštenog pristupa računaru ili sistemima za prijenos informacija, kao i problema kontrole pristupa na više nivoa mrežnim ili informacionim resursima.

Sistemi za prepoznavanje govornika mogu riješiti dva problema: identificirati pojedinca sa date, ograničene liste ljudi (lična identifikacija) ili potvrditi identitet govornika (provjera identiteta). Identifikacija i verifikacija ličnosti glasom oblasti su razvoja tehnologije obrade govora.

Rice. 1 – Prepoznavanje zvučnika

Govor je signal koji nastaje kao rezultat transformacija koje se javljaju na nekoliko različitih razina: semantičkom, jezičkom, artikulacijskom i akustičkom. Kao što je poznato, izvor govornog signala je vokalni trakt koji pobuđuje zvučne valove u elastičnom zračnom mediju. Glasni trakt se obično odnosi na organ koji proizvodi govor koji se nalazi iznad glasnih žica. Kao što se može vidjeti sa slike 2, vokalni trakt se sastoji od hipofarinksa, orofarinksa, usne šupljine, nazofarinksa i nosne šupljine.


Rice. 2 – Građa ljudskog vokalnog trakta

Ljudski glas nastaje kada zrak iz pluća prolazi kroz dušnik u larinks, pored glasnih žica, a zatim u ždrijelo i usnu i nosnu šupljinu. Kada zvučni val prođe kroz vokalni trakt, njegov frekvencijski spektar se mijenja vibracijama u glasnom traktu. Vibracije vokalnog trakta nazivaju se formanti. Sistemi za verifikaciju govornika obično prepoznaju karakteristične karakteristike govornog signala, koje odražavaju individualne karakteristike mišićne aktivnosti vokalnog trakta pojedinca.

Pogledajmo bliže sistem verifikacije zvučnika. Glasovna verifikacija je proces utvrđivanja da li je govornik ono za koga se predstavlja. Korisnik koji je prethodno registrovan u sistemu izgovara svoj identifikator, a to je registracioni broj, lozinka ili fraza. U prepoznavanju ovisnom o tekstu, riječ lozinke je poznata sistemu i ona "traži" od korisnika da je izgovori. Riječ lozinke se prikazuje na ekranu i osoba je izgovara u mikrofon. Kod prepoznavanja neovisnog o tekstu, riječ lozinke koju izgovori korisnik ne poklapa se sa referentnom riječju, tj. Korisnik može izgovoriti proizvoljnu riječ ili frazu kao lozinku. Sistem verifikacije prima govorni signal, obrađuje ga i odlučuje da li da prihvati ili odbije identifikator koji je prikazao korisnik. Sistem može obavijestiti korisnika da njegov glas ne odgovara postojećem standardu i zatražiti od njega dodatne informacije kako bi donio konačnu odluku.


Rice. 3 – Ljudska interakcija sa sistemom

Dijagram interakcije osobe sa sistemom za provjeru identiteta zasnovanog na glasu prikazan je na slici 3. Korisnik u mikrofon govori broj koji mu nudi sistem kako bi sistem provjerio da li njegov glas odgovara standardu pohranjenom u sistemu. baza podataka. Obično postoji kompromis između tačnosti prepoznavanja glasa i veličine uzorka govora, tj. Što je uzorak govora duži, to je veća tačnost prepoznavanja. Osim glasa, u mikrofon mogu ući odjeci i strana buka.

Postoji niz faktora koji mogu doprinijeti greškama u verifikaciji i identifikaciji, na primjer:

  • netačan izgovor ili čitanje riječi ili fraze lozinke;
  • emocionalno stanje govornika (stres, izgovaranje šifre pod prisilom, itd.);
  • teško akustičko okruženje (buka, smetnje, radio talasi, itd.);
  • različiti kanali komunikacije (upotreba različitih mikrofona prilikom registracije i verifikacije govornika);
  • prehlade;
  • prirodne promene glasa.

Neki od njih se mogu eliminisati, na primjer korištenjem boljih mikrofona.

Proces provjere identiteta glasom sastoji se od 5 faza: primanje govornog signala, parametrizacija ili isticanje karakterističnih osobina glasa, poređenje rezultirajućeg uzorka glasa sa prethodno utvrđenim standardom, donošenje odluke o „priznanju/odbijanju“, obuka, ili ažuriranje referentnog modela. Šema verifikacije je prikazana na slici 4.


Rice. 4 – Šema verifikacije

Prilikom registracije, novi korisnik unosi svoj ID, a zatim nekoliko puta izgovori ključnu riječ ili frazu, stvarajući tako benchmark. Broj ponavljanja ključne fraze može varirati za svakog korisnika ili može biti konstantan za svakoga.

Da bi kompjuter obradio govorni signal, zvučni talas se pretvara u analogni, a zatim u digitalni signal.

U fazi izdvajanja glasovnih karakteristika, govorni signal se dijeli u zasebne audio okvire, koji se naknadno pretvaraju u digitalni model. Ovi obrasci se nazivaju "glasovni otisci". Novodobijeni "glasovni otisak" upoređuje se sa ranije uspostavljenim standardom. Za prepoznavanje identiteta govornika najvažnije su najupečatljivije karakteristične karakteristike glasa, koje bi omogućile sistemu da precizno prepozna glas svakog konkretnog korisnika.

Na kraju, sistem donosi odluku da korisniku odobri ili zabrani pristup u zavisnosti od toga da li njegov glas odgovara ili ne odgovara utvrđenom standardu. Ako sistem pogrešno uskladi glas koji mu je predstavljen sa standardom, tada se javlja greška „lažnog prihvatanja“ (FA). Ako sistem ne prepozna biometrijsku karakteristiku koja odgovara standardu koji sadrži, onda se to naziva greškom „lažnog odbijanja“ (FR). Lažna greška prijema stvara prazninu u sigurnosnom sistemu, a greška lažnog odbijanja dovodi do smanjenja upotrebljivosti sistema, koji ponekad ne prepozna osobu prvi put. Pokušaj da se smanji vjerovatnoća pojavljivanja jedne greške dovodi do češćeg pojavljivanja druge, pa se u zavisnosti od zahtjeva sistema bira određeni kompromis, tj. postavljen je prag odluke.

Zaključak

U praksi se koriste i metode glasovne identifikacije. Tehnologija identifikacije glasom kompanije omogućava vam da organizirate regulirani pristup korisnika koristeći zadanu frazu lozinke resursima preduzeća, telefonskim i WEB uslugama. Upotreba tehnologije može značajno povećati sigurnost sistema i, istovremeno, pojednostaviti proces identifikacije korisnika. Tehnologija Voice Key će osigurati visoku pouzdanost i stabilnost sistema, a takođe će pomoći u poboljšanju kvaliteta usluge korisnicima.

Svi materijali objavljeni na ovoj stranici dozvoljeni su za objavljivanje i štampanje na drugim izvorima i štampanim publikacijama samo uz pismenu dozvolu Speech Technologies LLC.


Jeste li znali da tehnologija prepoznavanja glasa postoji već 50 godina? Naučnici su ovaj problem rješavali pola stoljeća, a tek u posljednjih nekoliko decenija IT kompanije su se uključile u njegovo rješavanje. Rezultat posljednje godine rada bio je novi nivo tačnosti prepoznavanja i široka upotreba tehnologije u svakodnevnom i profesionalnom životu.

Tehnologija u životu

Svaki dan koristimo pretraživače. Tražimo gdje ručati, kako doći do određenog mjesta ili pokušavamo pronaći značenje nepoznatog pojma. Tehnologija prepoznavanja glasa, koju koristi, na primjer, Google ili Yandex.Navigator, pomaže nam da potrošimo minimalno vrijeme na pretraživanje. Jednostavno je i zgodno.

U profesionalnom okruženju tehnologija pomaže da se rad nekoliko puta pojednostavi. Na primjer, u medicini se govor doktora pretvara u tekst anamneze i recepta odmah na pregledu. Ovo štedi vrijeme na unosu podataka o pacijentu u dokumente. Sistem ugrađen u kompjuter automobila odgovara na zahtjeve vozača, na primjer, pomaže u pronalaženju najbliže benzinske pumpe. Za osobe sa invaliditetom važno je ugraditi sisteme u softver kućnih aparata za upravljanje njima pomoću glasa.

Razvoj sistema za prepoznavanje glasa

Ideja o prepoznavanju govora uvijek je izgledala obećavajuće. Ali već u fazi prepoznavanja brojeva i najjednostavnijih riječi, istraživači su naišli na problem. Suština prepoznavanja se svela na izgradnju akustičkog modela, kada je govor predstavljen kao statistički model, koji je uspoređen sa gotovim šablonima. Ako je model odgovarao predlošku, tada je sistem odlučio da je komanda ili broj prepoznat. Rast rečnika koje je sistem mogao da prepozna zahteva povećanje snage računarskih sistema.

GGrafikoni rasta performansi računara i smanjenja grešaka u prepoznavanju u sistemima za prepoznavanje glasa za engleski govor
Izvori:
Herb Sutter. Besplatni ručak je gotov: fundamentalni zaokret ka konkurentnosti u softveru
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Danas su algoritmi za prepoznavanje dopunjeni jezičkim modelima koji opisuju strukturu jezika, na primjer, tipičan niz riječi. Sistem je obučen na realnom govornom materijalu.

Nova faza u razvoju tehnologije bila je upotreba neuronskih mreža. Sistem prepoznavanja je koncipiran na način da svako novo prepoznavanje utiče na tačnost prepoznavanja u budućnosti. Sistem postaje naučljiv.


Kvalitet sistema za prepoznavanje glasa

Stanje u razvoju tehnologije danas se izražava kroz cilj: od prepoznavanja govora do razumijevanja. U tu svrhu odabran je ključni indikator – postotak grešaka u prepoznavanju. Vrijedi reći da se ovaj pokazatelj koristi i za prepoznavanje govora jedne osobe od strane druge. Neke riječi preskačemo uzimajući u obzir druge faktore, poput konteksta. To nam omogućava da razumijemo govor čak i bez razumijevanja značenja pojedinih riječi. Za ljude, stopa greške u prepoznavanju je 5,1%.

Ostale poteškoće u osposobljavanju sistema za prepoznavanje govora za razumijevanje jezika bit će emocije, neočekivane promjene u temi razgovora, upotreba slenga i individualne karakteristike govornika: brzina govora, tembar, izgovor zvukova.


Igrači na globalnom tržištu

Poznato je nekoliko globalnih igrača na tržištu platformi za prepoznavanje glasa. To su Apple, Google, Microsoft, IBM. Ove kompanije imaju dovoljno resursa za istraživanje i opsežnu bazu za obuku sopstvenih sistema. Na primjer, Google koristi milione upita za pretraživanje za obuku, koje korisnici rado sebi postavljaju. S jedne strane, to povećava tačnost prepoznavanja, ali s druge strane nameće ograničenja: sistem prepoznaje govor u segmentima od 15 sekundi i oslanja se na „opšte pitanje profila“. Greška Google sistemskog prepoznavanja je 4,9%. Za IBM ova brojka iznosi 5,5%, a za Microsoft 6,3% na kraju 2016.

Platformu za upotrebu u profesionalnim oblastima razvija američka kompanija Nuance. Među oblastima primene: medicina, pravo, finansije, novinarstvo, građevinarstvo, bezbednost, automobilska industrija.

U Rusiji, Centar za govorne tehnologije je najveći proizvođač profesionalnih alata za prepoznavanje glasa i sintezu govora. Rešenja kompanije implementirana su u 67 zemalja širom svijeta. Glavne oblasti rada: glasovna biometrija – glasovna identifikacija; samouslužni govorni sistemi – IVR, koji se koriste u pozivnim centrima; sintisajzeri govora. U SAD, ruska kompanija posluje pod brendom SpeechPro i provodi istraživanje o prepoznavanju engleskog govora. Rezultati prepoznavanja su uključeni u TOP 5 rezultata po vrijednosti greške.


Vrijednost prepoznavanja glasa u marketingu

Svrha marketinga je proučavanje potreba tržišta i organizovanje poslovanja u skladu sa njima radi povećanja profitabilnosti i efikasnosti. Glas je od interesa za marketinške stručnjake u dva slučaja: ako govori klijent i ako govori zaposlenik. Stoga su predmet proučavanja marketinških stručnjaka i obim primjene tehnologije telefonski pozivi.

Analitika telefonskih razgovora danas je slabo razvijena. Pozive je potrebno ne samo snimati, već i slušati, evaluirati i tek onda analizirati. Iako je organiziranje snimanja jednostavno - bilo koja virtualna PBX ili usluga za praćenje poziva to može učiniti - organiziranje slušanja poziva je teže. Ovaj problem rješava ili pojedinac u kompaniji ili rukovodilac call centra. Slušanje poziva je također eksternalizovano. U svakom slučaju, greška u procjeni poziva je problem koji dovodi u pitanje rezultate analitike i na osnovu njih donesene odluke.

U našem modernom svijetu ispunjenom događajima, brzina rada s informacijama jedan je od kamena temeljaca za postizanje uspjeha. Naš radni učinak i produktivnost, a time i naše neposredno materijalno bogatstvo, zavise od toga koliko brzo primamo, stvaramo i obrađujemo informacije. Među alatima koji mogu poboljšati naše radne sposobnosti, važno mjesto zauzimaju programi za prevođenje govora u tekst koji nam omogućavaju da značajno povećamo brzinu kucanja potrebnih tekstova. U ovom materijalu ću vam reći koji popularni programi postoje za prevođenje audio glasa u tekst i koje su njihove karakteristike.

Aplikacija za prevođenje audio glasa u tekst - sistemski zahtjevi

Većina trenutno postojećih programa za prevođenje glasa u tekst je plaćena, postavljajući niz zahtjeva za mikrofon (u slučaju kada je program namijenjen računaru). Ne preporučuje se rad s mikrofonom ugrađenim u web kameru ili smještenim u kućištu standardnog laptopa (kvalitet prepoznavanja govora s takvih uređaja je prilično nizak). Osim toga, vrlo je važno imati mirno okruženje, bez nepotrebne buke koja može direktno uticati na vaš nivo prepoznavanja govora.

Štaviše, većina ovih programa je u stanju da ne samo transformiše govor u tekst na ekranu računara, već i da koristi glasovne komande za kontrolu vašeg računara (pokretanje i zatvaranje programa, primanje i slanje e-pošte, otvaranje i zatvaranje veb lokacija, itd.).

Program za pretvaranje govora u tekst

Pređimo na direktan opis programa koji mogu pomoći u prevođenju govora u tekst.

Laitis program

Besplatni program za prepoznavanje glasa na ruskom jeziku "Laitis" ima dobar kvalitet razumijevanja govora i, prema riječima njegovih kreatora, može gotovo u potpunosti zamijeniti uobičajenu tastaturu korisnika. Program takođe dobro radi sa glasovnim komandama, omogućavajući vam da izvršite mnoge radnje za kontrolu vašeg računara.

Za svoj rad, program zahtijeva brzi internet na PC-u (program koristi mrežne usluge prepoznavanja glasa od Googlea i Yandexa). Mogućnosti programa takođe vam omogućavaju da kontrolišete svoj pretraživač pomoću glasovnih komandi, što zahteva instaliranje posebne ekstenzije iz „Laitisa“ (Chrome, Mozilla, Opera) na vašem veb navigatoru.

"Dragon Professional" - prepisivanje audio zapisa u tekst

U vrijeme pisanja ovog materijala, digitalni proizvod na engleskom jeziku « Dragon Professional Individual“ jedan je od svjetskih lidera u kvaliteti priznatih tekstova. Program razumije sedam jezika (samo mobilna aplikacija Dragon Anywhere i radi sa ruskim do sada), ima visokokvalitetno prepoznavanje glasa i može izvoditi brojne glasovne komande. Štaviše, ovaj proizvod se isključivo plaća (cijena za glavni program je 300 američkih dolara, a za “kućnu” verziju proizvoda Dragon Home kupac će morati platiti 75 američkih dolara).

Za rad, ovaj proizvod kompanije Nuance Communications zahtijeva kreiranje vlastitog profila, koji je dizajniran da prilagodi mogućnosti programa specifičnostima vašeg glasa. Osim direktnog diktiranja teksta, možete trenirati program za izvođenje brojnih naredbi, čineći tako vašu interakciju s računarom još kongruentnijom i praktičnijom.

"RealSpeaker" - ultra precizan prepoznavač govora

Program za pretvaranje glasa u tekst “RealSpeaker”, pored standardnih funkcija za programe ove vrste, omogućava korištenje mogućnosti web kamere vašeg računara. Sada program ne samo da čita audio komponentu zvuka, već i bilježi kretanje uglova usana govornika, čime ispravnije prepoznaje riječi koje izgovara.


"RealSpeaker" čita ne samo audio, već i vizuelnu komponentu govornog procesa

Aplikacija podržava više od deset jezika (uključujući ruski), omogućava prepoznavanje govora uzimajući u obzir akcente i dijalekte, omogućava vam transkripciju audio i video zapisa, daje pristup oblaku i još mnogo toga. Program je shareware, ali za plaćenu verziju morat ćete platiti pravi novac.

“Voco” - program će brzo prevesti vaš glas u tekstualni dokument

Još jedan pretvarač glasa u tekst je plaćeni digitalni proizvod "Voco", čija je cijena "kućne" verzije sada oko 1700 rubalja. Naprednije i skuplje verzije ovog programa - "Voco.Professional" i "Voco.Enterprise" imaju niz dodatnih funkcija, od kojih je jedna prepoznavanje govora iz audio snimaka korisnika.

Među karakteristikama Voco-a, želio bih napomenuti mogućnost proširenja vokabulara programa (trenutno vokabular programa uključuje više od 85 hiljada riječi), kao i njegov autonoman rad s mreže, što vam omogućava da ne ovisite o vašoj internetskoj vezi. .


Među prednostima Voco-a je visoka krivulja učenja programa.

Aplikacija se uključuje prilično jednostavno - samo dvaput pritisnite tipku “Ctrl”. Da aktivirate glasovni unos u Gboard tastaturi, samo pritisnite i držite razmaknicu

Aplikacija je potpuno besplatna, podržava nekoliko desetina jezika, uključujući ruski.

Zaključak

Iznad sam naveo programe za prevođenje vašeg audio snimka glasa u tekst, opisao njihovu opću funkcionalnost i karakteristične karakteristike. Većina ovih proizvoda se obično plaća, a raspon i kvalitet programa na ruskom jeziku kvalitativno je inferiorniji od njihovih kolega na engleskom jeziku. Prilikom rada s ovakvim aplikacijama, preporučujem da obratite posebnu pažnju na vaš mikrofon i njegova podešavanja - to je važno u procesu prepoznavanja govora, jer loš mikrofon može poništiti čak i najkvalitetniji softver tipa koji sam pregledao.

Enciklopedijski YouTube

  • 1 / 5

    Rad na prepoznavanju govora datira još od sredine prošlog stoljeća. Prvi sistem nastao je ranih 1950-ih: njegovi programeri su sebi postavili zadatak da prepoznaju brojeve. Razvijeni sistem je mogao da identifikuje brojeve, ali izgovorene u jedan glas, kao što je sistem „Audrey” Bell Laboratories. Djelovao je tako što je identificirao formant u spektru moći svakog govornog odlomka. Uopšteno govoreći, sistem se sastojao od tri glavna dela: analizatora i kvantizera, obrazaca za usklađivanje mreže i, konačno, senzora. Shodno tome, stvoren je na elementarnoj osnovi različitih frekvencijskih filtera, prekidača, a senzori su uključivali i cijevi punjene plinom [ ] .

    Do kraja decenije pojavili su se sistemi koji su prepoznavali samoglasnike nezavisno od govornika. Sedamdesetih godina počele su se koristiti nove metode koje su omogućile postizanje naprednijih rezultata - metoda dinamičkog programiranja i metoda linearnog predviđanja (Linear Predictive Coding - LPC). Pomenuta kompanija Bell Laboratories kreirala je sisteme koristeći upravo ove metode. U 80-im godinama, sljedeći korak u razvoju sistema za prepoznavanje glasa bila je upotreba Hidden Markov Models (HMM). U to vrijeme su se počeli pojavljivati ​​prvi veliki programi za prepoznavanje glasa, kao što je Kurzweil tekst u govor. Krajem 80-ih godina počele su se koristiti i metode umjetnih neuronskih mreža (Artificial Neural Network - ANN). Godine 1987. na tržištu su se pojavile lutke Julie iz Worlds of Wonder, koje su mogle razumjeti glasove. I 10 godina kasnije, Dragon Systems je objavio program “NaturallySpeaking 1.0”.

    Pouzdanost

    Glavni izvori grešaka u prepoznavanju glasa su:

    Prepoznavanje roda može se izdvojiti kao zasebna vrsta problema, koji se prilično uspješno rješava - uz velike količine početnih podataka, rod se utvrđuje gotovo bez greške, a u kratkim pasusima poput naglašenog samoglasnika vjerovatnoća greške je 5,3 % za muškarce i 3,1% za žene.

    Razmatran je i problem imitacije glasa. Istraživanje France Telecoma pokazalo je da profesionalna imitacija glasa praktički ne povećava vjerovatnoću greške u identitetu – imitatori lažiraju glas samo spolja, naglašavajući osobine govora, ali nisu u stanju da lažiraju osnovni obris glasa. Čak će i glasovi bliskih rođaka, blizanaca, imati razliku, barem u dinamici kontrole. Ali razvojem kompjuterske tehnologije pojavio se novi problem koji zahtijeva korištenje novih metoda analize - transformaciju glasa, koja povećava vjerovatnoću greške na 50%.

    Za opisivanje pouzdanosti sistema koriste se dva kriterija: FRR (False Rejection Rate) - vjerovatnoća lažnog odbijanja pristupa (greška prve vrste) i FAR (False Acceptance Rate) - vjerovatnoća lažnog prihvatanja kada sistem greškom identifikuje stranca kao svog (greška drugog tipa) . Takođe, ponekad sisteme za prepoznavanje karakteriše parametar kao što je EER (jednake stope grešaka), koji predstavlja tačku podudarnosti FRR i FAR verovatnoće. Što je sistem pouzdaniji, to je niži EER.

    Vrijednosti grešaka u identifikaciji za različite biometrijske modalitete

    Aplikacija

    Prepoznavanje se može podijeliti u dvije glavne oblasti: identifikacija i verifikacija. U prvom slučaju, sistem mora samostalno identificirati korisnika glasom; u drugom slučaju, sistem mora potvrditi ili odbiti identifikator koji je prikazao korisnik. Određivanje govornika koji se proučava sastoji se od poređenja u paru glasovnih modela koji uzimaju u obzir individualne karakteristike govora svakog govornika. Dakle, prvo moramo prikupiti prilično veliku bazu podataka. A na osnovu rezultata ovog poređenja može se napraviti lista fonograma koji su, sa određenom vjerovatnoćom, govor korisnika koji nas zanima.

    Iako prepoznavanje glasa ne može garantovati 100% tačan rezultat, može se prilično efikasno koristiti u oblastima kao što su forenzika i forenzika; obavještajna služba; antiteroristički monitoring; sigurnost; bankarstvo i tako dalje.

    Analiza

    Cijeli proces obrade govornog signala može se podijeliti u nekoliko glavnih faza:

    • predobrada signala;
    • kriterijumi isticanja;
    • prepoznavanje govornika.

    Svaka faza predstavlja algoritam ili neki skup algoritama, koji na kraju daje traženi rezultat.

    Glavne karakteristike glasa formiraju tri glavna svojstva: mehanika vibracije glasnih nabora, anatomija vokalnog trakta i sistem kontrole artikulacije. Osim toga, ponekad je moguće koristiti govornikov rječnik, njegove figure govora. Glavne karakteristike po kojima se odlučuje o ličnosti govornika formiraju se uzimajući u obzir sve faktore procesa proizvodnje govora: izvor glasa, rezonantne frekvencije vokalnog trakta i njihovo prigušenje, kao i dinamiku artikulacije. kontrolu. Ako pogledamo izvore detaljnije, svojstva izvora glasa uključuju: prosječnu frekvenciju osnovnog tona, konturu i fluktuacije osnovne frekvencije i oblik pobudnog impulsa. Spektralne karakteristike vokalnog trakta opisuju se omotačem spektra i njegovim srednjim nagibom, formantnim frekvencijama, dugotrajnim spektrom ili kepstrumom. Uz to, uzimaju se u obzir i trajanje riječi, ritam (distribucija stresa), nivo signala, frekvencija i trajanje pauza. Za određivanje ovih karakteristika potrebno je koristiti prilično složene algoritme, ali budući da je, na primjer, greška formantnih frekvencija prilično velika, koeficijenti cepstruma izračunati iz omotača spektra ili prijenosne funkcije vokalnog trakta pronađene metodom linearnog predviđanja se koriste za njegovo pojednostavljenje. Pored navedenih koeficijenata cepstruma, koriste se i njihova prva i druga vremenska razlika. Ova metoda je prvi put predložena u radovima Davisa i Mermelsteina.

    Cepstralna analiza

    U radovima na prepoznavanju glasa najpopularnija metoda je kepstralna transformacija spektra govornih signala. Shema metode je sljedeća: u vremenskom intervalu od 10 - 20 ms izračunava se trenutni spektar snage, a zatim se primjenjuje inverzna Fourierova transformacija logaritma ovog spektra (cepstruma) i pronalaze se koeficijenti: c n = 1 Θ ∫ 0 Θ ∣ S (j , ω , t) ∣ 2 exp − j n ω Ω ⁡ d ω (\displaystyle c_(n)=(\frac (1)(\Theta))\int _(0 )^(\Theta )(\mid S(j,\omega ,t)\mid )^(2)\exp ^(-jn\omega \Omega )d\omega ), Ω = 2 2 π Θ , Θ (\displaystyle \Omega =2(\frac (2\pi)(\Theta)),\Theta)- najveća frekvencija u spektru govornog signala, ∣ S (j, ω, t) ∣ 2 (\displaystyle (\mid S(j,\omega,t)\mid )^(2))- spektar snage. Broj kepstralnih koeficijenata n ovisi o potrebnom izglađivanju spektra i kreće se od 20 do 40. Ako se koristi češalj propusnih filtera, tada se koeficijenti diskretne cepstralne transformacije izračunavaju kao c n = ∑ m = 1 N log ⁡ Y (m) 2 cos ⁡ π n M (m − 1 2)) (\displaystyle c_(n)=\sum _(m=1)^(N)\log (Y (m)^(2))\cos ((\frac (\pi n)(M))(m-(\frac (1)(2)))))), gdje je Y(m) izlazni signal m-tog filtera, c n (\displaystyle c_(n))- n-ti koeficijent cepstruma.

    Svojstva sluha se uzimaju u obzir kroz transformaciju nelinearne frekvencijske skale, obično na skali krede. Ova skala se formira na osnovu prisustva takozvanih kritičnih opsega u sluhu, tako da se signali bilo koje frekvencije unutar kritičnog opsega ne mogu razlikovati. Skala krede se računa kao M (f) = 1125 ln ⁡ (1 + f 700) (\displaystyle M(f)=1125\ln ((1+(\frac (f)(700))))), gdje je f frekvencija u Hz, M je frekvencija u kredi. Ili se koristi druga skala - bark, takva da je razlika između dvije frekvencije, jednaka kritičnom opsegu, 1 kora. Učestalost B se izračunava kao B = 13 a r c t g (0 . 00076 f) + 3, 5 a r c t g f 7500 (\displaystyle B=13\operatorname (arctg((0.00076f))) +3.5\operatorname (arctg(\frac (f)(7500 ))) ). Pronađeni koeficijenti se ponekad u literaturi nazivaju MFCC - Mel Frequiency Cepstral Coefficients. Njihov broj se kreće od 10 do 30. Upotreba prve i druge vremenske razlike kepstralnih koeficijenata utrostručuje dimenziju prostora odlučivanja, ali poboljšava efikasnost prepoznavanja govornika.

    Kepstrum opisuje oblik omotača spektra signala, na koji utiču i svojstva izvora ekscitacije i karakteristike vokalnog trakta. Eksperimenti su pokazali da omotač spektra ima snažan uticaj na prepoznavanje glasa. Stoga je upotreba različitih metoda analize omotača spektra za potrebe prepoznavanja glasa sasvim opravdana.

    Metode

    GMM metoda slijedi iz teoreme da se bilo koja funkcija gustoće vjerovatnoće može predstaviti kao ponderirani zbir normalnih distribucija:

    P (x | λ) = ∑ j = 1 k ω j ϕ (χ , Θ j) (\displaystyle p(x|\lambda)=\sum _(j=1)^(k)(\omega _(j) )\phi (\chi ,\Theta _(j)))); λ (\displaystyle \lambda)- model zvučnika k - broj komponenti modela; ω j (\displaystyle (\omega _(j)))- težine komponenti su takve da ∑ j = 1 n ω j = 1. (\displaystyle \sum _(j=1)^(n)(\omega _(j))=1.) ϕ (χ , Θ j) (\displaystyle \phi (\chi,\Theta _(j)))- funkcija distribucije višedimenzionalnog argumenta χ , Θ j (\displaystyle \chi ,\Theta _(j)) .ϕ (χ, Θ j) = p (χ ∣ μ j, R j) = 1 (2 π) n 2 ∣ R j ∣ 1 2 exp ⁡ − 1 (χ − μ j) T R j − 1 (χ − μ j) 2 (\displaystyle \phi (\chi ,\Theta _(j))=p(\chi \mid \mu _(j),R_(j))=(\frac (1)(((2\ pi ))^(\frac (n)(2))(\mid R_(j)\mid )^(\frac (1)(2)))\exp (\frac (-1(\chi -\ mu _(j))^(T)R_(j)^(-1)(\chi -\mu _(j)))(2))), ω j (\displaystyle \omega _(j))- njegova težina, k - broj komponenti u smjesi. Ovdje je n dimenzija prostora karakteristika, μ j ∈ R n (\displaystyle \mu _(j)\in \mathbb (R) ^(n))- vektor matematičkog očekivanja j-te komponente smjese, R j ∈ R n × n (\displaystyle R_(j)\in \mathbb (R) ^(n\puta n))- kovarijansna matrica.

    Vrlo često, sistemi sa ovim modelom koriste dijagonalnu kovarijansnu matricu. Može se koristiti za sve komponente modela ili čak za sve modele. Za pronalaženje matrice kovarijanse, težine, vektora srednjih vrijednosti, često se koristi EM algoritam. Na ulazu imamo trening sekvencu vektora X = (x 1 , . . . , x T ) . Parametri modela se inicijaliziraju početnim vrijednostima, a zatim se parametri ponovno procjenjuju pri svakoj iteraciji algoritma. Za određivanje početnih parametara obično se koristi algoritam za grupisanje kao što je K-means algoritam. Nakon što je skup vektora za obuku podijeljen u M klastera, parametri modela se mogu odrediti na sljedeći način: početne vrijednosti μ j (\displaystyle \mu _(j)) poklapaju se sa centrima klastera, matrice kovarijanse se izračunavaju na osnovu vektora uključenih u dati klaster, težine komponenti su određene proporcijom vektora datog klastera među ukupnim brojem vektora za obuku.

    Revalorizacija parametara se vrši prema sljedećim formulama:

    GMM se takođe može nazvati nastavkom vektorske metode kvantizacije (centroid metoda). On kreira šifrarnik za disjunktne regione u prostoru obeležja (često koristeći klasterisanje K-sredstava). Vektorska kvantizacija je najjednostavniji model u kontekstualno nezavisnim sistemima prepoznavanja.

    Mašina vektora podrške (SVM) gradi hiperravninu u višedimenzionalnom prostoru koja razdvaja dve klase – parametre ciljnog zvučnika i parametre zvučnika od referentne baze. Hiperravan se izračunava pomoću vektora podrške - odabranih na poseban način. Izvršit će se nelinearna transformacija prostora mjerenih parametara u neki prostor višedimenzionalnih karakteristika, s obzirom da razdjelna površina možda ne odgovara hiperravni. Razdjelna površina u hiperravni se konstruira metodom stroja nosivih vektora ako je zadovoljen uvjet linearne separabilnosti u novom prostoru karakteristika. Dakle, uspjeh korištenja SMM ovisi o odabranoj nelinearnoj transformaciji u svakom konkretnom slučaju. Mašina vektora podrške se često koristi sa GMM ili HMM metodom. Tipično, za kratke fraze koje traju nekoliko sekundi, HMM-ovi zavisni od fonema su pogodniji za pristup ovisan o kontekstu.

    Popularnost

    Prema konsultantskoj kompaniji International Biometric Group sa sjedištem u New Yorku, najčešća tehnologija je skeniranje otiska prsta. Napominje se da od 127 miliona dolara prihoda od prodaje biometrijskih uređaja, 44% dolazi od skenera otiska prsta. Sistemi za prepoznavanje lica su na drugom mjestu po potražnji sa 14%, a slijede uređaji za prepoznavanje oblika dlana (13%), prepoznavanje glasa (10%) i prepoznavanje šarenice (8%). Uređaji za provjeru potpisa čine 2% ove liste. Neki od najpoznatijih proizvođača na tržištu glasovne biometrije su Nuance Communications, SpeechWorks, VeriVoice.

    U februaru 2016. The Telegraph je objavio članak u kojem je izvještavalo da će klijenti britanske banke HSBC moći pristupiti računima i obavljati transakcije koristeći glasovnu identifikaciju. Prelazak je trebalo da se desi početkom leta

    Čovjeka je oduvijek privlačila ideja upravljanja mašinom pomoću prirodnog jezika. Možda je to dijelom posljedica želje čovjeka da bude IZNAD mašine. Da tako kažem, osjećati se superiorno. Ali glavna poruka je da se pojednostavi ljudska interakcija sa umjetnom inteligencijom. Upravljanje glasom u Linuxu implementirano je sa različitim stepenom uspeha skoro četvrt veka. Pogledajmo problem i pokušajmo se što više približiti našem OS-u.

    Suština stvari

    Ljudski glasovni sistemi za Linux postoje već dugo vremena, a postoji veliki broj njih. Ali ne svi oni pravilno obrađuju ruski govor. Neki su programeri potpuno napustili. U prvom dijelu našeg pregleda govorit ćemo direktno o sistemima za prepoznavanje govora i glasovnim asistentima, au drugom ćemo pogledati konkretne primjere njihove upotrebe na Linux desktopu.

    Potrebno je razlikovati same sisteme za prepoznavanje govora (prevođenje govora u tekst ili u komande), kao što su, na primjer, CMU Sphinx, Julius, kao i aplikacije bazirane na ova dva motora, te glasovne asistente koji su postali popularni. sa razvojem pametnih telefona i tableta. To je, prije, nusproizvod sistema za prepoznavanje govora, njihovog daljeg razvoja i implementacije svih uspješnih ideja prepoznavanja glasa, njihove primjene u praksi. Još ih je malo za Linux desktope.

    Morate shvatiti da su mehanizam za prepoznavanje govora i sučelje za njega dvije različite stvari. Ovo je osnovni princip Linux arhitekture - podjela složenog mehanizma na jednostavnije komponente. Najteži posao pada na ramena motora. Ovo je obično dosadan konzolni program koji korisnik ne primjećuje. Korisnik uglavnom komunicira sa programom interfejsa. Kreiranje interfejsa nije teško, tako da programeri svoje glavne napore usmeravaju na razvoj motora za prepoznavanje govora otvorenog koda.

    Šta se desilo ranije

    Istorijski gledano, svi sistemi za obradu govora u Linuxu su se razvijali sporo i u skokovima. Razlog nije krivost programera, već visok nivo ulaska u razvojno okruženje. Pisanje sistemskog koda za rad sa glasom zahtijeva visoko kvalifikovanog programera. Stoga, prije nego što počnete razumjeti govorne sisteme u Linuxu, potrebno je napraviti kratak izlet u povijest. IBM je nekada imao tako divan operativni sistem - OS/2 Warp (Merlin). Izašla je u septembru davne 1996. godine. Pored činjenice da je imao očigledne prednosti u odnosu na sve ostale operativne sisteme, OS/2 je bio opremljen veoma naprednim sistemom za prepoznavanje govora - IBM ViaVoice. Za to vrijeme, ovo je bilo jako cool, s obzirom da je OS radio na sistemima sa 486 procesorom sa 8 MB RAM-a (!).

    Kao što znate, OS/2 je izgubio bitku protiv Windowsa, ali mnoge njegove komponente su nastavile da postoje nezavisno. Jedna od ovih komponenti bio je isti IBM ViaVoice, koji se pretvorio u nezavisan proizvod. Pošto je IBM oduvek voleo Linux, ViaVoice je prenet na ovaj OS, što je zamisli Linusa Torvaldsa dalo najnapredniji sistem za prepoznavanje govora svog vremena.

    Nažalost, sudbina ViaVoicea nije se odvijala onako kako bi korisnici Linuxa željeli. Sam motor je distribuiran besplatno, ali su njegovi izvori ostali zatvoreni. IBM je 2003. godine prodao prava na tehnologiju kanadsko-američkoj kompaniji Nuance. Nuance, koji je razvio možda najuspješniji komercijalni proizvod za prepoznavanje govora - Dragon Naturally Speeking, i danas je živ. Ovo je skoro kraj neslavne istorije ViaVoicea na Linuxu. Za kratko vrijeme dok je ViaVoice bio besplatan i dostupan korisnicima Linuxa, za njega je razvijeno nekoliko interfejsa, kao što je Xvoice. Međutim, projekat je dugo bio napušten i sada je praktično neoperativan.

    INFO

    Najteži dio mašinskog prepoznavanja govora je prirodni ljudski jezik.

    Šta danas?

    Danas je sve mnogo bolje. Posljednjih godina, nakon otkrivanja izvora Google Voice API-ja, situacija s razvojem sistema za prepoznavanje govora u Linuxu se značajno poboljšala, a kvalitet prepoznavanja je porastao. Na primjer, Linux projekat prepoznavanja govora baziran na Google Voice API-ju pokazuje vrlo dobre rezultate za ruski jezik. Svi motori rade približno isto: prvo, zvuk iz mikrofona uređaja korisnika ulazi u sistem za prepoznavanje, nakon čega se ili glas obrađuje na lokalnom uređaju, ili se snimak šalje na udaljeni server na dalju obradu. Druga opcija je pogodnija za pametne telefone ili tablete. Zapravo, upravo tako rade komercijalni motori - Siri, Google Now i Cortana.

    Od raznih mehanizama za rad sa ljudskim glasom, postoji nekoliko koji su trenutno aktivni.

    UPOZORENJE

    Instaliranje mnogih od opisanih sistema za prepoznavanje govora je netrivijalan zadatak!

    CMU Sphinx

    Veći dio razvoja CMU Sphinx odvija se na Univerzitetu Carnegie Mellon. U različito vrijeme na projektu su radili i Tehnološki institut u Masačusetsu i sada pokojna korporacija Sun Microsystems. Izvori motora se distribuiraju pod BSD licencom i dostupni su za komercijalnu i nekomercijalnu upotrebu. Sphinx nije prilagođena aplikacija, već skup alata koji se mogu koristiti za razvoj aplikacija za krajnje korisnike. Sphinx je sada najveći projekat prepoznavanja govora. Sastoji se iz nekoliko delova:

    • Pocketsphinx je mali, brzi program koji obrađuje zvuk, akustične modele, gramatike i rječnike;
    • Sphinxbase biblioteka, potrebna za Pocketsphinx za rad;
    • Sphinx4 - stvarna biblioteka za prepoznavanje;
    • Sphinxtrain je program za obuku akustičkih modela (snimka ljudskog glasa).

    Projekat se razvija polako ali sigurno. I što je najvažnije, može se koristiti u praksi. I to ne samo na računarima, već i na mobilnim uređajima. Osim toga, motor radi vrlo dobro s ruskim govorom. Ako imate ravne ruke i čistu glavu, možete podesiti prepoznavanje ruskog govora koristeći Sphinx za kontrolu kućnih aparata ili pametnog doma. U stvari, običan stan možete pretvoriti u pametan dom, što ćemo i učiniti u drugom dijelu ovog pregleda. Sphinx implementacije su dostupne za Android, iOS, pa čak i Windows Phone. Za razliku od metode u oblaku, kada posao prepoznavanja govora pada na ramena Google ASR ili Yandex SpeechKit servera, Sphinx radi preciznije, brže i jeftinije. I to potpuno lokalno. Ako želite, možete naučiti Sphinx modelu ruskog jezika i gramatici korisničkih upita. Da, morat ćete malo poraditi tokom instalacije. Baš kao što postavljanje Sphinx glasovnih modela i biblioteka nije aktivnost za početnike. Budući da je jezgro CMU Sphinx, biblioteka Sphinx4, napisano u Javi, možete uključiti njen kod u svoje aplikacije za prepoznavanje govora. Konkretni primjeri korištenja bit će opisani u drugom dijelu našeg pregleda.

    VoxForge

    Posebno izdvojimo pojam govornog korpusa. Govorni korpus je strukturirani skup fragmenata govora koji je opremljen softverom za pristup pojedinačnim elementima korpusa. Drugim riječima, to je skup ljudskih glasova na različitim jezicima. Bez govornog korpusa, nijedan sistem za prepoznavanje govora ne može raditi. Teško je stvoriti visokokvalitetan korpus otvorenog govora sam ili čak sa malim timom, pa je poseban projekat prikupljanja snimaka ljudskih glasova - VoxForge.

    Svako ko ima pristup internetu može doprinijeti stvaranju govornog korpusa jednostavnim snimanjem i slanjem fragmenta govora. To se može učiniti čak i telefonom, ali je praktičnije koristiti web stranicu. Naravno, pored samog audio zapisa, govorni korpus mora uključivati ​​i dodatne informacije, kao što je fonetska transkripcija. Bez toga, snimanje govora je besmisleno za sistem prepoznavanja.


    HTK, Julius i Simon

    HTK - Hidden Markov Model Toolkit je alat za istraživanje i razvoj alata za prepoznavanje govora koristeći skrivene Markovljeve modele, razvijen na Univerzitetu u Kembridžu pod pokroviteljstvom Microsofta (Microsoft je jednom kupio ovaj kod od komercijalnog preduzeća Entropic Cambridge Research Laboratory Ltd, i zatim ga vratio Kembridž zajedno sa restriktivnom licencom). Izvori projekta dostupni su svima, ali je korištenje HTK koda u proizvodima namijenjenim krajnjim korisnicima zabranjeno licencom.

    Međutim, to ne znači da je HTK beskoristan za Linux programere: može se koristiti kao pomoćni alat pri razvoju open-source (i komercijalnih) alata za prepoznavanje govora, što je ono što su programeri open-source Julius engine-a, koji je razvijaju u Japanu, do. Julius najbolje radi sa japanskim. Veliki i moćni takođe nisu zakinuti, jer se isti VoxForge koristi kao glasovna baza podataka.

    Nastavak je dostupan samo članovima

    Opcija 1. Pridružite se zajednici "site" da pročitate sve materijale na stranici

    Članstvo u zajednici u navedenom periodu će vam omogućiti pristup SVIM Hakerskim materijalima, povećati vaš lični kumulativni popust i omogućiti vam da sakupite profesionalnu ocjenu Xakep Score!