Rusça konuşma tanıma programları. Ses tanıma teknolojilerine genel bakış ve bunların nasıl kullanılacağı

Dijital ses kayıt cihazları "Gnome R" ve "Gnome 2M" kullanılarak kaydedilen fonogramlar, fonoskopik incelemeler için gönderilen fonogramların gerekliliklerini karşılar ve bireylerin ses ve konuşma yoluyla tanımlanmasına uygundur...

Birinci Şef Yardımcısı

Gnome 2M ses kaydedici, zorlu akustik ortamlarda konferansları ve seminerleri kaydetmek için defalarca kullanılmıştır; kaydedilen müzikler yüksek kalitededir. Yerleşik gürültü azaltma işlevi, film müziklerinin oynatılma kalitesini artırmanıza olanak tanır...

IPK BNTU'nun lider mühendisi

İleri Araştırmalar ve Personelin Yeniden Eğitimi Enstitüsü BNTU

Hizmet ömrü boyunca "Gnome R" olumlu tarafta olduğunu kanıtladı. Minimal boyutlarla yüksek kalitede kayıt, uzun süreli ses kaydı, biriken bilgilerin kayıt cihazının dahili hafızasından PC'ye anında aktarılması...

Yedinci müdürlüğün 3. dairesinin kıdemli memuru

Belarus Cumhuriyeti Silahlı Kuvvetleri Genelkurmay Başkanlığı

Unutma Beni II sistemi kullanılarak kaydedilen fonogramlar, telefon iletişim kanalları üzerinden sesli mesajların kaydedilmesine yönelik çok kanallı dijital sistemlerin gereksinimlerini karşılar ve ses ve konuşma yoluyla kişisel tanımlamaya uygundur...

Merkez başkanı

Devlet Adli Tıp Uzmanlık Merkezi

Sınırsız sayıda bildirimde bulunulan abone, çok sayıda eşzamanlı gerçekleştirilen görev, "Rupor" u OJSC "JSSB Belarusbank'ın 524 numaralı şubesinin kredi departmanı çalışanlarının çalışmalarında vazgeçilmez bir yardımcı haline getirecek...

Direktör Yardımcısı – Perakende İş Merkezi Başkanı

JSC "ASB Belarusbank" 524 No'lu Şube

Rupor otomatik uyarı sistemi analog telefon hatları üzerinden çalışarak personeli bilgilendirmek amacıyla test edilmiştir. Sistem 100 aboneye hizmet verdi, stabil çalıştı ve sürekli bakım gerektirmedi...

Askeri Komiser Vekili

Minsk Askeri Komiserliği

Unutma Beni II kayıt sistemi, sakinlerden sesli mesajların alınmasını, bunların bir bilgisayara yüksek kalitede kaydedilmesini, kaydedilen mesajları dinlemeyi ve bilgilerin bir metin veritabanına girilmesini sağlar. "Rupor" bildirim sistemi borçlulara otomatik olarak bildirimde bulunur...

ACS Bölüm Başkanı

Üniter İşletme "Minsk'in ZhREO Sovetsky bölgesi"

Rupor sistemi, bildirim raporunun sağlanmasıyla belirlenen parametrelere uygun olarak çok sayıda aboneye kısa sürede bildirim sağlar, güvenilir çalışır, gerekliliklere tam olarak uygundur...

Perakende İşletme Bölümü Direktörü

Mobil konuşma kayıt ve dokümantasyon sistemi “Protokol”, bir dijital ses kayıt cihazı “Gnome 2M” ve bir bilgisayar transkriptörü “Caesar” içerir. Gnome 2M ses kaydedici, toplantıların ve oturumların yüksek kalitede kayıtlarını almanızı sağlar ve Caesar transcriber, ses bilgilerinin bir metin belgesine dönüştürülme hızını önemli ölçüde artırır...

Öncü uzman

Belarus Cumhuriyeti Bilimler Akademisi Devlet ve Hukuk Enstitüsü

Sesle tanımlama

Modern dünyada biyometrik teknolojilere ve biyometrik kişisel tanımlama sistemlerine olan ilgi giderek artıyor ve bu ilgi oldukça anlaşılır.

Biyometrik tanımlama, insan vücudunun benzersiz özelliklerinin tanınması ve karşılaştırılması ilkesine dayanmaktadır. Bir kişinin biyometrik özelliklerinin ana kaynakları parmak izleri, iris ve retina, ses, yüz, imza, yürüyüş vb.'dir. Bu biyometrik tanımlayıcılar kişiye aittir ve onun ayrılmaz bir parçasıdır. Unutulamaz, bırakılamaz, bir yerlerde kaybolamazlar.

Biyometrik tanımlama için bir kişinin çeşitli özellikleri ve özellikleri kullanılabilir. Bu makale, ses tanıma sistemi örneğini kullanarak biyometrik teknolojilerin nasıl çalıştığına dair kısa bir genel bakış sunmaktadır.

Biyometri için ses teknolojisinin değeri defalarca kanıtlanmıştır. Ancak, yalnızca otomatik konuşmacı tanıma sistemlerinin yüksek kalitede uygulanması, bu tür teknolojilerin fiilen uygulamaya geçirilmesini sağlayabilir. Benzer sistemler zaten mevcut. Güvenlik sistemlerinde, bankacılık teknolojilerinde, e-ticarette ve kanun uygulama uygulamalarında kullanılırlar.

Konuşmacı tanıma sistemlerinin kullanımı, bir bilgisayara veya bilgi aktarım sistemlerine yetkisiz erişim sorunlarını ve ayrıca ağ veya bilgi kaynaklarına çok düzeyli erişim kontrolü sorunlarını çözmenin en doğal ve ekonomik yoludur.

Konuşmacı tanıma sistemleri iki sorunu çözebilir: belirli, sınırlı bir kişi listesinden bir kişiyi tanımlamak (kişisel tanımlama) veya konuşmacının kimliğini doğrulamak (kimlik doğrulama). Kişiliğin sesle tanımlanması ve doğrulanması, konuşma işleme teknolojisinin gelişim alanlarıdır.

Pirinç. 1 – Konuşmacı tanıma

Konuşma, birkaç farklı düzeyde meydana gelen dönüşümlerin bir sonucu olarak ortaya çıkan bir sinyaldir: anlamsal, dilsel, eklemleyici ve akustik. Bilindiği gibi konuşma sinyalinin kaynağı, elastik bir hava ortamında ses dalgalarını harekete geçiren ses sistemidir. Ses yolu genellikle ses tellerinin üzerinde bulunan, konuşmayı üreten organı ifade eder. Şekil 2'de görüldüğü gibi ses yolu hipofarenks, orofarinks, ağız boşluğu, nazofarinks ve burun boşluğundan oluşur.


Pirinç. 2 – İnsan ses yolunun yapısı

İnsan sesi, havanın akciğerlerden trakea yoluyla gırtlağa, ses tellerini geçtikten sonra yutağa, ağza ve burun boşluğuna geçmesiyle ortaya çıkar. Bir ses dalgası ses yolundan geçtiğinde frekans spektrumu ses yolundaki titreşimlerle değişir. Ses yolunun titreşimlerine formant adı verilir. Konuşmacı doğrulama sistemleri genellikle konuşma sinyalinin, kişinin ses kanalındaki kas aktivitesinin bireysel özelliklerini yansıtan ayırt edici özelliklerini tanır.

Konuşmacı doğrulama sistemine daha yakından bakalım. Ses doğrulama, konuşmacının söylediği kişi olup olmadığını belirleme işlemidir. Daha önce sisteme kayıtlı bir kullanıcı, kayıt numarası, şifre kelimesi veya kelime öbeği olan tanımlayıcısını telaffuz eder. Metne bağlı tanımada, parola sözcüğü sistem tarafından bilinir ve kullanıcıdan bu sözcüğü telaffuz etmesini "ister". Şifre sözcüğü ekranda görüntülenir ve kişi bunu mikrofona söyler. Metinden bağımsız tanımada, kullanıcı tarafından söylenen parola sözcüğü referans sözcüğüyle örtüşmez; Kullanıcı şifre olarak rastgele bir kelime veya kelime öbeği söyleyebilir. Doğrulama sistemi konuşma sinyalini alır, işler ve kullanıcı tarafından sunulan tanımlayıcıyı kabul edip etmeyeceğine karar verir. Sistem, kullanıcıya sesinin mevcut standarda uymadığını bildirerek nihai karar verebilmesi için ek bilgi sağlamasını isteyebilmektedir.


Pirinç. 3 – Sistemle insan etkileşimi

Bir kişinin ses tabanlı kimlik doğrulama sistemi ile etkileşiminin şeması Şekil 3'te gösterilmektedir. Kullanıcı, sistem tarafından kendisine sunulan numarayı mikrofona konuşur, böylece sistem, sesinin sistemde kayıtlı standarda uyup uymadığını kontrol eder. veri tabanı. Tipik olarak ses tanıma doğruluğu ile konuşma örneği boyutu arasında bir denge vardır; Konuşma örneği ne kadar uzun olursa tanıma doğruluğu da o kadar yüksek olur. Mikrofona sesin yanı sıra yankılar ve yabancı sesler de girebilir.

Doğrulama ve tanımlama hatalarına katkıda bulunabilecek çeşitli faktörler vardır, örneğin:

  • bir parola sözcüğünün veya ifadesinin yanlış telaffuzu veya okunması;
  • konuşmacının duygusal durumu (stres, baskı altında bir parolayı telaffuz etmek vb.);
  • zor akustik ortam (gürültü, parazit, radyo dalgaları vb.);
  • farklı iletişim kanalları (konuşmacı kaydı ve doğrulama sırasında farklı mikrofonların kullanılması);
  • soğuk algınlığı;
  • doğal ses değişiklikleri.

Bunlardan bazıları, örneğin daha iyi mikrofonlar kullanılarak ortadan kaldırılabilir.

Sesle kimlik doğrulama süreci 5 aşamadan oluşur: bir konuşma sinyalinin alınması, parametrelendirilmesi veya sesin ayırt edici özelliklerinin vurgulanması, ortaya çıkan ses örneğinin daha önce belirlenmiş bir standartla karşılaştırılması, “kabul/red” kararının verilmesi, eğitim, veya referans modelinin güncellenmesi. Doğrulama şeması Şekil 4'te gösterilmektedir.


Pirinç. 4 – Doğrulama şeması

Kayıt sırasında, yeni bir kullanıcı kimliğini girer ve ardından bir anahtar kelimeyi veya ifadeyi birkaç kez söyler, böylece kıyaslamalar oluşturulur. Bir anahtar ifadenin tekrar sayısı her kullanıcı için farklılık gösterebilir veya herkes için sabit olabilir.

Bir bilgisayarın bir konuşma sinyalini işleyebilmesi için, ses dalgası önce analoga, ardından dijital sinyale dönüştürülür.

Ses özelliği çıkarma aşamasında, konuşma sinyali ayrı ses çerçevelerine bölünür ve bunlar daha sonra dijital bir modele dönüştürülür. Bu desenlere “ses izleri” denir. Yeni elde edilen “ses baskısı” daha önce oluşturulmuş bir standartla karşılaştırılıyor. Konuşmacının kimliğini tanımak için en önemlileri, sistemin her bir kullanıcının sesini doğru bir şekilde tanımasını sağlayacak sesin en çarpıcı ayırt edici özellikleridir.

Son olarak sistem, kullanıcının sesinin belirlenen standartla eşleşip eşleşmediğine bağlı olarak kullanıcının erişimini kabul etme veya reddetme kararı verir. Sistem kendisine sunulan sesi standartla hatalı bir şekilde eşleştirirse, “yanlış kabul” (FA) hatası oluşur. Sistem, içerdiği standarda uygun bir biyometrik özelliği tanıyamazsa buna “yanlış ret” (FR) hatası denir. Yanlış kabul hatası güvenlik sisteminde boşluk yaratır, yanlış reddetme hatası ise bazen kişiyi ilk seferde tanıyamayan sistemin kullanılabilirliğinin azalmasına neden olur. Bir hatanın ortaya çıkma olasılığını azaltma girişimi, diğerinin daha sık meydana gelmesine yol açar, bu nedenle sistemin gereksinimlerine bağlı olarak belirli bir uzlaşma seçilir, yani. bir karar eşiği belirlenir.

Çözüm

Uygulamada ses tanımlama yöntemleri de kullanılmaktadır. Şirket sesiyle tanımlama teknolojisi, kurumsal kaynaklara, telefona ve WEB hizmetlerine belirli bir parola cümlesini kullanarak düzenlenmiş kullanıcı erişimini düzenlemenize olanak tanır. Teknolojinin kullanımı sistemlerin güvenliğini önemli ölçüde artırabilir ve aynı zamanda kullanıcı tanımlama sürecini basitleştirebilir. Sesli Anahtar teknolojisi, sistemin yüksek güvenilirliğini ve kararlılığını sağlayacak ve aynı zamanda müşteri hizmetlerinin kalitesinin artırılmasına da yardımcı olacaktır.

Bu sitede yayınlanan tüm materyallerin diğer kaynaklarda ve basılı yayınlarda yayınlanmasına ve basılmasına yalnızca Speech Technologies LLC'nin yazılı izni ile izin verilmektedir.


Ses tanıma teknolojisinin 50 yıldır var olduğunu biliyor muydunuz? Bilim adamları bu sorunu yarım yüzyıldır çözüyorlar ve ancak son birkaç on yıldır BT şirketleri bu sorunun çözümüne dahil olmaya başladı. Geçen yılki çalışmanın sonucu, tanıma doğruluğunda yeni bir seviye ve teknolojinin günlük ve profesyonel yaşamda yaygın kullanımı oldu.

Hayattaki teknoloji

Her gün arama motorlarını kullanıyoruz. Öğle yemeğini nerede yiyeceğimizi, bir yere nasıl gideceğimizi arıyoruz ya da bilmediğimiz bir terimin anlamını bulmaya çalışıyoruz. Örneğin Google veya Yandex.Navigator tarafından kullanılan ses tanıma teknolojisi, arama yaparken minimum zaman harcamamıza yardımcı olur. Basit ve kullanışlı.

Profesyonel bir ortamda teknoloji, işi birkaç kez basitleştirmeye yardımcı olur. Örneğin tıpta doktorun konuşması, randevu anında tıbbi öykü metnine ve reçeteye dönüştürülüyor. Bu, hasta bilgilerinin belgelere girilmesinde zaman kazandırır. Otomobilin araç bilgisayarına entegre edilen sistem, sürücünün isteklerine yanıt veriyor, örneğin en yakın benzin istasyonunun bulunmasına yardımcı oluyor. Engelli bireyler için ev aletlerinin yazılımında onları sesle kontrol edebilecek sistemlerin kurulması önemlidir.

Ses tanıma sistemlerinin geliştirilmesi

Konuşma tanıma fikri her zaman umut verici görünüyordu. Ancak zaten sayıları ve en basit kelimeleri tanıma aşamasında araştırmacılar bir sorunla karşılaştı. Konuşma, hazır şablonlarla karşılaştırılan istatistiksel bir model olarak sunulduğunda, tanımanın özü akustik bir model oluşturmaya indirgenmiştir. Model şablonla eşleşiyorsa sistem, komutun veya numaranın tanındığına karar verdi. Sistemin tanıyabildiği sözlüklerin büyümesi, bilgi işlem sistemlerinin gücünün artmasını gerektirdi.

Gİngilizce konuşmaya yönelik ses tanıma sistemlerinde bilgisayar performansındaki artış ve tanıma hatalarındaki azalma grafikleri
Kaynaklar:
Herb Sutter. Ücretsiz Öğle Yemeği Sona Erdi: Yazılımda Eşzamanlılığa Doğru Temel Bir Dönüş
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/



Günümüzde tanıma algoritmaları, bir dilin yapısını, örneğin tipik bir kelime dizisini tanımlayan dil modelleri ile desteklenmektedir. Sistem gerçek konuşma materyali üzerine eğitilmiştir.

Teknolojinin gelişmesinde yeni bir aşama sinir ağlarının kullanılmasıydı. Tanıma sistemi, her yeni tanımanın gelecekteki tanıma doğruluğunu etkileyecek şekilde tasarlanmıştır. Sistem öğrenilebilir hale gelir.


Ses tanıma sistemlerinin kalitesi

Günümüzde teknolojinin gelişimindeki durum şu hedefle ifade edilmektedir: konuşmayı tanımadan anlamaya. Bu amaçla temel bir gösterge seçildi - tanımadaki hataların yüzdesi. Bu göstergenin aynı zamanda bir kişinin konuşmasının diğer kişi tarafından tanınmasında da kullanıldığını söylemekte fayda var. Bağlam gibi diğer faktörleri hesaba katarken bazı kelimeleri atlıyoruz. Bu, tek tek kelimelerin anlamlarını anlamadan bile konuşmayı anlamamızı sağlar. İnsanlarda tanıma hatası oranı %5,1'dir.

Bir dili anlamak için konuşma tanıma sistemini eğitmedeki diğer zorluklar duygular, konuşma konusundaki beklenmedik değişiklikler, argo kullanımı ve konuşmacının bireysel özellikleri olacaktır: konuşma hızı, tını, seslerin telaffuzu.


Küresel pazar oyuncuları

Ses tanıma platformu pazarındaki birçok küresel oyuncu iyi bilinmektedir. Bunlar Apple, Google, Microsoft, IBM'dir. Bu şirketler araştırma için yeterli kaynaklara ve kendi sistemlerini eğitmek için kapsamlı bir temele sahiptir. Örneğin Google, eğitim için kullanıcıların kendilerine sormaktan mutluluk duyacağı milyonlarca arama sorgusu kullanıyor. Bu bir yandan tanıma doğruluğunu artırırken diğer yandan sınırlamalar da getiriyor: Sistem konuşmayı 15 saniyelik bölümler halinde tanıyor ve "genel profil sorusuna" dayanıyor. Google sistem tanıma hatası %4,9'dur. 2016 yılı sonu itibarıyla bu rakam IBM için %5,5, Microsoft için ise %6,3'tür.

Profesyonel alanlarda kullanıma yönelik platform, Amerikalı Nuance şirketi tarafından geliştiriliyor. Uygulama alanları arasında: tıp, hukuk, finans, gazetecilik, inşaat, güvenlik, otomotiv.

Rusya'daki Konuşma Teknolojileri Merkezi, profesyonel ses tanıma ve konuşma sentezi araçlarının en büyük üreticisidir. Şirketin çözümleri dünya çapında 67 ülkede uygulandı. Ana çalışma alanları: ses biyometrisi – ses tanımlama; çağrı merkezlerinde kullanılan self-servis konuşma sistemleri – IVR; konuşma sentezleyicileri. ABD'de Rus şirketi SpeechPro markası altında faaliyet gösteriyor ve İngilizce konuşma tanıma konusunda araştırmalar yürütüyor. Tanıma sonuçları, hata değerine göre İLK 5 sonuç arasında yer almaktadır.


Pazarlamada Ses Tanıma'nın Değeri

Pazarlamanın amacı pazarın ihtiyaçlarını incelemek ve kârlılığı ve verimliliği artırmak için işleri bunlara uygun olarak organize etmektir. Ses, pazarlamacıların ilgisini iki durumda çeker: Müşteri konuşursa ve çalışan konuşursa. Bu nedenle pazarlamacılar için çalışmanın amacı ve teknolojinin uygulama kapsamı telefon görüşmeleridir.

Günümüzde telefon konuşması analitiği yeterince gelişmemiştir. Aramaların yalnızca kaydedilmesi değil, aynı zamanda dinlenmesi, değerlendirilmesi ve ancak daha sonra analiz edilmesi de gerekir. Bir kaydı düzenlemek kolay olsa da (herhangi bir sanal PBX veya çağrı izleme hizmeti bunu yapabilir), çağrı dinlemeyi organize etmek daha zordur. Bu sorun ya şirketteki bir kişi tarafından ya da çağrı merkezi başkanı tarafından çözülür. Çağrı dinleme de dış kaynaklardan sağlanmaktadır. Her durumda, çağrı değerlendirmedeki hata, analitik sonuçlarının ve bunlara dayanarak alınan kararların sorgulanmasına neden olan bir sorundur.

Modern, olaylarla dolu dünyamızda, bilgiyle çalışma hızı başarıya ulaşmanın temel taşlarından biridir. İş performansımız ve üretkenliğimiz, dolayısıyla anlık maddi zenginliğimiz, bilgiyi ne kadar hızlı aldığımıza, oluşturduğumuza ve işlediğimize bağlıdır. Çalışma yeteneklerimizi geliştirebilecek araçlar arasında konuşmayı metne çevirme programları önemli bir yer tutmaktadır ve ihtiyacımız olan metinleri yazma hızını önemli ölçüde artırmamıza olanak sağlamaktadır. Bu materyalde size ses sesini metne çevirmek için hangi popüler programların mevcut olduğunu ve özelliklerinin neler olduğunu anlatacağım.

Sesli sesi metne çevirme uygulaması - sistem gereksinimleri

Sesi metne çevirmek için mevcut programların çoğu, mikrofona bir takım gereksinimler koyarak (programın bir bilgisayar için tasarlandığı durumda) ödenir. Bir web kamerasına yerleştirilmiş veya standart bir dizüstü bilgisayarın gövdesine yerleştirilmiş bir mikrofonla çalışmanız kesinlikle önerilmez (bu tür cihazlardan konuşma tanıma kalitesi oldukça düşüktür). Ayrıca konuşma tanıma seviyenizi doğrudan etkileyebilecek gereksiz gürültünün olmadığı, sessiz bir ortamın olması oldukça önemlidir.

Üstelik bu programların çoğu, yalnızca konuşmayı bilgisayar ekranında metne dönüştürmekle kalmıyor, aynı zamanda bilgisayarınızı kontrol etmek için sesli komutları da kullanabiliyor (programları başlatma ve kapatma, e-posta alma ve gönderme, web sitelerini açma ve kapatma vb.).

Metin programına konuşma

Konuşmayı metne çevirmeye yardımcı olabilecek programların doğrudan açıklamasına geçelim.

Laitis programı

Ücretsiz Rusça ses tanıma programı “Laitis”, iyi bir konuşma anlama kalitesine sahiptir ve yaratıcılarına göre, kullanıcının normal klavyesinin neredeyse tamamen yerini alabilir. Program ayrıca sesli komutlarla da iyi çalışarak bilgisayarınızı kontrol etmek için birçok eylemi gerçekleştirmenize olanak tanır.

Programın çalışması için bilgisayarda yüksek hızlı İnternet gerekir (program, Google ve Yandex'in ağ ses tanıma hizmetlerini kullanır). Programın yetenekleri ayrıca, web gezgininize "Laitis"ten (Chrome, Mozilla, Opera) özel bir uzantı yüklemenizi gerektiren sesli komutları kullanarak tarayıcınızı kontrol etmenize de olanak tanır.

"Dragon Professional" - ses kayıtlarını metne dönüştürme

Bu materyalin yazıldığı sırada İngilizce dilinde dijital bir ürün « Dragon Professional Bireysel" tanınmış metinlerin kalitesinde dünya liderlerinden biridir. Program yedi dili anlıyor (şu ana kadar yalnızca Dragon Anywhere mobil uygulaması ve Rusça ile çalışıyor), yüksek kaliteli ses tanıma özelliğine sahip ve bir dizi sesli komutu gerçekleştirebiliyor. Üstelik bu ürün özel olarak ödenir (ana programın fiyatı 300 ABD dolarıdır ve Dragon Home ürününün "ev" versiyonu için alıcının 75 ABD doları ödemesi gerekecektir).

Nuance Communications'ın bu ürününü çalıştırmak için, programın yeteneklerini sesinizin özelliklerine uyarlamak üzere tasarlanmış kendi profilinizin oluşturulması gerekir. Metni doğrudan dikte etmenin yanı sıra, programı bir dizi komutu gerçekleştirecek şekilde eğitebilir, böylece bilgisayarla etkileşiminizi daha uyumlu ve rahat hale getirebilirsiniz.

"RealSpeaker" - ultra hassas konuşma tanıyıcı

Sesi metne dönüştürme programı "RealSpeaker", bu tür programların standart işlevlerine ek olarak, PC'nizin web kamerasının özelliklerini kullanmanıza olanak tanır. Artık program yalnızca sesin ses bileşenini okumakla kalmıyor, aynı zamanda konuşmacının dudaklarının köşelerinin hareketini de kaydediyor, böylece telaffuz ettiği kelimeleri daha doğru tanıyor.


"RealSpeaker" yalnızca sesi değil aynı zamanda konuşma sürecinin görsel bileşenini de okur

Uygulama ondan fazla dili (Rusça dahil) destekler, aksanları ve lehçeleri dikkate alarak konuşma tanımaya olanak tanır, ses ve videoyu metne dönüştürmenize olanak tanır, buluta erişim sağlar ve çok daha fazlasını sağlar. Program paylaşımlı bir yazılımdır, ancak ücretli sürüm için gerçek para ödemeniz gerekecektir.

“Voco” - program sesinizi hızla bir metin belgesine çevirecektir

Başka bir sesten metne dönüştürücü, "ev" versiyonunun fiyatı şu anda yaklaşık 1.700 ruble olan ücretli dijital ürün "Voco" dur. Bu programın daha gelişmiş ve pahalı versiyonları - "Voco.Professional" ve "Voco.Enterprise", bir dizi ek özelliğe sahiptir; bunlardan biri, kullanıcının ses kayıtlarından konuşma tanımadır.

Voco'nun özellikleri arasında, programın kelime dağarcığını genişletme yeteneğini (şu anda programın kelime dağarcığı 85 binden fazla kelime içeriyor) ve ayrıca ağdan bağımsız çalışmasını ve İnternet bağlantınıza bağlı kalmamanızı sağladığını belirtmek isterim. .


Voco'nun avantajları arasında programın yüksek öğrenme eğrisi bulunmaktadır.

Uygulama oldukça basit bir şekilde açılıyor - sadece “Ctrl” tuşuna iki kez basmanız yeterli. Gboard'da ses girişini etkinleştirmek için boşluk çubuğunu basılı tutmanız yeterlidir

Uygulama tamamen ücretsizdir ve Rusça dahil birkaç düzine dili desteklemektedir.

Çözüm

Yukarıda ses kaydınızı metne çevirmeye yönelik programları listeledim, genel işlevlerini ve karakteristik özelliklerini anlattım. Bu ürünlerin çoğu genellikle ücretlidir ve Rusça programların kapsamı ve kalitesi, İngilizce muadillerine göre niteliksel olarak daha düşüktür. Bu tür uygulamalarla çalışırken mikrofonunuza ve ayarlarına özellikle dikkat etmenizi öneririm - bu, konuşma tanıma sürecinde önemlidir, çünkü kötü bir mikrofon, incelediğim türden en yüksek kaliteli yazılımı bile geçersiz kılabilir.

Ansiklopedik YouTube

  • 1 / 5

    Konuşma tanıma konusundaki çalışmalar geçen yüzyılın ortalarına kadar uzanıyor. İlk sistem 1950'lerin başında oluşturuldu: geliştiricileri sayıları tanıma görevini üstlendiler. Geliştirilen sistem, Bell Laboratuvarları'nın "Audrey" sistemi gibi sayıları tanımlayabiliyor ancak tek sesle konuşulabiliyordu. Her konuşma pasajının güç spektrumundaki formantı tanımlayarak çalıştı. Genel anlamda sistem üç ana bölümden oluşuyordu: analizörler ve niceleyiciler, ağ eşleştirici modelleri ve son olarak sensörler. Buna göre, çeşitli frekans filtreleri, anahtarlar ve sensörler temel olarak gazla doldurulmuş tüpler de dahil olmak üzere oluşturulmuştur. ] .

    On yılın sonunda sesli harfleri konuşmacıdan bağımsız olarak tanıyan sistemler ortaya çıktı. 70'li yıllarda, daha gelişmiş sonuçlar elde etmeyi mümkün kılan yeni yöntemler kullanılmaya başlandı - dinamik programlama yöntemi ve doğrusal tahmin yöntemi (Doğrusal Tahminli Kodlama - LPC). Adı geçen şirket Bell Laboratories, tam olarak bu yöntemleri kullanarak sistemler oluşturdu. 80'li yıllarda ses tanıma sistemlerinin geliştirilmesindeki bir sonraki adım Gizli Markov Modellerinin (HMM) kullanılmasıydı. Bu sıralarda Kurzweil metinden konuşmaya gibi ilk büyük ses tanıma programları ortaya çıkmaya başladı. 80'li yılların sonlarında yapay sinir ağları (Yapay Sinir Ağı - ANN) yöntemleri de kullanılmaya başlandı. 1987 yılında Worlds of Wonder'ın sesleri anlayabilen Julie bebekleri piyasaya çıktı. Ve 10 yıl sonra Dragon Systems, NaturallySpeaking 1.0 programını yayınladı.

    Güvenilirlik

    Ses tanıma hatalarının ana kaynakları şunlardır:

    Cinsiyet tanıma, oldukça başarılı bir şekilde çözülen ayrı bir sorun türü olarak ayırt edilebilir - büyük miktarlarda ilk verilerle cinsiyet neredeyse hatasız olarak belirlenir ve vurgulu sesli harf gibi kısa pasajlarda hata olasılığı 5,3'tür. Erkeklerde yüzde 3,1, kadınlarda ise yüzde 3,1.

    Ses taklidi sorunu da dikkate alındı. France Telecom tarafından yapılan araştırma, profesyonel ses taklidinin pratikte kimlik hatası olasılığını artırmadığını gösterdi - taklitçiler sesi yalnızca dışarıdan taklit ederek konuşmanın özelliklerini vurguluyor, ancak sesin temel taslağını taklit edemiyorlar. Yakın akrabaların, yani ikizlerin sesleri bile en azından kontrol dinamikleri açısından farklılık gösterecektir. Ancak bilgisayar teknolojisinin gelişmesiyle birlikte, yeni analiz yöntemlerinin kullanılmasını gerektiren yeni bir sorun ortaya çıktı - hata olasılığını% 50'ye çıkaran ses dönüşümü.

    Sistemin güvenilirliğini tanımlamak için kullanılan iki kriter vardır: FRR (Yanlış Reddetme Oranı) - hatalı erişim reddi olasılığı (birinci tür hata) ve FAR (Yanlış Kabul Oranı) - yanlış kabul olasılığı sistem yanlışlıkla bir yabancıyı kendisininmiş gibi tanımladığında (ikinci türden hata) . Ayrıca bazen tanıma sistemleri, FRR ve FAR olasılıklarının çakışma noktasını temsil eden EER (Eşit Hata Oranları) gibi bir parametreyle karakterize edilir. Sistem ne kadar güvenilir olursa, EER'si o kadar düşük olur.

    Çeşitli biyometrik yöntemler için tanımlama hatası değerleri

    Başvuru

    Tanıma iki ana alana ayrılabilir: tanımlama ve doğrulama. İlk durumda, sistemin kullanıcıyı bağımsız olarak sesle tanımlaması gerekir; ikinci durumda sistem, kullanıcı tarafından sunulan tanımlayıcıyı onaylamalı veya reddetmelidir. İncelenen konuşmacının belirlenmesi, her konuşmacının bireysel konuşma özelliklerini dikkate alan ses modellerinin ikili olarak karşılaştırılmasından oluşur. Bu nedenle öncelikle oldukça geniş bir veritabanı toplamamız gerekiyor. Ve bu karşılaştırmanın sonuçlarına dayanarak, bir miktar olasılıkla ilgilendiğimiz kullanıcının konuşması olan bir fonogram listesi oluşturulabilir.

    Ses tanıma her ne kadar %100 doğru sonucu garanti etmese de adli tıp ve adli tıp gibi alanlarda oldukça etkili bir şekilde kullanılabilmektedir; istihbarat teşkilatı; terörle mücadele izleme; emniyet; bankacılık vb.

    Analiz

    Bir konuşma sinyalini işleme sürecinin tamamı birkaç ana aşamaya ayrılabilir:

    • sinyal ön işleme;
    • kriterlerin vurgulanması;
    • Konuşmacı tanıma.

    Her aşama, sonuçta gerekli sonucu üreten bir algoritmayı veya bazı algoritmalar dizisini temsil eder.

    Sesin ana özellikleri üç ana özellikten oluşur: ses tellerinin titreşim mekaniği, ses yolunun anatomisi ve artikülasyon kontrol sistemi. Ayrıca bazen konuşmacının sözlüğünden, onun söz sanatlarından da faydalanmak mümkündür. Konuşmacının kişiliği hakkında karar vermenin ana özellikleri, konuşma üretim sürecinin tüm faktörleri dikkate alınarak oluşturulur: ses kaynağı, ses yolunun rezonans frekansları ve bunların zayıflamasının yanı sıra artikülasyon dinamikleri kontrol. Kaynaklara daha detaylı bakarsak, ses kaynağının özellikleri şunları içerir: temel tonun ortalama frekansı, temel frekansın konturu ve dalgalanmaları, uyarma darbesinin şekli. Ses yolunun spektral özellikleri, spektrum zarfı ve bunun ortalama eğimi, formant frekansları, uzun vadeli spektrum veya sepstrum ile tanımlanır. Ayrıca kelimelerin süresi, ritmi (vurgu dağılımı), sinyal düzeyi, duraklamaların sıklığı ve süresi de dikkate alınır. Bu özellikleri belirlemek için oldukça karmaşık algoritmaların kullanılması gerekir, ancak örneğin formant frekanslarının hatası oldukça büyük olduğundan, spektrum zarfından hesaplanan cepstrum katsayıları veya doğrusal tahmin yöntemiyle bulunan ses yolunun transfer fonksiyonu basitleştirmek için kullanılır. Bahsedilen cepstrum katsayılarına ek olarak birinci ve ikinci zaman farkları da kullanılmaktadır. Bu yöntem ilk olarak Davis ve Mermelstein'ın çalışmalarında önerilmiştir.

    Cepstral analiz

    Ses tanıma ile ilgili çalışmalarda en popüler yöntem, konuşma sinyallerinin spektrumunun cepstral dönüşümüdür. Yöntemin şeması şu şekildedir: 10 - 20 ms'lik bir zaman aralığında mevcut güç spektrumu hesaplanır ve ardından bu spektrumun (sepstrum) logaritmasının ters Fourier dönüşümü uygulanır ve katsayılar bulunur: c n = 1 Θ ∫ 0 Θ ∣ S (j , ω , t) ∣ 2 exp − j n ω Ω ⁡ d ω (\displaystyle c_(n)=(\frac (1)(\Theta ))\int _(0 )^(\Theta )(\mid S(j,\omega ,t)\mid )^(2)\exp ^(-jn\omega \Omega )d\omega ), Ω = 2 2 π Θ , Θ (\displaystyle \Omega =2(\frac (2\pi )(\Theta )),\Theta )- konuşma sinyali spektrumundaki en yüksek frekans, ∣ S (j , ω , t) ∣ 2 (\displaystyle (\mid S(j,\omega ,t)\mid )^(2))- güç spektrumu. Cepstral katsayıların sayısı n, gerekli spektrum yumuşatılmasına bağlıdır ve 20 ile 40 arasında değişir. Bir bant geçiren filtre tarağı kullanılırsa, ayrık cepstral dönüşüm katsayıları şu şekilde hesaplanır: c n = ∑ m = 1 N log ⁡ Y (m) 2 çünkü ⁡ π n M (m − 1 2)) (\displaystyle c_(n)=\sum _(m=1)^(N)\log (Y (m)^(2))\cos ((\frac (\pi n)(M))(m-(\frac (1)(2)))))), burada Y(m), m'inci filtrenin çıkış sinyalidir, c n (\displaystyle c_(n))- n'inci cepstrum katsayısı.

    İşitme özellikleri, genellikle tebeşir ölçeğinde, doğrusal olmayan bir frekans ölçeği dönüşümü yoluyla dikkate alınır. Bu ölçek, işitmede kritik bant adı verilen bantların varlığına dayalı olarak oluşturulur; öyle ki, kritik bant içindeki herhangi bir frekanstaki sinyaller ayırt edilemez. Tebeşir ölçeği şu şekilde hesaplanır: M (f) = 1125 ln ⁡ (1 + f 700) (\displaystyle M(f)=1125\ln ((1+(\frac (f)(700)))) burada f, Hz cinsinden frekanstır, M, tebeşir cinsinden frekanstır. Veya başka bir ölçek kullanılır - havlama, öyle ki iki frekans arasındaki kritik banda eşit fark 1 havlamadır. Frekans B şu şekilde hesaplanır: B = 13 a r c t g (0 , 00076 f) + 3,5 a r c t g f 7500 (\displaystyle B=13\operatöradı (arctg((0,00076f))) +3,5\operatöradı (arctg(\frac (f)(7500 ))) ). Bulunan katsayılar literatürde bazen MFCC - Mel Frekans Cepstral Katsayıları olarak anılır. Sayıları 10 ila 30 arasında değişmektedir. Cepstral katsayıların birinci ve ikinci zaman farklarının kullanılması, karar alanının boyutunu üç katına çıkarır, ancak konuşmacıyı tanıma verimliliğini artırır.

    Cepstrum, hem uyarma kaynağının özelliklerinden hem de ses yolunun özelliklerinden etkilenen sinyal spektrumu zarfının şeklini tanımlar. Deneyler, spektrum zarfının ses tanıma üzerinde güçlü bir etkiye sahip olduğunu göstermiştir. Bu nedenle, ses tanıma amacıyla spektrum zarfını analiz etmek için çeşitli yöntemlerin kullanılması oldukça haklıdır.

    Yöntemler

    GMM yöntemi, herhangi bir olasılık yoğunluk fonksiyonunun normal dağılımların ağırlıklı toplamı olarak temsil edilebileceği teoremini takip eder:

    P (x | λ) = ∑ j = 1 k ω j ϕ (χ , Θ j) (\displaystyle p(x|\lambda)=\sum _(j=1)^(k)(\omega _(j )\phi (\chi ,\Theta _(j)))); λ (\displaystyle \lambda)- hoparlör modeli, k - model bileşenlerinin sayısı; ω j (\displaystyle (\omega _(j)))- bileşenlerin ağırlıkları öyledir ki ∑ j = 1 n ω j = 1. (\displaystyle \sum _(j=1)^(n)(\omega _(j))=1.) ϕ (χ , Θ j) (\displaystyle \phi (\chi ,\Theta _(j)))- çok boyutlu bir argümanın dağılım fonksiyonu χ , Θ j (\displaystyle \chi ,\Theta _(j)) .ϕ (χ , Θ j) = p (χ ∣ μ j , R j) = 1 (2 π) n 2 ∣ R j ∣ 1 2 exp ⁡ − 1 (χ − μ j) T R j − 1 (χ − μ j) 2 (\displaystyle \phi (\chi ,\Theta _(j))=p(\chi \mid \mu _(j),R_(j))=(\frac (1)(((2\ pi ))^(\frac (n)(2))(\mid R_(j)\mid )^(\frac (1)(2)))\exp (\frac (-1(\chi -\ mu) _(j))^(T)R_(j)^(-1)(\chi -\mu _(j))))(2))), ω j (\displaystyle \omega _(j))- ağırlığı, k - karışımdaki bileşenlerin sayısı. Burada n özellik uzayının boyutudur, μ j ∈ R n (\displaystyle \mu _(j)\in \mathbb (R) ^(n))- karışımın j'inci bileşeninin matematiksel beklenti vektörü, R j ∈ R n × n (\displaystyle R_(j)\in \mathbb (R) ^(n\times n))- kovaryans matrisi.

    Bu modele sahip sistemler sıklıkla çapraz kovaryans matrisi kullanır. Modelin tüm bileşenleri ve hatta tüm modeller için kullanılabilir. Kovaryans matrisini, ağırlıkları ve ortalama vektörlerini bulmak için genellikle EM algoritması kullanılır. Girişte X = (x 1, . . ., x T) vektörlerinin eğitim dizisine sahibiz. Model parametreleri başlangıç ​​değerleri ile başlatılır ve daha sonra algoritmanın her yinelemesinde parametreler yeniden tahmin edilir. Başlangıç ​​parametrelerini belirlemek için genellikle K-ortalamalar algoritması gibi bir kümeleme algoritması kullanılır. Eğitim vektörleri seti M kümeye bölündükten sonra model parametreleri şu şekilde belirlenebilir: başlangıç ​​değerleri μ j (\displaystyle \mu _(j)) kümelerin merkezleriyle çakışıyorsa, kovaryans matrisleri belirli bir kümeye dahil edilen vektörlere göre hesaplanır, bileşenlerin ağırlıkları, belirli bir kümenin vektörlerinin toplam eğitim vektörleri sayısı arasındaki oranına göre belirlenir.

    Parametrelerin yeniden değerlemesi aşağıdaki formüllere göre gerçekleşir:

    GMM aynı zamanda vektör nicemleme yönteminin (centroid yöntemi) devamı olarak da adlandırılabilir. Özellik alanındaki ayrık bölgeler için bir kod kitabı oluşturur (genellikle K-ortalama kümelemesini kullanarak). Vektör nicemleme bağlamdan bağımsız tanıma sistemlerindeki en basit modeldir.

    Destek vektör makinesi (SVM), çok boyutlu bir alanda iki sınıfı (hedef konuşmacının parametreleri ve referans tabanından hoparlörlerin parametreleri) ayıran bir hiperdüzlem oluşturur. Hiperdüzlem, özel bir şekilde seçilen destek vektörleri kullanılarak hesaplanır. Ölçülen parametrelerin uzayının daha yüksek boyutlu özelliklerden oluşan bir uzaya doğrusal olmayan bir dönüşümü gerçekleştirilecektir, çünkü bölme yüzeyi hiper düzleme karşılık gelmeyebilir. Yeni özellik uzayında doğrusal ayrılabilirlik koşulu sağlandığı takdirde, hiperdüzlemdeki bölme yüzeyi destek vektör makinesi yöntemiyle oluşturulur. Dolayısıyla SMM kullanmanın başarısı, her özel durumda seçilen doğrusal olmayan dönüşüme bağlıdır. Destek vektör makinesi sıklıkla GMM veya HMM yöntemiyle birlikte kullanılır. Tipik olarak, birkaç saniye süren kısa ifadeler için, ses birimine bağlı HMM'ler bağlama bağlı yaklaşıma daha uygundur.

    Popülerlik

    New York merkezli danışmanlık şirketi International Biometric Group'a göre en yaygın teknoloji parmak izi taramasıdır. Biyometrik cihazların satışından elde edilen 127 milyon dolarlık gelirin %44'ünün parmak izi tarayıcılarından geldiği belirtiliyor. Yüz tanıma sistemleri %14 ile talep açısından ikinci sırada yer alırken, bunu avuç içi şekli tanıma cihazları (%13), ses tanıma (%10) ve iris tanıma (%8) takip ediyor. İmza doğrulama cihazları bu listenin %2'sini oluşturuyor. Ses biyometrisi pazarındaki en ünlü üreticilerden bazıları Nuance Communications, SpeechWorks, VeriVoice'dir.

    Şubat 2016'da The Telegraph, İngiliz bankası HSBC'nin müşterilerinin ses tanımlamayı kullanarak hesaplara erişebileceklerini ve işlem yapabileceklerini bildiren bir makale yayınladı. Geçişin yaz başlarında gerçekleşmesi gerekiyordu

    İnsanoğlu her zaman bir makineyi doğal dil kullanarak kontrol etme fikrine ilgi duymuştur. Belki de bu kısmen insanın makinenin ÜSTÜNDE olma arzusundan kaynaklanmaktadır. Tabiri caizse üstün hissetmek. Ancak asıl mesaj, yapay zeka ile insan etkileşimini basitleştirmektir. Linux'ta ses kontrolü neredeyse çeyrek yüzyıldır değişen derecelerde başarı ile uygulanmaktadır. Sorunu inceleyelim ve işletim sistemimize mümkün olduğunca yaklaşmaya çalışalım.

    Meselenin can alıcı noktası

    Linux için insan sesiyle çalışan sistemler uzun zamandır ortalıkta dolaşıyor ve bunlardan çok sayıda var. Ancak hepsi Rusça konuşmayı doğru şekilde işlemiyor. Bazıları geliştiriciler tarafından tamamen terk edildi. İncelememizin ilk bölümünde doğrudan konuşma tanıma sistemlerinden ve sesli asistanlardan bahsedeceğiz, ikinci bölümünde ise bunların Linux masaüstünde kullanımına ilişkin spesifik örneklere bakacağız.

    Örneğin CMU Sphinx, Julius gibi konuşma tanıma sistemlerinin kendileri (konuşmanın metne veya komutlara çevrilmesi) ile bu iki motoru temel alan uygulamalar ve popüler hale gelen ses asistanları arasında ayrım yapmak gerekir. Akıllı telefonların ve tabletlerin gelişmesiyle birlikte. Bu daha ziyade konuşma tanıma sistemlerinin bir yan ürünüdür, bunların daha da geliştirilmesi ve tüm başarılı ses tanıma fikirlerinin uygulanması, bunların pratikte uygulanmasıdır. Linux masaüstü bilgisayarlar için bunlardan henüz çok azı var.

    Konuşma tanıma motoru ile arayüzünün iki farklı şey olduğunu anlamalısınız. Bu, Linux mimarisinin temel ilkesidir; karmaşık bir mekanizmayı daha basit bileşenlere bölmek. En zor iş motorların omuzlarına düşüyor. Bu genellikle kullanıcı tarafından fark edilmeden çalışan sıkıcı bir konsol programıdır. Kullanıcı esas olarak arayüz programıyla etkileşime girer. Bir arayüz oluşturmak zor değil, bu nedenle geliştiriciler ana çabalarını açık kaynaklı konuşma tanıma motorları geliştirmeye odaklıyor.

    Daha önce ne oldu

    Tarihsel olarak, Linux'taki tüm konuşma işleme sistemleri yavaş yavaş ve hızla gelişti. Bunun nedeni geliştiricilerin çarpıklığı değil, geliştirme ortamına giriş düzeyinin yüksek olmasıdır. Sesle çalışmak için sistem kodu yazmak, yüksek nitelikli bir programcı gerektirir. Bu nedenle Linux'taki konuşma sistemlerini anlamaya başlamadan önce tarihe kısa bir gezi yapmak gerekiyor. IBM'in bir zamanlar harika bir işletim sistemi vardı: OS/2 Warp (Merlin). 1996 yılının eylül ayında çıktı. OS/2, diğer tüm işletim sistemlerine göre bariz avantajlara sahip olmasının yanı sıra, çok gelişmiş bir konuşma tanıma sistemi olan IBM ViaVoice ile donatılmıştı. O zamanlar işletim sisteminin 8 MB RAM'e (!) sahip 486 işlemcili sistemlerde çalıştığı göz önüne alındığında bu çok güzeldi.

    Bildiğiniz gibi OS/2, Windows'a karşı savaşı kaybetti ancak birçok bileşeni bağımsız olarak varlığını sürdürdü. Bu bileşenlerden biri, bağımsız bir ürüne dönüşen aynı IBM ViaVoice'du. IBM, Linux'u her zaman sevdiğinden, ViaVoice, Linus Torvalds'ın fikrine zamanının en gelişmiş konuşma tanıma sistemini kazandıran bu işletim sistemine taşındı.

    Ne yazık ki ViaVoice'in kaderi Linux kullanıcılarının istediği gibi olmadı. Motorun kendisi ücretsiz olarak dağıtıldı ancak kaynakları kapalı kaldı. 2003 yılında IBM, teknolojinin haklarını Kanada-Amerikan şirketi Nuance'a sattı. Belki de en başarılı ticari konuşma tanıma ürünü olan Dragon Naturally Speeking'i geliştiren Nuance, bugün hala hayatta. Bu, ViaVoice'un Linux'taki şerefsiz tarihinin neredeyse sonu. ViaVoice'in ücretsiz ve Linux kullanıcılarının kullanımına açık olduğu kısa süre boyunca, bunun için Xvoice gibi çeşitli arayüzler geliştirildi. Ancak proje uzun süredir terk edilmiş durumda ve artık pratik olarak uygulanamaz durumda.

    BİLGİ

    Makine konuşması tanımanın en zor kısmı doğal insan dilidir.

    Bugün ne?

    Bugün her şey çok daha iyi. Son yıllarda Google Voice API kaynaklarının keşfedilmesinden sonra Linux'ta konuşma tanıma sistemlerinin gelişmesiyle ilgili durum önemli ölçüde iyileşti ve tanıma kalitesi arttı. Örneğin, Google Voice API'sini temel alan Linux Konuşma Tanıma projesi, Rusça dili için çok iyi sonuçlar veriyor. Tüm motorlar yaklaşık olarak aynı şekilde çalışır: önce kullanıcının cihazının mikrofonundan gelen ses tanıma sistemine girer, ardından ses ya yerel cihazda işlenir ya da kayıt daha fazla işlenmek üzere uzak bir sunucuya gönderilir. İkinci seçenek akıllı telefonlar veya tabletler için daha uygundur. Aslında ticari motorlar tam olarak bu şekilde çalışır - Siri, Google Now ve Cortana.

    İnsan sesiyle çalışan çeşitli motorlardan şu anda aktif olan birkaç tane var.

    UYARI

    Açıklanan konuşma tanıma sistemlerinin çoğunun kurulumu önemsiz bir iştir!

    CMU Sfenks

    CMU Sphinx'in gelişiminin büyük kısmı Carnegie Mellon Üniversitesi'nde gerçekleşiyor. Proje üzerinde farklı zamanlarda hem Massachusetts Teknoloji Enstitüsü hem de artık hayatta olmayan Sun Microsystems şirketi çalıştı. Motor kaynakları BSD lisansı altında dağıtılmaktadır ve hem ticari hem de ticari olmayan kullanım için mevcuttur. Sphinx özel bir uygulama değil, son kullanıcı uygulamaları geliştirmek için kullanılabilecek bir araç setidir. Sphinx şu anda en büyük konuşma tanıma projesidir. Birkaç bölümden oluşur:

    • Pocketsphinx sesi, akustik modelleri, gramerleri ve sözlükleri işleyen küçük, hızlı bir programdır;
    • Pocketsphinx'in çalışması için gerekli olan Sphinxbase kütüphanesi;
    • Sphinx4 - gerçek tanıma kütüphanesi;
    • Sphinxtrain, akustik modellerin (insan sesinin kayıtları) eğitimine yönelik bir programdır.

    Proje yavaş ama emin adımlarla gelişiyor. Ve en önemlisi pratikte kullanılabilir. Ve sadece PC'lerde değil, mobil cihazlarda da. Ayrıca motor Rusça konuşmayla da çok iyi çalışıyor. Düz elleriniz ve net bir kafanız varsa, ev aletlerini veya akıllı bir evi kontrol etmek için Sfenks'i kullanarak Rusça konuşma tanımayı ayarlayabilirsiniz. Aslında sıradan bir daireyi akıllı bir eve dönüştürebilirsiniz, biz de bu incelemenin ikinci bölümünde bunu yapacağız. Sfenks uygulamaları Android, iOS ve hatta Windows Phone için mevcuttur. Bulut yönteminden farklı olarak konuşma tanıma işi Google ASR veya Yandex SpeechKit sunucularının omuzlarına düştüğünde Sphinx daha doğru, daha hızlı ve daha ucuz çalışır. Ve tamamen yerli. Dilerseniz Sphinx'e Rusça dil modelini ve kullanıcı sorgularının gramerini öğretebilirsiniz. Evet, kurulum sırasında biraz çalışmanız gerekecek. Tıpkı Sfenks ses modellerini ve kütüphanelerini kurmak gibi, yeni başlayanlar için bir aktivite değildir. CMU Sphinx'in çekirdeği olan Sphinx4 kütüphanesi Java ile yazılmış olduğundan, kodunu konuşma tanıma uygulamalarınıza dahil edebilirsiniz. İncelememizin ikinci bölümünde spesifik kullanım örnekleri açıklanacaktır.

    VoxForge

    Özellikle konuşma külliyatı kavramını vurgulayalım. Konuşma külliyatı, külliyatın ayrı ayrı öğelerine erişim sağlayan yazılımla sağlanan yapılandırılmış bir konuşma parçaları kümesidir. Başka bir deyişle, farklı dillerde bir dizi insan sesidir. Konuşma külliyatı olmadan hiçbir konuşma tanıma sistemi çalışamaz. Tek başına veya küçük bir ekiple yüksek kaliteli bir açık konuşma külliyatı oluşturmak zordur, bu nedenle özel bir proje, insan seslerinin kayıtlarını topluyor - VoxForge.

    İnternet erişimi olan herkes, yalnızca bir konuşma parçasını kaydedip göndererek bir konuşma derleminin oluşturulmasına katkıda bulunabilir. Bu telefonla bile yapılabilir, ancak web sitesini kullanmak daha uygundur. Elbette, ses kaydının kendisine ek olarak, konuşma külliyatı fonetik transkripsiyon gibi ek bilgileri de içermelidir. Bu olmadan konuşma kaydının tanıma sistemi açısından hiçbir anlamı yoktur.


    HTK, Julius ve Simon

    HTK - Gizli Markov Model Araç Seti, Microsoft'un himayesinde Cambridge Üniversitesi'nde geliştirilen, gizli Markov modellerini kullanan konuşma tanıma araçlarının araştırılması ve geliştirilmesine yönelik bir araç setidir (Microsoft bir zamanlar bu kodu ticari bir kuruluş olan Entropic Cambridge Research Laboratory Ltd'den satın almıştı ve daha sonra kısıtlayıcı bir lisansla birlikte Cambridge'e iade etti). Projenin kaynakları herkesin kullanımına açıktır ancak HTK kodunun son kullanıcılara yönelik ürünlerde kullanılması lisans tarafından yasaklanmıştır.

    Ancak bu, HTK'nın Linux geliştiricileri için işe yaramaz olduğu anlamına gelmez: açık kaynaklı (ve ticari) konuşma tanıma araçları geliştirirken yardımcı bir araç olarak kullanılabilir; açık kaynaklı Julius motorunun geliştiricilerinin yaptığı da budur. Japonya'da geliştiriliyor. Julius en iyi Japoncayla çalışır. Büyük ve güçlü olan da mahrum değil çünkü aynı VoxForge ses veritabanı olarak kullanılıyor.

    Devam sadece üyelere açıktır

    Seçenek 1. Sitedeki tüm materyalleri okumak için "site" topluluğuna katılın

    Belirtilen süre içinde topluluğa üye olmak, TÜM Hacker materyallerine erişmenizi sağlayacak, kişisel kümülatif indiriminizi artıracak ve profesyonel bir Xakep Skoru puanı biriktirmenize olanak tanıyacak!