Programas de reconhecimento de fala russo. Visão geral das tecnologias de reconhecimento de voz e como usá-las

Fonogramas gravados com gravadores digitais de voz "Gnome R" e "Gnome 2M" atendem aos requisitos para fonogramas submetidos a exames fonoscópicos e são adequados para identificação de indivíduos pela voz e fala...

Primeiro Vice-Chefe

O gravador de voz Gnome 2M tem sido usado repetidamente para gravar conferências e seminários em ambientes acústicos difíceis; as trilhas sonoras gravadas são de alta qualidade. A função integrada de redução de ruído permite melhorar a qualidade da reprodução de trilhas sonoras...

Engenheiro líder do IPK BNTU

Instituto de Estudos Avançados e Reciclagem de Pessoal BNTU

Durante sua vida útil, o “Gnome R” provou seu valor positivo. Gravação de alta qualidade com dimensões mínimas, longa duração de gravação de som, rápida transferência de informações acumuladas da memória interna do gravador para o PC...

Oficial sênior do 3º departamento da sétima diretoria

Estado-Maior General das Forças Armadas da República da Bielorrússia

Os fonogramas gravados no sistema Forget-Me-Not II atendem aos requisitos dos sistemas digitais multicanais para gravação de mensagens de voz em canais de comunicação telefônica e são adequados para identificar uma pessoa por voz e fala...

Chefe do centro

Centro Estadual de Perícia Forense

Um número ilimitado de assinantes notificados, um grande número de tarefas processadas simultaneamente farão do "Rupor" um auxiliar indispensável no trabalho dos funcionários do departamento de crédito da agência nº 524 do OJSC "JSSB Belarusbank...

Diretor Adjunto – Chefe do Centro de Negócios de Varejo

Filial nº 524 do JSC "ASB Belarusbank"

O sistema de alerta automático Rupor funcionou em linhas telefônicas analógicas e foi testado para notificar o pessoal. O sistema atendeu 100 assinantes, funcionou de forma estável e não exigiu manutenção constante...

Comissário Militar Interino

Comissariado Militar de Minsk

O sistema de gravação Forget-Me-Not II garante a recepção de mensagens de voz dos moradores, sua gravação de alta qualidade em um computador, a possibilidade de ouvir mensagens gravadas e inserir informações em um banco de dados de texto. O sistema de notificação "Rupor" notifica automaticamente os devedores...

Chefe do Departamento ACS

Empresa Unitária "ZhREO Distrito Sovetsky de Minsk"

O sistema Rupor fornece notificação a um grande número de assinantes em um curto espaço de tempo de acordo com os parâmetros estabelecidos com o fornecimento de um relatório sobre a notificação, funciona de forma confiável, atende integralmente aos requisitos para isso...

Diretor do Departamento de Negócios de Varejo

O sistema móvel de gravação e documentação de voz “Protocol” inclui um gravador de voz digital “Gnome 2M” e um transcritor de computador “Caesar”. O gravador de voz Gnome 2M permite obter gravações de reuniões e sessões de alta qualidade, e o transcritor Caesar aumenta significativamente a velocidade de tradução de informações de áudio em um documento de texto...

Especialista Líder

Instituto de Estado e Direito da Academia de Ciências da República da Bielorrússia

Identificação por voz

No mundo moderno, há um interesse crescente nas tecnologias biométricas e nos sistemas biométricos de identificação pessoal, e esse interesse é bastante compreensível.

A identificação biométrica baseia-se no princípio de reconhecer e comparar as características únicas do corpo humano. As principais fontes das características biométricas de uma pessoa são impressões digitais, íris e retina, voz, rosto, assinatura, marcha, etc. Estes identificadores biométricos pertencem à pessoa e são parte integrante dela. Eles não podem ser esquecidos, deixados ou perdidos em algum lugar.

Várias características e traços de uma pessoa podem ser usados para identificação biométrica. Este artigo fornece uma breve visão geral de como funcionam as tecnologias biométricas usando o exemplo de um sistema de reconhecimento de voz.

O valor da tecnologia de voz para biometria foi comprovado inúmeras vezes. No entanto, apenas a implementação de sistemas de reconhecimento automático de alto-falantes de alta qualidade pode realmente introduzir tais tecnologias na prática. Já existem sistemas semelhantes. Eles são usados em sistemas de segurança, tecnologias bancárias, comércio eletrônico e práticas de aplicação da lei.

A utilização de sistemas de reconhecimento de alto-falantes é a forma mais natural e econômica de resolver problemas de acesso não autorizado a um computador ou sistemas de transmissão de informação, bem como problemas de controle de acesso multinível a redes ou recursos de informação.

Os sistemas de reconhecimento de oradores podem resolver dois problemas: identificar um indivíduo a partir de uma determinada lista limitada de pessoas (identificação pessoal) ou confirmar a identidade do orador (verificação de identidade). A identificação e verificação da personalidade por voz são áreas de desenvolvimento da tecnologia de processamento de fala.

Arroz. 1 – Reconhecimento de alto-falante

A fala é um sinal que surge como resultado de transformações que ocorrem em diversos níveis: semântico, linguístico, articulatório e acústico. Como se sabe, a fonte de um sinal de fala é o trato vocal, que excita ondas sonoras em um meio de ar elástico. O trato vocal geralmente se refere ao órgão produtor da fala localizado acima das cordas vocais. Como pode ser observado na Figura 2, o trato vocal é composto por hipofaringe, orofaringe, cavidade oral, nasofaringe e cavidade nasal.

Arroz. 2 – Estrutura do trato vocal humano

A voz humana surge quando o ar passa dos pulmões, através da traquéia, para a laringe, passando pelas cordas vocais e depois para a faringe, boca e cavidade nasal. Quando uma onda sonora passa pelo trato vocal, seu espectro de frequência é alterado por vibrações no trato vocal. As vibrações do trato vocal são chamadas formantes. Os sistemas de verificação de locutor geralmente reconhecem características distintivas do sinal de fala, que refletem as características individuais da atividade muscular do trato vocal do indivíduo.

Vamos dar uma olhada mais de perto no sistema de verificação de alto-falantes. A verificação de voz é o processo de determinar se o locutor é quem diz ser. Um usuário previamente cadastrado no sistema pronuncia seu identificador, que é um número de registro, palavra ou frase de senha. No reconhecimento dependente de texto, a palavra-passe é conhecida pelo sistema e este “pede” ao utilizador que a pronuncie. A palavra da senha é exibida na tela e a pessoa a fala no microfone. Com o reconhecimento independente de texto, a palavra-passe falada pelo utilizador não coincide com a palavra de referência, ou seja, O usuário pode dizer uma palavra ou frase arbitrária como senha. O sistema de verificação recebe o sinal de voz, processa-o e decide se aceita ou rejeita o identificador apresentado pelo utilizador. O sistema pode informar ao usuário que sua voz não corresponde ao padrão existente e solicitar que ele forneça informações adicionais para a tomada de decisão final.

Arroz. 3 – Interação humana com o sistema

O diagrama da interação de uma pessoa com o sistema de verificação de identidade baseado em voz é mostrado na Figura 3. O usuário fala no microfone o número que o sistema lhe oferece para que o sistema verifique se sua voz corresponde ao padrão armazenado no sistema base de dados. Normalmente, existe uma compensação entre a precisão do reconhecimento de voz e o tamanho da amostra de fala, ou seja, Quanto maior for a amostra de fala, maior será a precisão do reconhecimento. Além da voz, ecos e ruídos estranhos podem entrar no microfone.

Existem vários fatores que podem contribuir para erros de verificação e identificação, por exemplo:

pronúncia ou leitura incorreta de uma palavra ou frase de senha;
o estado emocional do locutor (estresse, pronunciar uma senha sob coação, etc.);
ambiente acústico difícil (ruído, interferência, ondas de rádio, etc.);
diferentes canais de comunicação (uso de diferentes microfones durante o registro e verificação do locutor);
resfriados;
mudanças naturais na voz.

Algumas delas podem ser eliminadas, por exemplo, usando microfones melhores.

O processo de verificação de identidade por voz consiste em 5 etapas: recepção de um sinal de fala, parametrização ou destaque das características distintivas da voz, comparação da amostra de voz resultante com um padrão previamente estabelecido, tomada de decisão de “admitir/rejeitar”, treinamento, ou atualizar o modelo de referência. O esquema de verificação é apresentado na Figura 4.

Arroz. 4 – Esquema de verificação

Durante o cadastro, um novo usuário insere seu ID e depois diz uma palavra-chave ou frase diversas vezes, criando assim benchmarks. O número de repetições de uma frase-chave pode variar para cada usuário ou pode ser constante para todos.

Para que um computador processe um sinal de fala, a onda sonora é convertida em um sinal analógico e depois em um sinal digital.

Na fase de extração dos recursos de voz, o sinal de fala é dividido em quadros de áudio separados, que são posteriormente convertidos em um modelo digital. Esses padrões são chamados de “impressões de voz”. A “impressão de voz” recém-obtida é comparada com um padrão previamente estabelecido. Para reconhecer a identidade do locutor, o mais importante são as características distintivas da voz mais marcantes, que permitiriam ao sistema reconhecer com precisão a voz de cada usuário específico.

Por fim, o sistema toma a decisão de admitir ou negar o acesso do usuário dependendo se sua voz corresponde ou não ao padrão estabelecido. Se o sistema corresponder incorretamente a voz apresentada a ele com o padrão, ocorrerá um erro de “falsa admissão” (FA). Se o sistema não reconhecer um recurso biométrico que corresponda ao padrão que contém, isso será chamado de erro de “falsa recusa” (FR). Um erro de admissão falsa cria uma lacuna no sistema de segurança, e um erro de rejeição falsa leva a uma diminuição na usabilidade do sistema, que às vezes não reconhece uma pessoa na primeira vez. Uma tentativa de reduzir a probabilidade de ocorrência de um erro leva à ocorrência mais frequente de outro, portanto, dependendo dos requisitos do sistema, escolhe-se um determinado compromisso, ou seja, um limite de decisão é definido.

Conclusão

Métodos de identificação por voz também são usados na prática. A tecnologia de identificação por voz da empresa permite organizar o acesso regulado do usuário usando uma determinada senha para recursos corporativos, serviços telefônicos e WEB. O uso da tecnologia pode aumentar significativamente a segurança dos sistemas e, ao mesmo tempo, simplificar o processo de identificação do usuário. A tecnologia Voice Key garantirá alta confiabilidade e estabilidade do sistema e também ajudará a melhorar a qualidade do atendimento ao cliente.

Todos os materiais postados neste site são permitidos para publicação e impressão em outros recursos e publicações impressas somente com a permissão por escrito da Speech Technologies LLC.

Você sabia que a tecnologia de reconhecimento de voz existe há 50 anos? Os cientistas têm resolvido este problema há meio século e só nas últimas décadas é que as empresas de TI se envolveram na sua resolução. O resultado do último ano de trabalho foi um novo nível de precisão de reconhecimento e uso generalizado de tecnologia na vida cotidiana e profissional.

Tecnologia na vida

Todos os dias usamos motores de busca. Procuramos onde almoçar, como chegar a determinado local ou tentamos descobrir o significado de um termo desconhecido. A tecnologia de reconhecimento de voz, que é utilizada, por exemplo, pelo Google ou Yandex.Navigator, ajuda-nos a gastar um mínimo de tempo pesquisando. É simples e conveniente.

Em um ambiente profissional, a tecnologia ajuda diversas vezes a simplificar o trabalho. Por exemplo, na medicina, a fala do médico é convertida no texto de um histórico médico e em uma receita imediatamente na consulta. Isso economiza tempo na inserção de informações do paciente em documentos. O sistema integrado ao computador de bordo do carro responde às solicitações do motorista, por exemplo, ajuda a encontrar o posto de gasolina mais próximo. Para as pessoas com deficiência, é importante implementar sistemas nos softwares dos eletrodomésticos para controlá-los por voz.

Desenvolvimento de sistemas de reconhecimento de voz

A ideia de reconhecimento de fala sempre pareceu promissora. Mas já na fase de reconhecimento dos números e das palavras mais simples, os pesquisadores encontraram um problema. A essência do reconhecimento se reduziu à construção de um modelo acústico, quando a fala foi apresentada como um modelo estatístico, que foi comparado com modelos prontos. Se o modelo correspondesse ao modelo, o sistema decidiria que o comando ou número foi reconhecido. O crescimento de dicionários que o sistema pudesse reconhecer exigiu um aumento no poder dos sistemas de computação.

GGráficos de crescimento no desempenho do computador e redução de erros de reconhecimento em sistemas de reconhecimento de voz para fala em inglês
Fontes:Erva Sutter. O almoço grátis acabou: uma virada fundamental em direção à simultaneidade em software
https://minghsiehee.usc.edu/2017/04/the-machines-are-coming/

Hoje, os algoritmos de reconhecimento foram complementados por modelos de linguagem que descrevem a estrutura de uma linguagem, por exemplo, uma sequência típica de palavras. O sistema é treinado em material de fala real.

Uma nova etapa no desenvolvimento da tecnologia foi o uso de redes neurais. O sistema de reconhecimento é projetado de forma que cada novo reconhecimento afete a precisão do reconhecimento no futuro. O sistema se torna aprendível.

Qualidade dos sistemas de reconhecimento de voz

A situação atual no desenvolvimento da tecnologia é expressa pelo objetivo: do reconhecimento de fala à compreensão. Para tanto, foi escolhido um indicador-chave - a porcentagem de erros de reconhecimento. Vale dizer que esse indicador também é utilizado no reconhecimento da fala de uma pessoa por outra. Pulamos algumas palavras enquanto levamos em consideração outros fatores, como o contexto. Isso nos permite compreender a fala mesmo sem compreender o significado de palavras individuais. Para humanos, a taxa de erro de reconhecimento é de 5,1%.

Outras dificuldades no treinamento de um sistema de reconhecimento de fala para compreensão de um idioma serão as emoções, as mudanças inesperadas no tema da conversa, o uso de gírias e as características individuais do falante: velocidade de fala, timbre, pronúncia dos sons.

Participantes do mercado global

Vários players globais no mercado de plataformas de reconhecimento de voz são bem conhecidos. Estes são Apple, Google, Microsoft, IBM. Essas empresas possuem recursos suficientes para pesquisa e uma extensa base para treinamento de seus próprios sistemas. Por exemplo, o Google usa milhões de consultas de pesquisa para treinamento, que os usuários ficam felizes em fazer a si mesmos. Por um lado, isto aumenta a precisão do reconhecimento, mas, por outro, impõe limitações: o sistema reconhece a fala em segmentos de 15 segundos e depende de uma “pergunta de perfil geral”. O erro de reconhecimento do sistema Google é de 4,9%. Para a IBM este valor é de 5,5%, e para a Microsoft é de 6,3% no final de 2016.

A plataforma para uso em áreas profissionais está sendo desenvolvida pela empresa americana Nuance. Entre as áreas de aplicação: medicina, direito, finanças, jornalismo, construção, segurança, automotivo.

Na Rússia, o Center for Speech Technologies é o maior fabricante de ferramentas profissionais de reconhecimento de voz e síntese de fala. As soluções da empresa foram implementadas em 67 países ao redor do mundo. Principais áreas de atuação: biometria vocal – identificação vocal; sistemas de fala de autoatendimento – IVR, utilizados em call centers; sintetizadores de voz. Nos EUA, a empresa russa opera sob a marca SpeechPro e realiza pesquisas sobre reconhecimento de fala em inglês. Os resultados de reconhecimento estão incluídos nos 5 melhores resultados por valor de erro.

O valor do reconhecimento de voz em marketing

O objetivo do marketing é estudar as necessidades do mercado e organizar os negócios de acordo com elas para aumentar a lucratividade e a eficiência. A voz interessa aos profissionais de marketing em dois casos: se o cliente fala e se o funcionário fala. Portanto, o objeto de estudo dos profissionais de marketing e o escopo de aplicação da tecnologia são as ligações telefônicas.

Hoje, a análise de conversas telefônicas está pouco desenvolvida. As ligações não precisam apenas ser gravadas, mas também ouvidas, avaliadas e só então analisadas. Embora seja fácil organizar uma gravação – qualquer PBX virtual ou serviço de rastreamento de chamadas pode fazer isso – organizar a escuta de chamadas é mais difícil. Esse problema é resolvido por uma pessoa da empresa ou pelo chefe do call center. A escuta de chamadas também é terceirizada. Em qualquer caso, o erro na avaliação das chamadas é um problema que põe em causa os resultados das análises e as decisões tomadas com base neles.

Em nosso mundo moderno e agitado, a velocidade de trabalho com informações é um dos pilares para alcançar o sucesso. Nosso desempenho e produtividade no trabalho e, portanto, nossa riqueza material imediata, dependem da rapidez com que recebemos, criamos e processamos informações. Entre as ferramentas que podem melhorar a nossa capacidade de trabalho, os programas de tradução de fala em texto ocupam um lugar importante, permitindo-nos aumentar significativamente a velocidade de digitação dos textos de que necessitamos. Neste material, contarei quais programas populares existem para traduzir áudio de voz em texto e quais são seus recursos.

Aplicativo para tradução de áudio de voz em texto - requisitos do sistema

A maioria dos programas existentes para tradução de voz em texto são pagos, impondo uma série de requisitos ao microfone (no caso em que o programa se destina a um computador). Não é altamente recomendável trabalhar com um microfone embutido em uma webcam ou localizado no corpo de um laptop padrão (a qualidade do reconhecimento de fala de tais dispositivos é bastante baixa). Além disso, é muito importante ter um ambiente silencioso, sem ruídos desnecessários que possam afetar diretamente o seu nível de reconhecimento de fala.

Além disso, a maioria desses programas é capaz não apenas de transformar fala em texto na tela do computador, mas também de usar comandos de voz para controlar seu computador (iniciar e fechar programas, receber e enviar e-mails, abrir e fechar sites, e assim por diante).

Programa de fala para texto

Vamos passar para uma descrição direta dos programas que podem ajudar a traduzir fala em texto.

Programa Laitis

O programa gratuito de reconhecimento de voz em russo “Laitis” tem uma boa qualidade de compreensão de fala e, segundo seus criadores, pode substituir quase completamente o teclado usual do usuário. O programa também funciona bem com comandos de voz, permitindo realizar diversas ações para controlar seu computador.

Para funcionar, o programa requer Internet de alta velocidade no PC (o programa utiliza serviços de reconhecimento de voz de rede do Google e Yandex). Os recursos do programa também permitem que você controle seu navegador usando comandos de voz, o que requer a instalação de uma extensão especial do “Laitis” (Chrome, Mozilla, Opera) em seu navegador.

"Dragon Professional" - transcrever gravações de áudio em texto

No momento da redação deste material, um produto digital em inglês « Dragon Professional Individual" é um dos líderes mundiais na qualidade de textos reconhecidos. O programa entende sete idiomas (apenas o aplicativo móvel Dragon Anywhere e funciona com russo até agora), possui reconhecimento de voz de alta qualidade e pode executar vários comandos de voz. Além disso, este produto é pago exclusivamente (o preço do programa principal é de 300 dólares americanos, e para a versão “doméstica” do produto Dragon Home o comprador terá que pagar 75 dólares americanos).

Para funcionar, este produto da Nuance Communications requer a criação de um perfil próprio, que foi projetado para adaptar as capacidades do programa às especificidades da sua voz. Além de ditar texto diretamente, você pode treinar o programa para executar diversos comandos, tornando sua interação com o computador ainda mais congruente e conveniente.

"RealSpeaker" - reconhecedor de fala ultrapreciso

O programa de transformação de voz em texto “RealSpeaker”, além das funções padrão para programas deste tipo, permite utilizar as capacidades da webcam do seu PC. Agora o programa não apenas lê o componente de áudio do som, mas também registra o movimento dos cantos dos lábios do locutor, reconhecendo mais corretamente as palavras que ele pronuncia.

"RealSpeaker" lê não apenas o áudio, mas também o componente visual do processo de fala

O aplicativo suporta mais de dez idiomas (incluindo russo), permite o reconhecimento de fala levando em consideração sotaques e dialetos, permite transcrever áudio e vídeo, dá acesso à nuvem e muito mais. O programa é shareware, mas para a versão paga você terá que pagar com dinheiro real.

“Voco” - o programa traduzirá rapidamente sua voz em um documento de texto

Outro conversor de voz para texto é o produto digital pago “Voco”, cujo preço da versão “doméstica” é agora de cerca de 1.700 rublos. Versões mais avançadas e caras deste programa - “Voco.Professional” e “Voco.Enterprise” possuem vários recursos adicionais, um dos quais é o reconhecimento de voz das gravações de áudio do usuário.

Dentre as funcionalidades do Voco, destaco a possibilidade de ampliar o vocabulário do programa (atualmente o vocabulário do programa inclui mais de 85 mil palavras), bem como o seu funcionamento autônomo da rede, permitindo não depender da sua conexão com a Internet .

Entre as vantagens do Voco está a alta curva de aprendizado do programa.

O aplicativo é ativado de forma bastante simples - basta pressionar a tecla “Ctrl” duas vezes. Para ativar a entrada de voz no Gboard, basta pressionar e segurar a barra de espaço

O aplicativo é totalmente gratuito e suporta várias dezenas de idiomas, incluindo russo.

Conclusão

Acima, listei programas para traduzir sua gravação de áudio e voz em texto, descrevi sua funcionalidade geral e recursos característicos. A maioria desses produtos é geralmente paga, e a variedade e a qualidade dos programas em russo são qualitativamente inferiores aos de seus equivalentes em inglês. Ao trabalhar com esses aplicativos, recomendo prestar atenção especial ao seu microfone e suas configurações - isso é importante no processo de reconhecimento de fala, porque um microfone ruim pode anular até mesmo o software da mais alta qualidade do tipo que analisei.

YouTube enciclopédico

1 / 5
O trabalho sobre reconhecimento de fala remonta a meados do século passado. O primeiro sistema foi criado no início dos anos 1950: seus desenvolvedores se propuseram a reconhecer números. O sistema desenvolvido poderia identificar números, mas falados em uma só voz, como o sistema “Audrey” dos Bell Laboratories. Funcionou identificando o formante no espectro de potência de cada passagem da fala. Em termos gerais, o sistema consistia em três partes principais: analisadores e quantizadores, padrões de correspondência de rede e, por fim, sensores. Foi criado, portanto, com base elementar em vários filtros de frequência, interruptores e sensores que também incluíam tubos cheios de gás [ ] .
No final da década, surgiram sistemas que reconheciam vogais independentemente do falante. Na década de 70, começaram a ser utilizados novos métodos que permitiam obter resultados mais avançados - o método de programação dinâmica e o método de predição linear (Linear Predictive Coding - LPC). A referida empresa, Bell Laboratories, criou sistemas usando exatamente esses métodos. Na década de 80, o próximo passo no desenvolvimento de sistemas de reconhecimento de voz foi a utilização de Modelos Ocultos de Markov (HMM). Nessa época, começaram a aparecer os primeiros grandes programas de reconhecimento de voz, como o Kurzweil text-to-speech. No final da década de 80, métodos de redes neurais artificiais (Rede Neural Artificial - RNA) também começaram a ser utilizados. Em 1987, surgiram no mercado as bonecas Julie do Worlds of Wonder, capazes de compreender vozes. E 10 anos depois, a Dragon Systems lançou o programa “NaturallySpeaking 1.0”.

Confiabilidade

As principais fontes de erros de reconhecimento de voz são:

O reconhecimento de gênero pode ser distinguido como um tipo separado de problema, que é resolvido com bastante sucesso - com grandes quantidades de dados iniciais, o gênero é determinado quase sem erros e em passagens curtas, como som de vogal tônica, a probabilidade de erro é de 5,3 % para homens e 3,1% para mulheres.
O problema da imitação da voz também foi considerado. Uma pesquisa da France Telecom mostrou que a imitação profissional da voz praticamente não aumenta a probabilidade de erro de identidade - os imitadores falsificam a voz apenas externamente, enfatizando as características da fala, mas não são capazes de falsificar o contorno básico da voz. Até as vozes de parentes próximos, gêmeos, terão diferença, pelo menos na dinâmica de controle. Mas com o desenvolvimento da tecnologia informática surgiu um novo problema que exige a utilização de novos métodos de análise - a transformação da voz, que aumenta a probabilidade de erro para 50%.
Para descrever a confiabilidade do sistema, são utilizados dois critérios: FRR (False Rejection Rate) - a probabilidade de uma falsa negação de acesso (erro de primeiro tipo) e FAR (False Acceptance Rate) - a probabilidade de uma falsa admissão quando o sistema identifica erroneamente um estranho como seu (erro do segundo tipo) . Além disso, às vezes os sistemas de reconhecimento são caracterizados por um parâmetro como EER (Equal Error Rates), que representa o ponto de coincidência das probabilidades FRR e FAR. Quanto mais confiável for o sistema, menor será o EER que ele possui.
Valores de erro de identificação para diversas modalidades biométricas

Aplicativo

O reconhecimento pode ser dividido em duas áreas principais: identificação e verificação. No primeiro caso, o sistema deve identificar de forma independente o usuário por voz; no segundo caso, o sistema deverá confirmar ou negar o identificador apresentado pelo usuário. A determinação do locutor em estudo consiste em uma comparação pareada de modelos de voz que levam em consideração as características individuais da fala de cada locutor. Assim, primeiro precisamos coletar um banco de dados bastante grande. E com base nos resultados dessa comparação, pode-se gerar uma lista de fonogramas que, com alguma probabilidade, são a fala do usuário que nos interessa.
Embora o reconhecimento de voz não possa garantir um resultado 100% correto, ele pode ser usado de forma bastante eficaz em áreas como ciência forense e forense; serviço de inteligência; monitoramento antiterrorismo; segurança; bancário e assim por diante.

Análise

Todo o processo de processamento de um sinal de fala pode ser dividido em várias etapas principais:
- pré-processamento de sinal;
- critérios de destaque;
- reconhecimento de locutor.
Cada estágio representa um algoritmo ou algum conjunto de algoritmos, que em última análise produz o resultado desejado.
As principais características da voz são formadas por três propriedades principais: a mecânica de vibração das pregas vocais, a anatomia do trato vocal e o sistema de controle da articulação. Além disso, às vezes é possível utilizar o dicionário do locutor, suas figuras de linguagem. As principais características pelas quais se toma uma decisão sobre a personalidade do falante são formadas levando-se em consideração todos os fatores do processo de produção da fala: a fonte da voz, as frequências ressonantes do trato vocal e sua atenuação, bem como a dinâmica da articulação ao controle. Se observarmos as fontes com mais detalhes, as propriedades da fonte de voz incluem: a frequência média do tom fundamental, o contorno e as flutuações da frequência fundamental e a forma do pulso de excitação. As características espectrais do trato vocal são descritas pelo envelope do espectro e sua inclinação média, frequências formantes, espectro de longo prazo ou cepstrum. Além disso, também são considerados a duração das palavras, o ritmo (distribuição do acento), o nível do sinal, a frequência e a duração das pausas. Para determinar essas características, é necessário utilizar algoritmos bastante complexos, mas como, por exemplo, o erro das frequências formantes é bastante grande, coeficientes cepstrum calculados a partir do envelope do espectro ou da função de transferência do trato vocal encontrada pelo método de predição linear são usados para simplificá-lo. Além dos coeficientes cepstrum mencionados, também são utilizadas suas diferenças de primeiro e segundo tempo. Este método foi proposto pela primeira vez nos trabalhos de Davis e Mermelstein.

Análise cepstral

Em trabalhos sobre reconhecimento de voz, o método mais popular é a transformação cepstral do espectro dos sinais de fala. O esquema do método é o seguinte: durante um intervalo de tempo de 10 a 20 ms, o espectro de potência atual é calculado e, em seguida, a transformada inversa de Fourier do logaritmo desse espectro (cepstrum) é aplicada e os coeficientes são encontrados: c n = 1 Θ ∫ 0 Θ ∣ S (j , ω , t) ∣ 2 exp − j n ω Ω ⁡ d ω (\displaystyle c_(n)=(\frac (1)(\Theta ))\int _(0 )^(\Theta )(\mid S(j,\omega ,t)\mid )^(2)\exp ^(-jn\omega \Omega )d\omega ), Ω = 2 2 π Θ , Θ (\displaystyle \Omega =2(\frac (2\pi )(\Theta )),\Theta )- a frequência mais alta no espectro do sinal de fala, ∣ S (j , ω , t) ∣ 2 (\displaystyle (\mid S(j,\omega ,t)\mid )^(2))- espectro de força. O número de coeficientes cepstrais n depende da suavização de espectro necessária e varia de 20 a 40. Se um pente de filtros passa-banda for usado, então os coeficientes de transformada cepstral discreta são calculados como c n = ∑ m = 1 N log ⁡ Y (m) 2 cos ⁡ π n M (m − 1 2)) (\displaystyle c_(n)=\sum _(m=1)^(N)\log (Y (m)^(2))\cos ((\frac (\pi n)(M))(m-(\frac (1)(2)))))), onde Y (m) é o sinal de saída do m-ésimo filtro, c n (\estilo de exibição c_(n))- enésimo coeficiente cepstrum.
As propriedades auditivas são levadas em consideração por meio de uma transformação não linear da escala de frequência, geralmente na escala de giz. Esta escala é formada com base na presença das chamadas bandas críticas na audição, de forma que os sinais de qualquer frequência dentro da banda crítica são indistinguíveis. A escala de giz é calculada como M (f) = 1125 ln ⁡ (1 + f 700) (\displaystyle M(f)=1125\ln ((1+(\frac (f)(700))))), onde f é a frequência em Hz, M é a frequência em giz. Ou utiliza-se outra escala - latido, tal que a diferença entre as duas frequências, igual à banda crítica, seja de 1 latido. A frequência B é calculada como B = 13 a r c t g (0 , 00076 f) + 3, 5 a r c t g f 7500 (\ displaystyle B 13 \ nome do operador (arctg ((0,00076f))) +3,5 \ nome do operador (arctg (\ frac (f) (7500 ))) ). Os coeficientes encontrados são por vezes referidos na literatura como MFCC - Mel Frequiency Cepstral Coefficients. Seu número varia de 10 a 30. O uso das diferenças de primeiro e segundo tempo dos coeficientes cepstrais triplica a dimensão do espaço de decisão, mas melhora a eficiência de reconhecimento do falante.
O cepstrum descreve a forma do envelope do espectro do sinal, que é influenciado tanto pelas propriedades da fonte de excitação quanto pelas características do trato vocal. Experimentos mostraram que o envelope do espectro tem forte influência no reconhecimento de voz. Portanto, a utilização de vários métodos de análise do envelope do espectro para fins de reconhecimento de voz é bastante justificada.

Métodos

O método GMM segue do teorema de que qualquer função de densidade de probabilidade pode ser representada como uma soma ponderada de distribuições normais:
P (x | λ) = ∑ j = 1 k ω j ϕ (χ , Θ j) (\displaystyle p(x|\lambda)=\sum _(j=1)^(k)(\omega _(j )\phi (\chi ,\Theta _(j)))); λ (\ displaystyle \ lambda)- modelo do alto-falante; k - número de componentes do modelo; ω j (\ displaystyle (\ omega _ (j)))- os pesos dos componentes são tais que ∑ j = 1 n ω j = 1. (\displaystyle \sum _(j=1)^(n)(\omega _(j))=1.) ϕ (χ , Θ j) (\displaystyle \phi (\chi ,\Theta _(j)))- função de distribuição de um argumento multidimensional χ , Θ j (\displaystyle \chi ,\Theta _(j)) .ϕ (χ, Θ j) = p (χ ∣ μ j, R j) = 1 (2 π) n 2 ∣ R j ∣ 1 2 exp ⁡ - 1 (χ - μ j) T R j - 1 (χ - μ j) 2 (\displaystyle \phi (\chi ,\Theta _(j))=p(\chi \mid \mu _(j),R_(j))=(\frac (1)(((2\ pi ))^(\frac (n)(2))(\mid R_(j)\mid )^(\frac (1)(2)))\exp (\frac (-1(\chi -\ mu _(j))^(T)R_(j)^(-1)(\chi -\mu _(j)))(2))), ω j (\ displaystyle \ omega _ (j))- seu peso, k - o número de componentes na mistura. Aqui n é a dimensão do espaço de recursos, μ j ∈ R n (\displaystyle \mu _(j)\in \mathbb (R) ^(n))- vetor de expectativa matemática do j-ésimo componente da mistura, R j ∈ R n × n (\displaystyle R_(j)\in \mathbb (R) ^(n\times n))- matriz de covariância.
Muitas vezes, os sistemas com este modelo utilizam uma matriz de covariância diagonal. Pode ser utilizado para todos os componentes do modelo ou mesmo para todos os modelos. Para encontrar a matriz de covariância, pesos e vetores de médias, o algoritmo EM é frequentemente usado. Na entrada temos uma sequência de treinamento de vetores X = (x 1 , . . . , x T ) . Os parâmetros do modelo são inicializados com valores iniciais e então os parâmetros são reestimados a cada iteração do algoritmo. Para determinar os parâmetros iniciais, geralmente é usado um algoritmo de agrupamento como o algoritmo K-means. Após o conjunto de vetores de treinamento ter sido dividido em M clusters, os parâmetros do modelo podem ser determinados da seguinte forma: valores iniciais μ j (\ displaystyle \ mu _ (j)) coincidem com os centros dos clusters, as matrizes de covariância são calculadas com base nos vetores incluídos em um determinado cluster, os pesos dos componentes são determinados pela proporção dos vetores de um determinado cluster entre o número total de vetores de treinamento.
A reavaliação dos parâmetros ocorre de acordo com as seguintes fórmulas:

O GMM também pode ser chamado de continuação do método de quantização vetorial (método centróide). Ele cria um livro de códigos para regiões disjuntas no espaço de recursos (geralmente usando clustering K-means). A quantização vetorial é o modelo mais simples em sistemas de reconhecimento independentes de contexto.
A máquina de vetores de suporte (SVM) constrói um hiperplano em um espaço multidimensional que separa duas classes - parâmetros do alto-falante alvo e parâmetros dos alto-falantes da base de referência. O hiperplano é calculado usando vetores de suporte - escolhidos de maneira especial. Será realizada uma transformação não linear do espaço de parâmetros medidos em algum espaço de características de dimensões superiores, uma vez que a superfície divisória pode não corresponder ao hiperplano. A superfície divisória no hiperplano é construída pelo método da máquina de vetores de suporte se a condição de separabilidade linear no novo espaço de recursos for satisfeita. Assim, o sucesso da utilização do SMM depende da transformação não linear selecionada em cada caso específico. A máquina de vetores de suporte é frequentemente usada com o método GMM ou HMM. Normalmente, para frases curtas que duram alguns segundos, os HMMs dependentes de fonemas são mais adequados para a abordagem dependente do contexto.

Popularidade

De acordo com a empresa de consultoria International Biometric Group, com sede em Nova York, a tecnologia mais comum é a digitalização de impressões digitais. Observa-se que dos US$ 127 milhões em receitas provenientes da venda de dispositivos biométricos, 44% provêm de scanners de impressão digital. Os sistemas de reconhecimento facial ocupam o segundo lugar em termos de demanda, com 14%, seguidos pelos dispositivos de reconhecimento do formato da palma da mão (13%), reconhecimento de voz (10%) e reconhecimento de íris (8%). Os dispositivos de verificação de assinatura representam 2% desta lista. Alguns dos fabricantes mais famosos no mercado de biometria de voz são Nuance Communications, SpeechWorks, VeriVoice.
Em fevereiro de 2016, o The Telegraph publicou um artigo informando que os clientes do banco britânico HSBC poderiam acessar contas e realizar transações utilizando identificação por voz. A transição deveria ocorrer no início do verão

O homem sempre foi atraído pela ideia de controlar uma máquina usando linguagem natural. Talvez isto se deva em parte ao desejo do homem de estar ACIMA da máquina. Por assim dizer, para se sentir superior. Mas a mensagem principal é simplificar a interação humana com a inteligência artificial. O controle de voz no Linux foi implementado com vários graus de sucesso por quase um quarto de século. Vamos analisar o problema e tentar chegar o mais próximo possível do nosso sistema operacional.

O cerne da questão

Os sistemas para trabalhar com voz humana para Linux já existem há muito tempo e existem muitos deles. Mas nem todos processam corretamente a fala russa. Alguns foram completamente abandonados pelos desenvolvedores. Na primeira parte de nossa análise falaremos diretamente sobre sistemas de reconhecimento de voz e assistentes de voz e, na segunda, veremos exemplos específicos de seu uso em um desktop Linux.
É necessário distinguir entre os próprios sistemas de reconhecimento de voz (tradução da fala em texto ou em comandos), como, por exemplo, CMU Sphinx, Julius, bem como aplicações baseadas nestes dois motores, e assistentes de voz, que se tornaram populares com o desenvolvimento de smartphones e tablets. Isto é, antes, um subproduto dos sistemas de reconhecimento de voz, do seu desenvolvimento e da implementação de todas as ideias bem-sucedidas de reconhecimento de voz, da sua aplicação na prática. Ainda existem poucos deles para desktops Linux.

Você precisa entender que o mecanismo de reconhecimento de fala e sua interface são duas coisas diferentes. Este é o princípio básico da arquitetura Linux – dividir um mecanismo complexo em componentes mais simples. O trabalho mais difícil recai sobre os ombros dos motores. Geralmente é um programa de console enfadonho que funciona despercebido pelo usuário. O usuário interage principalmente com o programa de interface. Criar uma interface não é difícil, por isso os desenvolvedores concentram seus principais esforços no desenvolvimento de mecanismos de reconhecimento de fala de código aberto.

O que aconteceu antes

Historicamente, todos os sistemas de processamento de fala no Linux se desenvolveram lentamente e aos trancos e barrancos. O motivo não é a desonestidade dos desenvolvedores, mas o alto nível de entrada no ambiente de desenvolvimento. Escrever código de sistema para trabalhar com voz requer um programador altamente qualificado. Portanto, antes de começar a entender os sistemas de fala no Linux, é necessário fazer uma breve excursão pela história. A IBM já teve um sistema operacional maravilhoso - OS/2 Warp (Merlin). Foi lançado em setembro de 1996. Além de apresentar vantagens óbvias sobre todos os outros sistemas operacionais, o OS/2 estava equipado com um sistema de reconhecimento de voz muito avançado - IBM ViaVoice. Para aquela época isso era muito legal, considerando que o SO rodava em sistemas com processador 486 com 8 MB de RAM (!).

Como você sabe, o OS/2 perdeu a batalha para o Windows, mas muitos de seus componentes continuaram a existir de forma independente. Um desses componentes foi o mesmo IBM ViaVoice, que se tornou um produto independente. Como a IBM sempre amou o Linux, o ViaVoice foi portado para este sistema operacional, que deu à ideia de Linus Torvalds o sistema de reconhecimento de voz mais avançado de seu tempo.

Infelizmente, o destino do ViaVoice não foi o que os usuários do Linux gostariam. O motor em si foi distribuído gratuitamente, mas suas fontes permaneceram fechadas. Em 2003, a IBM vendeu os direitos da tecnologia para a empresa canadense-americana Nuance. A Nuance, que desenvolveu talvez o produto comercial de reconhecimento de fala de maior sucesso - Dragon Naturally Speaking, ainda está viva hoje. Este é quase o fim da história inglória da ViaVoice no Linux. Durante o pouco tempo em que o ViaVoice esteve gratuito e disponível para usuários Linux, diversas interfaces foram desenvolvidas para ele, como o Xvoice. No entanto, o projeto foi abandonado há muito tempo e agora está praticamente inoperante.

INFORMAÇÕES
A parte mais difícil do reconhecimento de fala por máquina é a linguagem humana natural.
O que hoje?

Hoje tudo está muito melhor. Nos últimos anos, após a descoberta das fontes da API Google Voice, a situação com o desenvolvimento de sistemas de reconhecimento de voz no Linux melhorou significativamente e a qualidade do reconhecimento aumentou. Por exemplo, o projeto Linux Speech Recognition baseado na API Google Voice mostra resultados muito bons para o idioma russo. Todos os motores funcionam aproximadamente da mesma forma: primeiro, o som do microfone do dispositivo do usuário entra no sistema de reconhecimento, após o qual a voz é processada no dispositivo local ou a gravação é enviada a um servidor remoto para processamento posterior. A segunda opção é mais adequada para smartphones ou tablets. Na verdade, é exatamente assim que funcionam os motores comerciais - Siri, Google Now e Cortana.

Da variedade de motores para trabalhar com a voz humana, vários estão atualmente ativos.

AVISO
Instalar muitos dos sistemas de reconhecimento de fala descritos não é uma tarefa trivial!
Esfinge CMU

Grande parte do desenvolvimento do CMU Sphinx ocorre na Carnegie Mellon University. Em momentos diferentes, tanto o Instituto de Tecnologia de Massachusetts quanto a já falecida corporação Sun Microsystems trabalharam no projeto. As fontes do motor são distribuídas sob a licença BSD e estão disponíveis para uso comercial e não comercial. Sphinx não é um aplicativo personalizado, mas sim um conjunto de ferramentas que podem ser usadas para desenvolver aplicativos para usuários finais. O Sphinx é agora o maior projeto de reconhecimento de voz. Consiste em várias partes:
- Pocketsphinx é um programa pequeno e rápido que processa sons, modelos acústicos, gramáticas e dicionários;
- Biblioteca Sphinxbase, necessária para o funcionamento do Pocketsphinx;
- Sphinx4 - a biblioteca de reconhecimento real;
- Sphinxtrain é um programa para treinamento de modelos acústicos (gravações da voz humana).
O projeto está se desenvolvendo lenta mas seguramente. E o mais importante, pode ser usado na prática. E não só em PCs, mas também em dispositivos móveis. Além disso, o motor funciona muito bem com a língua russa. Se você tiver mãos retas e cabeça limpa, poderá configurar o reconhecimento de fala em russo usando o Sphinx para controlar eletrodomésticos ou uma casa inteligente. Na verdade, você pode transformar um apartamento comum em uma casa inteligente, que é o que faremos na segunda parte desta análise. As implementações do Sphinx estão disponíveis para Android, iOS e até Windows Phone. Ao contrário do método em nuvem, quando o trabalho de reconhecimento de fala recai sobre os servidores Google ASR ou Yandex SpeechKit, o Sphinx funciona com mais precisão, rapidez e custo. E completamente local. Se desejar, você pode ensinar ao Sphinx o modelo do idioma russo e a gramática das consultas dos usuários. Sim, você terá que trabalhar um pouco durante a instalação. Assim como configurar modelos de voz e bibliotecas do Sphinx não é uma atividade para iniciantes. Como o núcleo do CMU Sphinx, a biblioteca Sphinx4, é escrito em Java, você pode incluir seu código em seus aplicativos de reconhecimento de fala. Exemplos específicos de uso serão descritos na segunda parte de nossa análise.

VoxForge

Destaquemos especialmente o conceito de corpus de fala. Um corpus de fala é um conjunto estruturado de fragmentos de fala, que é fornecido com software para acessar elementos individuais do corpus. Em outras palavras, é um conjunto de vozes humanas em diferentes idiomas. Sem um corpus de fala, nenhum sistema de reconhecimento de fala pode funcionar. É difícil criar um corpus de fala aberta de alta qualidade sozinho ou mesmo com uma equipe pequena, então um projeto especial está coletando gravações de vozes humanas - VoxForge.

Qualquer pessoa com acesso à Internet pode contribuir para a criação de um corpus de fala simplesmente gravando e enviando um fragmento de fala. Isso pode ser feito até por telefone, mas é mais conveniente usar o site. É claro que, além da gravação de áudio em si, o corpus de fala deve incluir informações adicionais, como a transcrição fonética. Sem isso, a gravação de voz não tem sentido para o sistema de reconhecimento.

HTK, Julius e Simon

HTK - Hidden Markov Model Toolkit é um kit de ferramentas para pesquisa e desenvolvimento de ferramentas de reconhecimento de fala usando modelos ocultos de Markov, desenvolvido na Universidade de Cambridge sob o patrocínio da Microsoft (a Microsoft certa vez comprou este código de uma empresa comercial Entropic Cambridge Research Laboratory Ltd, e depois devolveu-o a Cambridge juntamente com uma licença restritiva). As fontes do projeto estão disponíveis para todos, mas o uso do código HTK em produtos destinados ao usuário final é proibido pela licença.

No entanto, isso não significa que o HTK seja inútil para desenvolvedores Linux: ele pode ser usado como uma ferramenta auxiliar no desenvolvimento de ferramentas de reconhecimento de voz de código aberto (e comerciais), que é o que os desenvolvedores do motor Julius de código aberto, que é sendo desenvolvido no Japão, faça. Julius funciona melhor com japonês. O grande e poderoso também não é privado, pois o mesmo VoxForge é usado como banco de dados de voz.

A continuação está disponível apenas para membros

Opção 1. Junte-se à comunidade do “site” para ler todos os materiais do site

A adesão à comunidade dentro do período especificado lhe dará acesso a TODOS os materiais do Hacker, aumentará seu desconto cumulativo pessoal e permitirá que você acumule uma classificação profissional do Xakep Score!