Compressão de som: princípio e configuração. Síntese e reconhecimento de fala

Durante o tempo em que os pesquisadores também seguiram para resolver o problema de criar uma interface de fala para computadores, muitas vezes era necessário fabricar equipamentos de forma independente, permitindo que você insira informações de áudio no computador, além de exibi-la do computador. Hoje, esses dispositivos podem ter interesse histórico único, já que os computadores modernos podem facilmente equipar os dispositivos de entrada e saída, como adaptadores de som, microfones, fones de ouvido e colunas de som.

Nós não vamos aprofundar em detalhes dispositivo interno Esses dispositivos, mas contaremos sobre como funcionam e dão algumas recomendações para escolher dispositivos de computador sonoras para trabalhar com sistemas de reconhecimento e síntese de fala.

Como já falamos no capítulo anterior, o som não é nada mais do que as oscilações aéreas, cuja frequência está na faixa de freqüência percebida pela pessoa. Em pessoas diferentes, os limites exatos da gama de freqüências audíveis podem variar, no entanto, acredita-se que as oscilações sólidas estão na faixa de 16-20.000 Hz.

A tarefa do microfone é converter flutuações de áudio em oscilações elétricas, que podem continuar a ser reforçadas, filtradas para remover a interferência e digitalizadas para inserir informações de som no computador.

De acordo com o princípio da operação, os microfones mais comuns são divididos em carvão, eletrodinâmico, condensador e eletret. Alguns de seus microfones exigem seu trabalho fonte externa A corrente (por exemplo, carvão e condensador), outros sob a influência de oscilações sonoras podem produzir independentemente uma tensão elétrica alternada (estes são microfones eletrodinâmicos e eletretos).

Você também pode dividir microfones para o propósito. Existem microfones de estúdio que podem ser mantidos na mão ou protegidos no suporte, há microfones de rádio que podem ser fixados em roupas e assim por diante.

Há também microfones projetados especificamente para computadores. Tais microfones são geralmente anexados no suporte na superfície da tabela. Os microfones de computador podem ser combinados com fones de ouvido, conforme mostrado na Fig. 2-1.

FIG. 2-1. Fones de ouvido com microfone

Como escolher de toda a variedade de microfones aquele que é mais adequado para sistemas de reconhecimento de fala?

Em princípio, você pode experimentar qualquer microfone que você tenha, a menos que possa ser conectado a um adaptador de áudio do computador. No entanto, os desenvolvedores de sistemas de reconhecimento de fala são recomendados para adquirir tal microfone, que no trabalho estará a uma distância permanente da boca do falante.

Se a distância entre o microfone e a boca não mudar, o sinal elétrico médio proveniente do microfone também mudará muito. Isso terá um efeito positivo sobre a qualidade do trabalho dos modernos sistemas de reconhecimento de fala.

Qual é o problema aqui?

Uma pessoa é capaz de reconhecer com sucesso a fala, cujo volume está mudando em limites muito amplos. O cérebro humano é capaz de filtrar o discurso silencioso da interferência, como o barulho de carros que passam pela rua, conversas estrangeiras e música.

Quanto aos sistemas modernos de reconhecimento de fala, suas habilidades nesta área deixam muito a desejar. Se o microfone ficar na mesa, quando a cabeça é girada ou alterando a posição do corpo, a distância entre a boca e o microfone mudarão. Isso levará a uma mudança no nível do sinal de saída do microfone, que por sua vez piorará a confiabilidade do reconhecimento de fala.

Portanto, ao trabalhar com sistemas de reconhecimento de fala, os melhores resultados serão alcançados se você usar o microfone conectado aos cabeçalhos, conforme mostrado na Fig. 2-1. Ao usar esse microfone, a distância entre a boca e o microfone serão permanentes.

Também pagamos sua atenção que todos os experimentos com sistemas de reconhecimento de fala são mais bem feitos, mantendo em uma sala silenciosa. Nesse caso, o efeito da interferência será mínimo. Claro, se você precisar escolher um sistema de reconhecimento de fala capaz de trabalhar em condições de forte interferência, os testes precisam ser realizados de forma diferente. No entanto, tanto quanto é conhecido pelos autores do livro, enquanto a observância dos sistemas de reconhecimento de fala ainda é muito, muito baixa.

O microfone executa a conversão dos EUA de oscilações sonoras em flutuações corrente elétrica. Essas oscilações podem ser vistas na tela do osciloscópio, mas não se apressam para a loja para comprar este dispositivo caro. Todas as pesquisas oscilográficas podemos gastar usando um computador regular equipado com um adaptador de som, como o adaptador Sound Blaster. Mais tarde, vamos dizer-lhe como fazer isso.

Na Fig. 2-2 mostramos um oscilograma sinal sonoro, Obtido quando pronunciou um som longo a. Este oscilograma foi obtido usando o programa Goldwave, sobre o qual ainda contamos neste capítulo do livro, bem como usando o som blaster e adaptador de áudio do microfone, semelhante ao mostrado na FIG. 2-1.

FIG. 2-2. Oscilograma de sinal sonoro

O programa GoldWave permite esticar o oscilograma ao longo do eixo de tempo, que permite ver os menores detalhes. Na Fig. 2-3 mostramos um fragmento esticado do oscilograma som mencionado acima.

FIG. 2-3. Fragmento de oscilograma sonoro som

Por favor, note que a magnitude do sinal de entrada proveniente do microfone varia periodicamente e leva valores positivos e negativos.

Se apenas uma frequência estivesse presente no sinal de entrada (ou seja, se o som fosse "puro"), a forma do sinal obtida do microfone seria sinusoidal. No entanto, como dissemos, o espectro dos sons da fala humana consiste em um conjunto de frequências, como resultado do qual a forma do oscilama do sinal de fala está longe de ser sinusoidal.

O sinal cujo valor muda com o tempo continuamente, vamos chamar sinal analógico. Este sinal vem do microfone. Ao contrário do sinal analógico, digital é um conjunto de valores numéricos variando com o tempo discreto.

Para o computador pode processar o bipe, ele deve ser traduzido da forma analógica em digital, isto é, para representar na forma de um conjunto de valores numéricos. Este processo é chamado de digitalização de um sinal analógico.

A digitalização do som (e qualquer sinal analógico) é executada usando um dispositivo especial chamado conversor analógico para digital Adc (Analog to Digital Converter, ADC). Este dispositivo está no conselho do adaptador de áudio e é um microcircuito comum.

Como funciona um conversor analógico para digital?

Periodicamente mede o nível do sinal de entrada e fornece o valor numérico de saída do resultado da medição. Este processo é ilustrado na Fig. 2-4. Aqui, retângulos cinzentos marcaram os valores de entrada medidos em um determinado intervalo de tempo constante. Um conjunto de valores e é uma representação digitalizada do sinal analógico de entrada.

FIG. 2-4. Medição da dependência da amplitude do sinal do tempo

Na Fig. 2-5 Mostramos a conexão do conversor analógico para o microfone. Neste caso, a entrada X 1 serve sinal analógico, e o sinal digital é removido das saídas U 1 -U N.

FIG. 2-5. Conversor analógico-digital

Os conversores analógicos para digitais são caracterizados por dois parâmetros importantes - a frequência de transformação e o número de níveis de quantização do sinal de entrada. A seleção correta desses parâmetros é fundamental para alcançar uma representação adequada na forma digital de sinal analógico.

Com que frequência você precisa medir o valor da amplitude do sinal analógico de entrada para que, devido à digitalização, não seja perdida informações sobre alterações no sinal analógico de entrada?

Parece que a resposta é simples - o sinal de entrada deve ser medido com a maior freqüência possível. De fato, quanto mais, o conversor analógico-digital realiza essas medições, melhor as menores mudanças na amplitude do sinal analógico de entrada serão rastreadas.

No entanto, medições desnecessariamente freqüentes podem levar a um crescimento injustificado de fluxo de dados digitais e recursos de computador de gastos inúteis ao processar um sinal.

Felizmente, escolha certa A conversão de freqüência (frequência de amostragem) é simples o suficiente. Para fazer isso, basta entrar em contato com o Teorema Kotelnikov, conhecido pelos especialistas no campo do processamento digital de sinais. O teorema afirma que a frequência da conversão deve ser duas vezes maior do que a frequência máxima do espectro do sinal transformado. Portanto, para digitalização sem perder a qualidade do sinal sonoro, cuja frequência está no intervalo de 16-20.000 Hz, você precisa selecionar a frequência da conversão, não menos de 40.000 Hz.

Nota, no entanto, que no equipamento de som profissional, a frequência da conversão é selecionada várias vezes do valor especificado. Isso é feito para obter uma qualidade muito alta de som digitalizado. Para sistemas de reconhecimento de fala, essa qualidade não é relevante, por isso não vamos aguçar sua atenção em tal escolha.

E qual a frequência da transformação é necessária para digitalizar o som do discurso humano?

Como os sons da fala humana estão na faixa de frequência de 300-4000 Hz, a frequência mínima necessária da conversão é de 8000 Hz. Porém muitos programas de computador. Reconhecimento de fala Use o padrão para adaptadores de áudio convencionais. A frequência de transformação é de 44.000 Hz. Por um lado, esta frequência da transformação não leva a um aumento excessivo no fluxo de dados digitais, e o outro - fornece digitalização de fala com qualidade suficiente.

Mesmo na escola, fomos ensinados que com quaisquer medições, erros surgem, dos quais é impossível se livrar de completamente. Tais erros ocorrem devido à resolução limitada dos instrumentos de medição, bem como devido ao fato de que o próprio processo de medição pode fazer algumas alterações no valor medido.

Um conversor analógico para digital representa o sinal analógico de entrada na forma de um fluxo de números de bit limitado. Adaptadores de áudio convencionais contêm blocos de ADC de 16 bits que podem representar a amplitude do sinal de entrada na forma de 216 \u003d 65536 valores diferentes. Os dispositivos ADC em equipamentos de som high-end podem ser de 20 bits, proporcionando maior precisão da amplitude do sinal de áudio.

Sistemas modernos e programas de reconhecimento de fala foram criados para computadores comuns equipados com os adaptadores de som habituais. Portanto, para conduzir experimentos com reconhecimento de fala, você não precisará adquirir um adaptador de áudio profissional. Tal adaptador como Sound Blaster é bastante adequado para a digitalização de fala para reconhecê-lo ainda mais.

Junto com o sinal útil para o microfone, vários ruídos são geralmente caindo - ruído da rua, ruído do vento, conversas estrangeiras, etc. O ruído tem um impacto negativo na qualidade do trabalho dos sistemas de reconhecimento de fala, por isso tem que lidar com isso. Uma maneira que já mencionamos - os sistemas de reconhecimento de fala de hoje melhor uso em um quarto tranquilo, ficando com um computador um em um.

No entanto, as condições ideais podem ser criadas nem sempre, então você tem que usar métodos especiaispermitindo que você se livre de barulho. Para reduzir os níveis de ruído, os truques especiais são usados \u200b\u200bao construir microfones e filtros especiais que removem do espectro de um sinal de frequência analógica que não transportam informações úteis. Além disso, esta técnica é usada como compressão. gama dinâmica Níveis de entrada.

Conte sobre tudo isso em ordem.

Filtro de frequência Um dispositivo que converte o espectro de freqüência de um sinal analógico é chamado. Neste caso, durante o processo de transformação (ou absorção) de oscilações de certas freqüências ocorre.

Você pode imaginar este dispositivo na forma de uma série de caixa preta com uma entrada e uma saída. No que diz respeito à nossa situação, um microfone será conectado à entrada do filtro de freqüência, e o conversor analógico-digital será conectado à saída.

Filtros de frequência são diferentes:

· Filtros de frequência mais baixos;

· Filtros de freqüência superior;

· Passando filtros de tira;

· Filtros de faixa de faixas.

Filtros de menor frequência (Filtro de baixa passagem) é removido do espectro de entrada Todas as freqüências cujos valores estão abaixo de alguma frequência de limite, dependendo da configuração do filtro.

Como os sinais sonoros estão na faixa de 16-20.000 Hz, todas as freqüências inferiores a 16 Hz podem ser cortadas sem deteriorar a qualidade do som. Para reconhecimento de fala, a faixa de frequência de 300-4000 Hz é importante, para que você possa cortar frequências abaixo de 300 Hz. Nesse caso, toda a interferência será cortada do sinal de entrada, o espectro de freqüência de que fica abaixo de 300 Hz, e eles não interferirão no processo de reconhecimento de fala.

De forma similar, filtros de frequência superior (Alta -pass Filter) são cortado do espectro de entrada todas as freqüências acima de alguma frequência limiar.

Uma pessoa não ouve sons com uma freqüência de 20.000 Hz e acima, para que possam ser cortadas do espectro sem uma notável deterioração da qualidade sonora. Quanto ao reconhecimento de fala, aqui você pode cortar todas as freqüências acima de 4000 Hz, o que levará a uma diminuição significativa no nível de interferência de alta frequência.

Transmitindo filtro de tira (Filtro da banda) pode ser imaginado como uma combinação do filtro de baixa e superior. Tal filtro atrasa todas as frequências abaixo do chamado freqüência inferiorbem como acima largura de banda de freqüência superior.

Assim, para o sistema de reconhecimento de fala, um filtro de largura de banda é conveniente, que atrasa todas as freqüências, exceto as frequências do intervalo de 300-4000 Hz.

Quanto aos filtros de faixa de ignição (Filtro de Band -stop), eles permitem cortar a entrada de entrada todas as freqüências no intervalo especificado. Tal filtro é conveniente, por exemplo, para suprimir o ruído que ocupa uma parte sólida do espectro do sinal.

Na Fig. 2-6 Mostramos a conexão do filtro de largura de banda.

FIG. 2-6. Filtragem de sinal sonoro antes da digitalização

Deve ser dito que os adaptadores de som usuais instalados no computador estão em sua composição um filtro de tira pelo qual um sinal analógico passa antes da digitalização. A largura de banda de tal filtro geralmente corresponde à gama de sinais sonoros, nomeadamente, 16-20.000 Hz (em diferentes adaptadores de áudio, os valores da frequência superior e inferior podem variar em pequenos limites).

E como conseguir uma largura de banda mais estreita de 300-4000 Hz, correspondendo à parte mais informativa do espectro espectral humano?

Claro, se você tiver uma tendência a projetar equipamentos eletrônicos de rádio, você pode fazer seu filtro da microcircuito do amplificador operacional, resistores e capacitores. Aproximadamente os primeiros criadores de sistemas de reconhecimento de fala.

mas sistemas Industriais O reconhecimento de fala deve ser viável no hardware padrão do computador, para que o caminho da fabricação de um filtro de banda especial não seja adequado aqui.

Em vez disso, o chamado é usado em sistemas modernos de processamento de fala filtros de frequência digital.implementado programaticamente. Tornou-se possível depois cPU O computador tornou-se poderoso o suficiente.

O software implementado do filtro de freqüência digital converte o sinal digital de entrada para o sinal digital de saída. No processo de conversão, o programa processa um fluxo especial de um sinal da luminescência da amplitude do sinal proveniente de um conversor analógico para digital. O resultado da conversão também será o número de números, no entanto, esse tópico corresponderá a um sinal já filtrado.

Falando sobre o conversor analógico para digital, notamos que uma característica importantecomo o número de níveis de quantização. Se um conversor analógico-digital de 16 bits estiver instalado no adaptador de áudio, depois de digitalizar os níveis de sinal de som pode ser representado como 216 \u003d 65536 valores diferentes.

Se houver alguns níveis de quantização, então o chamado cheat barulho. Para reduzir este ruído, em sistemas de digitalização de som de alta qualidade, os conversores analógicos digitais devem ser aplicados com o número máximo disponível de níveis de quantização.

No entanto, há outra recepção que permite reduzir o efeito do ruído de quantização na qualidade do sinal de áudio, que é usado nos sistemas de gravação de som digital. Ao usar esta recepção antes de digitalizar, o sinal é passado por um amplificador não linear, sublinhando sinais com uma pequena amplitude do sinal. Tal dispositivo aumenta os sinais fracos mais fortes do que fortes.

Isto é ilustrado por um gráfico da dependência da amplitude do sinal de saída da amplitude do sinal de entrada mostrado na Fig. 2-7.

FIG. 2-7. Amplificação não linear antes da digitalização

Na fase de conversão inversa do áudio digitalizado para o analógico (consideramos esta etapa abaixo neste capítulo) antes de exibir a coluna de áudio, o sinal analógico é novamente passado por um amplificador não-linear. Desta vez, outro amplificador é usado, que enfatiza sinais com uma grande amplitude e tem uma característica de transferência (dependência da amplitude do sinal de saída da amplitude do sinal de entrada), o inverso que foi usado durante a digitalização.

Como tudo isso pode ajudar os criadores de sistemas de reconhecimento de fala?

A pessoa, como é conhecida, é muito bem reconhecida pela fala proferida por um sussurro silencioso ou uma voz bastante alta. Pode-se dizer que a gama dinâmica de níveis de volume de fala reconhecida com sucesso para uma pessoa é bastante ampla.

De hoje sistemas de computador Reconhecimento de fala, infelizmente, até que o aproveite. No entanto, com o objetivo de uma determinada expansão da faixa dinâmica especificada antes de digitalizar, você pode pular um sinal do microfone por meio de um amplificador não linear, cuja característica de transferência é mostrada na Fig. 2-7. Isso reduzirá o nível de ruído de quantização durante a digitalização de sinais fracos.

Os desenvolvedores de sistemas de reconhecimento de fala, novamente, são forçados a se concentrar principalmente em adaptadores de som produzidos em série. Eles não fornecem a conversão de sinal não linear descrita acima.

No entanto, você pode criar um equivalente de software de um amplificador não linear que converte um sinal digitalizado antes de transmiti-lo para o módulo de reconhecimento de fala. E embora esse amplificador de programa não seja capaz de reduzir o ruído de quantização, é possível enfatizar esses níveis de sinal que carregam a maior informação de fala. Por exemplo, você pode reduzir a amplitude dos sinais fracos, tendo eliminando o sinal do ruído.

© 2014 site

Ou latitude fotográfica O material da foto é a relação entre os valores de exposição máxima e mínima que podem ser corretamente capturados na imagem. Com referência à fotografia digital, a faixa dinâmica é realmente equivalente à proporção dos valores máximos e mínimos possíveis do sinal elétrico útil gerado pelo seenstor fotográfico durante a exposição.

A faixa dinâmica é medida nos passos de exposição (). Cada passo corresponde a duplicar a quantidade de luz. Por exemplo, se uma determinada câmera tiver um intervalo dinâmico de 8 EV, isso significa que o valor máximo possível do sinal útil de sua matriz refere-se ao mínimo como 2 8: 1, o que significa que a câmera é capaz de capturar dentro de um quadro objetos diferindo no brilho não mais de 256 vezes. Mais precisamente, pode capturar objetos com qualquer brilho, mas objetos cujo brilho excederá o máximo valor permitido Vamos sair em uma foto de branco deslumbrante, e objetos cujo brilho estará abaixo do valor mínimo - preto de carvão. Detalhes e texturas serão distinguíveis apenas nesses objetos cujo brilho é empilhado na faixa dinâmica da câmara.

Para descrever a relação entre o brilho do mais brilhante e mais escuro dos objetos removíveis, não é usado o termo "faixa de cena dinâmica". Será mais correto falar sobre a faixa de brilho ou no nível de contraste, já que a faixa dinâmica é geralmente a característica do dispositivo de medição (em este caso, Matrizes da câmera digital).

Infelizmente, a gama de brilho de muitas belas cenas com as quais nos deparamos em vida realpode ultrapassar visivelmente a faixa dinâmica da câmera digital. Em tais casos, o fotógrafo é forçado a decidir quais objetos devem ser trabalhados em todas as partes, e qual deles pode ser deixado fora do intervalo dinâmico sem prejuízo do design criativo. Para aproveitar a faixa dinâmica da sua câmera, às vezes pode não ter uma compreensão completa do princípio do trabalho do fotossensor, quanto desenvolvido artístico.

Fatores de alcance dinâmico.

O limite inferior da faixa dinâmica é definido pelo nível de seu próprio ruído da foto de Seensor. Mesmo a matriz apagada gera um sinal elétrico de fundo, chamado ruído escuro. Além disso, a interferência ocorre quando a carga é transferida para um conversor analógico para digital, e o próprio ADC introduz um certo erro no sinal digitalizado. Amostragem de ruído.

Se você tirar uma foto em uma escuridão completa ou com uma tampa na lente, a câmera registrará apenas este ruído sem sentido. Se você permitir que o número mínimo de luz chegue ao sensor, os fotodiodos começarão a acumular uma carga elétrica. O valor da carga, o que significa que a intensidade do sinal benéfico, será proporcional ao número de fótons capturados. Para um instantâneo, pelo menos alguns detalhes significativos, é necessário que o nível do sinal útil exceda o nível de ruído de fundo.

Assim, o limite inferior da faixa dinâmica ou, em outras palavras, o limiar de sensibilidade do sensor formalmente pode ser definido como o nível do sinal de saída em que a relação sinal-ruído é maior que a unidade.

O limite superior do intervalo dinâmico é determinado pelo recipiente de um fotodiodo separado. Se, durante a exposição, qualquer fotodiode acumulará uma carga elétrica de valores limitantes para si, o pixel da imagem correspondente ao fotodeto sobrecarregado é absolutamente branco, e mais irradiação não afetarão seu brilho. Este fenômeno é chamado de recorte. Quanto maior a capacidade frenética do fotodiodo, maior o sinal é capaz de desistir na saída antes que a saturação atinja.

Para maior clareza, nos voltamos para a curva característica, que é um gráfico da dependência do sinal de saída da exposição. No eixo horizontal, o logaritmo binário da irradiação obtido pelo sensor é adiado e, no logaritmo vertical - binário da magnitude do sinal elétrico gerado pelo sensor em resposta a essa irradiação. Meu desenho é em grande parte condicional e prossegue excepcionalmente ilustrativos. A curva característica da presente fotosor de fotos tem uma forma ligeiramente mais complexa, e o nível de ruído raramente é tão alto.

O gráfico é claramente visível dois pontos rígidos críticos: No primeiro destes, o nível do sinal útil atravessa o limiar de ruído e, no segundo - fotodiodos atingem a saturação. Os valores de exposição estão entre estes dois pontos são faixa dinâmica. Neste exemplo abstrato, é igual a como é fácil notar, 5 EV, isto é. A câmera é capaz de digerir cinco exposição duplicando, que é equivalente a 32x (2 5 \u003d 32) em diferença de brilho.

Zonas de exposição que compõem a faixa dinâmica são desiguais. As zonas superiores são caracterizadas por uma maior relação sinal-ruído e, portanto, parecem mais claras e mais detalhadas do que a inferior. Como resultado, o limite superior da faixa dinâmica é muito real e perceptível - o recorte é envolto luzes com a menor superexposição, enquanto o limite inferior é cada vez mais afundando no ruído, e a transição para a cor preta está longe de ser assim.

A dependência linear do sinal da exposição, bem como um rendimento agudo para o planalto, são características únicas do processo fotográfico digital. Para comparação, dê uma olhada na curva característica condicional do photoplinka tradicional.

A forma da curva e, especialmente, o ângulo de inclinação depende muito do tipo de filme e do procedimento de sua manifestação, mas a principal coisa que continua sendo a diferença entre a programação do filme da Digital - a natureza não linear da dependência do A densidade óptica do filme a partir do valor de exposição permanece inalterada.

O limite inferior da latitude fotográfica do filme negativo é determinado pela densidade do véu e da parte superior - a densidade óptica máxima alcançável do fotocloor; Rodar filmes - pelo contrário. Ambos nas sombras e nas luzes há curvas suaves da curva característica, indicando a queda em contraste ao se aproximar dos limites da faixa dinâmica, porque o ângulo de inclinação da curva é proporcional ao contraste da imagem. Assim, as zonas de exposição que encontram-se na parte do meio da programação têm um contraste máximo, enquanto nas luzes e sombras, o contraste é reduzido. Na prática, a diferença entre o filme e a matriz digital é particularmente bem perceptível nas luzes: onde na imagem digital da luz é queimada com recorte, as partes no filme ainda são distinguíveis, embora de baixo contraste, e A transição para uma cor branca pura parece ser suave e natural.

Em sensitometria, até dois termos independentes são usados: na verdade latitude fotográficalimitado por uma seção relativamente linear da curva característica, e latitude fotográfica útil, Além da seção linear, também gráficos base e ombro.

Vale ressaltar que, ao processar fotos digitais, ele, como regra, aplica uma curva mais ou menos pronunciada S, que aumenta o contraste no meio-tom ao custo de sua diminuição nas sombras e luzes, o que dá uma imagem digital um olhar mais natural e agradável.

Grandeza

Ao contrário da matriz da câmera digital, a visão humana é peculiar, digamos, uma visão logarítmica do mundo. O duplicação sequencial da quantidade de luz é percebida por nós como alterações iguais no brilho. Os números de luz podem até ser comparados com oitavas musicais, porque duas mudanças duplas da frequência sonora são percebidas por boato como um único intervalo musical. Este princípio emprega outros sentidos. A não-linearidade da percepção é muito expandindo a faixa de sensibilidade humana para o estímulo de várias intensidades.

Ao converter o arquivo RAW (não importa, as ferramentas da câmera ou o conversor bruto) contêm dados lineares, o chamado aplica-se automaticamente a ele. Curva gama, que é projetada para aumentar não-linear o brilho da imagem digital, levando-a de acordo com as peculiaridades da visão humana.

Com conversão linear, a imagem é obtida muito escura.

Após a correção gama, o brilho chega ao normal.

A curva gama como se estenderia tons escuros e aperta a luz, fazendo a distribuição de gradações mais uniformes. Como resultado, a imagem adquire uma aparência natural, mas o ruído e artefatos de amostragem nas sombras inevitavelmente se tornam mais perceptíveis, o que só é exacerbado por um pequeno número de níveis de brilho nas zonas inferiores.

Distribuição linear de gradações de brilho.
Distribuição uniforme após a aplicação de uma curva gama.

ISO e faixa dinâmica

Apesar do fato de que na fotografia digital, o mesmo conceito de fotossensibilidade do material fotográfico é usado como na fotografia do filme, deve ser entendido que isso é apenas devido à tradição da tradição, desde que se aproxima da mudança de fotossensibilidade em e fotografia de filme diferem em princípio.

Melhorar a sensibilidade iso na fotografia tradicional significa que substituir um filme para outro com um grão maior, isto é. Há uma mudança objetiva nas propriedades do material da foto. Na câmera digital, a sensibilidade do sensor é bastante definida por suas características físicas e não pode ser alterada literalmente. Com um aumento na ISO, a câmera muda de sensibilidade real do sensor, mas só aumenta o sinal elétrico gerado pelo sensor em resposta à irradiação e ajusta corretamente o algoritmo de digitalização para este sinal.

Uma conseqüência importante disso é reduzir a faixa dinâmica efetiva proporcionalmente a um aumento na ISO, porque com um sinal útil, o ruído é aprimorado. Se o ISO 100 digitaliza toda a gama de valores de sinal - de zero para o ponto de saturação, então com ISO 200, apenas metade da capacidade de fotodiodos é aceita para o máximo. Com cada duplicação da sensibilidade ISO, a fase superior da faixa dinâmica é cortada, e os restantes passos são apertados ao seu lugar. É por isso que o uso de valores de iso ultra-alto são privados de significado prático. Com o mesmo sucesso, você pode aliviar a foto no conversor cru e obter um nível comparável de ruído. A diferença entre um aumento na ISO e uma iluminação artificial da imagem é que, com o aumento da ISO, o fortalecimento do sinal ocorre antes de ser recebido no ADC e, portanto, o ruído de quantização não é aprimorado, ao contrário do seu próprio ruído do sensor, Enquanto no conversor cru, a amplificação está sujeita a incluir os erros do ADC. Além disso, uma diminuição na faixa de digitalização significa amostragem mais precisa dos restantes valores de entrada.

By the way, uma ISO está disponível em alguns dispositivos abaixo do valor base (por exemplo, para ISO 50), ele não expande o intervalo dinâmico e simplesmente solta o sinal duas vezes, o que é igual ao instantâneo no conversor cru. Essa função pode ser até ser tratada como prejudicial, uma vez que o uso de valor submimico da ISO, provoca uma câmara para aumentar a exposição que, com o limite remanescente remanescente do sensor, aumenta o risco de obter recorte nas luzes.

Gama dinâmica verdadeira

Há um número de programas como (analisador DXO, imatest, rawdigger, etc.) permitem medir a faixa dinâmica de uma câmera digital em casa. Em princípio, isso não é uma grande necessidade, uma vez que os dados da maioria das câmeras podem ser encontrados livremente na Internet, por exemplo, no site DXOMARK.com.

Devo acreditar nos resultados desses testes? Bastante. Com a única reserva que todos esses testes são eficientes definidos ou, se você puder expressá-lo, a faixa dinâmica técnica, isto é. A relação entre o nível de saturação e o nível de ruído da matriz. Para o fotógrafo, a gama dinâmica útil é principalmente importante, isto é. O número de zonas de exposição que realmente permitem capturar algumas informações úteis.

À medida que você se lembra, o limiar da faixa dinâmica é especificado pelo nível de ruído da foto de Seensor. O problema é que na prática as zonas inferiores que estão formalmente entrando na faixa dinâmica, contém tudo muito ruído para que eles possam ser usados \u200b\u200bpara usar. Aqui, muito depende de espremer individual - o nível aceitável de ruído, cada um determina para si.

Minha opinião subjetiva é que os detalhes nas sombras começam a parecer mais ou menos decentes com a relação sinal / ruído pelo menos oito. Nesta base, determinei para mim uma faixa dinâmica útil, como uma faixa dinâmica técnica menos cerca de três etapas.

Por exemplo, se a câmara de espelho de acordo com os resultados de testes confiáveis \u200b\u200btiver uma faixa dinâmica de 13 EV, que é muito boa para os padrões de hoje, sua gama dinâmica útil será de cerca de 10 EV, que, em geral, também é muito completa . Claro, estamos falando de filmar em Raw, com ISO mínimo e bit máximo. Ao fotografar no JPEG, a faixa dinâmica depende fortemente das configurações de contraste, mas em média, duas ou três etapas devem ser descartadas.

Para comparação: fotos fotogradas de cores têm uma latitude fotográfica útil de 5-6 etapas; Filmes negativos preto e branco dão 9-10 etapas com manifestação padrão e procedimentos de impressão, e com certas manipulações - até 16-18 etapas.

Resumindo o precedente, tentaremos formular algumas regras simples, o que ajudará você a esgueirar o sensor do desempenho máximo da sua câmera:

  • A faixa dinâmica da câmera digital é totalmente acessível apenas quando atirando em RAW.
  • A faixa dinâmica diminui com a crescente sensibilidade à luz e, portanto, evita altos valores ISO se não houver uma necessidade aguda.
  • O uso de descarga mais alta para arquivos RAW não aumenta a faixa dinâmica verdadeira, mas melhora a separação tonal nas sombras devido a mais Níveis de brilho.
  • Exposição à direita. As zonas de exposição superiores contêm sempre o máximo informação útil Com um mínimo de ruído e deve ser usado de forma mais eficaz. Ao mesmo tempo, você não deve esquecer o perigo de recorte - pixels que atingiram a saturação são absolutamente inúteis.

E a principal coisa: não é necessário se preocupar com a faixa dinâmica da sua câmera. Com uma faixa dinâmica, está bem. Sua capacidade de ver luz e gerenciar competentemente a exposição é muito mais importante. Um bom fotógrafo não vai reclamar da falta de latitude fotográfica, mas tentará esperar por uma iluminação mais confortável, ou mudará o ângulo ou usará o flash, em uma palavra, agirá de acordo com as circunstâncias. Eu vou te contar mais: Algumas cenas só ganham devido ao fato de que eles não se encaixam na faixa dinâmica da câmera. Muitas vezes, uma abundância desnecessária de peças é simplesmente necessária para se esconder em uma silhueta negra semi-ralada que faz uma foto ao mesmo tempo é concisa e mais rica.

Alto contraste nem sempre é ruim - você só precisa ser capaz de trabalhar com ele. Aprenda a explorar as desvantagens dos equipamentos, bem como suas vantagens, e você ficará surpreso com o quanto suas oportunidades criativas se expandirão.

Obrigado pela atenção!

Vasily A.

Post Scriptum

Se o artigo for útil e informativo para você, você pode suportar gentilmente o projeto, contribuindo para seu desenvolvimento. Se você não gostou do artigo, mas tem pensamentos sobre como melhorá-lo, sua crítica será aceita sem menos gratidão.

Não se esqueça de que este artigo é o objeto de direitos autorais. A reimpressão e citando é permitida se houver uma referência existente à fonte original, e o texto usado não deve ser selecionado ou modificado.

Pessoas que estão entusiastas com som caseiro demonstram um interessante paradoxo. Eles estão prontos para empurrar a sala de escuta, para construir colunas com emissores exóticos, mas eles são envergonhados na frente do musical enlatado, como se o lobo na frente da bandeira vermelha. E, de fato, por que é impossível para a caixa de seleção sair, e de enlatada tentar cozinhar algo mais comestível?

Periodicamente, há queixas no fórum: "Aconselhar álbuns bem registrados". É compreensível. Edições audiófilas especiais, embora eles se deleitem ouvir o primeiro minuto, mas ninguém está ouvindo o fim, dói o repertório. Quanto ao resto do Phonothek, o problema parece óbvio. Você pode salvar, mas não pode salvar e esvaziar um zumbido de dinheiro nos componentes. Eu ainda não gosto de ouvir sua música favorita em alto volume e a possibilidade de um amplificador aqui.

Hoje, mesmo em álbuns Hi-res, os picos do fonograma e o volume do recorte são cortados. Acredita-se que a maioria escuta música em todos os lixo e, portanto, é necessário "perguntar ao GAT", para fazer uma espécie de dedicação.


Claro, isso não é feito especificamente para perturbar os audiófilos. Sobre eles geralmente poucas pessoas lembram. Bem, exceto que eles adivinham para deixar os arquivos mestre com os quais a principal circulação é copiada - CDs, MP3 e assim por diante. Claro, o assistente há muito se achatou pelo compressor, ninguém preparará conscientemente versões especiais para faixas HD. Esse é um determinado procedimento para a transportadora de vinil, que por essa razão e soa mais humanamente. E para o caminho digital, tudo termina o mesmo - um grande compressor espesso.

Então, atualmente todos os 100% dos fonogramas publicados, menos música clássica, estão sujeitos a compressão quando masthering. Alguém realiza este procedimento com mais ou menos habilidade, e alguém está completamente estúpido. Como resultado, temos peregrinos nos fóruns com a linha do plugin Dr para as comparações sinusais, dolorosas de publicações, fuga para vinil, onde você também precisa de um popper principal.

A mais congelada à vista de todas essas desgraças se virou literalmente em sapatos de áudio. Nenhuma piada, eles lêem a fonte de som sagrada escritura para trás! Programas modernos de edição de som têm alguma ferramenta de restauração onda sonoraRecortado cortado.

Inicialmente, esta funcionalidade foi destinada a estúdios. Quando misturado, há situações quando o recorte chegou a escrever, e não é mais possível refazer a sessão por várias razões, e aqui vem ao editor de áudio do AID Arsenal - decalipper, descompressor, etc.

E já para tal software, todo o litoral puxa as alças dos ouvintes comuns que têm sangue dos ouvidos após a próxima novidade. Alguém prefere Izótope, alguém Adobe Audition, alguém compartilha de operações entre vários programas. O significado da restauração da antiga dinâmica é corrigir corretamente os picos de sinal plana, que, descansando em 0 dB, assemelham-se a uma engrenagem.

Sim, cerca de 100% de renascimento da Fonte de Fala não acontecem, uma vez que os processos de interpolação em algoritmos bastante especulativos ocorrem. Mas ainda assim, alguns dos resultados do processamento me pareceu interessante e digno de estudo.

Por exemplo, o álbum de Lana del Rey "Lust for Life", consistentemente franzindo a testa, Pah, dirigindo! Na música original "Quando o mundo estava em guerra, continuamos dançando" era assim.


E depois de uma série de descalippers e descompressores, tornou-se assim. O coeficiente de DR mudou de 5 a 9. Download e ouça a amostra antes e depois do processamento.


Não posso dizer que o método é universal e é adequado para todos os álbuns implantados, mas, neste caso, preferi preservar na coleção exatamente essa opção tratada com um ativista do Rutraker, em vez da publicação oficial em 24 bits.

Mesmo que o puxação artificial de picos do som picado não esteja retornando a verdadeira dinâmica do desempenho musical, seu DAC ainda lhe dirá de qualquer maneira. Foi tão difícil para ele trabalhar sem erros nos níveis de limite, onde a probabilidade dos chamados picos intersmônicos (ISP) é ótimo. E agora até 0 dB desdobrará apenas espaços raros do sinal. Além disso, o fonograma desencadeado quando comprimido no flac ou outro codec sem perdas será menor em tamanho. Mais "ar" no sinal economizam espaço no disco rígido.

Tente reviver seus álbuns mais odiados mortos na "Guerra de Volume". Para a reserva do orador, você primeiro precisa abaixar o nível da pista em -6 dB e, em seguida, iniciar o declive. Aqueles que não acreditam que os computadores podem simplesmente ficar entre o CD player e o expansão do amplificador. Este aparelho Em essência, é feito da mesma maneira - como pode restaura e puxa os picos comprimidos sobre a dinâmica do sinal de áudio. Existem dispositivos semelhantes dos 80-90 não querem ser muito caros, e como um experimento, experimente-os muito interessantes.


O controlador de faixa dinâmica DBX 3BX processa o sinal separadamente em três listras - LF, SC e RF

Uma vez que os equalizadores fossem para componente concedido do sistema de áudio, e ninguém estava com medo deles. Hoje não é necessário nivelar as altas frequências da fita magnética, mas com a dinâmica feia é necessário resolver algo, irmãos.

Compressão dinâmica (Compressão de gama dinâmica, RDC) é um estreitamento (ou expansão no caso do expansor) da faixa dinâmica do fonograma. Gama dinâmicaEsta é a diferença entre o som mais tranquilo e mais alto. Às vezes, a mais tranquila do fonograma será o som de um pouco alto nível de ruído, e às vezes um pouco mais silencioso do mais alto. Dispositivos e programas de hardware que realizam compressão dinâmica são chamados de compressores, destacando quatro grupos principais: compressores, limitadores, expansores e portões.

Compressor analógico da lâmpada DBX 566

Reduzido e promovendo a compressão

Lowing compressão (Compactação para baixo) reduz o volume de som quando ele começa a exceder um certo valor limite, deixando o som mais silencioso inalterado. Extrema opção de menor compressão é limitador. Compressão de aprimoramento (Compressão ascendente), pelo contrário, aumenta o volume do som, se estiver abaixo do limiar, sem afetar mais sons altos. Ao mesmo tempo, ambos os tipos de compressão estreitam a faixa dinâmica do sinal de áudio.

Lowing compressão

Compressão de aprimoramento

Expansor e portão

Se o compressor reduz a faixa dinâmica, o expansor aumenta. Quando o nível do sinal se torna acima do nível de limiar, o expansor aumenta ainda mais, aumentando assim a diferença entre sons altos e silenciosos. Esses dispositivos são freqüentemente usados \u200b\u200bao gravar a instalação do drum para separar os sons de alguns tambores dos outros.

O tipo de expansor, que não é usado para não melhorar alto e secar os sons silenciosos que não excedem o nível do valor limite (por exemplo, o ruído de fundo) é chamado Portão de ruído.. Em tal dispositivo, assim que o nível de som se torna menor que o limiar, o passe de sinal é interrompido. Normalmente, o portão é usado para suprimir o ruído em pausas. Em alguns modelos, pode ser feito para que o som quando o nível de limiar não pare bruscamente, mas gradualmente percorrido. Neste caso, a velocidade de atenuação é definida pelo regulador de decaimento (recessão).

Portão, como outros tipos de compressores, talvez dependente de frequência (isto é, de diferentes maneiras de processar certas bandas de freqüência) e pode operar no modo cadeia lateral. (Veja abaixo).

O princípio da operação do compressor

O sinal que cai no compressor é dividido em duas cópias. Uma cópia é enviada para o amplificador, no qual o grau de amplificação é controlado por um sinal externo, a segunda cópia - forma este sinal. Ele entra no dispositivo chamado cadeia lateral, onde o sinal é medido, e o envelope é criado com base nesses dados descrevendo a alteração em seu volume.
Assim, os mais modernos compressores são organizados, este é o chamado tipo de avanço. Em dispositivos mais antigos (tipo de feedback), o nível do sinal é medido após o amplificador.

Existem várias tecnologias de controle analógico (amplificação de ganho variável), cada uma com suas vantagens e desvantagens: lâmpadas, óptica usando fotoresistra e transísta. Ao trabalhar com áudio digital (no editor de som ou DAW), seus próprios algoritmos matemáticos podem ser usados \u200b\u200bou a operação da tecnologia analógica pode ser inserida.

Os principais parâmetros de compressores

Limiar.

O compressor reduz o sinal de áudio se sua amplitude primária um valor específico (limite). Geralmente é indicado em decibéis, com um limite inferior (por exemplo, -60 dB) significa que o som será processado do que com um limite mais alto (por exemplo, -5 dB).

Razão.

O grau de diminuição do nível é determinado pelo parâmetro da proporção: Ratio 4: 1 significa que, se o nível de entrada for de 4 dB exceder o limite, o nível de saída será maior do que o limite por 1 dB.
Por exemplo:
Limiar \u003d -10 dB
Sinal de entrada \u003d -6 dB (em 4 dB acima do limite)
Sinal de saída \u003d -9 dB (em 1 dB acima do limite)

É importante ter em mente que a suprimir o nível do sinal continua e algum tempo após cair abaixo do nível de limiar, e desta vez é determinado pelo valor do parâmetro liberação.

A compactação com o valor máximo da proporção ∞: 1 é chamada de limitação. Isso significa que qualquer sinal acima do nível de limiar é suprimido antes do nível de limite (com exceção de um curto período após um aumento acentuado no volume de entrada). Para detalhes, veja abaixo "limitador".

Exemplos de vários valores de proporção

Ataque e liberação

O compressor fornece certo controle sobre a rapidez com que ela responde à alteração da dinâmica do sinal. O parâmetro de ataque define o tempo para o qual o compressor reduz o coeficiente de ganho ao nível, que é determinado pelo parâmetro da proporção. A versão define o tempo para o qual o compressor, pelo contrário, aumenta o coeficiente de ganho ou retorna ao normal se o nível do sinal de entrada cair abaixo do valor limite.

Ataque e liberar fases

Esses parâmetros indicam o tempo (geralmente em milissegundos), que serão necessários para alterar o fortalecimento para uma determinada quantidade de decibel, é geralmente de 10 dB. Por exemplo, neste caso, se o ataque for definido para 1 ms, para reduzir o ganho em 10 dB, 1 ms será necessário e 20 dB - 2 ms.

Em muitos compressores, os parâmetros de ataque e lançamento podem ser configurados, mas em alguns são inicialmente definidos e não são regulados. Às vezes eles são designados como "automático" ou "dependente do programa", ou seja, varia dependendo do sinal de entrada.

Joelho.

Outro parâmetro do compressor: joelho duro / macio. Determina se o início da aplicação da compressão é afiado (duro) ou gradual (suave). O joelho macio reduz o sono da transição do sinal cru para o sinal submetido a compressão, especialmente em valores de alta relação e aumentos de volume nítidos.

Joelho duro e compressão de joelho macio

Pico e RMS.

O compressor pode reagir aos valores máximos de pico (curto prazo) ou no nível de entrada médio. O uso de valores de pico pode levar a flutuações afiadas no grau de compressão e até mesmo à distorção. Portanto, os compressores aplicam a função de média (geralmente esse é o sinal de entrada RMS) ao compará-lo com um valor limite. Dá uma compressão mais confortável, perto da percepção humana do volume.

O RMS é um parâmetro refletindo o volume médio do fonograma. Do ponto de vista matemático RMS (Root Mean Square) é o valor da RMS da amplitude de um certo número de amostras:

Ligação estéreo.

O compressor no modo de vinculação estéreo aplica o mesmo ganho para os dois canais estéreo. Isso evita o deslocamento do estereopanorama, que pode ser o resultado do processamento individual dos canais esquerdo e direito. Tal deslocamento ocorre se, por exemplo, qualquer elemento alto ofegado não no centro.

Ganho de maquiagem.

Como o compressor reduz o nível geral do sinal, a possibilidade de ganho fixo na saída é geralmente adicionada, o que permite obter o nível ideal.

OLHE PARA FRENTE.

A função Look-Ahead é projetada para resolver problemas peculiares muito grandes e muito pequenos valores de ataque e liberação. Muitos ataques não permitem que você efetivamente intercepte os transientes, mas muito pequeno pode não ser confortável para o ouvinte. Ao usar a função Look-Ahead, o sinal principal é atrasado em relação ao controlador, permite que você inicie a compactação com antecedência, mesmo antes que o sinal atinja o valor limite.
A única desvantagem desse método é o atraso de tempo do sinal, que em alguns casos indesejáveis.

Uso de compressão dinâmica

A compressão é usada em todos os lugares, não apenas em fonogramas musicais, mas também em todos os lugares, onde você precisa aumentar o volume geral, sem aumentar os níveis de pico em que o equipamento de reprodução de som barato é usado ou um canal de transmissão limitado (sistema de alerta, rádio amador, etc.).

A compactação é aplicada ao jogar música de fundo (em lojas, restaurantes, etc.), onde quaisquer alterações de volume perceptíveis são indesejáveis.

Mas o escopo mais importante da aplicação de compressão dinâmica é a produção musical e a transmissão. A compactação é usada para dar o som de "densidade" e "drive" para uma melhor combinação de ferramentas entre si e, especialmente, ao processar vocais.

As partes vocais na música rocha e pop são geralmente submetidas à compressão para destacá-los no fundo do acompanhamento e adicionar clareza. Um tipo especial de compressor, configurado apenas em certas freqüências - desesperador, é usado para suprimir o fundo sibilante.

Nas partes instrumentais, a compactação também é usada para os efeitos que não estão diretamente relacionados ao volume, por exemplo, os sons de tambor de desvanecimento rápido podem se tornar mais prolongados.

Na música de dança eletrônica (EDM), a cadela lateral é usada frequentemente (veja abaixo) - por exemplo, a linha do baixo pode ser controlada por um barril ou algo semelhante para evitar o conflito de baixo e tambores e criar uma pulsação dinâmica.

A compactação é amplamente utilizada na transmissão de transmissão (rádio, televisão, radiodifusão na Internet) para aumentar o volume percebido, reduzindo a gama dinâmica de áudio de origem (geralmente CD). A maioria dos países tem restrições legais no volume máximo instantâneo, que pode ser transmitido. Normalmente, essas limitações são implementadas por compressores de hardware constantes na cadeia etérea. Além disso, um aumento no volume percebido melhora a "qualidade" do som do ponto de vista da maioria dos ouvintes.

Veja também Guerra de volume.

Um aumento consistente no volume da mesma música remandencia para CD de 1983 a 2000.

CHANING SIDE.

Outro interruptor de compressor freqüentemente encontrado é "cadeia lateral". Neste modo, a compactação do áudio não ocorre dependendo do seu próprio nível, mas dependendo do nível do sinal que entra no conector, que é geralmente chamado de cadeia lateral.

Isso pode ser encontrado várias aplicações. Por exemplo, o vocalista Shepelvit e todas as letras "C" destacam-se fora da imagem geral. Você pula sua voz através do compressor, e o conector da cadeia lateral serve o mesmo som, mas perdeu o equalizador. No equalizador você remove todas as freqüências, exceto para aqueles usados \u200b\u200bpelo vocalista ao pronunciar a letra "C". Geralmente cerca de 5 kHz, mas pode ser de 3 kHz a 8 kHz. Se colocar um compressor no modo de cadeia lateral, a compressão da voz ocorrerá nesses momentos quando a letra "C" é pronunciada. Assim, apresentou um dispositivo conhecido como "desser" (de-esser). Este método de trabalho é chamado de "freqüência dependente" (dependente da frequência).

Outro uso desse recurso é chamado de "ducker". Por exemplo, em uma estação de rádio, a música passa pelo compressor e as palavras de DJ - através de uma cadeia lateral. Quando o DJ começa a conversar, o volume da música é automaticamente reduzido. Este efeito pode ser usado com sucesso em registros, por exemplo, reduza o volume de lotes de teclado durante o canto.

Limitação da parede de tijolo

O compressor e o limitador são aproximadamente os mesmos, pode-se dizer que o limitador é um compressor de alta proporção (de 10: 1) e, geralmente, tempo de ataque baixo.

Há um conceito de limitação de parede de tijolos - um limite muito alto limitativo (de 20: 1 e acima) e um ataque muito rápido. Idealmente, não permite que o sinal exceda o nível de limiar. O resultado será desagradável por boato, mas isso evitará danos à tecnologia de reprodução de som ou largura de banda excessiva. Muitos fabricantes integram dispositivos de limitadores para essa finalidade.

Clipper vs. Limitador, recorte suave e duro

Esse grupo de métodos é baseado no fato de que os sinais transmitidos são submetidos a transformações de amplitude não lineares, e na transmissão e recebimento de partes da não-linearidade é convertida. Por exemplo, se o transmissor usa uma função não linear ÖU, no receptor - U 2. A aplicação consistente das funções convergentes levará ao fato de que, em geral, a transformação permanece linear.

A ideia de métodos não lineares de compressão de dados é reduzida ao fato de que o transmissor pode dar uma gama maior de alteração no parâmetro transmitido com a mesma amplitude dos sinais de saída (ou seja, maior faixa dinâmica). Gama dinâmica - Isso é expresso em unidades relativas ou atitude decibellah da maior amplitude de sinal admissível para o menor:

; (2.17)
. (2.18)

O desejo natural de aumentar a faixa dinâmica reduzindo o min é limitado pela sensibilidade do equipamento e pelo aumento do efeito da interferência e do seu próprio ruído.

Na maioria das vezes, a compressão da faixa dinâmica é realizada usando um par de funções convergentes de logaritmo e potenciação. A primeira operação de mudança de amplitude é chamada compressão(compressão), segundo - expansão (alongamento). A escolha dessas funções está relacionada à sua maior capacidade de compactação.

Ao mesmo tempo, esses métodos têm desvantagens. O primeiro deles é que o logaritmo de um pequeno número é negativo e no limite:

isto é, a sensibilidade é muito não linear.

Para reduzir essas desvantagens, ambas as funções são modificadas por offset e aproximação. Por exemplo, para canais telefônicos, a função aproximada está relacionada (digite A,):

e a \u003d 87,6. O ganho de compressão é 24dB.

A compactação de dados por procedimentos não lineares é implementada por instalações analógicas com grandes erros. O uso de ferramentas digitais pode melhorar significativamente a precisão ou velocidade da transformação. Ao mesmo tempo, o uso direto de fundos equipamento de informática (isto é, o cálculo direto de logaritmos e exponenciais) não dará melhor resultado devido a baixa velocidade e acumulando erro de cálculo.

A compactação de dados por compactação devido a restrições de precisão é usada em casos de não resposta, por exemplo, para transmitir o discurso em canais telefônicos e de rádio.

Codificação eficaz

Códigos eficazes foram oferecidos a Sundon, Fano e Hafman. A essência dos códigos é que eles são desiguais, isto é, com uma categoria diferente de descargas, e o comprimento do código é inversamente proporcional à probabilidade de sua aparência. Outra característica notável de códigos efetivos - eles não exigem separadores, ou seja, caracteres especiais que separam as combinações de código vizinho. Isso é conseguido observando regra simples: Códigos mais curtos não são o começo de mais tempo. Neste caso, o fluxo sólido de descargas binárias é decodificado exclusivo, uma vez que o decodificador revela as combinações de código mais curtas primeiro. Códigos eficazes por um longo tempo foram puramente acadêmicos, mas recentemente utilizados na formação de bancos de dados, bem como na compressão de informações em modems modernos e em arqueiros de software.

Devido à desigualdade, o comprimento médio do código é introduzido. Comprimento médio - Expectativa matemática do comprimento do código:

além disso, o CP tende a h (x) de cima (isto é, l wed\u003e h (x)).

A implementação da condição (2.23) é reforçada aumentando N.

Existem duas variedades de códigos efetivos: Shannon Fano e Hafman. Considere seu recibo no exemplo. Suponha que as probabilidades dos caracteres na sequência são os significados mostrados na Tabela 2.1.

Tabela 2.1.

Probabilidades de símbolos

N.
P I. 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Símbolos são classificados, ou seja, eles buscam uma linha na probabilidade descendente. Depois disso, de acordo com o método de Shennon Fano, o procedimento a seguir é repetido periodicamente: todo o grupo de eventos é dividido em dois subgrupos com as mesmas (ou aproximadamente as mesmas) probabilidades totais. O procedimento continua até que um elemento permaneça no próximo subgrupo, após o qual esse elemento é eliminado e com os restantes estes ações continuam. Isso acontece até os dois últimos subgrupos permanecem um elemento. Continue a consideração do nosso exemplo, que é reduzido na Tabela 2.2.

Tabela 2.2.

Método de Chennon Fano

N. P I.
4 0.3 EU.
0.2 EU. Ii.
6 0.15 EU. EU.
0.1 Ii.
1 0.1 EU. EU.
9 0.05 Ii. Ii.
5 0.05 Ii. EU.
7 0.03 Ii. Ii. EU.
8 0.02 Ii.

Como pode ser visto da Tabela 2.2, o primeiro símbolo com probabilidade P 4 \u003d 0,3 participou de dois procedimentos de particionamento e ambas as vezes atingem o grupo com o número i. De acordo com isso, é codificado pelo código de dois bits II. O segundo elemento na primeira etapa da partição pertencia ao Grupo I, no segundo grupo II. Portanto, seu código 10. Os códigos do restante dos caracteres em comentários adicionais não precisam.

Códigos geralmente desiguais são retratados na forma de árvores de código. A árvore de código é um gráfico indicando as combinações de código permitidas. Pré-especificar as instruções das nervuras deste gráfico, conforme mostrado na Fig.2.11 (a escolha de direções é arbitrária).

O gráfico é guiado da seguinte forma: faça uma rota para um símbolo dedicado; O número de descargas para ele é igual ao número de bordas na rota, e o valor de cada descarga é igual à direção da costela correspondente. A rota é feita ponto de origem (no desenho é marcado com uma letra A). Por exemplo, a rota para o vértice 5 consiste em cinco costelas, das quais tudo, além disso, tem direção 0; Nós recebemos o código 00001.

Calcule para este exemplo entropia e duração do meio da palavra.

H (x) \u003d - (0,3 log 0.3 + 0.2 log 0.1 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0,03 log 0.03 + 0.02 log 0.02) \u003d 2,23 bits

l cp \u003d 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Como pode ser visto, o comprimento médio da palavra está perto da entropia.

Os códigos do Hafman são construídos em um algoritmo diferente. O procedimento de codificação consiste em duas etapas. No primeiro estágio, a compressão única do alfabeto é consistentemente. A compactação única é a substituição dos dois últimos caracteres (com probabilidades mais baixas), com uma probabilidade total. A compactação é realizada até que dois personagens permaneçam. Ao mesmo tempo, preencha a tabela de codificação na qual as probabilidades resultantes são afixadas e também descrevem rotas para as quais novos personagens estão se movendo na próxima etapa.

Na segunda etapa, a própria codificação ocorre, que começa a partir da última etapa: o primeiro de dois caracteres atribui código 1, o segundo - 0. Depois disso, vá para o estágio anterior. Para os símbolos que não participaram da compressão nesta fase, os códigos de atributos do estágio subseqüente, e para os dois últimos caracteres, duas vezes atribuem o código de símbolo obtido após a colagem e adicionar ao código de símbolo superior 1, inferior - 0. Se O símbolo está adiante em colagem participa, seu código permanece inalterado. O procedimento continua até o final (isto é, até o primeiro estágio).

A Tabela 2.3 mostra codificação ao longo do algoritmo do Hafman. Como pode ser visto a partir da tabela, a codificação foi realizada em 7 estágios. À esquerda estão as probabilidades de caracteres, códigos de direita - intermediários. As flechas mostram movimentar caracteres recém-formados. Em cada estágio, os dois últimos caracteres diferem apenas com a descarga mais jovem, que corresponde à técnica de codificação. Nós calculamos o comprimento médio da palavra:

l cf \u003d 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 \u003d 2,7

Está ainda mais perto da entropia: o código é ainda mais eficaz. Na Fig. 2.12 mostra a árvore de código do HAFMAN.

Tabela 2.3.

Codificação no Algoritmo do Hafman

N. P I. o código EU. Ii. Iii. 4. V. Vi. Vii.
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Ambos os códigos satisfazem a exigência de singularidade de decodificação: como pode ser visto nas mesas, combinações mais curtas não são o começo de códigos mais longos.

Com o aumento do número de símbolos, a eficácia dos códigos aumentam, portanto, em alguns casos codificou blocos maiores (por exemplo, se estamos falando sobre textos, você pode codificar algumas das sílabas mais comuns, palavras e mesmas).

O efeito da implementação de tais códigos é determinado em comparação com o código uniforme:

(2.24)

onde n é o número de descargas de código uniformes, que é substituído por efetivo.

Modificações de códigos de Khafman

O algoritmo clássico do Hafman refere-se a dois passáveis, isto é. Requer o conjunto inicial de estatísticas sobre símbolos e mensagens e, em seguida, os procedimentos descritos acima. É inconveniente na prática, porque aumenta o tempo de processamento de mensagens e o acúmulo do dicionário. Métodos de passe única nos quais os procedimentos de acumulação e codificação são combinados. Tais métodos também são chamados de compressão adaptativa ao longo do Hafman [46].

A essência da compressão adaptativa através do HAFMAN é reduzida à construção da árvore inicial e sua modificação consistente após o recebimento de cada símbolo seguinte. Como antes, as árvores aqui são binárias, isto é. De cada vértice do gráfico - madeira, um máximo de dois arcos ocorre. É costume chamar o pico original pelo pai e os dois vértices seguintes associados - crianças. Nós introduzimos o conceito de peso do vértice - este é o número de caracteres (palavras) correspondentes a este vértice obtido quando a seqüência inicial é aplicada. Obviamente, a soma das escalas de crianças é igual ao peso do pai.

Depois de inserir o próximo símbolo da sequência de entrada, a árvore de código é revisada: os pesos dos vértices são recalculados e, se necessário, os vértices são rearranjados. A regra do rearranjo dos vértices da seguinte forma: os pesos dos vértices inferiores são os menores, e os vértices que são deixados na coluna têm os menores pesos.

Ao mesmo tempo, os vértices são numerados. A numeração começa com o inferior (pendurado, isto é que não tem filhos) vértices da esquerda para a direita, depois transferidos para nível superior etc. para a numeração do último vértice de origem. Ao mesmo tempo, o resultado a seguir é alcançado: o menor peso do vértice, menos o seu número.

A permutação é realizada principalmente para vértices de suspensão. Quando a permutação, a regra formulada é considerada: os topos com alto peso têm um número maior.

Depois de passar a sequência (também é chamada de controle ou teste), as combinações de código são atribuídas a todos os vértices de suspensão. A regra de atribuição de regras é semelhante ao acima: O número de descargas de código é igual ao número de vértices através da qual a rota é executada da origem para este vértice de suspensão, e o valor de uma descarga específica corresponde à direção do pai para A "criança" (digamos, a transição para a esquerda do pai corresponde ao valor 1, à direita - 0).

As combinações de código obtidas são inseridas na memória do dispositivo de compressão, juntamente com seus análogos e formar um dicionário. O uso do algoritmo é o seguinte. A sequência compressível de caracteres é dividida em fragmentos de acordo com o dicionário existente, após o qual cada um dos fragmentos é substituído pelo seu código do dicionário. Fragmentos não detectados no dicionário formam novos vértices de suspensão, ganham peso e também são inseridos no dicionário. Isso é formado por um algoritmo adaptativo para reabastecimento de dicionário.

Para aumentar a eficiência do método, é desejável aumentar o tamanho do dicionário; Neste caso, o coeficiente de compressão está aumentando. Praticamente o tamanho do dicionário é de 4 - 16 kb de memória.


Ilustramos o algoritmo dado por exemplo. Na Fig. 2.13 Mostra o diagrama de origem (também é chamado com uma árvore do Hafman). Cada vértice de madeira é mostrado por um retângulo, no qual dois dígitos são inscritos através da fração: o primeiro significa o número dos vértices, o segundo é seu peso. Como você pode se certificar de que os pesos versicos e seus números estão satisfeitos?

Suponha que agora o símbolo correspondente ao vértice 1, na sequência de teste atendido ao secundário. O peso dos vértices alterados, como mostrado na FIG. 2.14, Como resultado, o número de numeração é violado. Na próxima etapa, mudamos o layout de vértices pendurados, para os quais alteramos os vértices 1 e 4 e os renumeram todos os vértices da árvore. O gráfico resultante é mostrado na Fig. 2.15. Em seguida, o procedimento continua similarmente.

Deve ser lembrado que cada pico de suspensão na árvore do Hafman corresponde a um símbolo específico ou de seu grupo. O pai é diferente das crianças pelo fato de que um grupo de personagens, é apropriado para ele, por um símbolo em curto, do que seus filhos, e essas crianças diferem no último símbolo. Por exemplo, os pais correspondem aos símbolos "car"; Então as crianças podem ter sequências "kara" e "carpas".

O algoritmo acima não é acadêmico e é usado ativamente em programas - arquivados, incluindo ao compactar dados gráficos (eles serão discutidos abaixo).

Lempel - Algoritmos de Ziva

Estes são os algoritmos de compressão mais usados. Eles são usados \u200b\u200bna maioria dos programas - arqueiros (por exemplo, PKZip. Arj, LHA). A essência dos algoritmos é que algum conjunto de caracteres é substituído ao arquivar em um dicionário especialmente gerado. Por exemplo, muitas vezes encontrado nos assuntos da frase "na sua carta número de saída ..." pode ocupar na posição do dicionário 121; Em seguida, em vez de transferir ou armazenar a frase mencionada (30 bytes), você pode armazenar o número da frase (1,5 bytes no formulário binário - decimal ou 1 byte - em binário).

Algoritmos são nomeados após os autores que ofereceram pela primeira vez em 1977. Destes, o primeiro - LZ77. Para arquivamento, a chamada janela deslizante que consiste em duas partes é criada. A primeira parte, maior formato, serve para formar um dicionário e tem um tamanho da ordem de vários kilobytes. Na segunda parte menor (geralmente até 100 bytes) são aceitos pelos caracteres atuais do texto sendo visualizados. O algoritmo está tentando encontrar no conjunto de dicionário de personagens coincidindo com a janela visualizada. Se for possível, um código que consiste em três partes é gerado: um deslocamento no dicionário em relação à substring inicial, o comprimento dessa substrice ao lado deste caractere de substrato. Por exemplo, um substrato dedicado consiste em símbolos "Application" (apenas 6 caracteres), o seguinte símbolo é "e". Em seguida, se a substring tiver um endereço (lugar no dicionário) 45, o registro no dicionário tem o formulário "45, 6. E". Depois disso, o conteúdo da janela muda para a posição, e a busca continua. Assim, é formado um dicionário.

A vantagem do algoritmo é um algoritmo facilmente formalizado para compilar um dicionário. Além disso, é possível descompactar e sem o dicionário inicial (é desejável ter uma seqüência de teste) - o dicionário é formado no processo de Unimber.

As desvantagens do algoritmo aparecem com um aumento no tamanho do dicionário - o tempo para pesquisar está aumentando. Além disso, se uma seqüência de caracteres estiver faltando na janela atual, cada símbolo é gravado para o código de três elementos, isto é. Acontece não compressão, mas alongamento.

Melhores características Tem o algoritmo LZSS proposto em 1978. Tem diferenças na manutenção da janela deslizante e dos códigos de saída do compressor. Além da janela, o algoritmo forma uma árvore binária, semelhante à árvore do Hafman para acelerar a busca por coincidências: Cada substring deixando a janela atual é adicionada à árvore como uma das crianças. Tal algoritmo permite aumentar ainda mais o tamanho da janela atual (é desejável que seu valor igual ao grau de dois: 128, 256, etc. byte). Os códigos de sequência também são formados de forma diferente: o prefixo de 1 bit é introduzido adicionalmente para distinguir os caracteres não projetados do "offset, comprimento".

Uma compactação ainda maior é obtida usando algoritmos de tipo LZW. Os algoritmos descritos anteriormente têm um tamanho de janela fixa, o que leva à impossibilidade de inserir no dicionário das frases é mais longo que o tamanho da janela. Nos algoritmos LZW (e seu antecessor LZ78), a janela Visualização tem um tamanho ilimitado, e o dicionário acumula a frase (e não uma totalidade de caracteres como antes). O dicionário tem um comprimento ilimitado, e o codificador (decodificador) opera no modo de modo de espera. Quando a frase que coincide com o dicionário é formada, o código de coincidência é emitido (isto é, código dessa frase no dicionário) e o código do símbolo seguinte por trás dele. Se como símbolos se acumularem uma nova frase for formada, também é inserida no dicionário, como o menor. Como resultado, um procedimento recursivo é formado, fornecendo codificação e decodificação rápida.

Oportunidade adicional A compactação fornece codificação compactada de caracteres repetitivos. Se na sequência, alguns caracteres seguirem em uma linha (por exemplo, no texto, podem ser os caracteres "espaciais", na seqüência numérica - zeros fluindo, etc.), faz sentido substituir o símbolo do par "; "ou" sinal, comprimento ". No primeiro caso, o código indica o recurso que a sequência é codificada (geralmente 1 bit), então o código do símbolo de repetição e o comprimento da sequência. No segundo caso (fornecido para os símbolos repetidos mais comuns) no prefixo indica simplesmente um sinal de repetições.