Compresie solidă: principiu și configurație. Sinteza și recunoașterea vorbirii

În timpul momentului în care cercetătorii au continuat să rezolve problema creării unei interfețe de vorbire pentru computere, a fost adesea necesară fabricarea echipamentelor în mod independent, permițându-vă să introduceți informații audio în computer, precum și afișați-l de la computer. Astăzi, astfel de dispozitive pot avea un interes istoric unic, deoarece computerele moderne pot echipa cu ușurință dispozitivele de intrare și ieșire, cum ar fi adaptoarele de sunet, microfoanele, căștile și coloanele de sunet.

Nu vom aprofunda în detalii dispozitiv intern Aceste dispozitive, dar vom spune despre modul în care lucrează și vor da câteva recomandări pentru alegerea dispozitivelor de calculator de sunet pentru a lucra cu sistemele de recunoaștere și sinteza de vorbire.

Așa cum am vorbit deja în capitolul precedent, sunetul nu este altceva decât oscilațiile aerului, frecvența căreia se află în gama de frecvență percepută de persoană. La diferite persoane, limitele exacte ale gamei de frecvențe sonore pot varia, totuși, se crede că oscilațiile solide se află în intervalul de 16-20.000 Hz.

Sarcina microfonului este de a converti fluctuațiile audio în oscilații electrice, care pot continua să fie întărite, filtrate pentru a îndepărta interferența și digitizată pentru a introduce informații solide în computer.

Conform principiului operației, cele mai frecvente microfoane sunt împărțite în cărbune, electrodinamic, condensator și electrore. Unele dintre aceste microfoane necesită munca lor sursă externă Curentul (de exemplu, cărbune și condensator), altele sub influența oscilațiilor sonore pot produce în mod independent o tensiune electrică alternativă (acestea sunt microfoane electrodinamice și electrice).

De asemenea, puteți împărți microfoanele în acest scop. Există microfoane de studio care pot fi păstrate în mână sau sigure pe suport, există microfoane radio care pot fi fixate pe haine și așa mai departe.

Există, de asemenea, microfoane concepute special pentru computere. Astfel de microfoane sunt de obicei atașate pe suportul de pe suprafața mesei. Microfoanele de calculatoare pot fi combinate cu căști, așa cum se arată în fig. 2-1.

Smochin. 2-1. Căști cu microfon

Cum de a alege din toate varietățile microfoanelor Cel care este cel mai potrivit pentru sistemele de recunoaștere a vorbirii?

În principiu, puteți experimenta orice microfon pe care îl aveți, cu excepția cazului în care acesta poate fi conectat la un adaptor audio computer. Cu toate acestea, dezvoltatorii sistemelor de recunoaștere a vorbirii sunt recomandate pentru a achiziționa un astfel de microfon, care la locul de muncă vor fi la o distanță permanentă a gurii vorbitorului.

Dacă distanța dintre microfon și gură nu se schimbă, semnalul electric mediu care vine de la microfon se va schimba prea mult. Acest lucru va avea un efect pozitiv asupra calității activității sistemelor moderne de recunoaștere a vorbirii.

Care este problema aici?

O persoană este capabilă să recunoască cu succes vorbirea, a cărui volum se schimbă în limite foarte largi. Creierul uman este capabil să filtreze discursul liniștit de la interferențe, cum ar fi zgomotul mașinilor care trec pe stradă, conversații străine și muzică.

În ceea ce privește sistemele moderne de recunoaștere a vorbirii, abilitățile lor în acest domeniu lasă mult de dorit. Dacă microfonul se află pe masă, atunci când capul este rotit sau schimbând poziția corpului, distanța dintre gură și microfon se va schimba. Acest lucru va duce la o schimbare a nivelului semnalului de ieșire a microfonului, care la rândul său va agrava fiabilitatea recunoașterii vorbirii.

Prin urmare, atunci când lucrați cu sisteme de recunoaștere a vorbirii, vor fi obținute cele mai bune rezultate dacă utilizați microfonul atașat la poziții, așa cum se arată în fig. 2-1. Când se utilizează un astfel de microfon, distanța dintre gură și microfon va fi permanentă.

De asemenea, vă acordăm atenția că toate experimentele cu sistemele de recunoaștere a vorbirii sunt cel mai bine făcute, păstrând într-o cameră liniștită. În acest caz, efectul interferenței va fi minim. Desigur, dacă aveți nevoie să alegeți un sistem de recunoaștere a vorbirii capabil să lucreze în condiții de interferență puternică, testele trebuie efectuate în mod diferit. Cu toate acestea, în măsura în care este cunoscut autorilor cărții, în timp ce respectarea sistemelor de recunoaștere a vorbirii este încă foarte, foarte scăzută.

Microfonul efectuează o conversie a oscilațiilor solide în fluctuații curent electric. Aceste oscilații pot fi văzute pe ecranul osciloscopului, dar nu vă grăbiți la magazin pentru a achiziționa acest dispozitiv scump. Toate cercetările oscilografice pe care le putem cheltui folosind un computer regulat echipat cu un adaptor de sunet, cum ar fi adaptorul de blaster de sunet. Mai târziu, vă vom spune cum să o faceți.

În fig. 2-2 Am arătat o oscilogramă semnal sonor, Obținut când a fost rostit un sunet lung a. Această oscilogramă a fost obținută utilizând programul Goldwave, despre care încă mai spunem în acest capitol al cărții, precum și utilizarea blasterului de sunet și adaptorul audio microfon, similar cu cel prezentat în fig. 2-1.

Smochin. 2-2. Oscilograma semnalului sonor

Programul GoldWave vă permite să întindeți oscilograma de-a lungul axei de timp, ceea ce vă permite să vedeți cele mai mici detalii. În fig. 2-3 Am arătat un fragment întins al oscilogramei de sunet menționat mai sus.

Smochin. 2-3. Fragmentul de oscilogram de sunet de sunet

Rețineți că amploarea semnalului de intrare care vine de la microfon variază periodic și ia atât valori pozitive, cât și negative.

Dacă o singură frecvență a fost prezentă în semnalul de intrare (adică dacă sunetul a fost "pură"), forma semnalului obținut din microfon ar fi sinusoidal. Cu toate acestea, după cum am spus, spectrul de sunete de vorbire uman constă dintr-un set de frecvențe, ca urmare a cărei formă a oscilogramei semnalului de vorbire este departe de sinusoidal.

Semnalul a cărui valoare se schimbă în mod continuu, vom apela semnal analog. Acest semnal vine de la microfon. Spre deosebire de analog, semnalul digital este un set de valori numerice care variază cu timpul discret.

La computer poate procesa bipul, acesta trebuie tradus din forma analogică în digital, adică să reprezinte sub forma unui set de valori numerice. Acest proces este numit digitizarea unui semnal analogic.

Digitizarea sunetului (și a oricărui analog) este efectuată utilizând un dispozitiv special numit convertor analog-digital ADC (convertor analogic cu digital, ADC). Acest dispozitiv este pe bordul adaptorului audio și este un microcircuit comun.

Cum funcționează un convertor analog-digital?

Se măsoară periodic nivelul semnalului de intrare și oferă valoarea numerică de ieșire a rezultatului măsurării. Acest procedeu este ilustrat în fig. 2-4. Aici, dreptunghiurile gri marcate valorile de intrare măsurate la un anumit interval de timp constant. Un set de astfel de valori și este o reprezentare digitalizată a semnalului analogic de intrare.

Smochin. 2-4. Măsurarea dependenței amplitudinii semnalului din timp

În fig. 2-5 Am arătat conexiunea convertorului analog-digital la microfon. În acest caz, intrarea x 1 servește semnal analog, iar semnalul digital este scos din ieșirile U 1-RO.

Smochin. 2-5. Convertor analog-digital

Convertoarele analogice-digitale sunt caracterizate de doi parametri importanți - frecvența de transformare și numărul de nivele de cuantificare ale semnalului de intrare. Selecția corectă a acestor parametri este esențială pentru realizarea unei reprezentări adecvate în forma digitală a semnalului analogic.

Cât de des trebuie să măsurați valoarea amplitudinii semnalului analogic de intrare, astfel încât datorită digitizării nu este pierdut informații despre modificările semnalului analogic de intrare?

Se pare că răspunsul este simplu - semnalul de intrare trebuie să fie măsurat cât mai des posibil. Într-adevăr, cu cât convertorul analog-digital efectuează astfel de măsurători, cu atât mai bine vor fi urmăriți cele mai bune modificări ale amplitudinii semnalului analogic de intrare.

Cu toate acestea, măsurătorile inutile frecvente pot duce la o creștere nejustificată a fluxului de date digitale și a resurselor de calcul al cheltuielilor inutile atunci când procesează un semnal.

Din fericire, alegerea potrivita Conversia frecvenței (frecvența de eșantionare) este suficient de simplă. Pentru a face acest lucru, este suficient să contactați teorema Kotelnikov, cunoscută specialiștilor în domeniul prelucrării semnalului digital. Teorema afirmă că frecvența convertirii trebuie să fie de două ori mai mare decât frecvența maximă a spectrului semnalului transformat. Prin urmare, pentru digitizare fără a pierde calitatea semnalului sonor, frecvența căreia se află în intervalul de 16-20.000 Hz, trebuie să selectați frecvența conversiei, nu mai puțin de 40.000 Hz.

Notă, totuși, că în echipamente de sunet profesional, frecvența conversiei este selectată de mai multe ori a valorii specificate. Acest lucru se face pentru a obține o calitate foarte înaltă a sunetului digitalizat. Pentru sistemele de recunoaștere a vorbirii, această calitate nu este relevantă, deci nu vă vom acuza atenția asupra unei astfel de alese.

Și ce frecvență a transformării este necesară pentru a digitiza sunetul discursului uman?

Deoarece sunetele discursului uman se află în intervalul de frecvență de 300-4000 Hz, frecvența minimă necesară a conversiei este de 8000 Hz. Cu toate acestea, multe programe de calculator Recunoașterea vorbirii Standard pentru adaptoarele audio convenționale. Frecvența de transformare este de 44.000 Hz. Pe de o parte, această frecvență a transformării nu duce la o creștere excesivă a fluxului de date digitale, iar cealaltă - oferă o digitalizare de vorbire cu o calitate suficientă.

Chiar și la școală, am fost învățați că, cu orice măsurători, apar erori, din care este imposibil să scăpăm complet. Astfel de erori apar datorită rezoluției limitate a instrumentelor de măsurare, precum și datorită faptului că procesul de măsurare poate face unele modificări ale valorii măsurate.

Un convertor analog-digital reprezintă semnalul analogic de intrare sub forma unui curent de numere de biți limitat. Adaptoarele audio convenționale conțin blocuri ADC 16 biți care pot reprezenta amplitudinea semnalului de intrare sub formă de 216 \u003d 65536 valori diferite. Dispozitivele ADC în echipamente de sunet de înaltă calitate pot fi de 20 de biți, oferind o mai mare acuratețe a amplitudinii semnalului audio.

S-au creat sisteme moderne și programe de recunoaștere a vorbirii pentru computerele obișnuite echipate cu adaptoarele de sunet obișnuite. Prin urmare, pentru efectuarea experimentelor cu recunoașterea vorbirii, nu va trebui să achiziționați un adaptor audio profesional. Un astfel de adaptor ca blaster de sunet este destul de potrivit pentru digitalizarea de vorbire pentru ao recunoaște în continuare.

Împreună cu semnalul util la microfon, diferitele zgomote se încadrează de obicei - zgomot de pe stradă, zgomot de vânt, conversații străine etc. Zgomotul are un impact negativ asupra calității activității sistemelor de recunoaștere a vorbirii, deci trebuie să se ocupe de ea. Un mod pe care l-am menționat deja - sistemele de recunoaștere a vorbirii de astăzi utilizează cel mai bine într-o cameră liniștită, rămânând cu un computer unul pe unul.

Cu toate acestea, condițiile ideale pot fi create nu întotdeauna, deci trebuie să utilizați metode specialepermițându-vă să scăpați de zgomot. Pentru a reduce nivelurile de zgomot, sunt utilizate trucuri speciale la construirea microfoanelor și a filtrelor speciale care îndepărtează din spectrul unui semnal de frecvență analogică care nu transportă informații utile. În plus, această tehnică este utilizată ca compresie. gama dinamică Nivele de intrare.

Spuneți despre toate astea în ordine.

Filtru de frecvență Un dispozitiv care convertește spectrul de frecvență al unui semnal analogic este apelat. În acest caz, în timpul procesului de transformare (sau absorbție) de oscilații ale anumitor frecvențe.

Vă puteți imagina acest dispozitiv sub forma unei serii de cutie neagră cu o intrare și o ieșire. În ceea ce privește situația noastră, un microfon va fi conectat la intrarea filtrului de frecvență, iar convertorul analog-digital va fi conectat la ieșire.

Filtrele de frecvență sunt diferite:

· Filtre de frecvență mai mici;

· Filtrele superioare de frecvență;

· Filtre de bandă de trecere;

· Filtrele de bandă.

Filtrele de frecvență inferioară (Filtru de trecere joasă) este îndepărtat din spectrul de intrare toate frecvențele ale căror valori sunt sub o anumită frecvență de prag în funcție de setarea filtrului.

Deoarece semnalele de sunet se află în intervalul de 16-20.000 Hz, toate frecvențele mai mici de 16 Hz pot fi întrerupte fără deteriorarea calității sunetului. Pentru recunoașterea vorbirii, domeniul de frecvență de 300-4000 Hz este important, astfel încât să puteți tăia frecvențele sub 300 Hz. În acest caz, toate interferențele vor fi tăiate din semnalul de intrare, spectrul de frecvență al cărui se află sub 300 Hz și nu vor interfera cu procesul de recunoaștere a vorbirii.

În mod similar, filtrele superioare de frecvență (Filtru de înaltă) sunt tăiate din spectrul de intrare toate frecvențele peste o anumită frecvență de prag.

O persoană nu aude sunete cu o frecvență de 20.000 Hz și mai sus, astfel încât acestea pot fi tăiate din spectru fără o deteriorare a calității sănătoasă vizibilă. În ceea ce privește recunoașterea vorbirii, aici puteți reduce toate frecvențele de peste 4000 Hz, ceea ce va duce la o scădere semnificativă a nivelului de interferențe de înaltă frecvență.

Transmiterea filtrului benzii (Filtru de bandă -Pass) poate fi imaginat ca o combinație a filtrului de fund și de înaltă frecvență. Un astfel de filtru întârzie toate frecvențele sub așa-numitele frecvența inferioarăprecum și mai sus lățimea de bandă de frecvență superioară.

Astfel, pentru sistemul de recunoaștere a vorbirii, un filtru de lățime de bandă este convenabil, care întârzie toate frecvențele, cu excepția frecvențelor intervalului de 300-4000 Hz.

În ceea ce privește filtrele de bandă de aprindere (filtru de bandă-stop), vă permit să tăiați din spectrul de intrare toate frecvențele situate în intervalul specificat. Un astfel de filtru este convenabil, de exemplu, pentru a suprima zgomotul care ocupă o parte solidă a spectrului semnalului.

În fig. 2-6 Am arătat conexiunea filtrului lățimii de bandă.

Smochin. 2-6. Filtrarea semnalului de sunet înainte de digitizare

Trebuie spus că adaptoarele de sunet obișnuite instalate în computer sunt în compoziția lor un filtru de bandă prin care un semnal analog trece înainte de digitizare. Lățimea de bandă a unui astfel de filtru corespunde, de obicei, la gama de semnale sonore, și anume 16-20.000 Hz (în diferite adaptoare audio, valorile frecvenței superioare și inferioare pot varia în limitele mici).

Și cum să realizăm o lățime de bandă mai restrânsă de 300-4000 Hz, care corespunde celei mai informative părți a spectrului spectral uman?

Desigur, dacă aveți tendința de a proiecta echipamente radioelectronice, puteți face filtrul de la microcircuitul amplificatorului operațional, rezistențelor și condensatoarelor. Aproximativ primii creatori ai sistemelor de recunoaștere a vorbirii.

dar sisteme industriale Recunoașterea vorbirii trebuie să fie funcțională la hardware-ul standard al calculatorului, astfel încât calea de fabricare a unui filtru de bandă specială nu este potrivită aici.

În schimb, așa-numitul este utilizat în sistemele moderne de procesare a vorbirii filtre de frecvență digitalăimplementate programatic. A devenit posibil după cPU Computerul a devenit suficient de puternic.

Software-ul implementat filtrul de frecvență digitală convertește semnalul digital de intrare la semnalul digital de ieșire. În procesul de conversie, programul procesează un flux special de semnal al luminescenței amplitudinii semnalului provenind dintr-un convertor analog-digital. Rezultatul convertirii va fi, de asemenea, numărul de numere, totuși, acest fir va corespunde unui semnal deja filtrat.

Vorbind despre convertorul analog-digital, am observat astfel o caracteristică importantăca număr de niveluri de cuantificare. Dacă este instalat un convertor analog-to-digital pe 16 biți în adaptorul audio, după digitizarea nivelului semnalului sonor poate fi reprezentat ca 216 \u003d 65536 valori diferite.

Dacă există puține niveluri de cuantificare, atunci așa-numitul cheat zgomot.. Pentru a reduce acest zgomot, în sistemele de digitalizare de înaltă calitate, convertoarele digitale analogice trebuie aplicate cu numărul maxim disponibil de nivele de cuantificare.

Cu toate acestea, există o altă recepție care vă permite să reduceți efectul zgomotului de cuantificare asupra calității semnalului audio, care este utilizat în sistemele de înregistrare a sunetului digital. Când utilizați această recepție înainte de digitizare, semnalul este trecut printr-un amplificator neliniar, subliniind semnale cu o amplitudine mică a semnalului. Un astfel de dispozitiv îmbunătățește semnalele slabe mai puternice decât puternice.

Acest lucru este ilustrat printr-un grafic al dependenței amplitudinii semnalului de ieșire din amplitudinea semnalului de intrare prezentat în fig. 2-7.

Smochin. 2-7. Amplificarea neliniară înainte de digitizare

În stadiul de conversie inversă a sunetului digital la analog (considerăm acest pas de mai jos în acest capitol) Înainte de a afișa coloana audio, semnalul analogic este trecut din nou printr-un amplificator neliniar. De data aceasta este utilizat un alt amplificator, care accentuează semnalele cu o amplitudine mare și are o caracteristică de transfer (dependența amplitudinii semnalului de ieșire din amplitudinea semnalului de intrare), cea inversă care a fost utilizată în timpul digitizării.

Cum poate toate acestea să ajute creatorii sistemelor de recunoaștere a vorbirii?

Persoana, așa cum este cunoscută, este destul de bine recunoscută de discursul rostit de o șoaptă liniștită sau o voce destul de puternică. Se poate spune că gama dinamică a nivelului de volum de discurs recunoscut cu succes pentru o persoană este destul de largă.

Astăzi sisteme informatice Recunoașterea vorbirii, din păcate, până când o are. Cu toate acestea, cu scopul unei anumite extinderi a intervalului dinamic specificat înainte de a digitiza, puteți sări peste un semnal de la microfon printr-un amplificator neliniar, caracteristica de transfer este prezentată în fig. 2-7. Acest lucru va reduce nivelul de zgomot al cuantificării în timpul digitizării semnalelor slabe.

Dezvoltatorii sistemelor de recunoaștere a vorbirii, din nou, sunt forțate să se concentreze în primul rând pe adaptoarele de sunet produse în mod serios. Ele nu furnizează conversia semnalului neliniar descris mai sus.

Cu toate acestea, puteți crea un echivalent software al unui amplificator neliniar care convertește un semnal digitizat înainte de transmiterea acestuia la modulul de recunoaștere a vorbirii. Și, deși un astfel de amplificator de program nu va putea reduce zgomotul cuantificării, este posibil să se sublinieze acele niveluri de semnal care poartă cele mai mari informații despre vorbire. De exemplu, puteți reduce amplitudinea semnalelor slabe, eliminând semnalul de la zgomot.

© 2014 Site.

Sau latitudine fotografică Materialul foto este relația dintre valorile de expunere maxime și minime care pot fi capturate corect în imagine. Cu referire la fotografia digitală, intervalul dinamic este echivalent cu raportul dintre valorile maxime și cele minime posibile ale semnalului electric util generat de frecvenția foto în timpul expunerii.

Gama dinamică este măsurată în etapele de expunere (). Fiecare pas corespunde dublarea cantității de lumină. De exemplu, dacă o anumită cameră are un interval dinamic de 8 EV, aceasta înseamnă că valoarea maximă posibilă a semnalului util al matricei sale se referă la cel puțin 28: 1, ceea ce înseamnă că aparatul foto este capabil să captureze într-unul Obiectele de cadre diferă în luminozitate nu mai mult de 256 de ori. Mai precis, îl poate capta obiecte cu orice luminozitate, dar obiecte a căror luminozitate va depăși maximul valoare admisibilă Să ieșim pe o imagine a albului orbitor și obiecte a căror luminozitate va fi sub valoarea minimă - negru de cărbune. Detaliile și texturi vor fi distincte numai pe acele obiecte a căror luminozitate este stivuită în gama dinamică a camerei.

Pentru a descrie relația dintre luminozitatea celei mai strălucitoare și mai întunecate de obiectele detașabile, nu este adesea folosită destul de corect termenul "gama dinamică de scenă". Acesta va fi mai corect să vorbim despre gama de luminozitate sau la nivelul de contrast, deoarece intervalul dinamic este, de obicei, caracteristica dispozitivului de măsurare (în acest caz, Matricele camerei digitale).

Din păcate, gama de luminozitate a multor scene frumoase cu care ne confruntăm viata realapoate depăși în mod evident gama dinamică a camerei digitale. În astfel de cazuri, fotograful este forțat să decidă care obiecte ar trebui să fie elaborate în toate părțile și care dintre ele pot fi lăsate în afara domeniului dinamic fără a aduce atingere designului creativ. Pentru a utiliza cel mai eficient gama dinamică a camerei dvs., uneori nu poate lua o înțelegere aprofundată a principiului de a lucra fotosensor, cât de mult dezvoltat unul artistic.

Gama dinamică

Limita inferioară a intervalului dinamic este stabilită de nivelul propriului zgomot al seensorului foto. Chiar și matricea dezvăluită generează un semnal electric de fundal, numit zgomot întunecat. De asemenea, interferența are loc atunci când încărcarea este transferată într-un convertor analog-digital, iar ADC-ul introduce o anumită eroare în semnalul digitizat - așa-numitul. Eșantionarea zgomotului.

Dacă faceți o fotografie într-un întuneric complet sau cu un capac pe lentile, atunci aparatul foto va înregistra numai acest zgomot fără sens. Dacă permiteți numărul minim de lumină pentru a ajunge la senzor, fotodiodele vor începe să acumuleze o încărcătură electrică. Valoarea încărcării, ceea ce înseamnă intensitatea semnalului benefic, va fi proporțională cu numărul de fotoni capturați. Pentru ca un instantaneu, cel puțin unele detalii semnificative, este necesar ca nivelul semnalului util să depășească nivelul de zgomot de fond.

Astfel, limita inferioară a intervalului dinamic sau, cu alte cuvinte, pragul de sensibilitate al senzorului poate fi definit în mod oficial ca nivel de semnal de ieșire la care raportul semnal-zgomot este mai mare decât unitatea.

Limita superioară a intervalului dinamic este determinată de recipientul unui fotodiod separat. Dacă, în timpul expoziției, orice fotodiodă va acumula o încărcare electrică de limitare a valorilor pentru sine, apoi pixelul imaginii corespunzătoare fotodei supraîncărcate este absolut albă, iar iradierea ulterioară nu va afecta luminozitatea sa. Acest fenomen se numește tăiere. Cu cât capacitatea frenetică este mai mare a fotodiodului, cu atât este mai mare semnalul este capabil să dau la ieșire înainte ca saturația să ajungă.

Pentru o mai mare claritate, ne întoarcem la curba caracteristică, care este un grafic al dependenței semnalului de ieșire față de expunere. Pe axa orizontală, logaritmul binar al iradierii obținut de senzor este amânat și pe logaritmul vertical - binar al amplorii semnalului electric generat de senzor ca răspuns la această iradiere. Desenul meu este în mare măsură condițional și urmăresc scopuri excepțional de ilustrative. Curba caracteristică a seminției prezente foto are o formă mai complexă, iar nivelul de zgomot este rar atât de ridicat.

Graficul este vizibil în mod clar două puncte rigidă critice: în primul dintre acestea, nivelul semnalului util traversează pragul de zgomot, iar în al doilea - fotodide ajunge la saturație. Valorile de expunere situate între aceste două puncte sunt o gamă dinamică. În acest exemplu abstract, este egal cu cât de ușor este de a observa, 5 EV, adică Camera este capabilă să digere cinci expunere de dublare, care este echivalentă cu 32x (2 5 \u003d 32) în diferența de luminozitate.

Zonele de expunere care alcătuiesc gama dinamică sunt inegale. Zonele superioare sunt caracterizate printr-un raport mai ridicat al semnal-zgomot și, prin urmare, arata mai clar și mai detaliat decât cel inferior. Ca urmare, limita superioară a intervalului dinamic este foarte reală și vizibil - tăierea este înfășurată lumini la cea mai mică supraexpoziție, în timp ce limita inferioară se scufundă din ce în ce mai mult în zgomot, iar tranziția la culoarea neagră este departe de a fi tăiată.

Dependența liniară a semnalului de la expunere, precum și un randament ascuțit la platou, sunt caracteristici unice ale procesului fotografic digital. Pentru comparație, aruncați o privire la curba caracteristică condiționată a fotoplinka tradițională.

Forma curbei și în special unghiul de înclinare depinde în mare măsură de tipul de film și de procedura manifestării sale, dar principalul lucru care rămâne diferența dintre programul de film din digital - natura neliniară a dependenței Densitatea optică a filmului din valoarea expunerii rămâne neschimbată.

Limita inferioară a latitudinii fotografică a filmului negativ este determinată de densitatea vălului, iar cea superioară - densitatea optică maximă realizabilă a fotoclorei; Rotiți filmele - dimpotrivă. Atât în \u200b\u200bumbre, cât și în lumini există curbe netede ale curbei caracteristice, indicând scăderea contrastului atunci când se apropie de limitele intervalului dinamic, deoarece unghiul de înclinare a curbei este proporțional cu contrastul imaginii. Astfel, zonele de expunere situate în partea de mijloc a programului au un contrast maxim, în timp ce în lumini și umbre, contrastul este redus. În practică, diferența dintre film și matricea digitală este deosebit de bine vizibilă în lumini: în cazul în care în imaginea digitală a luminii este arsă cu tăiere, părțile de pe film sunt încă distincte, deși contrast scăzut și Tranziția la o culoare albă pură arată netedă și naturală.

În sensitometrie, se folosesc chiar și doi termeni independenți: de fapt latitudine fotograficădelimitată de o secțiune relativ liniară a curbei caracteristice și latitudine fotografică utilă, În plus față de secțiunea liniară, de asemenea grafică de bază și umăr.

Este demn de remarcat faptul că atunci când procesează fotografiile digitale, aceasta, de regulă, se aplică o curbă mai mult sau mai puțin pronunțată în formă de S, care mărește contrastul la jumătate la costul scăderii sale în umbre și lumini, care oferă o imagine digitală un aspect mai natural și mai plăcut.

Bigness.

Spre deosebire de matricea camerei digitale, viziunea umană este ciudată, să spunem, o viziune logaritmică asupra lumii. Dublarea secvențială a cantității de lumină este percepută de noi ca schimbări egale în luminozitate. Numerele de lumină pot fi chiar comparate cu octavele muzicale, deoarece schimbările duble ale frecvenței sonore sunt percepute de zvon ca un singur interval muzical. Acest principiu angajează alte simțuri. Nonlinearitatea percepției este foarte extinsă la varza de sensibilitate umană la stimulul de diferite intensități.

Când convertiți fișierul brut (nu contează, instrumentele camerei sau în convertorul brut) care conțin date liniare, așa-numitul se aplică automat la acesta. Curba Gamma, care este concepută pentru a crește în mod neliniar luminozitatea imaginii digitale, conducând-o în conformitate cu particularitățile viziunii umane.

Cu conversie liniară, imaginea este obținută prea întunecată.

După corectarea gamma, luminozitatea vine la normal.

Curba gamma, așa cum se va întinde tonuri întunecate și se aprinde lumina, făcând distribuția grailor mai uniforme. Ca rezultat, imaginea dobândește un aspect natural, dar zgomotul și artefactele de eșantionare în umbre inevitabil devin mai vizibile, ceea ce este exacerbat numai de un număr mic de niveluri de luminozitate în zonele inferioare.

Distribuția liniară a gradațiilor de luminozitate.
Distribuție uniformă după aplicarea unei curbe gamma.

ISO și domeniu dinamic

În ciuda faptului că, în fotografia digitală, același concept de fotosensibilitate a materialului fotografic este utilizat ca în fotografia filmului, trebuie să se înțeleagă că acest lucru se datorează doar tradiției tradiției, deoarece abordări ale schimbării fotosensibilității digitale și fotografia de film diferă în principiu.

Îmbunătățirea sensibilității ISO în fotografia tradițională înseamnă înlocuirea unui film la altul cu un boabe mai mare, adică. Există o schimbare obiectivă a proprietăților materialului foto. În camera digitală, sensibilitatea senzorului este setată în mod rezonabilă de caracteristicile sale fizice și nu poate fi schimbată literalmente. Cu o creștere a ISO, camera nu schimbă sensibilitatea reală a senzorului, dar îmbunătățește numai semnalul electric generat de senzor ca răspuns la iradiere și reglează corect algoritmul de digitizare pentru acest semnal.

O consecință importantă este de a reduce intervalul dinamic eficient proporțional cu o creștere a ISO, deoarece cu un semnal util, zgomotul este îmbunătățit. Dacă ISO 100 digitalizează întreaga gamă de valori ale semnalului - de la zero la punctul de saturație, apoi cu ISO 200, doar jumătate din capacitatea fotodidelor este acceptată pentru maximum. Cu fiecare dublare a sensibilității ISO, stadiul superior al intervalului dinamic este tăiat, iar etapele rămase sunt strânse în locul său. Acesta este motivul pentru care utilizarea valorilor ISO ultra-ridicate sunt lipsite de semnificație practică. Cu același succes, puteți ușura fotografia în convertorul brut și obțineți un nivel comparabil de zgomot. Diferența dintre o creștere a ISO și o iluminare artificială a imaginii este că, cu creșterea ISO, se produce întărirea semnalului înainte de a fi primită în ADC și, prin urmare, zgomotul cuantificării nu este îmbunătățit, spre deosebire de zgomotul propriu al senzorului, În timp ce în convertorul brut, amplificarea este supusă includerii greșelilor ADC. În plus, o scădere a intervalului de digitizare înseamnă o eșantionare mai precisă a valorilor de intrare rămase.

Apropo, un ISO este disponibil pe unele dispozitive sub valoarea de bază (de exemplu, la ISO 50), acesta nu extinde intervalul dinamic și pur și simplu slăbește semnalul de două ori, care este egal cu instantaneul din convertorul brut. Această funcție poate fi chiar tratată ca fiind dăunătoare, deoarece utilizarea valorii submimice a ISO, provoacă o cameră pentru a crește expunerea că, cu pragul neschimbat rămas al senzorului, crește riscul de a împiedica aprinderea luminilor.

Gama dinamică adevărată

Există o serie de programe cum ar fi (Analyzer DXO, IMATEST, RAWDIGGER etc.) vă permit să măsurați gama dinamică a unei camere digitale la domiciliu. În principiu, aceasta nu este o mare nevoie, deoarece datele pentru majoritatea camerelor pot fi găsite în mod liber pe Internet, de exemplu, pe site-ul DXOMARK.com.

Ar trebui să cred rezultatele unor astfel de teste? Destul de. Cu singura rezervare că toate aceste teste sunt definite eficient sau, dacă îl puteți exprima, gama tehnică dinamică, adică. Relația dintre nivelul de saturație și nivelul de zgomot al matricei. Pentru fotograf, intervalul dinamic util este în primul rând important, adică. Numărul de zone de expunere care vă permit cu adevărat să capturați câteva informații utile.

După cum vă amintiți, pragul gamei dinamice este specificat de nivelul zgomotului seensorului foto. Problema este că, în practică, zonele inferioare primite în intervalul dinamic, conține totul prea mult zgomot, astfel încât acestea să poată fi utilizate pentru utilizare. Aici depinde mult de stoarcerea individuală - nivelul acceptabil de zgomot fiecare determină pentru sine.

Avizul meu subiectiv este că detaliile din umbre încep să arate mai mult sau mai puțin decent cu raportul de semnal / zgomot cel puțin opt. Pe această bază, determinăm pentru mine o gamă dinamică utilă, ca o gamă dinamică tehnică minus aproximativ trei pași.

De exemplu, dacă camera de oglindă în funcție de rezultatele testelor fiabile are o gamă dinamică de 13 EV, care este foarte bună pentru standardele de astăzi, atunci gama sa dinamică utilă va fi de aproximativ 10 EV, care, în general, este, de asemenea, foarte aprofundată . Desigur, vorbim despre fotografiere în Raw, cu o iso minimă și un pic maxim. La fotografiere în JPEG, gama dinamică depinde puternic de setările de contrast, dar în medie două sau trei pași ar trebui eliminate.

Pentru comparație: fotografii închise color au o latitudine fotografică utilă de 5-6 pași; Filmele negative negre și albe oferă 9-10 pași cu proceduri de manifestare și imprimare standard și cu anumite manipulări - până la 16-18 pași.

Rezumând cele de mai sus, vom încerca să formulăm câteva reguli simple, care vă vor ajuta să ieșiți din senzorul de performanță maximă a camerei:

  • Gama dinamică a camerei digitale este complet accesibilă numai atunci când fotografiați în RAW.
  • Gama dinamică scade cu creșterea sensibilității la lumină și, prin urmare, evită valorile ISO ridicate dacă nu există o necesitate ascuțită.
  • Utilizarea descărcării mai mari pentru fișierele brute nu crește gama dinamică adevărată, dar îmbunătățește separarea tonală în umbre datorită mai mult Niveluri de luminozitate.
  • Expunerea la dreapta. Zonele de expunere superioare conțin întotdeauna maxim informatii utile Cu un minim de zgomot și ar trebui să fie utilizat cel mai eficient. În același timp, nu trebuie să uitați de pericolul de tăiere - pixeli care au atins saturația sunt absolut inutile.

Și principalul lucru: nu este necesar să vă faceți griji cu privire la intervalul dinamic al camerei dvs. Cu o gamă dinamică, este în regulă. Abilitatea dvs. de a vedea lumina și de a gestiona competent expunerea este mult mai importantă. Un fotograf bun nu se va plânge de lipsa de latitudine fotografică, dar va încerca să aștepte un iluminat mai confortabil sau va schimba unghiul sau va folosi blițul, într-un cuvânt, va acționa în funcție de circumstanțe. Vă voi spune mai mult: unele scene au câștigat doar datorită faptului că acestea nu se încadrează în gama dinamică a camerei. Adesea, o abundență inutilă de piese este pur și simplu necesară pentru a se ascunde într-o siluetă neagră semi-rasă care face o fotografie în același timp concis și mai bogată.

Contrast înalt nu este întotdeauna rău - trebuie doar să puteți lucra cu ea. Învățați să exploatați dezavantajele echipamentelor, precum și avantajele sale și veți fi surprins cât de mult se vor extinde oportunitățile creative.

Multumesc pentru atentie!

Vasily A.

Post Scriptum.

Dacă articolul a fost util și informativ pentru dvs., puteți sprijini proiectul, contribuind la dezvoltarea acesteia. Dacă nu ți-a plăcut articolul, dar ai gânduri despre cum să faci mai bine, criticiile tale vor fi acceptate fără mai puțină recunoștință.

Nu uitați că acest articol este obiectul dreptului de autor. Retipărirea și citarea este permisă dacă există o referință existentă la sursa originală, iar textul utilizat nu trebuie selectat sau modificat.

Oamenii care sunt entuziasmați de sunetul de casă demonstrează un paradox interesant. Sunt gata să împingă camera de ascultare, să construiască coloane cu emițători exotici, dar sunt jenați în fața conservată a muzicalului, ca și cum lupul din fața steagului roșu. Și de fapt, de ce este imposibil ca caseta de selectare să iasă și de la conserve încercați să gătiți ceva mai comestibil?

Periodic, există plângeri pe forum: "Avonsidează albumele bine înregistrate". Este de inteles. Ediții speciale audio, deși vor încânta să audă primul minut, dar nimeni nu ascultă sfârșitul, doare repertoriul. În ceea ce privește restul fonoteciului, problema pare evidentă. Puteți salva, dar nu puteți salva și goliți un buzunar de bani în componente. Încă nu-mi place să ascult muzica preferată pe un volum mare și la posibilitatea unui amplificator aici.

Astăzi, chiar și în albumele Hi-Res, vârfurile fonogramei și volumul condusului în tăiere sunt tăiate. Se crede că majoritatea ascultă muzică pe fiecare junk și, prin urmare, este necesar să "întrebi GAT", să facă un fel de dedicație.


Desigur, acest lucru nu se face în mod specific la audiofilele supărate. Despre ei În general, puțini oameni își amintesc. Ei bine, cu excepția faptului că au ghicit să lase dosarele de master cu care circulația principală este copiată - CD-uri, MP3 și așa mai departe. Desigur, vrăjitorul a fost de mult timp aplatizat de compresor, nimeni nu va pregăti în mod conștient versiuni speciale pentru piesele HD. Este o anumită procedură pentru transportorul de vinil, care din acest motiv și sună mai uman. Și pentru calea digitală, totul se încheie la fel - un compresor gros gros.

Deci, în prezent, toate cele 100% din fonogramele publicate, minus muzica clasică, sunt supuse la compresie atunci când este masthering. Cineva efectuează această procedură mai mult sau mai puțin pricepută, iar cineva este complet prost. Ca rezultat, avem pelerini pe forumuri cu linia pluginului dr pentru sinusuri, comparații dureroase ale publicațiilor, scăpând spre vinil, unde aveți nevoie și de un popper principal.

Cea mai înghețată la vedere a tuturor acestor dezmeziri întoarse literalmente în pantofii audio. Nici o glumă, ci citesc sursa de sunet Sfânta Scriptură înapoi! Programele moderne de editare a sunetului au un instrument de restaurare unda de sunetTăiat tăiat.

Inițial, această funcționalitate a fost destinată studiourilor. Atunci când sunt amestecate, există situații în care tăierea a venit să scrie și nu mai este posibilă remake-ul din mai multe motive, iar aici vine la redactorul audio Arsenal - Decalipper, decompresor etc.

Și deja pentru astfel de software, toți cei mai îndrăzneți atrage mânerele ascultătorilor obișnuiți care au sânge din urechi după următoarea noutate. Cineva preferă Izotop, cineva Adobe Audition, cineva operațiunile acționează între mai multe programe. Semnificația restaurării fostei dinamici este de a corecta corect vârfurile de semnal placate cu cleme, care, odihnindu-se în 0 dB, seamănă cu o unelte.

Da, renașterea de aproximativ 100% a sursei de vorbire nu merge, deoarece apar procesele de interpolare asupra algoritmilor destul de speculativi. Dar totuși, unele dintre rezultatele procesării mi se părea interesant și demn de studiu.

De exemplu, albumul lui Lana del Rey "Lust pentru viață", în mod constant încruntat, HAP, conducerea! În melodia originală "Când lumea era în război, am continuat să dansez" a fost așa.


Și după o serie de decalpperi și decompresori, a devenit așa. Coeficientul DR a schimbat de la 5 la 9. Descărcați și ascultați eșantionul înainte și după procesare.


Nu pot spune că metoda este universală și este potrivită pentru toate albumele desfășurate, dar în acest caz am preferat să păstrez în colecție exact această opțiune tratată cu un activist Rutraker, în loc de publicația oficială în 24 de biți.

Chiar dacă tragerea artificială a vârfurilor de la sunet tocată nu se întoarce adevărata dinamică a performanței muzicale, DAC-ul dvs. va mai spune că vă mulțumesc oricum. A fost atât de greu pentru el să lucreze fără greșeli la nivelurile limită, unde probabilitatea așa-numitelor vârfuri intersmonice (ISP) este minunată. Și acum până la 0 dB va dupa doar ploile rare ale semnalului. În plus, fonograma declanșată atunci când este comprimată în flac sau alt codec fără pierderi va fi acum mai mică. Mai mult "aer" din semnal salvează spațiul hard disk.

Încercați să vă revigorați cele mai urâte albume ucise pe "războiul volumului". Pentru rezerva difuzorului, trebuie mai întâi să reduceți nivelul piesei de pe -6 dB și apoi să începeți declipperul. Cei care nu cred că computerele pot pur și simplu între playerul CD și expandarea studioului Amplificator. Acest aparat În esență, se face în același mod - așa cum poate restabili și trage vârfurile comprimate peste dinamica semnalului audio. Există dispozitive similare din anii 80-90, ca să nu spun că sunt foarte scumpe, și ca un experiment, încercați-le foarte interesant.


Controlorul dinamic DBX 3BX procesează semnalul separat în trei dungi - LF, SC și RF

Odată ce egalizatorii s-au acordat o componentă a sistemului audio și nimeni nu se temea de ele. Astăzi nu este necesar să se ridice frecvențele înalte ale benzii magnetice, dar cu dinamica urâtă este necesar să rezolvăm ceva, frații.

Compresie dinamică (Compresia dinamică a intervalului, RDC) este o îngustare (sau o expansiune în cazul unui expander) a gamei dinamice a fonogramei. Gama dinamicăAceasta este diferența dintre cel mai liniștit și cel mai puternic sunet. Uneori, cea mai liniștită din fonogramă va fi sunetul unui nivel puțin puternic de zgomot și, uneori, un pic mai liniștit de cel mai tare. Dispozitivele și programele hardware care efectuează compresie dinamică sunt numite compresoare, evidențiind patru grupuri principale: compresoare, limitator, expandenți și porți.

Lampa compresorului analogic DBX 566

Reducerea și promovarea compresiei

Scăderea compresiei (Compresie descendentă) reduce volumul sonor când începe să depășească o anumită valoare de prag, lăsând sunetele mai silențioase neschimbate. Opțiunea extremă a compresiei mai mici este limitator.. Compresie de îmbunătățire (Compresie ascendentă), dimpotrivă, mărește volumul sunetului, dacă este sub prag, fără a afecta mai mult sunete puternice. În același timp, ambele tipuri de comprimare îngustă intervalul dinamic al semnalului audio.

Scăderea compresiei

Compresie de îmbunătățire

Expander și poarta

Dacă compresorul reduce intervalul dinamic, expander crește. Când nivelul semnalului devine deasupra nivelului de prag, expandentul o mărește și mai mult, crescând astfel diferența dintre sunetele puternice și liniștite. Astfel de dispozitive sunt adesea utilizate la înregistrarea instalării tamburului pentru a separa sunetele unor tobe de la alții.

Tipul de expander, care nu este folosit pentru a spori cu voce tare și pentru a usca sunetele liniștite care nu depășesc nivelul valorii pragului (de exemplu, zgomotul de fundal) se numește Poarta de zgomot.. Într-un astfel de dispozitiv, de îndată ce nivelul sonor devine mai mic decât pragul, trecerea semnalului este oprit. În mod obișnuit, poarta este folosită pentru a suprima zgomotul în pauze. Pe unele modele se poate face astfel încât sunetul atunci când nivelul pragului nu se oprește brusc, dar treptat Roamed. În acest caz, viteza de atenuare este stabilită de regulatorul de degradare (recesiune).

Poarta, ca și alte tipuri de compresoare, poate frecvență dependentă (adică, în moduri diferite de a procesa anumite benzi de frecvență) și pot funcționa în modul lanț lateral. (Vezi mai jos).

Principiul funcționării compresorului

Semnalul care se încadrează în compresor este împărțit în două exemplare. O copie este trimisă la amplificator, în care gradul de amplificare este controlat de un semnal extern, a doua copie - formează acest semnal. Intră în dispozitivul numit lanț lateral, unde semnalul este măsurat și plicul este creat pe baza acestor date care descriu schimbarea volumului său.
Deci, cele mai moderne compresoare sunt aranjate, acesta este așa-numitul tip de alimentare înainte. La dispozitive mai vechi (tip de feedback), nivelul semnalului este măsurat după amplificator.

Există diverse tehnologii de control analogic (amplificare variabil-câștig), fiecare cu avantajele și dezavantajele sale: lămpi, optice folosind Photoresistra și Transistum. Când lucrați cu audio digital (în editorul de sunet sau DAW), pot fi utilizate propriile algoritmi matematici sau poate fi introdusă funcționarea tehnologiei analogice.

Parametrii principali ai compresoarelor

Prag.

Compresorul reduce semnalul audio în cazul în care amplitudinea sa primește o valoare de prag specifică (prag). De obicei, este indicat în decibeli, cu un prag mai mic (de exemplu, -60 dB) înseamnă că sunetul va fi procesat decât cu un prag mai mare (de exemplu, -5 dB).

Raport.

Gradul de scădere a nivelului este determinat de parametrul raportului: Raportul 4: 1 înseamnă că, dacă nivelul de intrare este de 4 dB depășește pragul, nivelul de ieșire va fi mai mare decât pragul cu 1 dB.
De exemplu:
Prag \u003d -10 db
Semnal de intrare \u003d -6 dB (pe 4 dB deasupra pragului)
Semnal de ieșire \u003d -9 dB (pe 1 dB deasupra pragului)

Este important să rețineți că suprimarea nivelului de semnal continuă și ceva timp după ce scade sub nivelul pragului și acest timp este determinat de valoarea parametrului eliberare.

Comprimarea cu valoarea maximă a raportului ∞: 1 se numește limitare. Aceasta înseamnă că orice semnal de deasupra nivelului de prag este suprimat înainte de nivelul pragului (cu excepția unei perioade scurte după o creștere accentuată a volumului de intrare). Pentru detalii, vedeți mai jos "limitator".

Exemple de valori diferite ale raportului

Atac și eliberare

Compresorul oferă un anumit control asupra cât de repede răspunde la schimbarea dinamicii semnalului. Parametrul atacului definește timpul pentru care compresorul reduce coeficientul de câștig la nivelul, care este determinat de parametrul raportului. Eliberarea definește timpul pentru care compresorul, dimpotrivă, mărește coeficientul de câștig sau revine la normal dacă nivelul semnalului de intrare scade sub valoarea pragului.

Fazele de atac și de eliberare

Acești parametri indică timpul (de obicei în milisecunde), care va fi necesar pentru a schimba consolidarea la o anumită cantitate de decibeli, este de obicei 10 dB. De exemplu, în acest caz, dacă atacul este setat la 1 ms, pentru a reduce câștigul cu 10 dB, va fi necesar 1 ms și 20 dB - 2 ms.

În multe compresoare, parametrii de atac și eliberare pot fi configurați, dar în unele sunt inițial stabilite și nu reglementate. Uneori sunt desemnați ca "automat" sau "dependenți de program", adică. variază în funcție de semnalul de intrare.

Genunchi.

Un alt parametru compresor: genunchi greu / moale. Aceasta determină dacă începutul aplicării compresiei este ascuțit (greu) sau gradual (moale). Genunchiul moale reduce somnul de tranziție de la semnalul brut la semnalul supus compresiei, în special la valorile rapoarte ridicate și creșterea volumului ascuțite.

Genunchiul dur și compresia genunchiului moale

Vârf și RMS.

Compresorul poate reacționa la valorile de vârf (maxim) pe termen scurt sau la nivelul de intrare medii. Utilizarea valorilor de vârf poate duce la fluctuații ascuțite în gradul de comprimare și chiar la denaturarea. Prin urmare, compresoarele aplică funcția de medieging (de obicei acest lucru este RMS) semnal de intrare atunci când o compară cu o valoare de prag. Oferă o comprimare mai confortabilă, aproape de percepția umană a volumului.

RMS este un parametru care reflectă volumul mediu al fonogramei. Din punct de vedere matematic, RMS (Piața medie rădăcină) este valoarea RMS a amplitudinii unui anumit număr de eșantioane:

Stereo legătură.

Compresorul în modul de legare stereo aplică același câștig la ambele canale stereo. Acest lucru evită deplasarea stereopanoramei, care poate fi rezultatul procesării individuale a canalelor stângi și drepte. O astfel de deplasare are loc dacă, de exemplu, orice element puternic nu a fost în centru.

Câștigul de machiaj.

Deoarece compresorul reduce nivelul de semnal general, se adaugă de obicei posibilitatea câștigului fix la ieșire, ceea ce vă permite să obțineți nivelul optim.

PRIVESTE INAINTE.

Funcția de căutare este concepută pentru a rezolva problemele specifice atât a atacurilor și a valorilor prea mici, cât și de eliberare. Prea multe atacuri nu vă permit să interceptați efectiv tranzitorii, dar prea mic nu poate fi confortabil pentru ascultător. Când utilizați funcția Look-After, semnalul principal este întârziat în raport cu controlerul, vă permite să începeți comprimarea în avans, chiar înainte ca semnalul să atingă valoarea pragului.
Singurul dezavantaj al acestei metode este întârzierea semnalului, care, în unele cazuri, nedorită.

Utilizarea compresiei dinamice

Compresia este utilizată peste tot, nu numai în fonograme muzicale, dar și peste tot, unde trebuie să măriți volumul total, fără a crește nivelul de vârf în care se utilizează echipamentul de reproducere a sunetului sau un canal de transmisie limitat (sistem de alertă, radio amator, etc.).

Compresia se aplică la redare muzica de fundal (în magazine, restaurante etc.), în cazul în care orice modificări de volum vizibil sunt nedorite.

Dar cel mai important domeniu de aplicare a comprimării dinamice este producția muzicală și difuzarea. Comprimarea este utilizată pentru a da sunetul de "densitate" și "unitate" pentru o combinație mai bună de instrumente unul cu celălalt și mai ales atunci când procesează voce.

Părțile vocale din muzică rock și pop sunt, de obicei, supuse compresiei pentru a le evidenția pe fundalul acompaniamentului și a adăuga claritate. Un tip special de compresor, configurat numai pe anumite frecvențe - Deesser, este folosit pentru a suprima fundalul de șoc.

În partidele instrumentale, compresia este, de asemenea, utilizată pentru efectele care nu sunt direct legate de volum, de exemplu, sunetele de tambur care se estompează rapid pot deveni mai prelungite.

În muzica de dans electronică (EDM), chenanța laterală este adesea utilizată (vezi mai jos) - de exemplu, linia de bas poate fi controlată de un butoi sau ceva similar pentru a preveni conflictul de bas și tobe și pentru a crea o pulsație dinamică.

Compresia este utilizată pe scară largă în transmisia de difuzare (radio, televiziune, internet de transmisie) pentru a crește volumul perceput, reducând în același timp gama dinamică a sursei audio (de obicei CD). Majoritatea țărilor au restricții legale privind volumul maximum maxim, care poate fi difuzat. În mod tipic, aceste limitări sunt implementate de compresoare de hardware constante în lanțul eteric. În plus, o creștere a volumului perceput îmbunătățește "calitatea" sunetului din punctul de vedere al majorității ascultătorilor.

Vezi si Războiul de zgomot.

O creștere consistentă a volumului aceluiași cântec a fost interpretată pentru CD din 1983 până în 2000.

Cantaj lateral.

Un alt comutator de compresoare frecvent găsit este "lanțul lateral". În acest mod, compresia sunetului nu apare în funcție de nivelul propriu, dar în funcție de nivelul semnalului care introduce conectorul, care este așa de numit, de obicei, lanț lateral.

Acest lucru poate fi găsit mai multe aplicații. De exemplu, vocalistul Shepelvit și toate literele "C" ies în evidență din imaginea de ansamblu. Vă distrugeți vocea prin compresor, iar conectorul lanțului lateral servește același sunet, dar a ratat prin egalizator. Pe egalizator eliminați toate frecvențele, cu excepția celor utilizate de vocalist când pronunțând litera "C". De obicei, aproximativ 5 kHz, dar poate fi de la 3 kHz la 8 kHz. Dacă puneți apoi un compresor în modul lanț lateral, atunci comprimarea vocii va apărea în acele momente atunci când litera "C" este pronunțată. Astfel, sa dovedit un dispozitiv cunoscut sub numele de "Deesser" (De-Esser). Această metodă de lucru se numește "dependentă de frecvență" (dependentă de frecvență).

O altă utilizare a acestei caracteristici se numește "Ducker". De exemplu, pe o stație de radio, muzica trece prin compresor, iar cuvintele DJ - printr-un lanț lateral. Când DJ începe să vorbească, volumul muzicii este redus automat. Acest efect poate fi utilizat cu succes în înregistrări, de exemplu, reduceți volumul loturilor de tastatură în timpul cântând.

Limitarea peretelui din cărămidă

Compresorul și limiterul sunt aproximativ aceleași, se pot spune că limiterul este un compresor de mare raport (de la 10: 1) și, de obicei, timp de atac scăzut.

Există un concept de limitare a peretelui de cărămidă - un raport foarte ridicat (de la 20: 1 și mai sus) și un atac foarte rapid. În mod ideal, nu permite semnalul să depășească nivelul pragului. Rezultatul va fi neplăcut pentru zvonuri, dar acest lucru va preveni deteriorarea tehnologiei de reproducere a sunetului sau a lățimii de bandă excesivă a canalelor. Mulți producători integrează dispozitivele limitatorului în acest scop.

Clipper vs. Limitator, tăiere moale și tare

Acest grup de metode se bazează pe faptul că semnalele transmise sunt supuse unor transformări de amplitudine neliniare, iar în transmiterea și primirea părților de neliniaritate sunt convertite. De exemplu, dacă transmițătorul utilizează o funcție neliniară Öu, în receptorul - U2. Aplicarea consecventă a funcțiilor convergente va duce la faptul că, în general, transformarea rămâne liniară.

Ideea unor metode neliniare de comprimare a datelor este redusă la faptul că transmițătorul poate da o gamă mai largă de modificări a parametrului transmis cu aceeași amplitudine a semnalelor de ieșire (adică, o gamă mai mare dinamică). Gama dinamică - aceasta este exprimată în unități relative sau atitudinea decibellah a celei mai mari amplitudini de semnal admisibil la cel mai mic:

; (2.17)
. (2.18)

Dorința naturală de a crește intervalul dinamic prin reducerea U min este limitat de sensibilitatea echipamentului și o creștere a efectului interferenței și a propriului zgomot.

Cel mai adesea, compresia intervalului dinamic se realizează folosind o pereche de funcții convergente de logaritură și potențare. Prima operație de schimbare a amplitudinii este numită comprimare(compresie), al doilea - expandare (întindere). Alegerea acestor funcții este legată de cea mai mare capacitate de compresie.

În același timp, aceste metode au dezavantaje. Primul dintre ele este că logaritmul unui număr mic este negativ și în limită:

adică, sensibilitatea este foarte neliniară.

Pentru a reduce aceste dezavantaje, ambele funcții sunt modificate prin offset și aproximare. De exemplu, pentru canalele telefonice, funcția aproximativă este legată (tip A,):

Și A \u003d 87,6. Câștigul de la compresie este de 24db.

Compresia datelor prin proceduri neliniare este implementată de facilități analogice cu erori mari. Utilizarea instrumentelor digitale poate îmbunătăți în mod semnificativ acuratețea sau viteza transformării. În același timp, utilizarea directă a fondurilor echipamente de calculator (adică calcularea directă a logaritmilor și exponențiale) nu va da niciun rezultat mai bun datorită unei erori de calcul scăzute și a acumulării de calcul.

Compresia datelor prin comprimare din cauza restricțiilor de precizie este utilizată în cazurile de non-răspuns, de exemplu, pentru a transmite discursul pe canalele telefonice și radio.

Codarea eficientă

Au fost oferite coduri eficiente la Sundon, Fano și Hafman. Esența codurilor este că acestea sunt neuniforme, adică cu o altă categorie de evacuări, iar durata codului este invers proporțională cu probabilitatea apariției sale. O altă caracteristică remarcabilă a codurilor eficiente - nu necesită separatoare, adică caractere speciale care separă combinațiile de cod vecin. Acest lucru se realizează prin observarea norma simplă: Codurile mai scurte nu sunt începutul mai mult. În acest caz, fluxul solid de descărcări binare este decodificat în mod unic, deoarece decodorul dezvăluie mai întâi cele mai scurte combinații de coduri. Codurile eficiente pentru o lungă perioadă de timp au fost pur academice, dar recent utilizate în formarea bazelor de date, precum și în comprimarea informațiilor în modemurile moderne și în arhivele de software.

Datorită inegalității, este introdusă lungimea medie a codului. Lungime medie - așteptarea matematică a lungimii codului:

mai mult decât atât, L CP tinde la H (X) de sus (adică l Mier\u003e H (x)).

Implementarea condiției (2.23) este îmbunătățită prin creșterea N.

Există două soiuri de coduri eficiente: Shannon Fano și Hafman. Ia în considerare primirea lor pe exemplu. Să presupunem că probabilitățile personajelor din secvență sunt semnificațiile prezentate în tabelul 2.1.

Tabelul 2.1.

Probabilități ale simbolurilor

N.
P I. 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Simbolurile sunt clasate, adică, ei caută într-un rând despre probabilitatea descrescătoare. După aceasta, conform metodei Fano Shennon, următoarea procedură este repetată periodic: întregul grup de evenimente este împărțit în două subgrupuri cu aceleași (sau aproximativ aceleași) probabilități totale. Procedura continuă până când un element rămâne în următorul subgrup, după care acest element este eliminat și cu restul acestor acțiuni continuă. Acest lucru se întâmplă până când ultimele două subgrupuri rămân un element. Continuați să luați în considerare exemplul nostru, care este redus în tabelul 2.2.

Tabelul 2.2.

Metoda Chennon Fano.

N. P I.
4 0.3 I.
0.2 I. II.
6 0.15 I. I.
0.1 II.
1 0.1 I. I.
9 0.05 II. II.
5 0.05 II. I.
7 0.03 II. II. I.
8 0.02 II.

După cum se poate observa din tabelul 2.2, primul simbol cu \u200b\u200bo probabilitate P 4 \u003d 0.3 a participat la două proceduri de partiționare și ambele ori au lovit grupul cu numărul I. În conformitate cu aceasta, este codificată de codul biți II. Cel de-al doilea element din prima etapă a partiției a aparținut grupului I, pe cel de-al doilea grup II. Prin urmare, codul său 10. Codurile restului personajelor din comentariile suplimentare nu au nevoie.

De obicei, codurile neuniforme sunt descrise sub formă de copaci de cod. Arborele de cod este un grafic care indică combinațiile de cod permise. Pre-specificați direcțiile coastelor acestui grafic, așa cum se arată în Fig.2.11 (alegerea direcțiilor este arbitrară).

Graficul este ghidat după cum urmează: formați un traseu pentru un simbol dedicat; Numărul de descărcări pentru acesta este egal cu numărul de margini din traseu, iar valoarea fiecărei descărcări este egală cu direcția coastei corespunzătoare. Traseul este alcătuit sursa Point. (Pe desen este marcat cu o literă a). De exemplu, traseul spre vertexul 5 constă din cinci coaste, dintre care totul, în plus față de acesta, are direcție 0; Obținem codul 00001.

Calculați pentru acest exemplu entropia și lungimea mijlocie a cuvântului.

H (x) \u003d - (0,3 log 0.3 + 0.2 log 0.2 + 2 0.1 Log 0.1+ 2 0.05 log 0.05+

0,03 log 0.03 + 0.02 log 0.02) \u003d 2.23 biți

l cp \u003d 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

După cum se poate observa, lungimea medie a cuvântului este aproape de entropie.

Codurile Hafman sunt construite pe un alt algoritm. Procedura de codare constă în două etape. În prima etapă, compresia unică a alfabetului este în mod consecvent. Compresia unică este înlocuirea ultimelor două caractere (cu probabilități mai mici), cu o probabilitate totală. Compresia se efectuează până când rămân două caractere. În același timp, umpleți tabelul de codificare în care sunt aplicate probabilitățile rezultate și, de asemenea, descrie căi pentru care personajele noi se deplasează în etapa următoare.

În cea de-a doua etapă, se produce codificarea în sine, care începe din ultima etapă: prima dintre cele două caractere atribuie codul 1, al doilea - 0. După aceea, mergeți la etapa anterioară. La simbolurile care nu au participat la compresie în această etapă, codurile de atribut din etapa ulterioară și cele două cele mai recente caractere atribuie de două ori codul de simbol obținut după lipire și se adaugă la codul de simbol superior 1, mai mic - 0. Dacă Simbolul este în continuare la lipire Participă, codul său rămâne neschimbat. Procedura continuă până la sfârșit (adică până la prima etapă).

Tabelul 2.3 prezintă codarea de-a lungul algoritmului Hafman. După cum se poate vedea din tabel, codificarea a fost efectuată în 7 etape. În partea stângă sunt probabilitățile de caractere, la dreapta - coduri intermediare. Săgețile arată că se mișcă personaje nou formate. La fiecare etapă, ultimele două caractere diferă numai cu descărcarea mai tânără, ceea ce corespunde tehnicii de codificare. Calculăm lungimea medie a cuvântului:

l CF \u003d 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 \u003d 2,7

Este chiar mai aproape de entropie: codul este și mai eficient. În fig. 2.12 arată copacul de cod Hafman.

Tabelul 2.3.

Codând pe algoritmul Hafman

N. P I. Codul I. II. III. IV. V. VI. VII.
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Ambele coduri îndeplinesc cerința de decodificare a unicității: După cum se poate observa din tabele, combinațiile mai scurte nu sunt începutul codurilor mai lungi.

Cu un număr tot mai mare de simboluri, eficacitatea codurilor crește, astfel încât, în unele cazuri, blocuri mai mari (de exemplu, dacă vorbim despre texte, puteți codifica unele dintre cele mai frecvente silabele, cuvintele și chiar frazele).

Efectul punerii în aplicare a acestor coduri este determinat în comparație cu codul uniform:

(2.24)

unde n este numărul de descărcări uniforme de cod, care este înlocuit cu eficace.

Modificări ale codurilor Khafman

Algoritmul clasic Hafman se referă la două-passabile, adică. Necesită setul inițial de statistici privind simbolurile și mesajele și apoi procedurile descrise mai sus. Este incomod în practică, deoarece crește timpul de procesare a mesajelor și acumularea dicționarului. Metode cu un singur pas în care procedurile de acumulare și codificare sunt combinate. Astfel de metode sunt, de asemenea, numite compresie adaptivă de-a lungul HAFMAN [46].

Esența compresiei adaptive pe HAFMAN este redusă la construirea copacului inițial de cod și modificarea consistentă după primirea fiecărui simbol următor. Ca și înainte, copacii de aici sunt binari, adică. Din fiecare vârf al grafului - lemn, apare un maxim de două arcii. Este obișnuit să sunați la vârful original de către părinte, iar cele două vârfuri asociate următoare - copii. Introducem conceptul de greutate al vertexului - acesta este numărul de caractere (cuvinte) corespunzător acestui vârf obținut când se aplică secvența inițială. Evident, suma scalelor copiilor este egală cu greutatea părintelui.

După introducerea următorului simbol al secvenței de intrare, arborele de cod este revizuit: Greutățile vârfurilor sunt recalculate și, dacă este necesar, vârfurile sunt rearanjate. Regula de rearanjare a vârfurilor după cum urmează: Greutățile vârfurilor inferioare sunt cele mai mici, iar vârfurile care sunt lăsate pe coloană au cele mai mici greutăți.

În același timp, vârfurile sunt numerotate. Numerotarea începe cu cele inferioare (agățate, adică care nu au copii) la stânga la dreapta, apoi transferate la nivelul superior etc. la numerotarea ultimului vertex sursă. În același timp, se realizează următorul rezultat: mai puțină greutate a vârfului, cu atât numărul său mai puțin.

Permutarea se desfășoară în principal pentru vârfurile agățate. Când este luată în considerare permutarea, regula formulată: vârfurile cu greutate mare au un număr mai mare.

După trecerea secvenței (se numește și controlul sau testarea), combinațiile de cod sunt atribuite tuturor vârfurilor agățate. Regula de atribuire a regulii este similară cu cele de mai sus: numărul de descărcări de cod este egal cu numărul de vârfuri prin care traseul se desfășoară de la sursă la acest vârf agățat, iar valoarea unei descărcări specifice corespunde direcției de la părinte la "Copilul" (spuneți, tranziția spre stânga de la părinte corespunde valorii 1, dreapta - 0).

Combinațiile de cod obținute sunt introduse în memoria dispozitivului de compresie împreună cu analogii și formează un dicționar. Utilizarea algoritmului este după cum urmează. Secvența comprimabilă a caracterelor este împărțită în fragmente în conformitate cu dicționarul existent, după care fiecare dintre fragmente este înlocuit de codul său din dicționar. Fragmentele care nu au fost detectate în dicționarul formează noduri noi suspendate, câștigați greutate și sunt, de asemenea, introduse în dicționar. Acesta este format dintr-un algoritm adaptiv pentru o completare a dicționarului.

Pentru a crește eficiența metodei, este de dorit să mă măriți dimensiunea dicționarului; În acest caz, coeficientul de compresie crește. Practic, dimensiunea dicționarului este de 4 - 16 kB de memorie.


Noi ilustrează algoritmul dat de un exemplu. În fig. 2.13 prezintă diagrama sursă (este, de asemenea, numită cu un copac Hafman). Fiecare vârf al lemnului este arătat de un dreptunghi, în care două cifre sunt înscrise prin fracțiune: primul înseamnă numărul de vârfuri, al doilea este greutatea sa. Cum vă puteți asigura că greutățile versice și numerele lor sunt satisfăcute.

Să presupunem că acum că simbolul corespunzător vârfului 1, în secvența de testare, a îndeplinit secundarul. Greutatea vârfurilor a fost modificată, așa cum se arată în fig. 2.14, ca rezultat, numărul de numerotare a vârfului este încălcat. În etapa următoare, schimbăm aspectul vârfurilor agățate, pentru care schimbăm vârfurile 1 și 4 și invocând toate vârfurile copacului. Graficul rezultat este prezentat în fig. 2.15. Apoi, procedura continuă în mod similar.

Trebuie amintit că fiecare vârf agățat în copacul Hafman corespunde unui anumit simbol sau grupului lor. Părintele este diferit de copii prin faptul că un grup de personaje, este potrivit pentru el, pentru un simbol pe scurt, decât copiii săi, și acești copii diferă în ultimul simbol. De exemplu, părinții corespund simbolurilor "mașinii"; Apoi copiii pot avea o secvențe "Kara" și "CARP".

Algoritmul de mai sus nu este academic și este utilizat în mod activ în programele - arhivul, inclusiv la comprimarea datelor grafice (acestea vor fi discutate mai jos).

Lempel - Algoritmi Ziva

Acestea sunt cele mai frecvent utilizate algoritmi de compresie. Acestea sunt folosite în majoritatea programelor - arhive (de exemplu, PKZIP. ARJ, LHA). Esența algoritmilor este că un anumit set de caractere este înlocuit când o arhivați într-un dicționar special generat. De exemplu, adesea găsită în afacerile expresiei "pe numărul dvs. de ieșire ..." poate ocupa în poziția 121; Apoi, în loc să transferați sau depozitați expresia menționată (30 octeți), puteți stoca numărul de frază (1.5 octeți în formă binară - zecimal sau 1 byte - în binar).

Algoritmii sunt numiți după ce autorii care le-au oferit pentru prima dată în 1977. Dintre acestea, primul - LZ77. Pentru arhivare, se creează așa-numita fereastră glisantă constând din două părți. Prima parte, format mai mare, servește pentru a forma un dicționar și are o dimensiune de ordinul mai multor kilobytes. În cea de-a doua, partea mai mică (de obicei până la 100 de octeți) sunt acceptate de caracterele actuale ale textului vizualizat. Algoritmul încearcă să găsească în setul de caractere care coincide cu fereastra vizualizată. Dacă este posibil, este generat un cod format din trei părți: o deplasare în dicționar cu privire la substringul său inițial, lungimea acestui substring lângă acest caracter substrat. De exemplu, un substrat dedicat constă din "aplicații" simboluri (doar 6 caractere), următorul simbol este "e". Apoi, dacă substringul are o adresă (loc în dicționar) 45, atunci înregistrarea din dicționar are forma "45, 6. E". După aceea, conținutul ferestrei se schimbă în poziție, iar căutarea continuă. Astfel, se formează un dicționar.

Avantajul algoritmului este un algoritm ușor formalizat pentru compilarea unui dicționar. În plus, este posibil să dezarhivați și fără dicționarul inițial (este de dorit să aveți o secvență de testare) - dicționarul este format în procesul de neimbol.

Dezavantajele algoritmului apar cu o creștere a dimensiunii dicționarului - timpul de căutare este în creștere. În plus, dacă un șir de caractere lipsește în fereastra curentă, fiecare simbol este scris în codul de trei elemente, adică. Se pare că nu este compresie, dar întinderea.

Cele mai bune caracteristici Are algoritmul LZSS propus în 1978. Are diferențe în menținerea ferestrei glisante și a codurilor de ieșire ale compresorului. În plus față de fereastră, algoritmul formează un copac binar, similar copacului Hafman pentru a accelera căutarea coincidențelor: Fiecare substring care părăsește fereastra curentă este adăugată la copac ca unul dintre copii. Un astfel de algoritm vă permite să măriți în continuare dimensiunea ferestrei curente (este de dorit ca valoarea sa egală cu gradul de două: 128, 256, etc.). Codurile de secvență sunt, de asemenea, formate în mod diferit: prefixul de 1 biți este introdus suplimentar pentru a distinge caracterele non-proiectate din perechi "Offset, Lungime".

Se obține o compresie și mai mare utilizând algoritmi de tip LZW. Algoritmii descriși anterior au o dimensiune fixă \u200b\u200ba ferestrei, ceea ce duce la imposibilitatea de a intra în dicționarul de fraze este mai lungă decât dimensiunea ferestrei. În algoritmii LZW (și predecesorul lor LZ78), fereastra de vizualizare are o dimensiune nelimitată, iar dicționarul acumulează expresia (și nu o totalitate de caractere ca înainte). Dicționarul are o lungime nelimitată, iar codificatorul (decodor) operează în modul de modul de așteptare. Când este formată expresia care coincide cu dicționarul, codul de coincidență este emis (adică codul acestei fraze în dicționar) și codul următorului simbol din spatele ei. Dacă se formează simboluri o nouă frază, este introdusă, de asemenea, în dicționar, ca cea mai scurtă. Ca urmare, se formează o procedură recursivă, oferind o codificare rapidă și decodificare.

O oportunitate suplimentară Compresia oferă codificarea comprimată a caracterelor repetitive. Dacă în secvență, unele caractere urmează într-un rând (de exemplu, în text poate fi caracterele "spațiu", în secvența numerică - cu zerouri, etc.), este logic să-i înlocuiască perechea "; lungime "Sau" semn, lungime ". În primul caz, codul indică caracteristica că secvența este codificată (de obicei 1 biți), apoi codul simbolului repetat și lungimea secvenței. În al doilea caz (furnizat pentru cele mai frecvente simboluri repetate) în prefixul indică pur și simplu un semn de repetări.