Zvuková komprese: Princip a konfigurace. Syntéza a rozpoznávání řeči

Během doby, kdy výzkumníci rovněž přistoupili k řešení problému vytvoření řeči rozhraní pro počítače, to bylo často nutné vyrábět vybavení nezávisle, což vám umožní zadat zvukové informace do počítače, stejně jako zobrazení z počítače. Dnes, tato zařízení mohou mít jedinečný historický zájem, protože moderní počítače mohou snadno vybavit vstupní a výstupní zařízení, jako jsou například adaptéry zvuku, mikrofony, sluchátka a zvukové sloupce.

V úvahu nebudeme prohloubit vnitřní zařízení Tato zařízení, ale řekneme o tom, jak fungují, a poskytují některá doporučení pro výběr zvukových počítačových zařízení pro práci s rozpoznávacími systémy a syntézou řeči.

Jak jsme již mluvili v předchozí kapitole, zvuk není nic víc než vzduchové oscilace, jejichž frekvence spočívá ve frekvenčním rozsahu vnímaném osobou. U různých lidí se mohou přesné limity rozsahu slyšitelných frekvencí lišit, je však věřil, že zvukové oscilace leží v rozmezí 16-20 000 Hz.

Úkolem mikrofonu je převést výkyvy zvuku do elektrických oscilací, které mohou být nadále zesíleny, filtruje, aby se odstranil rušení a digitalizoval, aby do počítače zadali zvukové informace.

Podle principu provozu jsou nejběžnější mikrofony rozděleny na uhlí, elektrodynamický, kondenzátor a elektretu. Některé jejich tyto mikrofony vyžadují jejich práci vnější zdroj Proud (například uhlí a kondenzátor), jiní pod vlivem zvukových oscilací mohou samostatně vytvářet střídavé elektrické napětí (jedná se o elektrodynamické a elektretové mikrofony).

Pro tento účel můžete také rozdělit mikrofony. Existují studiové mikrofony, které mohou být drženy v ruce nebo zajistit na stojanu, jsou zde rádiové mikrofony, které mohou být upevněny na oděvu a tak dále.

Existují také mikrofony určené speciálně pro počítače. Tyto mikrofony jsou obvykle připevněny na stojanu na povrchu stolu. Počítačové mikrofony mohou být kombinovány se sluchátky, jak je znázorněno na Obr. 2-1.

Obr. 2-1. Sluchátka s mikrofonem

Jak si vybrat ze všech různých mikrofonů, který je nejvhodnější pro systémy rozpoznávání řeči?

V zásadě můžete experimentovat s libovolným mikrofonem, který máte, pokud to nemůže být připojeno k počítačovému audio adaptéru. Vývojáři systémů rozpoznávání řeči se však doporučují získat takový mikrofon, který v práci bude ve stálé vzdálenosti ústních mluvčích.

Pokud se vzdálenost mezi mikrofonem a ústy nemění, průměrný elektrický signál přicházející z mikrofonu se také příliš mění. To bude mít pozitivní vliv na kvalitu práce moderních systémů rozpoznávání řeči.

Jaký je problém?

Osoba je schopna úspěšně rozpoznat řeč, jejichž objem se mění ve velmi širokých mezích. Lidský mozek je schopen filtrovat tichý projev z rušení, jako je hluk automobilů, které procházejí ulicí, zahraničních konverzací a hudby.

Pokud jde o moderní systémy rozpoznávání řeči, jejich schopnosti v této oblasti ponechají hodně být žádoucí. Pokud se mikrofon stává na stole, poté, když se hlava otáčí nebo mění polohu těla, vzdálenost mezi ústy a mikrofonem se změní. To povede ke změně úrovně výstupního signálu mikrofonu, který se zase zhorší spolehlivost rozpoznávání řeči.

Proto při práci s systémy rozpoznávání řeči budou dosaženo nejlepších výsledků, pokud používáte mikrofon připojený k hlavním hlavám, jak je znázorněno na Obr. 2-1. Při použití takového mikrofonu bude vzdálenost mezi ústy a mikrofonem trvalé.

Vaše pozornost také věnujeme, že všechny experimenty s rozpoznávacími systémy řeči jsou nejlépe prováděny, ponechány v klidné místnosti. V tomto případě bude účinek interference minimální. Samozřejmě, pokud potřebujete vybrat systém rozpoznávání řeči, který je schopen pracovat v podmínkách silného rušení, musí být testy prováděny odlišně. Nicméně, pokud je známo autorům knihy, zatímco dodržování systémů rozpoznávání řeči je stále velmi nízká.

Mikrofon provádí pro nás konverzi zvukových oscilací v kolísáních elektrický proud. Tyto oscilace lze vidět na obrazovce osciloskopu, ale nespěchejte do obchodu koupit toto drahé zařízení. Veškerý oscilografický výzkum můžeme strávit pomocí pravidelného počítače vybaveného zvukovým adaptérem, jako je například adaptér zvuku blaster. Později vám řekneme, jak to udělat.

Na Obr. 2-2 Ukázali jsme oscilogram zvukový signál, Získané, když vyslovil dlouhý zvuk A. Tento oscilogram byl získán za použití programu Goldwave, o kterém stále říkáme v této kapitole knihy, stejně jako pomocí zvukového blasteru a mikrofonu audio adaptéru, podobný tomu, co je znázorněno na Obr. 2-1.

Obr. 2-2. Oscilogram zvukového signálu

Program Goldwave vám umožňuje natáhnout oscilogram podél časové osy, což vám umožní vidět nejmenší detaily. Na Obr. 2-3 Ukázali jsme natažený fragment zvukového oscilogramu uvedeného výše.

Obr. 2-3. Zvukový zvuk Oscilogram fragment

Upozorňujeme, že velikost vstupního signálu přicházejícího z mikrofonu se pravidelně liší a přebírá pozitivní i záporné hodnoty.

Pokud byla ve vstupním signálu přítomna pouze jedna frekvence (tj. Pokud byl zvuk "čistý"), forma signálu získaného z mikrofonu by byl sinusový. Nicméně, jak jsme řekli, spektrum lidských řečových zvuků se skládá ze sady frekvencí, v důsledku čehož formy oscilogramu řeči je daleko od sinusoidního.

Signál, jehož hodnota se mění s časem nepřetržitě, zavoláme analogový signál. Tento signál pochází z mikrofonu. Na rozdíl od analogového, digitální signál je soubor číselných hodnot různým časem diskrétní.

K počítači může zpracovat pípnutí, musí být přeložen z analogové podobě do digitálního, to znamená, že představuje ve formě sady číselných hodnot. Tento proces se nazývá digitalizace analogového signálu.

Digitalizace zvuku (a libovolného analogového) signálu se provádí pomocí speciálního zařízení zvaného analog-to-digitální konvertor ADC (Analog na digitální převodník, ADC). Toto zařízení je na desce audio adaptéru a je společným mikroobvodem.

Jak funguje analog-to-digitální konvertor?

Pravidelně měří úroveň vstupního signálu a udává výstupní numerickou hodnotu výsledku měření. Tento proces je znázorněn na Obr. 2-4. Zde, šedé obdélníky označily vstupní hodnoty měřené v určitém neustálém časovém intervalu. Sada těchto hodnot a je digitalizovaná reprezentace vstupního analogového signálu.

Obr. 2-4. Měření závislosti amplitudy signálu od času

Na Obr. 2-5 Ukázali jsme připojení analog-to-digitálního převodníku mikrofonu. V tomto případě slouží vstup X 1 analogový signála digitální signál je odstraněn z výstupů U 1 -U.

Obr. 2-5. Analog-digitální konvertor

Analog-to-digitální převodníky jsou charakterizovány dvěma důležitými parametry - transformační frekvence a počtem kvantizačních úrovní vstupního signálu. Správný výběr těchto parametrů je rozhodující pro dosažení odpovídajícího reprezentace v digitální formě analogového signálu.

Jak často často potřebujete měřit hodnotu amplitudy vstupního analogového signálu, takže v důsledku digitalizace není ztracena informace o změnách ve vstupním analogovém signálu?

Zdá se, že odpověď je jednoduchá - vstupní signál musí být měřen co nejčastěji. Čím častěji se analog-to-digitální konvertor provádí taková měření, tím lépe budou sledovány sebemenší změny amplitudy vstupního analogového signálu.

Zbytečně časté měření však může vést k neoprávněnému růstu digitálního datového toku a zbytečných zdrojů počítačových zdrojů při zpracování signálu.

Naštěstí, správná volba Frekvenční konverze (vzorkovací frekvence) je dostatečně jednoduchá. K tomu stačí kontaktovat The Kotelnikov teorém, známý odborníkům v oblasti zpracování digitálního signálu. Větší uvádí, že frekvence konverze musí být dvakrát vyšší než maximální frekvence spektra transformovaného signálu. Proto pro digitalizaci bez ztráty kvality zvukového signálu, jejichž frekvence leží v rozmezí 16-20 000 Hz, je třeba vybrat frekvenci konverze, ne méně než 40 000 Hz.

Všimněte si však, že v profesionálním zvukovém vybavení je frekvence konverze vybrána několikrát zadaná hodnota. To se provádí k dosažení velmi vysoké kvality digitalizovaného zvuku. Pro systémy rozpoznávání řeči tato kvalita není relevantní, takže vaše pozornost nebudeme pozorovat na takovou možnost.

A jaká frekvence transformace je nutná k digitalizaci zvuku lidské řeči?

Vzhledem k tomu, že zvuky lidské řeči leží ve frekvenčním rozsahu 300-4000 Hz, je minimální nezbytná frekvence konverze 8000 Hz. Nicméně, Mnoho počítačové programy Pro konvenční audio adaptéry používejte standardní rozpoznávání řeči. Frekvence transformace je 44 000 Hz. Na jedné straně tato frekvence transformace nevede k nadměrnému zvýšení toku digitálních dat a druhý - poskytuje digitalizaci řeči dostatečnou kvalitou.

Dokonce i ve škole jsme učili, že s jakýmikoli měřeními vznikají chyby, z nichž není možné se zbavit úplně. Tyto chyby se vyskytují v důsledku omezeného rozlišení měřicích přístrojů, stejně jako vzhledem k tomu, že proces měření může učinit některé změny naměřené hodnoty.

Analog-to-digitální konvertor představuje vstupní analogový signál ve formě proudu čísel omezeného bitu. Konvenční audio adaptéry obsahují 16bitové bloky ADC, které mohou představovat amplitudu vstupního signálu ve formě 216 \u003d 65536 různých hodnot. ADC zařízení v high-end zvukové vybavení mohou být 20-bitové, což poskytuje větší přesnost amplitudy zvukového signálu.

Moderní systémy a programy rozpoznávání řeči byly vytvořeny pro běžné počítače vybavené obvyklými zvukovými adaptéry. Proto pro provádění experimentů s rozpoznáváním řeči nebudete muset získat profesionální audio adaptér. Takový adaptér jako zvukový blaster je docela vhodný pro digitalizaci řeči, aby ji dále rozpoznal.

Spolu s užitečným signálem mikrofonu, různé zvuky obvykle klesají - hluk z ulice, hluku větru, zahraničních konverzací atd. Hluk má negativní dopad na kvalitu práce systémů rozpoznávání řeči, takže se s tím musí vypořádat. Jedním ze způsobů, jak jsme již zmínili - dnešní systémy rozpoznávání řeči Nejlépe využívají v klidné místnosti, zůstat s počítačem jeden na jednom.

Ideální podmínky však nelze vytvořit ne vždy, takže musíte použít speciální metodyumožňuje zbavit se hluku. Aby se snížilo hladiny hluku, při konstrukci mikrofonů a speciálních filtrů, které odstraňují ze spektra analogového frekvenčního signálu, které nemají užitečné informace. Kromě toho se tato technika používá jako komprese. dynamický rozsah Úrovně vstupu.

Řekněte o tom všem v pořádku.

Frekvenční filtr Voláno se zařízení, které převádí frekvenční spektrum analogového signálu. V tomto případě dochází během transformačního procesu (nebo absorpce) oscilací určitých frekvencí.

Toto zařízení si můžete představit ve formě série černé skříňky s jedním vstupem a jedním výstupem. S ohledem na naši situaci bude mikrofon připojen k vstupu frekvenčního filtru, a analog-to-digitální převodník bude připojen k výstupu.

Filtry frekvence jsou jiné:

· Spodní frekvenční filtry;

· Horní frekvenční filtry;

· Filtry průchodu pásu;

· Bashed Strip filtry.

Dolní frekvenční filtry (Filtr s nízkým pasáží) se odstraní ze vstupního spektra všech frekvencí, jejichž hodnoty jsou pod určitou prahovou frekvencí v závislosti na nastavení filtru.

Vzhledem k tomu, že zvukové signály leží v rozmezí 16-20 000 Hz, mohou být všechny frekvence nižší než 16 Hz odříznuty bez zhoršení kvality zvuku. Pro rozpoznávání řeči je důležité frekvenční rozsah 300-4000 Hz, takže můžete snížit frekvence pod 300 Hz. V tomto případě budou všechny rušení vyříznuty ze vstupního signálu, z nichž kmitočtový spektrum leží pod 300 Hz, a nebudou zasahovat do procesu rozpoznávání řeči.

Podobně, horní frekvenční filtry (Vysoký filtr) jsou vyříznuty ze vstupního spektra všech frekvencí nad určitou prahovou frekvenci.

Osoba neslyší zvuky s frekvencí 20 000 Hz a vyšší, takže mohou být vyříznuty ze spektra bez znatelné zhoršení kvality zvuku. Co se týče rozpoznávání řeči, zde můžete snížit všechny frekvence nad 4000 Hz, což povede k výraznému snížení úrovně vysokofrekvenčního rušení.

Přenosový pásový filtr (Pásový filtr) lze představit jako kombinace spodního a horního frekvenčního filtru. Takový filtr zpožďuje všechny frekvence pod tzv. frekvence dolní částistejně jako výše horní frekvenční pásma.

Pro systém rozpoznávání řeči je tedy filtr šířky pásma pohodlný, který zpožďuje všechny frekvence kromě frekvencí rozsahu 300-4000 Hz.

Pokud jde o filtry pásu zapalování (pásmo -stop filtr), umožňují vyříznout ze vstupního spektra všechny frekvence ležící v určeném rozsahu. Takový filtr je pohodlný, například pro potlačení hluku, který zabírá pevnou část spektra signálu.

Na Obr. 2-6 Ukázali jsme spojení filtru šířky pásma.

Obr. 2-6. Filtrování zvukového signálu před digitalizací

Je třeba říci, že obvyklé zvukové adaptéry instalované v počítači jsou v jejich složení páskový filtr, kterým předloží analogový signál před digitalizací. Šířka pásma takového filtru obvykle odpovídá rozsahu zvukových signálů, a to 16-20 000 Hz (v různých audio adaptérech, hodnoty horní a dolní frekvence se mohou lišit v malých limitech).

A jak dosáhnout užší šířky pásma 300-4000 Hz, což odpovídá nejvíce informativní části lidského spektrálního spektra?

Samozřejmě, pokud máte tendenci k navrhování radioelektronických zařízení, můžete vytvořit filtr z mikroobvodu provozního zesilovače, odporů a kondenzátorů. Přibližně první tvůrci systémů rozpoznávání řeči.

ale průmyslové systémy Rozpoznávání řeči musí být zpracovatelné na standardním počítačovém hardwaru, takže cesta výroby speciálního pásma filtru není vhodný zde.

Místo toho se tzv. Používá se v moderních systémech pro zpracování řeči digitální frekvenční filtryimplementován programově. To bylo možné procesor Počítač se stal dost silný.

Digitální frekvenční filtr implementovaný software převádí vstupní digitální signál do výstupního digitálního signálu. V procesu konverze program zpracovává speciální proud signálu luminiscence signální amplitudy přicházející z analog-to-digitálního převodníku. Výsledek konverze bude také počet čísel, nicméně toto vlákno bude odpovídat již filtrovanému signálu.

Mluví o analog-to-digitálním konvertorem, poznamenali jsme takové důležitá charakteristikajako počet kvantizačních úrovní. Pokud je v audio adaptéru instalován 16bitový analog-to-digitální konvertor, pak po digitalizaci zvukových signálů lze reprezentovat jako 216 \u003d 65536 různých hodnot.

Pokud existuje několik kvantizačních úrovní, pak tzv. podvádět šum. Pro snížení tohoto šumu, ve vysoce kvalitních zvukových digitalizaci by měly být analogové digitální měniče aplikovány s maximálním dostupným počtem kvantizačních úrovní.

Existuje však další příjem, který umožňuje snížit účinek kvantovacího šumu na kvalitu zvukového signálu, který se používá v systémech pro záznam zvuku. Při použití tohoto příjmu před digitalizací se signál prochází nelineárním zesilovačem, podtržením signálů s malou amplitudou signálu. Takové zařízení zvyšuje slabé signály silnější než silné.

To je znázorněno grafem závislosti amplitudy výstupního signálu z amplitudy vstupního signálu znázorněného na Obr. 2-7.

Obr. 2-7. Nelineární amplifikace před digitalizací

Na reverzní konverzi fáze digitalizovaného zvuku k analogu (tento krok v této kapitole považujeme za v této kapitole) Před zobrazením zvukového sloupce je analogový signál opět prošel nelineárním zesilovačem. Tentokrát se používá další zesilovač, který zdůrazňuje signály s velkou amplitudou a má charakteristiku přenosu (závislost amplitudy výstupního signálu z amplitudy vstupního signálu), inverzní, který byl použit během digitalizace.

Jak může to všechno pomoci tvůrcům systémů rozpoznávání řeči?

Osoba, jak je známo, je docela dobře uznávaná řeči vysloveným tichým šepotem nebo spíše hlasitým hlasem. Lze říci, že dynamický rozsah objemových úrovní úspěšně uznávané řeči pro osobu je poměrně široká.

Dnešní počítačové systémy Rozpoznávání řeči, bohužel, až se to chlubí. S cílem určité expanze specifikovaného dynamického rozsahu před digitalizací můžete přeskočit signál z mikrofonu přes nelineární zesilovač, jejichž přenosová charakteristika je znázorněna na Obr. 2-7. To sníží hladinu hluku kvantování během digitalizace slabých signálů.

Vývojáři systémů rozpoznávání řeči jsou opět nuceni zaměřit se především na sériově vyrobené zvukové adaptéry. Neposkytují výše popsanou konverzi nelineárního signálu.

Můžete však vytvořit softwarový ekvivalent nelineárního zesilovače, který převede digitalizovaný signál před odesláním do modulu rozpoznávání řeči. A i když takový programový zesilovač nebude schopen snížit hluk kvantování, je možné zdůraznit ty úrovně signálu, které nesou největší informace o řeči. Můžete například snížit amplitudu slabých signálů, které eliminují signál z hluku.

© 2014 Site.

Nebo fotografická zeměpisná šířka Foto materiál je vztah mezi maximálními a minimálními hodnotami expozice, které lze správně zachyceny na obrázku. S odkazem na digitální fotografii je dynamický rozsah ve skutečnosti ekvivalentní poměru maximálních a minimálních možných hodnot užitečného elektrického signálu generovaného fotografie Seensor během expozice.

Dynamický rozsah se měří v pokynech expozice (). Každý krok odpovídá zdvojnásobení množství světla. Například, pokud má určitý fotoaparát dynamický rozsah 8 EV, znamená to, že maximální možná hodnota užitečného signálu jeho matrice označuje minimálně jako 2 8: 1, což znamená, že fotoaparát je schopen zachytit v jednom Objekty rámu se lišící v jasu nejvýše 256 krát. Přesněji řečeno, může to zachytit objekty s jakýmkoliv jasem, ale objekty, jejichž jas bude překročit maximum přípustná hodnota Pojďme se dostat na obrázek oslňující bílé a objekty, jejichž jas bude pod minimální hodnotou - uhlí černá. Podrobnosti a textury budou rozlišitelné pouze na těchto objektech, jejichž jas je naskládán v dynamickém rozsahu komory.

Popsat vztah mezi jasem nejjasnějšího a nejvíce tmavých z vyměnitelných objektů, není často používán správný termín "dynamický rozsah scény". Bude správnější hovořit o rozsahu jasu nebo na úrovni kontrastu, protože dynamický rozsah je obvykle charakteristikou měřicího zařízení (v tento případ, Digitální kamery matrice).

Bohužel, rozsah jasu mnoha krásných scén, s nimiž čelíme reálný životmůže výrazně překročit dynamický rozsah digitálního fotoaparátu. V takových případech je fotograf nucen rozhodnout, které předměty by měly být zpracovány ve všech částech, a který lze ponechat mimo dynamický rozsah, aniž by bylo dotčeno kreativnímu designu. Aby bylo možné učinit nejúčinněji používat dynamický rozsah fotoaparátu, někdy to může trvat tak důkladné pochopení principu práce fotosenzoru, kolik rozvinutý umělecký.

Dynamické faktory rozsahu

Dolní hranice dynamického rozsahu je nastavena úrovní vlastního hluku fotografie Seensor. Dokonce i neosvětlená matice vytváří elektrický signál na pozadí, zvaný temný šum. Také interference dochází, když je nabíjení přenesen na analog-to-digitální převodník a ADC sám zavádí určitou chybu v digitalizovaném signálu - tzv.. Vzorkování šumu.

Pokud pořídíte obrázek do úplné temnoty nebo víka na objektivu, pak fotoaparát zaznamenává pouze tento bezvýznamný hluk. Pokud necháte minimální počet světla, abyste se dostali do senzoru, fotosky se začnou akumulovat elektrický náboj. Hodnota náboje, což znamená, že intenzita prospěšného signálu bude úměrná počtu zachycených fotonů. Aby byl snímek, alespoň některé smysluplné detaily, je nutné, aby úroveň užitečného signálu překročí úroveň hluku na pozadí.

Tak, dolní hranice dynamického rozsahu nebo jinými slovy, může být prahová hodnota citlivosti snímače formálně definována jako úroveň výstupního signálu, při které je poměr signálu k šumu větší než jednotka.

Horní limit dynamického rozsahu je určen kontejnerem samostatné fotodiody. Pokud během expozice bude každá fotodioda akumulovat elektrický náboj omezujících hodnot pro sebe, pak pixel obrazu odpovídající přetíženému fotodidu je absolutně bílý a další ozáření nebude mít vliv na jeho jas. Tento jev se nazývá oříznutí. Čím vyšší je frenetická schopnost fotodiody, tím větší je signál schopen se vzdát se výstupu před dosahováním nasycení.

Pro větší jasnost se obracíme na charakteristickou křivku, která je grafem závislosti výstupního signálu z expozice. Na horizontální ose je binární logaritmus ozáření získaného snímačem odložen a na vertikální - binární logaritmus velikosti elektrického signálu generovaného snímačem v reakci na toto ozáření. Moje kresba je do značné míry podmíněna a sleduje mimořádně ilustrativní účely. Charakteristická křivka současné fotografie Seensor má o něco složitější forma a hladina hluku je zřídka tak vysoká.

Graf je jasně viditelné dvě kritické tuhé body: V první z nich se úroveň užitečného signálu překročí prahovou hodnotu hluku a ve druhém - fotodiody dosahují nasycení. Hodnoty expozice ležící mezi těmito dvěma tečkami jsou dynamický rozsah. V tomto abstraktním příkladu se rovná tomu, jak snadné je třeba si všimnout, 5 EV, tj. Kamera je schopna strávit pět zdvojnásobení expozice, což je ekvivalentní 32x (2 5 \u003d 32) v rozdílu jasu.

Expoziční zóny, které tvoří dynamický rozsah, jsou nerovné. Horní zóny se vyznačují vyšším poměrem signálu k šumu, a proto vypadají jasněji a podrobnější než nižší. Výsledkem je, že horní limit dynamického rozsahu je velmi reálná a patrná - výstřižek je zabalená světla na sebemenší nadměrnost, zatímco dolní hranice se stále více potopí v hluku, a přechod k černé barvě je daleko od tak řez.

Lineární závislost signálu z expozice, jakož i prudký výnos náhorní plošině, jsou jedinečné vlastnosti digitálního fotografického procesu. Pro srovnání se podívejte na podmíněnou charakteristickou křivku tradičního fotoplinka.

Tvar křivky a zejména úhel sklonu značně závisí na typu filmu az postupu jeho projevu, ale hlavní věc, která zůstává rozdíl mezi filmovým rozvrhem z digitálního - nelineárního charakteru závislosti závislosti Optická hustota filmu z hodnoty expozice zůstává nezměněna.

Spodní hranice fotografické šířky negativního filmu je určena hustotou závoje a horní - maximální dosažitelná optická hustota fotokruhu; Otočte filmy - naopak. Jak ve stínu, tak na světlech, jsou hladké ohyby charakteristické křivky, což indikuje pokles kontrastu při blíží se hraniči dynamického rozsahu, protože úhel sklonu křivky je úměrný kontrastu obrazu. Expoziční zóna ležící na střední části plánu mají tedy maximální kontrast, zatímco ve světlech a stínu je kontrast snížen. V praxi je rozdíl mezi fólií a digitální matricí zvláště patrný na světlech: kde je v digitálním obrazu světla spálen s oříznutím, části na fólii jsou stále rozlišitelné, i když nízký kontrast a Přechod na čistou bílou barvu vypadá hladký a přirozený.

V senzitometrii se používají i dva nezávislé podmínky: vlastně fotografická zeměpisná šířkaomezený relativně lineární částí charakteristické křivky a užitečná fotografická zeměpisná šířka, Kromě lineární části, také základní a ramenní grafiky.

Je to pozoruhodné, že při zpracování digitálních fotografií, zpravidla platí více či méně výraznou křivku ve tvaru písmene S, což zvyšuje kontrast v polotónu za cenu jeho snížení stínu a světel, které dává digitální obraz přirozenější a příjemnější pohled.

Bigness

Na rozdíl od matice digitálního fotoaparátu je lidská vize zvláštní, řekněme, logaritmický pohled na svět. Sekvenční zdvojnásobení množství světla je vnímána jako ve stejných změnách v jasu. Světelná čísla mohou být dokonce porovnána s hudebními oktávami, protože dvojí změny zvukové frekvence jsou vnímány pověstem jako jeden hudební interval. Tento princip využívá další smysly. Nelinearita vnímání je velmi rozšiřující rozsah lidské citlivosti k podnětu různých intenzitou.

Při převodu surového souboru (nezáleží na tom, že nástroje fotoaparátu nebo v surovém měniči) obsahujícím lineární data, tzv. Automaticky se na něj automaticky vztahuje. Gamma křivka, která je navržena tak, aby nelineárně zvyšovala jas digitálního obrazu, což vede v souladu s zvláštnostmi lidského vidění.

S lineární konverzí se obraz získá příliš tmavý.

Po korekci gamma přichází jas na normální.

Gamma křivka, jak by se natáhl tmavé tóny a mačká světla, takže distribuce gradací více jednotnější. Výsledkem je, že obraz získává přirozený vzhled, ale hluk a artefakty odběru vzorků ve stínu nevyhnutelně se stávají výrazněji, což je exacerbováno pouze malým počtem hladin jasu v dolních zónách.

Lineární rozdělení gradací jasu.
Jednotná distribuce po použití křivky gamma.

ISO a dynamický rozsah

Navzdory tomu, že v digitální fotografii, stejný koncept fotosenzitivity fotografického materiálu se používá jako na fotografii filmu, je třeba chápat, že je to pouze kvůli tradici tradice, protože přístupy k změně fotosenzitivity v digitálním a filmová fotografie se liší v zásadě.

Zlepšení citlivosti ISO v tradičním fotografování znamená nahrazení jednoho filmu do druhého s větším zrnem, tj. Existuje cílová změna vlastností fotografického materiálu. V digitálním fotoaparátu je citlivost snímače tvrdně nastavena jeho fyzikálními vlastnostmi a nelze jej změnit doslova. Se zvýšením ISO se fotoaparát změní skutečnou citlivost snímače, ale zvyšuje pouze elektrický signál generovaný senzorem v odezvě na ozáření a správně upraví algoritmus digitalizace pro tento signál.

Důležitým důsledkem toho je snížení efektivního dynamického rozsahu v poměru ke zvýšení ISO, protože s užitečným signálem je zvýšeno hluk. Pokud ISO 100 digitalizuje celý rozsah signálových hodnot - od nuly k bodu nasycení, pak s ISO 200, pouze polovina kapacita fotodiodů je přijímána maximálně. S každým zdvojením citlivosti ISO je horní stupeň dynamického rozsahu odříznut a zbývající kroky jsou utaženy na své místo. Proto je použití ultra-vysokých hodnot ISO zbaveno praktického významu. Se stejným úspěchem můžete fotografii zesvětlit v surovém konvertoru a získat srovnatelnou úroveň hluku. Rozdíl mezi zvýšením ISO a umělým osvětlením obrazu je, že se zvyšujícím se ISO vyskytuje posílení signálu předtím, než je přijat v ADC, a proto není hluk kvantování zvýšeno, na rozdíl od vlastního hluku senzoru, Zatímco v surovině je amplifikace podléhá chybám ADC. Kromě toho snížení rozsahu digitalizace znamená přesnější odběr vzorků zbývajících vstupních hodnot.

Mimochodem, ISO je k dispozici na některých zařízeních pod základnou hodnotou (například na ISO 50), nerozbalte dynamický rozsah a jednoduše dvakrát uvolňuje signál, který se rovná snímku v surovém konvertoru. Tato funkce může být dokonce považována za škodlivé, protože použití submimické hodnoty ISO vyvolává komoru, aby se zvýšila expozici, která se zbývající nezměněním prahem senzoru zvyšuje riziko, že se zvýší oříznutí světel.

Opravdový dynamický rozsah

Existuje řada programů, jako je (DXO analyzátor, imatest, Rawdigger atd.) Umožňují měřit dynamický rozsah digitálního fotoaparátu doma. V zásadě to není velká potřeba, protože data pro většinu kamer lze volně nalézt na internetu, například na webových stránkách dxomark.com.

Měl bych věřit výsledky těchto testů? Docela. S jedinou rezervací, že všechny tyto testy jsou definovány efektivní nebo pokud jej můžete vyjádřit, technický dynamický rozsah, tj. Vztah mezi úrovní sytosti a hladinou hluku matrice. Pro fotografování je užitečný dynamický rozsah primárně důležitý, tj. Počet expozičních zón, které vám umožní zachytit některé užitečné informace.

Jak si pamatujete, prahová hodnota dynamického rozsahu je určena hladinou hluku fotografie Seensor. Problém je v tom, že v praxi spodní zóny formálně příchozí v dynamickém rozsahu, obsahuje vše příliš mnoho hluku, takže mohou být použity k použití. Zde mnoho závisí na individuálním stlačením - přijatelná úroveň hluku každý určí pro sebe.

Mým subjektivním názorem je, že detaily ve stínu začínají vypadat více či méně slušné s poměrem signálu / šumu nejméně osm. Na tomto základě určuji pro sebe užitečný dynamický rozsah, jako technický dynamický rozsah mínus asi tři kroky.

Pokud například zrcadlová komora podle výsledků spolehlivých testů má dynamický rozsah 13 EV, což je velmi dobré pro dnešní normy, pak jeho užitečný dynamický rozsah bude asi 10 EV, což je obecně velmi důkladné . Samozřejmě mluvíme o střelbě v syrovém s minimálním ISO a maximálním bitem. Při fotografování v JPEG se dynamický rozsah silně závisí na nastavení kontrastu, ale v průměru by měly být vyřazeny dva nebo tři kroky.

Pro srovnání: Barevně obchodované fotografické snímky mají užitečnou fotografickou šířku 5-6 kroků; Černé a bílé negativní filmy dávají 9-10 kroků se standardním manifestačním a tiskovým postupem a s určitými manipulacemi - až 16-18 kroků.

Shrnutí výše uvedeného se pokusíme formulovat několik jednoduchých pravidel, které vám pomohou stisknout senzor maximálního výkonu fotoaparátu:

  • Dynamický rozsah digitálního fotoaparátu je plně přístupný pouze při fotografování v RAW.
  • Dynamický rozsah se snižuje s rostoucí citlivostí světla, a proto se vyhněte vysokým hodnotám ISO, pokud neexistuje žádná ostrá nutnost.
  • Využití vyššího výboje pro soubory RAW nezvyšuje skutečný dynamický rozsah, ale zlepšuje tonální oddělení ve stínu v důsledku více Úrovně jasu.
  • Expozice vpravo. Horní expoziční zóny vždy obsahují maximum užitečné informace S minimálním hlukem a měl by být používán nejefektivněji. Zároveň byste neměli zapomenout na nebezpečí ořezávání - pixelů, které dosáhlo sytosti, jsou naprosto k ničemu.

A hlavní věc: Není nutné obávat dynamického rozsahu fotoaparátu. S dynamickým rozsahem je v pořádku. Vaše schopnost vidět světlo a kompetentně spravovat expozici je mnohem důležitější. Dobrý fotograf nebude stěžovat na nedostatek fotografické šířky, ale pokusí se počkat na pohodlnější osvětlení nebo změní úhel nebo bude používat blesk, ve slově, bude jednat podle okolností. Řeknu vám více: Některé scény vyhrály pouze kvůli tomu, že se nevejdou do dynamického rozsahu fotoaparátu. Často je zbytečná hojnost částí jednoduše nutné skrýt se do polo-strouhané černé siluety, která dělá fotografii ve stejnou dobu stručně a bohatší.

Vysoký kontrast není vždy špatný - musíte s ním pracovat. Naučte se využít nevýhody zařízení, stejně jako jeho výhody, a budete překvapeni, jak moc se vaše tvůrčí příležitosti rozšířit.

Děkuji za pozornost!

Vasily A.

Dodatek

Pokud byl článek užitečný a informativní pro vás, můžete projektu laskavě podporovat, přispět k jeho rozvoji. Pokud se vám článek nelíbilo, ale máte myšlenky, jak to udělat lépe, vaše kritika bude přijata bez méně vděčnosti.

Nezapomeňte, že tento článek je předmětem autorského práva. Reprint a citace je povoleno, pokud existuje existující odkaz na původní zdroj, a použitý text by neměl být vybrán nebo upraven.

Lidé, kteří jsou nadšeni domácím zvukem, ukazují zajímavý paradox. Jsou připraveni strčit poslechovou místnost, budovat sloupy s exotickými výchozími, ale jsou v rozpacích před hudebním konzervovaným, jako by vlk před červenou vlajkou. A ve skutečnosti, proč je to pro zaškrtávací políčko nemožné dostat ven, az konzervovaného pokusu vařit něco více jedlého?

Pravidelně existují stížnosti na fóru: "Doporučujeme dobře zaznamenaná alba." Je pochopitelné. Zvláštní edice audiofilu, ačkoli oni budou potěšit slyšet první minutu, ale nikdo neposlouchá konec, bolí repertoár. Pokud jde o zbytek fonothek, problém se zdá být zřejmý. Můžete ušetřit, ale nemůžete uložit a vyprázdnit bzučení peněz do komponent. Stále nemám rád poslouchat svou oblíbenou hudbu na vysokém objemu a možnost zesilovače zde.

Dnes, a to i v albách hi-res, vrcholy fonogramu a objem poháněného do ořezání jsou řezány. Předpokládá se, že většina poslouchá hudbu na každém nevyžádanu, a proto je nutné "požádat Gat", aby učinil druh věnování.


Samozřejmě to není provedeno speciálně k rozrušení audiofilů. O nich obecně málo lidí pamatuje. No, kromě toho, že hádají, aby mohli hlavní soubory, se kterým je hlavní cirkulace kopírována - CD, MP3, a tak dále. Samozřejmě, průvodce byl již dlouho zploštělý kompresorem, nikdo nebude vědomě připravit speciální verze pro HD stop. Je to určitý postup pro vinylový nosič, který z tohoto důvodu a zvuky více lidsky. A pro digitální dráhu vše končí stejný - velký tlustý kompresor.

Ve všech 100% publikovaných fonogramů, mínus klasická hudba, jsou tedy vystaveny kompresi při měření. Někdo provede tento postup více či méně dovedně a někdo je úplně v hloupém. V důsledku toho máme poutníci na fór s linií Dr. pluginu pro sinus, bolestivé srovnání publikací, uniknout do vinylu, kde potřebujete také hlavní popper.

Nejvíce omrzliny při pohledu na všechny tyto činnosti se otočila doslova v audio botách. Žádný vtip, čtou zvukový zdroj Svatý Písmo dozadu! Moderní programy pro úpravy zvuku mají nějaký nástroj restaurování zvuková vlnaOříznuté připnutý.

Zpočátku byla tato funkce určena pro studia. Když se smíšené, existují situace, kdy se oříznutí přišlo k zápisu, a již není možné odstranit relaci z mnoha důvodů, a zde přichází k Acids Arsenal Audio Editor - Decalipper, dekompresor atd.

A již pro takový software, všichni odvážnější táhne rukojeti obyčejných posluchačů, kteří mají krev od uší po další novosti. Někdo preferuje Izotope, někdo Adobe Audition, někdo operací sdílí mezi několika programy. Význam obnovení bývalé dynamiky je správně správně opravit píky klipované signálu, které spočívají v 0 dB, se podobají převodu.

Ano, asi 100% oživení zdroje řeči nechodí, protože se vyskytují procesy interpolace na poměrně spekulativní algoritmy. Ale stále mi některé výsledky zpracování se zdály zajímavé a hodné studia.

Například album Lana del Rey "Lust pro život", důsledně se zamračil, PAH, řízení! V původní písni "Když byl svět ve válce, kterou jsme drželi tanec" byl takový.


A po sérii Decallippers a dekompresorů se to stalo takovým. Koeficient DR se změnil z 5 do 9. Stáhnout a poslouchat vzorek před a po zpracování.


Nemůžu říci, že metoda je univerzální a je vhodný pro všechna nasazená alba, ale v tomto případě jsem raději zachoval ve sbírce přesně tuto možnost léčenou aktivistkou Rutraker, místo oficiální publikace ve 24 bitech.

I když umělé tahání vrcholů ze zvuku se nevrátí pravou dynamiku hudebního vystoupení, vaše DAC vám bude stejně říct. Bylo pro něj tak těžké pracovat bez chyb na mezní úrovni, kde je pravděpodobnost tzv. Intersmonic Peaks (ISP) je skvělé. A nyní až 0 dB bude doposi pouze vzácné dílny signálu. Kromě toho, spuštěný fonogram při stlačování v Flac nebo jiném bezeztrátovém kodeku bude nyní menší. Více "AIR" ve signálu šetří prostor pro pevný disk.

Pokuste se oživit své nejvíce nenáviděné alba zabité na "svazku války". Pro rezervaci reproduktoru musíte nejprve snížit úroveň trati na -6 dB, a potom spustit deklar. Ti, kteří nevěří, že počítače mohou jednoduše držet mezi CD přehrávačem a expandérem zesilovače. Toto zařízení V podstatě se provádí stejným způsobem - jak to může obnovit a vytáhnout vrcholy stlačené přes dynamiku zvukového signálu. Existují podobná zařízení od 80-90s, aby neřekli být velmi drahý, a jako experiment, zkuste je velmi zajímavé.


Regulátor dynamického rozsahu DBX 3BX zpracuje signál odděleně ve třech prucích - LF, SC a RF

Jakmile byly ekvalizéry pro udělenou složku audio systému, a nikdo se z nich bál. Dnes není nutné vyrovnat vysoké frekvence magnetické pásky, ale s ošklivou dynamikou je nutné něco vyřešit, bratry.

Dynamická komprese (Komprese dynamického rozsahu, DRC) je zúžení (nebo expanzi v případě expandéru) dynamického rozsahu fonogramu. Dynamický rozsahTo je rozdíl mezi tichým a nejhlasitějším zvukem. Někdy nejvíce tichý v phonogramu bude zvuk trochu hlasité úrovně hluku, a někdy trochu klidnější nejpodrobnější. Hardwarová zařízení a programy provádějící dynamická komprese se nazývají kompresory, zvýraznění čtyř hlavních skupin: kompresory, omezovač, rozšiřovače a bran.

Lampa analogový kompresor dbx 566

Snížena a podpora komprese

Snižování komprese (Snížená komprese) Snižuje hlasitost zvuku, když začne překročení určité prahové hodnoty, takže klidnější zvuky beze změny. Extrémní možností nižší komprese je omezovač. Vylepšení komprese (Stlačení vzhůru), naopak, zvyšuje objem zvuku, pokud je pod prahovou hodnotou, aniž by to bylo ovlivněno více hlasité zvuky. Současně oba typy komprese zužují dynamický rozsah zvukového signálu.

Snižování komprese

Vylepšení komprese

Expander a brána

Pokud kompresor snižuje dynamický rozsah, expander ji zvyšuje. Když se úroveň signálu stává nad prahovou úrovní, expandér jej zvyšuje ještě více, čímž se zvyšuje rozdíl mezi hlasitými a tichými zvuky. Taková zařízení se často používají při záznamu instalace bubnu, aby se oddělily zvuky některých bubnů od ostatních.

Typ expandéru, který není používán, aby nezvýšil hlasitě, a vyschnout tiché zvuky, které nepřekročí úroveň prahové hodnoty (například šum pozadí) Hluková brána.. V takovém zařízení, jakmile se hladina zvuku stane menší než prahová hodnota, signálový průkaz je zastaven. Typicky se brána používá k potlačení hluku v pauzách. Na některých modelech lze provést tak, aby zvuk, kdy je prahová úroveň prudce nezastaví, ale postupně se potuloval. V tomto případě je rychlost útlumu nastavena regulátorem Decay (recese).

Brána, stejně jako jiné typy kompresorů, možná v závislosti na frekvenci (I.e., různými způsoby zpracování určitých frekvenčních pásmů) a může pracovat v režimu postranního řetězce. (viz. níže).

Princip provozu kompresoru

Signál spadající do kompresoru je rozdělen do dvou kopií. Jedna kopie je odeslána do zesilovače, ve které je stupeň amplifikace řízen externím signálem, druhá kopie - tvoří tento signál. Vstupuje do zařízení zvaného postranního řetězce, kde se měří signál a obálka je vytvořena na základě těchto údajů popisujících změnu v jeho hlasitosti.
Takže nejmodernější kompresory jsou uspořádány, jedná se o tzv. Typ přívodu. Ve starších zařízeních (typ zpětné vazby) se po zesilovači měří úroveň signálu.

Existují různé analogové řídicí technologie (amplifikace variabilního zesílení), z nichž každá má své výhody a nevýhody: lampy, optické pomocí fotoreze a tranzistrum. Při práci s digitálním zvukem (ve zvukovém editoru nebo DAW) lze použít vlastní matematické algoritmy nebo lze zadat provoz analogové technologie.

Hlavní parametry kompresorů

Práh.

Kompresor snižuje zvukový signál, pokud jeho amplituda primaries specifická prahová hodnota (prahová hodnota). Obvykle je uvedeno v decibely, s nižší prahovou hodnotou (například -60 dB) znamená, že zvuk bude zpracován než s vyšší prahovou hodnotou (například -5 dB).

Poměr.

Stupeň poklesu hladiny je určen parametrem poměru: poměr 4: 1 znamená, že pokud je vstupní úroveň 4 dB překročí prahovou hodnotu, výstupní úroveň bude vyšší než prahová hodnota o 1 dB.
Například:
Prahová hodnota \u003d -10 dB
Vstupní signál \u003d -6 dB (na 4 dB výše)
Výstupní signál \u003d -9 dB (na 1 dB nad prahem)

Je důležité mít na paměti, že potlačení úrovně signálu pokračuje a nějakou dobu poté, co klesne pod prahovou úroveň, a tentokrát je určena hodnotou parametrů uvolnění.

Komprese s maximální hodnotou poměru ∞: 1 se nazývá omezení. To znamená, že jakýkoliv signál nad prahovou úrovní je potlačen před prahovou úrovní (s výjimkou krátkého období po prudkém zvýšení vstupního objemu). Podrobnosti viz níže "omezovač".

Příklady různých hodnot poměrů

Útok a vydání

Kompresor poskytuje určitou kontrolu nad tím, jak rychle reaguje na změnu dynamiky signálu. Parametr útoku definuje dobu, po kterou kompresor snižuje koeficient zesílení na úroveň, který je určen parametrem poměru. Uvolnění definuje dobu, po kterou kompresor naopak zvyšuje koeficient zesílení, nebo se vrátí do normálu, pokud úroveň vstupního signálu klesne pod prahovou hodnotu.

Fáze útoku a uvolňování

Tyto parametry ukazují čas (obvykle v milisekundách), které budou vyžadovány pro změnu posílení určité množství decibelu, je obvykle 10 dB. Například v tomto případě, pokud je útok nastaven na 1 ms, aby se zmenšil zisk o 10 dB, bude vyžadováno 1 ms a 20 dB - 2 ms.

V mnoha kompresorech lze konfigurovat parametry útoku a uvolnění, ale v některých jsou původně nastaveny a nejsou regulovány. Někdy jsou označeny jako "automatické" nebo "závislé na programu", tj. V závislosti na vstupním signálu se liší.

Koleno.

Jiný parametr kompresoru: tvrdý / měkký koleno. Určuje, zda je začátek aplikace komprese ostrý (tvrdý) nebo postupný (měkký). Měkké koleno snižuje spánkování přechodu ze surového signálu na signál podrobený komprese, zejména při vysokých hodnotách poměrů a zvyšuje se prudký objem.

Tvrdý koleno a měkká komprese kolena

Vrchol a rms.

Kompresor může reagovat na hodnoty píku (krátkodobé maximum) nebo na průměrné úrovni vstupu. Použití špičkových hodnot může vést k ostrým výkyvům ve stupni komprese a dokonce až na zkreslení. Kompresory proto aplikují v průměru (obvykle se jedná o vstupní signál RMS) při porovnání s prahovou hodnotou. Dává pohodlnější kompresi, v blízkosti lidského vnímání objemu.

RMS je parametr odráží průměrný objem fonogram. Z matematického hlediska (kořenové střední čtverec) je hodnota RMS amplitudy určitého počtu vzorků:

Stereo propojení.

Kompresor ve stereofonním režimu aplikuje stejný zisk jak pro stereofonní kanály. To se vyhýbá vysídlení stereopanoramy, což může být výsledkem individuálního zpracování levých a pravých kanálů. Takový posunutí dochází, pokud například hlasitý prvek neoslabený v centru.

Make-up zisk.

Vzhledem k tomu, že kompresor snižuje celkovou úroveň signálu, je obvykle přidána možnost pevného zisku na výstupu, což vám umožní získat optimální úroveň.

DÍVAT SE DOPŘEDU.

Funkce vzhledu je navržena tak, aby vyřešila problémy se zvláštními a příliš velkými a příliš malými hodnotami útokem a uvolňováním. Příliš mnoho útoků neumožňují efektivně zachycovat přechodné, ale příliš malé nemusí být pohodlné pro posluchače. Při použití funkce vyhledávání je hlavní signál zpožděný vzhledem k regulátoru, umožňuje spustit kompresi předem, ještě předtím, než signál dosáhne prahové hodnoty.
Jedinou nevýhodou této metody je časové zpoždění signálu, který v některých případech nežádoucí.

Použití dynamické komprese

Komprese se používá všude, a to nejen v hudebních fonogramech, ale také všude všude, kde potřebujete zvýšit celkový objem, aniž byste zvyšovali maximální hladiny, kde je použito levné vybavení pro reprodukci zvuku nebo omezený přenosový kanál (výstražný systém, amatérské rádio, atd.).

Při hraní je aplikována komprese hudba v pozadí (v obchodech, restauracích atd.), kde jsou nežádoucí změny objemu nežádoucí.

Nejdůležitějším rozsahem použití dynamické komprese je však hudební výroba a vysílání. Komprese se používá k zajištění zvuku "hustoty" a "řídit" pro lepší kombinaci nástrojů mezi sebou a zejména při zpracování vokálů.

Vokální strany v rockové a popové hudbě jsou obvykle vystaveny kompresi, aby je zvýraznily na pozadí doprovodu a přidejte jasnost. Speciální typ kompresoru, konfigurovaný pouze na určitých frekvencích - deader, se používá k potlačení syčícího pozadí.

V instrumentálních stranách se komprese používá také pro účinky, které nejsou přímo spojeny s objemem, například rychle fadingové zvuky bubnu mohou být prodlouženy.

V elektronické taneční hudbě (EDM) se často používá boční chaning (viz níže) - například basový linka může být řízena sudem nebo něčím podobným, aby se zabránilo konfliktu basů a bubnů a vytvořili dynamickou pulzaci.

Komprese je široce používána v přenosu vysílání (rádio, televize, internetové vysílání) pro zvýšení vnímané objemu při snižování dynamického rozsahu zdrojového zvuku (obvykle CD). Většina zemí má právní omezení okamžitého maximálního objemu, které lze vysílat. Tyto omezení jsou obvykle realizovány konstantními hardwarovými kompresory v etherovém řetězci. Kromě toho zvýšení vnímaného objemu zlepšuje "kvalitu" zvuku z hlediska většiny posluchačů.

viz také Hlasitost válka.

Důsledný nárůst objemu stejné písně se vrátil na CD od roku 1983 do roku 2000.

Boční chaning.

Dalším často nalezeným spínačem kompresoru je "postranní řetěz". V tomto režimu se komprese zvuku nedochází v závislosti na vlastní úrovni, ale v závislosti na úrovni signálu zadávání konektoru, který je tak obvykle nazýván - postranní řetězec.

To lze nalézt několik aplikací. Například zpěvák Shepelvit a všechna písmena "C" vynikají z celkového obrázku. Přeskočíte hlas přes kompresor a konektor postranního řetězce slouží stejný zvuk, ale vynechal přes ekvalizér. Na ekvalizéru odstraníte všechny frekvence, s výjimkou těch, které používají vokalista při vyslovování písmene "C". Obvykle asi 5 kHz, ale může být od 3 kHz až 8 kHz. Pokud pak vložte kompresor do režimu postranního řetězce, pak se v těchto okamžicích vyskytuje komprese hlasu, když je písmeno "C" vyslovováno. Ukázalo se tedy zařízení známé jako "deesser" (de-Esser). Tento způsob práce se nazývá "závislá na frekvenci" (závislé na frekvenci).

Další využití této funkce se nazývá "Ducker". Například na rozhlasové stanici, hudba prochází kompresorem a slova DJ - přes postranní řetězec. Když DJ spustí chatování, hlasitost hudby se automaticky sníží. Tento efekt lze úspěšně používat v záznamech, například snížit hlasitost šarží klávesnice během zpěvu.

Omezení cihlové zdi

Kompresor a omezovač jsou přibližně stejné, lze říci, že omezovač je kompresor s vysokým poměrem (od 10: 1) a obvykle nízký čas útoku.

Tam je cihlová stěna omezující koncept - velmi vysoký poměr omezující (od 20: 1 a výše) a velmi rychlý útok. V ideálním případě neumožňuje signál překročit prahovou úroveň. Výsledek bude nepříjemný pro pověst, ale to zabrání poškození zvuku reprodukce technologie nebo přebytečné šířky pásma. Pro tento účel pro tento účel integruje mnoho výrobců.

Clipper vs. Omezovač, měkké a pevné ořezávání

Tato skupina metod je založena na skutečnosti, že přenášené signály jsou podrobeny transformacím nelineárních amplitudových a při přenosu a přijímání částí nelinearity. Například, pokud vysílač používá nelineární funkci ÖU, v přijímači - U 2. Konzistentní uplatňování konvergentních funkcí povede k tomu, že transformace zůstává lineární.

Myšlenka nelineárních metod komprese dat je snížena na skutečnost, že vysílač může poskytnout větší rozsah změny v přenášeném parametru se stejnou amplitudou výstupních signálů (to znamená větší dynamický rozsah). Dynamický rozsah - To je vyjádřeno v relativních jednotkách nebo po decibellaha přístupu největší přípustné amplitudy signálu na nejmenší:

; (2.17)
. (2.18)

Přírodní touha zvýšit dynamický rozsah snížením u min je omezen citlivostí zařízení a zvýšení účinku rušení a vlastního hluku.

Nejčastěji se komprese dynamického rozsahu provádí pomocí dvojice konvergentních funkcí logarithmingu a potenciace. První operace měnící se amplitudy se nazývá komprese(komprese), druhé - expanzní (strečink). Volba těchto funkcí souvisí s jejich největší kompresní schopností.

Zároveň tyto metody mají nevýhody. První z nich je, že logaritmus malého počtu je negativní a v limitu:

to znamená, že citlivost je velmi nelineární.

Chcete-li tyto nevýhody snížit, obě funkce jsou upraveny ofsetem a aproximací. Například pro telefonní kanály je aproximovaná funkce související (typ A,):

a A \u003d 87,6. Zisk z komprese je 24dB.

Komprese dat nelineárními postupy je implementována analogovými zařízeními s velkými chybami. Použití digitálních nástrojů může výrazně zlepšit přesnost nebo rychlost transformace. Současně přímé využití finančních prostředků počítačové vybavení (To znamená, že přímý výpočet logaritmů a exponenciálů) nebude lepší výsledek z důvodu nízké rychlosti a akumulační chyby výpočtu.

Komprese dat kompresí v důsledku omezení přesnosti se používají například v případech odezvy, například pro přenos projevu na telefonních a rozhlasových kanálech.

Efektivní kódování

Efektivní kódy byly nabízeny Sundon, Fano a Hafman. Podstatou kodexů je, že jsou nerovnoměrné, to znamená, s jinou kategorií výbojů a délka kódu je nepřímo úměrná pravděpodobnosti jeho vzhledu. Další pozoruhodný znak efektivních kódů - nevyžadují separátory, tj. Speciální znaky oddělující kombinace sousedních kódů. Toho je dosaženo pozorováním jednoduché pravidlo: Kratší kódy nejsou začátkem déle. V tomto případě je pevný proud binárních výbojů jedinečně dekódován, protože dekodér nejprve odhalí nejkratší kombinace kódů. Účinné kódy na dlouhou dobu byly čistě akademikou, ale nedávno používané při tvorbě databází, jakož i v komprimování informací v moderních modemech a v archivátních softwaru.

Vzhledem k nerovnoměrnosti je zavedena průměrná délka kódu. Střední délka - matematické očekávání délky kódu:

kromě toho L CP má tendenci k H (x) shora (to je, l st\u003e h (x)).

Provádění stavu (2.23) je zvýšeno zvýšením N.

Existují dvě odrůdy efektivních kódů: Shannon Fano a Hafman. Zvažte jejich potvrzení o příkladu. Předpokládejme pravděpodobnost znaků v sekvenci jsou významy uvedené v tabulce 2.1.

Tabulka 2.1.

Pravděpodobnosti symbolů

N.
P I. 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Symboly jsou hodnoceny, to znamená, že hledají v řadě na sestupnou pravděpodobnost. Poté, podle metody Shennon Fano, následující postup se pravidelně opakuje: celá skupina událostí je rozdělena na dvě podskupiny se stejným (nebo přibližně stejnými) celkovými pravděpodobností. Tento postup pokračuje, dokud nezůstane jeden prvek v dalším podskupině, po kterém je tento prvek eliminován, a přičemž tyto akce pokračují. To se děje, dokud nezůstanou poslední dvě podskupiny jeden prvek. Pokračovat ve zvážení našeho příkladu, který je snížen v tabulce 2.2.

Tabulka 2.2.

Chennon Fano Metoda

N. P I.
4 0.3 I. I.
0.2 I. I. II.
6 0.15 I. I. I. I.
0.1 II.
1 0.1 I. I. I. I.
9 0.05 II. II.
5 0.05 II. I. I.
7 0.03 II. II. I. I.
8 0.02 II.

Jak je vidět ze stolu 2.2, první symbol s pravděpodobností p 4 \u003d 0,3 se zúčastnil dvou procesů rozdělení a oba časy zasáhly skupinu s číslem i. V souladu s tím je kódován dvoubitovým kódem II. Druhý prvek v první fázi oddílu patřil skupině I, na druhé skupině II. Proto jeho kód 10. Kodexy zbytku znaků v dodatečných připomínkách nepotřebují.

Obvykle jsou nerovnoměrné kódy jsou znázorněny ve formě kódových stromů. Kódový strom je graf označující povolené kombinace kódu. Předběžně specifikujte pokyny žeber tohoto grafu, jak je znázorněno na obr. 2.11 (volba směrů je libovolná).

Graf je veden následovně: doplňte trasu pro vyhrazený symbol; Počet vypouštěcího výboje se rovná počtu okrajů na trase a hodnota každého výboje se rovná směru odpovídajícího žebra. Trasa je tvořena zdrojový bod (Na výkresu je označen písmenem A). Například trasa do vrcholu 5 se skládá z pěti žeber, z nichž vše, kromě toho, má směr 0; Dostaneme kód 00001.

Vypočítejte pro tento příklad entropie a střední délku slova.

H (x) \u003d - (0,3 log 0.3 + 0,2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0.03 log 0.03 + 0,02 log 0.02) \u003d 2,23 bitů

l CP \u003d 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

Jak je vidět, střední délka slova je blízko entropie.

Kódy Hafman jsou postaveny na jiném algoritmu. Postup kódování se skládá ze dvou stupňů. V první fázi je jednorázová komprese abecedy důsledně. Jednorázová komprese je nahrazení posledních dvou znaků (s nižší pravděpodobností), s celkovou pravděpodobností. Komprese se provádí, dokud nezůstanou dva znaky. Zároveň vyplní kódovací tabulku, ve které jsou výsledné pravděpodobnosti připevněny a také zobrazují trasy, pro které se nové znaky pohybují v další fázi.

Ve druhé fázi se vyskytuje samotná kódování, která začíná z poslední etapy: první ze dvou znaků přiřazuje kód 1, druhý - 0. Poté přejděte do předchozí fáze. Do symbolů, které se nezúčastnily komprese v této fázi, atributové kódy z následující fáze, a na dvě nejnovější znaky dvakrát atributy symbolového kódu získaného po lepení a přidat do horní symbolové kódy 1, nižší - 0. Pokud Symbol je dále v lepení účastí, jeho kód zůstává nezměněn. Tento postup pokračuje do konce (to je až do první fáze).

Tabulka 2.3 ukazuje kódování podél algoritmu Hafman. Jak je vidět z tabulky, kódování bylo provedeno v 7 stupních. Vlevo jsou pravděpodobnosti znaků, vpravo - mezilehlé kódy. Šipky ukazují pohyblivé nově vytvořené znaky. V každé fázi se poslední dva znaky liší pouze s mladším vypouštěním, což odpovídá techniku \u200b\u200bkódování. Vypočítáme průměrnou délku slova:

l CF \u003d 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 \u003d 2,7

Ještě blíže k entropii: kód je ještě účinnější. Na Obr. 2.12 Zobrazuje kód Hafman.

Tabulka 2.3.

Kódování algoritmu Hafman

N. P I. kód I. I. II. III. IV. PROTI. Vi. Vii.
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Oba kódy splňují požadavek dekódování jedinečnosti: Jak je vidět z tabulek, kratší kombinace nejsou začátkem delších kódů.

S rostoucím počtem symbolů se účinnost kódů zvyšuje, takže v některých případech kódovaly větší bloky (například pokud mluvíme o textech, můžete kódovat některé z nejčastějších slabik, slov a dokoncecích frází).

Účinek realizace těchto kódů je určen ve srovnání s jednotným kódem:

(2.24)

kde n je počet jednotných vypouštěných kódů, který je nahrazen účinným.

Úpravy kódy Khafman

Klasický algoritmus Hafman označuje dva-pasivní, tj. Vyžaduje počáteční soubor statistik o symbolech a zprávách a pak postupy popsané výše. V praxi je nepohodlná, protože zvyšuje doba zpracování zpráv a akumulace slovníku. Jednorázové metody, ve kterých se spojí akumulace a kódující postupy. Tyto metody se také nazývají adaptivní komprese podél Hafman [46].

Podstatou adaptivní komprese přes Hafman je snížena na výstavbu počátečního kódu a jeho konzistentní modifikace po přijetí každého dalšího symbolu. Jako dříve, stromy jsou zde binární, tj. Z každého vrcholu grafu - Dřevo nastane maximálně dva oblouky. To je obvyklé zavolat původní vrchol rodičem a dva přidružené další vrcholy - děti. Představujeme koncept váhy vrcholu - to je počet znaků (slov) odpovídající tomuto vrcholu získané při použití počáteční sekvence. Samozřejmě, součet stupnic dětí se rovná hmotnosti rodiče.

Po zadání dalšího symbolu vstupní sekvence je kódový strom revidován: závaží vrcholů jsou přepočteny a v případě potřeby jsou vrcholy přeskupeny. Pravidlo přestavby vrcholů následovně: závaží dolních vrcholů jsou nejmenší a vrcholy, které jsou ponechány na sloupci, mají nejmenší závaží.

Současně jsou vrcholy číslovány. Číslování začíná dolním (závěsem, tj. Kdo nemá děti) vrcholy zleva doprava, pak převedeny vyšší úroveň atd. k číslování posledního, zdrojového vrcholu. Zároveň je dosaženo následujícího výsledku: méně váha vrcholu, tím méně jeho čísla.

Permutace se provádí hlavně pro zavěšení vrcholů. Když se jedná o permutace, je zvažováno formulované pravidlo: vrcholy s vysokou hmotností mají větší číslo.

Po průchodu sekvence (to se také nazývá řízení nebo test), kombinace kódu jsou přiřazeny všem visícím vrcholům. Pravidlo přiřazení pravidla je podobné výše uvedenému: počet vypouštění kódu se rovná počtu vrcholů, kterým se trasa běží ze zdroje do tohoto závěsného vrcholu a hodnota specifického vybití odpovídá směru od rodiče "Dítě" (řekněme, přechod na levici od rodiče odpovídá hodnotě 1, vpravo - 0).

Získané kombinace kódů jsou vloženy do paměti kompresního zařízení spolu s jejich analogy a tvoří slovník. Použití algoritmu je následující. Stlačitelná sekvence znaků je rozdělena do fragmentů v souladu s existujícím slovníkem, po kterém je každý z fragmentů nahrazen svým kódem ze slovníku. Fragmenty, které nejsou detekovány ve slovníku, tvoří nové závěsné vrcholy, přibývají se hmotnost a jsou také zapsány do slovníku. To je tvořeno adaptivním algoritmem pro doplnění slovníku.

Pro zvýšení účinnosti způsobu je žádoucí zvýšit velikost slovníku; V tomto případě roste koeficient komprese. Prakticky velikost slovníku je 4 - 16 kb paměti.


Ilustrujeme algoritmus daný příkladem. Na Obr. 2.13 ukazuje zdrojový diagram (to je také voláno s stromem Hafman). Každý vrchol dřeva je znázorněn obdélníkem, ve kterém jsou dvě číslice napsány frakcí: první znamená počet vrcholů, druhá je jeho hmotnost. Jak se ujistíte, že jsou spokojeni versic závaží a jejich čísla.

Předpokládejme, že symbol odpovídající vrcholu 1 v testovací sekvenci splnil sekundární. Hmotnost vrcholů změnila, jak je znázorněno na Obr. 2.14, v důsledku toho je porušen počet číslování vrcholu. V další fázi změníme uspořádání visících vrcholů, pro které změníme vrcholy 1 a 4 a reklamují všechny vrcholy stromu. Výsledný graf je znázorněn na Obr. 2.15. Dále postup pokračuje podobně.

Je třeba mít na paměti, že každý závěsný vrchol v stromu Hafman odpovídá specifickému symbolu nebo jejich skupině. Rodič je odlišný od dětí tím, že skupina postav, je pro něj vhodná pro jeden symbol v krátkosti, než jeho děti, a tyto děti se liší v posledním symbolu. Například rodiče odpovídají symbolům "auto"; Děti pak mohou mít "kara" a "kapra" sekvence.

Výše uvedený algoritmus není akademik a aktivně se používá v programech - Archivers, včetně při komprimaci grafických dat (budou diskutovány níže).

Lempel - Ziva algoritmy

Jedná se o nejčastěji používané kompresní algoritmy. Používají se ve většině programů - Archivers (například Pkzip. Arj, Lha). Podstatou algoritmů je, že některá sada znaků je nahrazena při archivaci ve speciálně generovaném slovníku. Například, často nalezený v záležitostech fráze "na vašem písmene Odchozí číslo ..." může zabírat ve slovníku 121; Pak namísto přenosu nebo ukládání uvedené fráze (30 bytů) můžete ukládat frázové číslo (1,5 bajty v binární desítkové formě nebo 1 bajt - v binární).

Algoritmy jsou pojmenovány po autorech, kteří je nejprve nabídli v roce 1977. Z nich první - LZ77. Pro archivaci se vytvoří tzv. Posuvné okno sestávající ze dvou částí. První část, větší formát, slouží k vytvoření slovníku a má velikost řádu několika kilobajtů. Ve druhé, menší část (obvykle až 100 bytů) jsou přijímány současnými znaky textu. Algoritmus se snaží najít ve slovníku znaků, které se shodují s vnímaným oknem. Pokud je to možné, je generován kód sestávající ze tří částí: posunutí ve slovníku týkající se jeho počátečního podřetězce, délka tohoto podřetězce vedle tohoto znaku substrátu. Například vyhrazený substrát se skládá z "Aplikace" symbolů (pouze 6 znaků), následující symbol je "E". Pak, pokud má podřetězec adresu (místo ve slovníku) 45, pak záznam ve slovníku má formulář "45, 6. E". Poté se obsah okna posune do polohy a vyhledávání pokračuje. Je tedy tvořen slovník.

Výhodou algoritmu je snadno formalizovaný algoritmus pro kompilaci slovníku. Kromě toho je možné rozpoznat a bez počátečního slovníku (je žádoucí mít testovací sekvenci) - slovník je tvořen v procesu UNIMBERU.

Nevýhody algoritmu se objevují se zvýšením velikosti slovníku - čas hledání času se zvyšuje. Kromě toho, pokud v aktuálním okně chybí řetězec znaků, každý symbol je zapsán do tří elementů, tj. Ukazuje se, že není komprese, ale protahování.

Nejlepší vlastnosti Má algoritmus LZSS navrhl v roce 1978. Má rozdíly v udržování posuvného okna a výstupních kódů kompresoru. Kromě okna, algoritmus tvoří binární strom, podobný stromu Hafman, aby urychlil hledání náhody: každý podřetězec opouštějící aktuální okno je přidán ke stromu jako jeden z dětí. Takový algoritmus umožňuje dále zvýšit velikost aktuálního okna (je žádoucí, aby jeho hodnota rovnající se stupni dvou: 128, 256 atd. Byte). Sekvenční kódy jsou také vytvořeny jinak: 1-bitová předpona je navíc zavedena pro rozlišení neinvestovaných znaků ze dvojic "posun, délka".

Ještě větší komprese se získá pomocí algoritmů typu LZW. Dříve popsané algoritmy mají pevnou velikost okna, což vede k nemožnosti vstupu do slovníku frází, je delší než velikost okna. V algoritmech LZW (a jejich předchůdce LZ78) má okno Zobrazit neomezenou velikost a slovníku akumuluje frázi (a ne celek znaků jako dříve). Slovník má neomezenou délku a kodér (dekodér) pracuje v režimu pohotovostního režimu. Když je tvořena fráze, která se shoduje s slovníkem, je kníženecký kód vydán (tj. Kód této fráze ve slovníku) a kód následujícího symbolu za ním. Pokud se jako symboly hromadí, je vytvořena nová fráze, je také vložena do slovníku jako nejkratší. V důsledku toho je vytvořen rekurzivní postup, který poskytuje rychlé kódování a dekódování.

Další příležitost Komprese poskytuje komprimované kódování opakovaných znaků. Pokud v pořadí, některé znaky následují v řádku (například v textu, může to být "prostor" znaky, v numerickém pořadí - tekoucí nuly, atd.), Má smysl nahradit jejich pár "symbol; délka "nebo" znamení, délka ". V prvním případě kód označuje funkci, kterou sekvence kóduje (obvykle 1 bit), pak kód opakování symbolu a délku sekvence. Ve druhém případě (stanovené pro nejběžnější opakované symboly) v předponopisu označuje jednoduše znamení opakování.