Звукова компресия: принцип и конфигурация. Синтез и разпознаване на реч

През времето, когато изследователите също продължават да решават проблема за създаването на реч интерфейс за компютри, често е необходимо да се произвежда самостоятелно оборудване, което ви позволява да въвеждате аудио информация в компютъра, както и да я покажете от компютъра. Днес такива устройства могат да имат уникален исторически интерес, тъй като съвременните компютри могат лесно да оборудват входните и изходните устройства, като звукови адаптери, микрофони, слушалки и звукови колони.

Няма да се задълбочаваме вътрешно устройство Тези устройства, но ние ще разкажем как работят, и дават някои препоръки за избор на звукови компютърни устройства, за да работят с системи за разпознаване и синтез на речта.

Както вече говорихме в предишната глава, звукът не е нищо повече от въздушни колебания, чиято честота се намира в честотния диапазон, възприет от човека. При различни хора точните граници на гамата от звукови честоти могат да варират, обаче, смята се, че звуковите трептения са в диапазона от 16-20 000 Hz.

Задачата на микрофона е да преобразува аудио колебанията в електрическите колебания, които могат да продължат да бъдат подсилени, филтрирани за премахване на смущения и дигитализирани, за да въведете звукова информация в компютъра.

Съгласно принципа на работа най-често срещаните микрофони са разделени на въглища, електродинамичен, кондензатор и електрот. Някои от тези микрофони изискват работата си външен източник Сегашният (например въглища и кондензатор), други под влиянието на звуковите трептения могат независимо да произвеждат редуващи се електрическо напрежение (това са електродинамични и електронни микрофони).

Можете също така да разделите микрофони за целта. Има студийни микрофони, които могат да бъдат държани в ръка или да се закрепят на стойката, има радио микрофони, които могат да бъдат фиксирани върху дрехите и така нататък.

Има и микрофони, предназначени специално за компютри. Такива микрофони обикновено са прикрепени към стойката на повърхността на таблицата. Компютърните микрофони могат да се комбинират с слушалки, както е показано на фиг. 2-1.

Фиг. 2-1. Слушалки с микрофон

Как да изберем от всички разнообразие от микрофони, което е най-подходящо за системите за разпознаване на реч?

По принцип можете да експериментирате с всеки микрофон, който имате, освен ако не може да бъде свързан към компютърен адаптер. Въпреки това разработчиците на системите за разпознаване на реч се препоръчват да придобият такъв микрофон, който на работното място ще бъде на постоянно разстояние от устата на говорещия.

Ако разстоянието между микрофона и устата не се променя, средният електрически сигнал, идващ от микрофона, също ще се промени твърде много. Това ще има положителен ефект върху качеството на работата на съвременните системи за разпознаване на речта.

Какъв е проблемът тук?

Човек е в състояние успешно да признае речта, чийто обем се променя в много широки граници. Човешкият мозък е в състояние да филтрира тиха реч от смущения, като например шума на колите, преминаващи по улицата, чуждестранни разговори и музика.

Що се отнася до съвременните системи за разпознаване на реч, техните способности в тази област оставят много за желание. Ако микрофонът стои на масата, след това, когато главата се върти или променя положението на тялото, разстоянието между устата и микрофона ще се промени. Това ще доведе до промяна в нивото на изходния сигнал на микрофона, който от своя страна ще влоши надеждността на разпознаването на речта.

Ето защо, когато работите с системи за разпознаване на реч, най-добрите резултати ще бъдат постигнати, ако използвате микрофона, прикрепен към главите, както е показано на фиг. 2-1. Когато се използва такъв микрофон, разстоянието между устата и микрофона ще бъде постоянно.

Ние също обръщаме вниманието ви, че всички експерименти с системите за разпознаване на реч са най-добре, запазвайки се в тиха стая. В този случай ефектът от смущенията ще бъде минимален. Разбира се, ако трябва да изберете система за разпознаване на реч, способна да работи в условия на силна намеса, тестовете трябва да се извършват по различен начин. Въпреки това, доколкото е известно на авторите на книгата, докато спазването на системите за разпознаване на реч все още е много ниско.

Микрофонът изпълнява за нас преобразуване на звукови трептения във флуктуации електрически ток. Тези трептения могат да се видят на екрана на осцилоскопа, но не бързайте към магазина, за да закупите това скъпо устройство. Всички осцилографични изследвания можем да прекараме с помощта на обикновен компютър, снабден със звуков адаптер, като например звуковия адаптер за бласт. По-късно ще ви кажем как да го направите.

На фиг. 2-2 показахме осцилограма звуков сигналПолучени, когато произнесе дълъг звук a. Тази осцилограма е получена с помощта на програмата Goldwave, за която все още разказахме в тази глава на книгата, както и използването на звуковия бластер и аудио адаптера на микрофона, подобен на този, показан на фиг. 2-1.

Фиг. 2-2. Осцилограма на звуков сигнал

Програмата Goldwave ви позволява да разтегнете осцилограмата по време на ос, което ви позволява да видите най-малките детайли. На фиг. 2-3 показваме опъната фрагмент от звука осцилограма, споменат по-горе.

Фиг. 2-3. Звук звук осцилограм фрагмент

Моля, обърнете внимание, че величината на входния сигнал, идваща от микрофона, варира периодично и отнема както положителни, така и отрицателни стойности.

Ако входния сигнал е налице само една честота (т.е. ако звукът е "чист"), формата на сигнала, получена от микрофона, би била синусоидална. Въпреки това, както казахме, спектърът на човешките реч звучи се състои от набор от честоти, в резултат на което формата на речевия сигнал осцилограма е далеч от синусоидалната.

Сигнала, чиято стойност се променя с времето непрекъснато, ние ще се обадим аналогов сигнал. Този сигнал идва от микрофона. За разлика от аналоговия, цифров сигнал е набор от цифрови стойности, различни от времето дискретно.

Към компютъра може да обработи звуков сигнал, той трябва да бъде преведен от аналоговата форма в цифров, т.е. да представлява под формата на набор от цифрови стойности. Този процес се нарича цифровизация на аналогов сигнал.

Дигитализацията на звука (и всеки аналогов) сигнал се извършва с помощта на специално устройство analog-to-digital конвертор ADC (аналогов до цифров конвертор, ADC). Това устройство е на борда на аудио адаптера и е често срещан микроцирци.

Как работи аналогово-цифровия конвертор?

Той периодично измерва нивото на входния сигнал и дава изходната цифрова стойност на резултата от измерването. Този процес е илюстриран на фиг. 2-4. Тук сивите правоъгълници отбелязаха входните стойности, измерени при определен постоянен интервал от време. Набор от такива стойности и е дигитализирано представяне на входния аналогов сигнал.

Фиг. 2-4. Измерване на зависимостта на амплитудата на сигнала от време

На фиг. 2-5 показваме връзката на аналоговия на цифров конвертор към микрофона. В този случай въвеждането x 1 служи аналогов сигнали цифров сигнал се отстранява от u 1 -u n изходите.

Фиг. 2-5. Аналогов цифров конвертор

Аналоговите до-цифрови преобразуватели се характеризират с два важни параметъра - честотата на трансформация и броя на нивата на количествено обжалване на входния сигнал. Правилният избор на тези параметри е от решаващо значение за постигане на адекватно представяне в цифровата форма на аналогов сигнал.

Колко често често се нуждаете от измерване на стойността на амплитудата на входния аналогов сигнал, така че поради цифровизацията не се губи информация за промени в аналоговия сигнал?

Изглежда, че отговорът е прост - входният сигнал трябва да се измерва възможно най-често. Наистина, толкова по-често аналог-към-цифров конвертор провежда такива измервания, толкова по-добри ще бъдат проследени най-малките промени в амплитудата на входния аналогов сигнал.

Въпреки това, ненужно честите измервания могат да доведат до неоправдан растеж на цифровите потоци от данни и безполезни компютърни ресурси при обработка на сигнал.

За щастие, правилен избор Честотно преобразуване (честота на вземане на проби) е достатъчно просто. За да направите това, той е достатъчно да се свърже с теоремата Kotelnikov, известна на специалистите в областта на обработката на цифрови сигнали. Теоремата заявява, че честотата на превръщането трябва да бъде два пъти по-висока от максималната честота на спектъра на трансформирания сигнал. Следователно, за цифровизация, без да губите качеството на звуковия сигнал, честотата на която се намира в диапазона от 16-20,000 Hz, трябва да изберете честотата на превръщането, не по-малко от 40,000 Hz.

Бележка обаче, че в професионалното звуково оборудване честотата на превръщането се избира няколко пъти от определената стойност. Това се прави, за да се постигне много високо качество на дигитализиран звук. За системите за разпознаване на реч, това качество не е от значение, така че ние няма да изостряме вниманието ви върху такъв избор.

И каква честота на трансформацията е необходима за цифровизиране на звука на човешката реч?

Тъй като звуците на човешката реч лежат в честотния диапазон от 300-4000 Hz, минималната необходима честота на превръщането е 8000 Hz. Въпреки това, много компютърни програми Разпознаване на речта Използвайте стандарт за конвенционалните аудио адаптери. Честотата на трансформация е 44,000 Hz. От една страна, тази честота на трансформацията не води до прекомерно увеличаване на потока от цифрови данни, а другият - осигурява речева дигитализация с достатъчно качество.

Дори в училище бяхме научени, че с всякакви измервания възникват грешки, от които е невъзможно да се отървете от напълно. Такива грешки се появяват поради ограниченото разрешаване на измервателните уреди, както и поради факта, че самият процес на измерване може да направи някои промени в измерената стойност.

Analog-to-Digital преобразувател представлява входния аналогов сигнал под формата на поток от числа с ограничен бит. Конвенционалните аудио адаптери съдържат 16-битови ADC блокове, които могат да представляват амплитудата на входния сигнал под формата на 216 \u003d 65536 различни стойности. ADC устройствата в висококачественото звуково оборудване могат да бъдат 20-битови, осигуряващи по-голяма точност на амплитудата на аудио сигнала.

Съвременните системи и програми за разпознаване на реч бяха създадени за обикновени компютри, оборудвани с обичайните звукови адаптери. Ето защо, за провеждане на експерименти с разпознаване на реч, няма да се налага да придобиете професионален аудио адаптер. Такъв адаптер като звуков бластер е доста подходящ за дигитализиране на реч, за да го разпознаят допълнително.

Заедно с полезния сигнал към микрофона, различни шумове обикновено падат - шум от улицата, шум от вятъра, чуждестранни разговори и др. Шумът има отрицателно въздействие върху качеството на работата на системите за разпознаване на реч, така че трябва да се справи с него. Един от начините вече споменахме - днешните системи за разпознаване на речта най-добре се използват в тиха стая, оставайки с компютър един на един.

Въпреки това, идеалните условия могат да бъдат създадени не винаги, така че трябва да използвате специални методипозволявайки ви да се отървете от шума. За намаляване на нивата на шума се използват специални трикове при изграждане на микрофони и специални филтри, които отстраняват от спектъра на аналогов честотен сигнал, който не носи полезна информация. В допълнение, тази техника се използва като компресия. динамичен обхват Нива на въвеждане.

Разкажете за всичко това по ред.

Честотен филтър. Извиква се устройство, което преобразува честотния спектър на аналогов сигнал. В този случай, по време на процеса на трансформация (или абсорбцията) на колебанията на определени честоти.

Можете да си представите това устройство под формата на серия от черна кутия с един вход и един изход. Що се отнася до нашата ситуация, микрофонът ще бъде свързан към входа на честотния филтър, а аналоговият до-цифров конвертор ще бъде свързан към изхода.

Честотните филтри са различни:

· Долни честотни филтри;

· Горни честотни филтри;

· Преместване на ленти;

· Слабални лентови филтри.

По-ниски честотни филтри (Нискочестотен филтър) се отстранява от входния спектър Всички честоти, чиито стойности са под някаква прагова честота в зависимост от настройката на филтъра.

Тъй като звуковите сигнали лежат в диапазона от 16-20,000 Hz, всички честоти по-малко от 16 Hz могат да бъдат отрязани, без да се влошава качеството на звука. За разпознаване на реч, честотният диапазон от 300-4000 Hz е важен, така че можете да намалите честотите под 300 Hz. В този случай, всички смущения ще бъдат изрязани от входния сигнал, честотният спектър на който се намира под 300 Hz и те няма да се намесват в процеса на разпознаване на реч.

По същия начин, горни честотни филтри (Високосфайсният филтър) се изрязват от входния спектър Всички честоти над една прагова честота.

Човек не чува звуци с честота от 20 000 Hz и по-горе, така че те могат да бъдат изрязани от спектъра без забележимо влошаване на качеството на звука. Що се отнася до разпознаването на реч, тук можете да намалите всички честоти над 4000 Hz, което ще доведе до значително намаляване на нивото на високочестотни смущения.

Предаване на филтър за ленти (Лентов филтър) може да бъде представен като комбинация от дъното и горния честотен филтър. Такъв филтър забавя всички честоти под така наречените долна честотакакто и по-горе горна честотна честотна лента.

По този начин, за системата за разпознаване на реч, филтърът на честотната лента е удобен, който забавя всички честоти, с изключение на честотите на диапазона от 300-4000 Hz.

Що се отнася до филтрите за запалване (лентов филтър), те ви позволяват да изрежете от входния спектър Всички честоти, разположени в определения диапазон. Такъв филтър е удобен, например, за потискане на шума, който заема солидна част от спектъра на сигнала.

На фиг. 2-6 показваме връзката на филтъра за честотната лента.

Фиг. 2-6. Филтриране на звуковия сигнал преди цифровизацията

Трябва да се каже, че обичайните звукови адаптери, монтирани в компютъра, са в състава им лентичен филтър, през който преди дигитализацията преминава аналогов сигнал. Честотната лента на такъв филтър обикновено съответства на обхвата на звуковите сигнали, а именно 16-20,000 Hz (в различни аудио адаптери, стойностите на горната и долната честота могат да варират в малки граници).

И как да се постигне по-тясна честотна лента от 300-4000 Hz, съответстваща на най-информативната част от човешкия спектрален спектър?

Разбира се, ако имате тенденция да проектирате радио електронно оборудване, можете да направите филтъра си от микросисния усилвател, резистори и кондензатори. Приблизително първите създатели на системи за разпознаване на речта.

но индустриални системи Разпознаването на реч трябва да бъде приложимо на стандартен компютърен хардуер, така че пътят на производството на специален филтър на лента не е подходящ тук.

Вместо това, така наречената се използва в съвременните системи за обработка на речта цифрови честотни филтриизпълнени програмно. След това стана възможно процесор Компютърът е станал достатъчно мощен.

Филтърният филтър за цифрови честота преобразува входния цифров сигнал към изходния цифров сигнал. В процеса на преобразуване, програмата обработва специален поток от сигнал за луминесценцията на амплитудата на сигнала, идваща от аналогов до-цифров конвертор. Резултатът от превръщането също ще бъде броят на номерата, обаче, тази нишка ще съответства на вече филтриран сигнал.

Говорейки за аналогово-цифровия конвертор, отбелязахме такива важна характеристикакато броя на нивата на квантуване. Ако в аудио адаптера е монтиран 16-битов аналогов цифров конвертор, след това след дигитализиране на нивата на звуковия сигнал могат да бъдат представени като 216 \u003d 65536 различни стойности.

Ако има няколко нива на количествена употреба, тогава така наречените мамят шум. За да се намали този шум, при висококачествени системи за звукова дигитализация, аналоговите цифрови преобразуватели трябва да се прилагат с максимален наличен брой нива на квантуване.

Въпреки това, има и друго приемане, което ви позволява да намалите ефекта от шума за квантуване върху качеството на аудио сигнала, който се използва в системите за запис на цифрови звук. Когато използвате това приемане преди дигитализиране, сигналът се прекарва през нелинеен усилвател, подчертавайки сигналите с малка амплитуда на сигнала. Такова устройство подобрява слабите сигнали по-силни от силните.

Това е илюстрирано с графика на зависимостта на амплитудата на изходния сигнал от амплитудата на входния сигнал, показан на фиг. 2-7.

Фиг. 2-7. Нелинейно усилване преди цифровизацията

В етапа на обратното преобразуване на дигитализирания звук към аналога (разглеждаме тази стъпка по-долу в тази глава), преди да покажете аудио колоната, аналоговият сигнал отново се прекарва през нелинеен усилвател. Този път се използва друг усилвател, който подчертава сигналите с голяма амплитуда и има характеристика на трансфер (зависимост от амплитудата на изходния сигнал от амплитудата на входния сигнал), обратната, която е била използвана по време на цифровизацията.

Как може всичко това да помогне на създателите на системи за разпознаване на реч?

Човекът, както е известен, е доста добре познат от речта, произнесена от тих шепот или доста силен глас. Може да се каже, че динамичният обхват на обема на успешно признат реч за човек е доста широк.

Днес компютърни системи Разпознаване на речта, за съжаление, докато не го похвали. Въпреки това, с цел определена експанзия на определения динамичен обхват преди дигитализиране, можете да пропуснете сигнал от микрофона чрез нелинеен усилвател, чиято трансфер на която е показана на фиг. 2-7. Това ще намали нивото на шума на квантуването по време на цифровизацията на слабите сигнали.

Разработчиците на системите за разпознаване на реч, отново са принудени да се фокусират предимно върху серийно произведени звукови адаптери. Те не осигуряват нелинейното преобразуване на сигнала, описано по-горе.

Въпреки това, можете да създадете софтуер, еквивалент на нелинеен усилвател, който превръща цифров сигнал, преди да го предаде на модула за разпознаване на реч. И въпреки че такъв усилвател на програмата няма да може да намали шума от квантуване, е възможно да се подчертаят нивата на сигнала, които носят най-голямата информация за речта. Например, можете да намалите амплитудата на слабите сигнали, като елиминирате сигнала от шум.

© 2014 сайт

Или фотографска ширина Фотоматериалът е връзката между максималните и минималните стойности на експозиция, които могат да бъдат правилно заснети на снимката. Във връзка с цифровата фотография динамичният обхват всъщност е еквивалентен на съотношението на максималните и минималните възможни стойности на полезния електрически сигнал, генериран от фоточувствител по време на експозицията.

Динамичният обхват се измерва в етапите на експозиция (). Всяка стъпка съответства на удвояване на количеството светлина. Например, ако даден фотоапарат има динамичен диапазон от 8 EV, това означава, че максималната възможна стойност на полезния сигнал на неговата матрица се отнася до минимум като 2 8: 1, което означава, че фотоапаратът е в състояние да заснеме в един Обектите на рамката се различават в яркостта не повече от 256 пъти. По-точно, той може да заснеме обекти с всякаква яркост, но предмети, чиято яркост ще надхвърли максимума допустима стойност Нека излезем на снимка на ослепително бяло и предмети, чиято яркост ще бъде под минималната стойност - въглищните черни. Подробностите и текстурите ще бъдат различаващи се само върху тези обекти, чиято яркост е подредена в динамичния обхват на камерата.

Да опише връзката между яркостта на най-ярките и най-тъмни от сменяемите обекти, често се използва съвсем коректна термин "динамична сцена". Ще бъде по-правилно да се говори за диапазона на яркост или на нивото на контраста, тъй като динамичният обхват обикновено е характеристиката на измервателното устройство (в. \\ T този случай, Матрици за цифрови фотоапарати).

За съжаление, най-яркостта на много красиви сцени, с които сме изправени реалния животможе значително да надвишава динамичния диапазон на цифров фотоапарат. В такива случаи фотографът е принуден да реши кои обекти трябва да бъдат разработени във всички части и кой може да бъде оставен извън динамичния обхват, без да се засяга творческия дизайн. За да се използва най-ефективно динамичния обхват на вашия фотоапарат, понякога може да отнеме не толкова пълно разбиране на принципа на работа на фотосензора, колко развити артистични.

Динамични фактори на обхвата

Долната граница на динамичния обхват се определя от нивото на собствения си шум на фотостанцията. Дори матрицата Ullit генерира фон електрически сигнал, наречен тъмен шум. Също така, намесата възниква, когато таксата се прехвърля в аналогов до-цифров конвертор, а самият ADC въвежда определена грешка в цифровизирания сигнал - т.нар. Вземане на проби от шум.

Ако направите снимка в пълна тъмнина или с капак на обектива, тогава камерата ще записва само този безсмислен шум. Ако позволите минималния брой светлина да стигнете до сензора, фотодиодите ще започнат да натрупват електрически заряд. Стойността на заряда, което означава интензивността на полезния сигнал, ще бъде пропорционална на броя на заснетите фотони. За да направите снимка, поне някои смислени детайли, е необходимо нивото на полезния сигнал да надвиши нивото на фоновия шум.

Така, долната граница на динамичния обхват или, с други думи, прагът на чувствителност на сензора формално може да се дефинира като нивото на изходния сигнал, при което съотношението сигнал-шум е по-голямо от устройството.

Горната граница на динамичния обхват се определя от контейнера на отделен фотодиод. Ако по време на експозицията всеки фотодиод ще натрупа електрически заряд от ограничаващи стойности за себе си, тогава пикселът на изображението, съответстващ на претоварения фотодид, е абсолютно бяло, а по-нататъшното облъчване няма да повлияе на яркостта му. Този феномен се нарича подрязване. Колкото по-висока е френетичната способност на фотодиода, толкова по-голям е сигналът, който може да се получи на изхода преди достигането на насищането.

За по-голяма яснота се обръщаме към характерната крива, която е графика на изходната сигнална зависимост от експозицията. На хоризонталната ос бинарният логаритм на облъчването, получен от сензора, е отложен и на вертикалния - бинарния логаритм на амплитудата на електрическия сигнал, генериран от сензора в отговор на това облъчване. Моят чертеж е до голяма степен условен и преследва изключително илюстративни цели. Характерната крива на настоящия фотосензор има малко по-сложна форма, а нивото на шума рядко е толкова високо.

Графиката е ясно видима две критични твърди точки: в първите от тях нивото на полезния сигнал пресича прага на шума, а във втория - фотодиод достигат насищане. Стойностите на експозицията, разположени между тези две точки, са динамичен обхват. В този абстрактен пример е равен на това колко лесно е да се забележи, 5 EV, т.е. Камерата е в състояние да усвои пет двукратна експозиция, която е еквивалентна на 32x (2 5 \u003d 32) в разликата в яркостта.

Зоните на експозицията, които съставляват динамичния обхват, са неравномерни. Горните зони се характеризират с по-високо съотношение сигнал и шум и следователно изглеждат по-ясни и по-подробни от по-ниските. В резултат на това горната граница на динамичния обхват е много реална и забележима - клипинг се увиват при най-малкото свръхекспозиция, докато долната граница все повече потъва в шума и преходът към черен цвят е далеч от така нарязания.

Линейната зависимост на сигнала от експозицията, както и рязко доходност на платото, са уникални характеристики на цифровия фотографски процес. За сравнение, разгледайте условната характеристика на традиционната фотоплейна.

Формата на кривата и особено ъгъла на наклона зависи значително от вида на филма и от процедурата на нейното проявление, но най-важното нещо, което остава разликата между график на филма от цифровата - нелинейната природа на зависимостта на Оптичната плътност на филма от стойността на експозицията остава непроменена.

Долната граница на фотографската географска ширина на отрицателния филм се определя чрез плътността на завесата и горната - максималната постижима оптична плътност на фотоклира; Завъртаните филми - напротив. Както в сенките, така и в светлините има гладки извивки за характерната крива, показваща капка в контраст, когато се приближава към границите на динамичния обхват, тъй като ъгълът на наклона на кривата е пропорционален на контраста на изображението. По този начин зоните на експозиция, лежащи в средната част на графика, имат максимален контраст, докато в светлините и сенките, контрастът се намалява. На практика, разликата между филма и цифровата матрица е особено добре забележима в светлините: където в цифровото изображение на светлината се изгаря с клипинг, частите на филма са все още различими, макар и нисък контраст, и Преходът към чист бял цвят изглежда гладко и естествено.

В сенситометрия се използват дори две независими условия: всъщност фотографска ширинаограничена от относително линейна част на характерната крива и полезна фотографска ширина, В допълнение към линейната секция, също база и графиката на раменете.

Трябва да се отбележи, че при обработката на цифрови снимки, това, като правило, прилага повече или по-малко изразена S-образна крива, която увеличава контраста в полутона на цената на намаляването на сенките и светлините, което дава цифров образ, който дава цифров образ по-естествен и приятен поглед.

Byigness.

За разлика от матрицата на цифровия фотоапарат, човешкото зрение е характерно, да кажем, логаритмичен поглед към света. Последователното удвояване на количеството светлина се възприема от нас като равни промени в яркостта. Леките номера могат дори да бъдат сравнени с музикални октави, защото двойните промени в честотата на звука се възприемат от слух като един музикален интервал. Този принцип използва други сетива. Нелинейността на възприятието е много разширяването на човешката чувствителност към стимула с различна интензивност.

Когато конвертирате RAW файла (няма значение, инструментите на камерата или в RAW конвертора), съдържащи линейни данни, така наречените автоматично се прилага за него. Гама крива, която е предназначена за нелинейно увеличаване на яркостта на цифровото изображение, което го води в съответствие с особеностите на човешкото виждане.

С линейно преобразуване, изображението се получава твърде тъмно.

След поправка на гама, яркостта идва нормално.

Гама кривата, тъй като тя ще се простира тъмни тонове и притиска светлина, което прави дистрибуцията на града по-униформа. В резултат на това изображението придобива естествен вид, но шумът и артефактите на вземане на проби в сенките неизбежно стават по-забележими, което се изостри от малък брой нива на яркост в долните зони.

Линейно разпределение на градинациите на яркост.
Равномерно разпределение след прилагане на гама.

ISO и динамичен обхват

Въпреки факта, че в цифровата фотография се използва същата концепция за фоточувствителност на фотографския материал, както при снимката на филма, тя трябва да се разбира, че това се дължи единствено на традицията на традицията, тъй като подходите за промяна на фоточувствителността в цифров вид и филмовата фотография се различават по принцип.

Подобряването на ISO чувствителността в традиционната фотография означава смяна на един филм в друг с по-голямо зърно, т.е. Има обективна промяна в свойствата на фотоапаратора. В цифровия фотоапарат чувствителността на сензора е категорично определена от нейните физически характеристики и не може да се променя буквално. С увеличаване на ISO, камерата не променя реалната чувствителност на сензора, но само подобрява електрическия сигнал, генериран от сензора в отговор на облъчването и правилно регулира алгоритъма за цифровизация за този сигнал.

Важна последица от това е да се намали ефективният динамичен диапазон пропорционално на увеличаването на ISO, защото с полезен сигнал се подобрява шумът. Ако ISO 100 дигитализира цялата гама от стойности на сигнала - от нула до точка на насищане, след това с ISO 200, само половината от капацитета на фотодиодите се приема за максимум. При всяко удвояване на чувствителността на ISO, горният етап на динамичния обхват се отрязва, а останалите стъпки са затегнати до мястото му. Ето защо използването на ултра-високи ISO стойности са лишени от практическо значение. Със същия успех можете да облекчите снимката в необработения конвертор и да получите сравнимо ниво на шум. Разликата между увеличаването на ISO и изкуственото осветяване на картината е, че с увеличаване на ISO, укрепването на сигнала се появява преди да бъде получено в ADC и следователно шумът от квантуването не е подобрен, за разлика от собствения си шум на сензора, Докато в суровия конвертор амплификацията е обект на включване на грешките на ADC. В допълнение, намаляването на диапазона за цифровизация означава по-точна вземане на проби от останалите входни стойности.

Между другото, ISO се предлага на някои устройства под основната стойност (например, до ISO 50), той не разширява динамичния обхват и просто разхлабва сигнала два пъти, което е равно на моментната снимка в необработения конвертор. Тази функция може да бъде лекувана като вредна, тъй като използването на подчинена стойност на ISO провокира камера за увеличаване на експозицията, която с оставащия непроменен праг на сензора, той увеличава риска от подрязване на светлините.

Истински динамичен обхват

Има няколко програми като (DXO анализатор, Imatest, Rawdigger и т.н.) ви позволяват да измервате динамичния обхват на цифров фотоапарат у дома. По принцип това не е голяма нужда, тъй като данните за повечето камери могат да бъдат свободно намерени в интернет, например, на уебсайта на DXomark.com.

Трябва ли да вярвам на резултатите от тези тестове? Съвсем. С единствената резервация всички тези тестове са дефинирани ефективни или, ако можете да я изразите, техническия динамичен обхват, т.е. Връзката между нивото на насищане и нивото на шума на матрицата. За фотографа полезният динамичен обхват е предимно важен, т.е. Броя на зони на експозиция, които наистина ви позволяват да заснемете някаква полезна информация.

Както си спомняте, прагът на динамичния обхват е определен от нивото на шума на фото сезонника. Проблемът е, че на практика по-ниските зони, официално входящи в динамичния обхват, съдържат твърде много шум, така че те да могат да се използват за използване. Тук, много зависи от индивидуалното притискане - приемливото ниво на шум всеки определя за себе си.

Моето субективно мнение е, че подробностите в сенките започват да изглеждат повече или по-малко прилични със съотношението сигнал / шум най-малко осем. На тази основа аз определям за себе си полезен динамичен обхват, като технически динамичен обхват минус около три стъпки.

Например, ако огледалната камера според резултатите от надеждни тестове има динамичен диапазон от 13 EV, което е много добро за днешните стандарти, тогава полезният му динамичен обхват ще бъде около 10 EV, който като цяло също е много задълбочен . Разбира се, ние говорим за стрелба в суров, с минимален ISO и максимален бит. Когато стреля в JPEG, динамичният диапазон силно зависи от настройките на контраста, но средно два или три стъпки трябва да се изхвърлят.

За сравнение: фотографски снимки, търгувани, имат полезна фотографска ширина от 5-6 стъпки; Черно-белите негативни филми дават 9-10 стъпки със стандартни процедури за проявление и печатане и с определени манипулации - до 16-18 стъпки.

Обобщавайки гореизложеното, ние ще се опитаме да формулираме няколко прости правила, които ще ви помогнат да измъкнете от сензора на максималната производителност на камерата:

  • Динамичният обхват на цифровия фотоапарат е напълно достъпен само при снимане в РАО.
  • Динамичният обхват намалява с нарастващата чувствителност на светлината и следователно избягвайте високи ISO стойности, ако няма рязкост.
  • Използването на по-високо разреждане за сурови файлове не увеличава истинския динамичен обхват, но подобрява тоналното разделяне в сенките поради | Повече ▼ Нива на яркост.
  • Излагане надясно. Зоните на горната експозиция винаги съдържат максимум полезна информация С минимален шум и трябва да се използва най-ефективно. В същото време не трябва да забравяте за опасността от клипинг - пикселите, които са достигнали насищане, са абсолютно безполезни.

И най-важното: не е необходимо да се притеснявате за динамичния обхват на камерата. С динамичен обхват е добре. Вашата способност да виждате светлина и компетентно управление на експозицията е много по-важна. Един добър фотограф няма да се оплаква от липсата на фотографска ширина, но ще се опита да изчака по-удобно осветление или ще промени ъгъла, или ще използва светкавицата, с една дума, ще действа в съответствие с обстоятелствата. Ще ви кажа повече: някои сцени спечелиха само поради факта, че те не се вписват в динамичния обхват на камерата. Често ненужно изобилие от части е просто необходимо да се скрие в полумесеца черен силует, който прави снимка в същото време сбито и по-богати.

Високият контраст не винаги е лош - трябва само да можете да работите с него. Научете се да използвате недостатъците на оборудването, както и неговите предимства, и ще бъдете изненадани колко ще се разширят творческите ви възможности.

Благодаря за вниманието!

Василия А.

След сценария

Ако статията е била полезна и информация за вас, можете любезно да подкрепите проекта, да допринесете за неговото развитие. Ако не ви хареса статията, но имате мисли как да го направите по-добре, критиката ви ще бъде приета без по-малко благодарност.

Не забравяйте, че тази статия е обект на авторски права. Препечатка и цитиране е позволен, ако съществува съществуващо позоваване на оригиналния източник и използваният текст не трябва да се избира или променя.

Хората, които са ентусиазирани с домашен звук, демонстрират интересен парадокс. Те са готови да избутят помещението за слушане, да изграждат колони с екзотични емитери, но те се притесняват пред музикалния консерви, сякаш вълкът пред червения флаг. И всъщност защо е невъзможно за отметката да излезе, и от консерви, опитайте се да готвя нещо по-годни за консумация?

Периодично във форума има оплаквания: "Съветвайте добре записаните албуми". Това е разбираемо. Специални аудиофилни издания, въпреки че те ще се насладят на първата минута, но никой не слуша край, той боли репертоара. Що се отнася до останалата част от Phonothek, проблемът изглежда очевиден. Можете да запишете, но не можете да запазите и да изпразвате шум в компонентите. Все още не обичам да слушам любимата ви музика на голям обем и възможността за усилвател тук.

Днес, дори и при албума Hi-Res, върховете на фонограмата и обема на задвижваното в клипинг се отрязват. Смята се, че мнозинството слуша музика на всяка боклук и затова е необходимо да се "попитате", за да направят някаква посвещение.


Разбира се, това не се прави конкретно за разстрои аудиофилите. За тях като цяло малко хора си спомнят. Е, с изключение на това, че са предположили да оставят главните файлове, с които се копират основната циркулация - компактдискове, mp3 и т.н. Разбира се, магьосникът отдавна е сплескан от компресора, никой няма съзнателно да подготви специални версии за HD песни. Това е, че определена процедура за винилов носител, който поради тази причина и звучи по-човекоположно. И за цифровия път, всичко завършва същото - голям дебел компресор.

Така че, в момента всички 100% от публикуваните фонограми, минус класическата музика са подложени на компресия при мастиране. Някой изпълнява тази процедура повече или по-малко умело, а някой е напълно глупав. В резултат на това имаме поклонници на форумите с линията на д-р плъгин за синусите, болезнени сравнения на публикациите, бягство на винил, където също се нуждаете от основен попър.

Най-изтънчените при погледа на всички тези посадъци се обърнаха буквално в аудио обувки. Никаква шега, те четат звуковия източник на свещено писание назад! Модерните програми за редактиране на звука имат известен инструмент за възстановяване звукова вълнаПодрязани подстригани.

Първоначално тази функционалност е предназначена за студиа. Когато се смесват, има ситуации, когато клипингът е дошъл да пише и вече не е възможно да се поемат сесията по редица причини и тук идва на помощния аузеен редактор на Arsenal - Decalipker, декомпресор и др.

И вече за такъв софтуер, всички смели издърпват дръжките на обикновените слушатели, които имат кръв от ушите след следващата новост. Някой предпочита izotope, някой Adobe Audition, някой оперативен акции между няколко програми. Значението на възстановяването на първата динамика е правилно да се коригират пиковете на сигнала с клипчета, които, които почиват в 0 dB, прилича на предавка.

Да, около 100% възраждане на източника на речта не отиват, тъй като процесите на интерполация на сравнително спекулативни алгоритми се срещат. Но все пак някои от резултатите от обработката ми се струват интересни и достойни за изучаване.

Например, албумът на Лана дел Рей "похот към живота", последователно се намръщи, Пах, шофиране! В оригиналната песен "Когато светът е бил във война, продължаваме да танцуваме" е така.


И след поредица от декалипери и декомпресори, тя стана така. Коефициентът на д-р се е променил от 5 до 9. Изтеглете и слушайте пробата преди и след обработка.


Не мога да кажа, че методът е универсален и е подходящ за всички разгърнати албуми, но в този случай предпочитам да запазя в колекцията точно тази опция, лекувана с активист на Рутър, вместо официалната публикация в 24 бита.

Дори ако изкуственото издърпване на върхове от млякото смляно не връща истинската динамика на музикалното представяне, вашият DAC все още ще каже ви благодаря. Беше толкова трудно да работи без грешки на граничните нива, където вероятността за т.нар. Интермонични върхове (ISP) е страхотна. И сега до 0 dB ще dope само редки пръстени на сигнала. В допълнение, задействаната фонограма, когато е компресирана в Flac или друга кодеца без загуба, сега ще бъде по-малка по размер. Повече "въздух" в сигнала спестява пространство на твърдия диск.

Опитайте се да съживите най-мразените си албуми, убити на "военен войн". За резервата на високоговорителя първо трябва да намалите нивото на песента на -6 dB, след което да започнете декларатора. Тези, които не вярват, че компютрите могат просто да се придържат между CD плейъра и разширяването на студиото на усилвателя. Това устройство По същество това се прави по същия начин - тъй като може да възстанови и издърпва върховете, компресирани над динамиката на аудио сигнала. Има подобни устройства от 80-90-те да не казват, че са много скъпи и като експеримент, опитайте ги много интересни.


Динамичният контролер DBX 3BX обработва сигнала отделно в три ивици - LF, SC и RF

След като еквивализаторите бяха за даденост на аудио системата и никой не се страхуваше от тях. Днес не е необходимо да се изравнят високите честоти на магнитната лента, но с грозната динамика е необходимо да се реши нещо, братя.

Динамична компресия (Динамична компресия на обхвата, DRC) е стесняване (или разширяване в случай на разширител) на динамичния обхват на звукозаданието. Динамичен обхватТова е разликата между най-тихия и най-силен звук. Понякога най-тихото във фонограмата ще бъде звукът на малко силно ниво на шум, а понякога и малко по-тихо на най-силното. Хардуерните устройства и програми, извършващи динамична компресия, се наричат \u200b\u200bкомпресори, подчертавайки четири основни групи: компресори, ограничители, разширители и порти.

Лампа аналогов компресор DBX 566

Намалена и насърчаваща компресия

Намаляване на компресията (Downard Compression) намалява звуковия обем, когато започне да надвишава определена прагова стойност, оставяйки по-тихи звуци непроменени. Екстремната възможност за по-ниска компресия е ограничител. Подобряване на компресията (Нагоре компресиране), напротив, увеличава обема на звука, ако е под прага, без да се засяга повече силни звуци. В същото време и двата вида компресия ограничават динамичния обхват на аудио сигнала.

Намаляване на компресията

Подобряване на компресията

Експандер и порта

Ако компресорът намали динамичния обхват, експандерът го увеличава. Когато нивото на сигнала стане над праговото ниво, експандерът го увеличава още повече, като по този начин увеличава разликата между силни и тихи звуци. Такива устройства често се използват при записване на барабанни инсталации за отделяне на звуците на някои барабани от други.

Видът на разширителя, който не се използва да не се засилва и да изсуши тихите звуци, които не надвишават нивото на праговата стойност (например фонов шум) се нарича Шум.. При такова устройство, веднага щом нивото на звука стане по-малко от прага, преминаването на сигнала е спряно. Обикновено портата се използва за потискане на шума в паузите. На някои модели може да се направи така, че звукът, когато праговото ниво не спре рязко, но постепенно се разхожда. В този случай скоростта на затихване се определя от регулатора на гниене (рецесия).

Може би, подобно на други видове компресори зависим от честота (т.е. по различни начини за обработка на определени честотни ленти) и може да работи в режим странична верига. (виж отдолу).

Принципа на работа на компресора

Сигналът, попадащ в компресора, е разделен на две копия. Едно копие се изпраща до усилвателя, в който степента на амплификация се контролира от външен сигнал, второто копие - формира този сигнал. Той влиза в устройството, наречено странична верига, където се измерва сигналът и пликът е създаден въз основа на тези данни, описващи промяната в нейния обем.
Така че най-модерните компресори са подредени, това е така нареченият тип Feed-Ford. При по-стари устройства (тип обратна връзка) нивото на сигнала се измерва след усилвателя.

Има различни аналогови технологии за контрол (амплификация с променливо усилване), всяка с нейните предимства и недостатъци: лампи, оптични с помощта на фотосестри и транзистов. Когато работите с цифров звук (в главен редактор или DAW), могат да се използват собствените им математически алгоритми или да се въведе операция на аналогова технология.

Основните параметри на компресорите

Праг.

Компресорът намалява звуковия сигнал, ако амплитудата на коремните им пристройки определена прагова стойност (праг). Обикновено се посочва в децибели, с по-нисък праг (например -60 dB) означава, че звукът ще бъде обработен, отколкото с по-висок праг (например -5 dB).

Съотношение.

Степента на ниво намаление се определя от параметъра на съотношението: съотношение 4: 1 означава, че ако нивото на входа е 4 dB надвишава прага, нивото на изхода ще бъде по-високо от прага с 1 dB.
Например:
Праг \u003d -10 dB
Входен сигнал \u003d -6 dB (на 4 dB над прага)
Изходен сигнал \u003d -9 dB (на 1 dB над прага)

Важно е да имате предвид, че потискането на нивото на сигнала продължава и известно време след това попада под праговото ниво и този път се определя от стойността на параметъра освобождаване.

Компресията с максималната стойност на съотношението ∞: 1 се нарича ограничаване. Това означава, че всеки сигнал над праговото ниво е потиснат преди праговото ниво (с изключение на кратък период след рязкото увеличаване на входния обем). За подробности вижте по-долу "ограничител".

Примери за различни стойности на съотношението

Атака и освобождаване

Компресорът осигурява определен контрол върху това колко бързо отговаря на променянето на динамиката на сигнала. Параметърът за атака определя времето, за което компресорът намалява коефициента на усилване до нивото, което се определя от параметъра съотношение. Освобождаването определя времето, за което компресорът, напротив, увеличава коефициента на усилване, или се връща към нормалното, ако нивото на входния сигнал спадне под праговата стойност.

Атака и освобождаване на фази

Тези параметри показват времето (обикновено в милисекунди), което ще е необходимо да се промени укрепването на определено количество децибел, обикновено 10 dB. Например, в този случай, ако атаката е настроена на 1 ms, за да се намали печалбата с 10 dB, ще се изискват 1 ms и 20 dB - 2 ms.

В много компресори могат да бъдат конфигурирани параметрите за атака и освобождаване, но в някои те първоначално са определени и не са регулирани. Понякога те са определени като "автоматична" или "зависима програма", т.е. варират в зависимост от входния сигнал.

Коляно.

Друг параметър на компресора: твърдо / меко коляно. Той определя дали началото на прилагането на компресията е остър (твърд) или постепенно (мек). Мекото коляно намалява зашеметяването на прехода от суровия сигнал към сигнала, подложен на компресия, особено при високи стойности на съотношението и остър обем се увеличава.

Твърда колянна и мека компресия на коляното

Пик и rms.

Компресорът може да реагира на пик (краткосрочни максимални) стойности или на средното ниво на въвеждане. Използването на пикови стойности може да доведе до остри колебания в степента на компресия и дори за изкривяване. Следователно, компресорите прилагат средната функция (обикновено това е RMS) входен сигнал при сравняването му с прагова стойност. Тя дава по-удобна компресия, близо до човешкото възприятие на обема.

RMS е параметър, отразяващ средния обем на фонограмата. От математическа гледна точка RMS (средна квадратен корен) е RMS стойността на амплитудата на определен брой проби:

Стерео свързване.

Компресорът в режим на стерео свързване се отнася и за двете стерео канали. Това избягва изместването на стереопанорама, което може да бъде резултат от индивидуалната обработка на левия и десния канал. Такава изместване се случва, ако например, всеки силен елемент не е в центъра.

Печалба.

Тъй като компресорът намалява общото ниво на сигнала, обикновено се добавя възможността за фиксирана печалба на изхода, която ви позволява да получите оптимално ниво.

ГЛЕДАМ НАПРЕД.

Функцията за търсене е предназначена за решаване на проблеми, характерни както твърде големи и твърде малки стойности атака и освобождаване. Твърде много атаки не ви позволяват ефективно да прихващате преходни процеси, но твърде малък може да не е удобно за слушателя. Когато използвате функцията за външен план, основният сигнал се забавя спрямо контролера, той ви позволява предварително да започнете компресия, дори преди сигналът да достигне праговата стойност.
Единственият недостатък на този метод е времето закъснение на сигнала, което в някои случаи нежелателно.

Използване на динамична компресия

Компресията се използва навсякъде, не само в музикални звукограми, но и навсякъде, където трябва да увеличите общия обем, без увеличаване на нивата на пика, където се използва евтин звукопроизводително оборудване или ограничен предавателен канал (система за предупреждение, аматьор, аматьор, аматьор, аматьорско радио, и т.н.).

При възпроизвеждане се прилага компресия фонова музика (в магазини, ресторанти и др.), Когато всички забележими промени в обема са нежелани.

Но най-важният обхват на прилагане на динамична компресия е музикалното производство и излъчването. Компресията се използва за придаване на звук на "плътност" и "устройство" за по-добра комбинация от инструменти помежду си и особено при обработка на вокали.

Вокалните партии в рок и поп музика обикновено са подложени на компресия, за да ги подчертаят на фона на съпросрочването и да добавят яснота. Специален тип компресор, конфигуриран само на определени честоти - десен, се използва за потискане на съскащия фон.

В инструменталните партии, компресията се използва и за ефектите, които не са пряко свързани с обема, например, бързо избледняващи барабани могат да станат по-продължителни.

В електронната танцова музика (EDM) често се използва странично подуване (виж по-долу) - например бас линията може да бъде контролирана от барел или нещо подобно, за да се предотврати конфликтът на басите и барабаните и да се създаде динамична пулсация.

Компресията се използва широко в предаването на излъчване (радио, телевизия, интернет радиоразпръскване), за да се увеличи възприеманият обем, като същевременно се намалява динамичният обхват на аудиото на източника (обикновено CD). Повечето страни имат правни ограничения за незабавния максимален обем, който може да бъде излъчен. Обикновено тези ограничения се прилагат чрез постоянни хардуерни компресори в етерната верига. В допълнение, увеличаването на възприемания обем подобрява "качеството" на звука от гледна точка на повечето слушатели.

Вижте също Война на силата на звука.

Постоянното увеличение на обема на същата песен, запазено за CD от 1983 до 2000 година.

Странично блясък

Друг често срещан превключвател на компресора е "странична верига". В този режим компресията на звука не се случва в зависимост от собственото си ниво, но в зависимост от нивото на сигнала, влизащо в съединителя, което обикновено се нарича странична верига.

Това може да се намери няколко приложения. Например, вокалист Шепелвит и всички букви "C" се открояват от общата картина. Прескачате гласа му през компресора, а конекторът на страничната верига служи на същия звук, но пропусна през еквалайзера. На еквалайзера премахвате всички честоти, с изключение на тези, използвани от вокалиста, когато произнасяте буквата "C". Обикновено около 5 kHz, но може да бъде от 3 kHz до 8 kHz. Ако след това поставете компресор в режим на страничната верига, след това компресията на гласа ще се появи в тези моменти, когато буквата "C" се произнася. Така тя оказа устройство, известно като "десел" (десъмер). Този метод на работа се нарича "зависим от честотата" (зависим от честотата).

Друга употреба на тази функция се нарича "патешка". Например, на радиостанция, музиката преминава през компресора и думите на DJ - през странична верига. Когато DJ започне да чатите, обемът на музиката автоматично се намалява. Този ефект може успешно да се използва в записи, например, да се намали обемът на партидите на клавиатурата по време на пеене.

Ограничаване на тухла

Компресорът и ограничителят са приблизително еднакви, може да се каже, че ограничителят е високо съотношение компресор (от 10: 1) и обикновено ниско време за атака.

Има концепция за ограничаване на тухлена стена - много високо съотношение (от 20: 1 и повече) и много бърза атака. В идеалния случай не позволява на сигнала да надвишава праговото ниво. Резултатът ще бъде неприятно за слух, но това ще предотврати повреда на звука на възпроизвеждане на технологията или прекомерната честотна лента. Много производители интегрират ограничителни устройства за тази цел.

Clipper Vs. Ограничител, мек и твърд клипинг

Тази група от методи се основава на факта, че предаваните сигнали се подлагат на нелинейни амплитудни трансформации и при предаването и получаването на части от нелинейност се преобразува. Например, ако предавателят използва нелинейна функция ÖU, в приемника - U2. Постоянното прилагане на конвергентните функции ще доведе до факта, че като цяло трансформацията остава линейна.

Идеята за нелинейни методи за компресиране на данни се свежда до факта, че предавателят може да даде по-голям диапазон от промяна в предавания параметър със същата амплитуда на изходните сигнали (т.е. по-голям динамичен обхват). Динамичен обхват - Това се изразява в относителни единици или децибелалност на най-голямата допустима амплитуда на сигнала към най-малкото:

; (2.17)
. (2.18)

Естественото желание за увеличаване на динамичния обхват чрез намаляване на min е ограничен от чувствителността на оборудването и увеличаване на ефекта от смущенията и собствения си шум.

Най-често компресията на динамичния обхват се извършва с помощта на чифт конвергентни функции на логаритмичното и потенциране. Първата работа на променящата се амплитуда се нарича компресия(компресия), втори - разширяване (разтягане). Изборът на тези функции е свързан с най-големите им възможности за компресия.

В същото време тези методи имат недостатъци. Първият от тях е, че логаритъмът на малък брой е отрицателно и в границата:

това означава, че чувствителността е много нелинейна.

За да намалите тези недостатъци, и двете функции се променят чрез компенсиране и сближаване. Например, за телефонни канали, приблизителната функция е свързана (тип А,):

и А \u003d 87.6. Печалбата от компресията е 24 dB.

Компресирането на данни чрез нелинейни процедури се осъществява от аналогови съоръжения с големи грешки. Използването на цифрови инструменти може значително да подобри точността или скоростта на трансформацията. В същото време прякото използване на средствата компютърно оборудване (т.е. директното изчисляване на логаритмите и експоненциалните данни) няма да даде по-добър резултат поради ниската скорост и натрупване на грешка при изчисление.

Компресирането на данните чрез компресия поради точността ограничения се използва в случаите, които не отговарят, например, за предаване на реч на телефонните и радио каналите.

Ефективно кодиране

Предлагат се ефективни кодекси на Sundon, Фано и Хафман. Същността на кодовете е, че те са неравномерни, т.е. с различна категория изхвърляния, а дължината на кода е обратно пропорционална на вероятността от външния му вид. Друга забележителна характеристика на ефективни кодекси - те не изискват разделители, т.е. специални символи, разделящи съседните комбинации. Това се постига чрез наблюдение просто правило: По-кратките кодове не са началото на по-дълго. В този случай твърд поток от двоични зауствания е уникално декодиран, тъй като декодерът разкрива най-кратките кодови комбинации първо. Ефективните кодекси за дълго време са чисто академични, но наскоро се използват при формирането на бази данни, както и при компресиране на информация в съвременните модеми и в софтуерни архиньори.

Поради неравномерността се въвежда средната дължина на кода. Средна дължина - математически очакваност за дължина на кода:

освен това, l cp има тенденция h (x) от по-горе (т.е. сряда\u003e h (x)).

Прилагането на условието (2.23) се засилва чрез увеличаване на N.

Има две разновидности на ефективни кодекси: Шанън Фано и Хафман. Помислете за получаването им в примера. Да предположим, че вероятностите на знаците в последователността са значенията, показани в таблица 2.1.

Таблица 2.1.

Вероятности на символи

Н.
PLE. 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Символите са класирани, т.е. те търсят подред за низходяща вероятност. След това, съгласно метода на Shennon Fano, периодично се повтаря следната процедура: цялата група събития е разделена на две подгрупи със същото (или приблизително една и съща) обща вероятност. Процедурата продължава, докато един елемент остане в следващата подгрупа, след което този елемент се елиминира и с останалите тези действия продължават. Това се случва, докато последните две подгрупи останат един елемент. Продължаване на разглеждането на нашия пример, който се намалява в таблица 2.2.

Таблица 2.2.

Метод на Ченън Фано

Н. PLE.
4 0.3 I.
0.2 I. II.
6 0.15 I. I.
0.1 II.
1 0.1 I. I.
9 0.05 II. II.
5 0.05 II. I.
7 0.03 II. II. I.
8 0.02 II.

Както може да се види от таблица 2.2, първият символ с вероятност P 4 \u003d 0.3 участва в две процедури за разделяне и двата пъти и двата пъти се удари в групата с номер I. В съответствие с това тя е кодирана от два-битов код II. Вторият елемент в първия етап на дяла принадлежи на група I, във втората - група II. Ето защо, неговият код 10. Кодовете на останалите знаци в допълнителни коментари не се нуждаят.

Обикновено неравни кодове са изобразени под формата на кодови дървета. Кодовото дърво е графика, показваща разрешените комбинации. Предварително задайте указанията на ребрата на тази графика, както е показано на фиг.2.11 (изборът на указания е произволен).

Графиката се ръководи, както следва: Подгответе маршрут за специален символ; Броят на заустванията за него е равен на броя на ръбовете в маршрута, а стойността на всяко освобождаване е равна на посоката на съответното ребро. Маршрутът е съставен точка на източника (На чертежа той е маркиран с буква а). Например, маршрутът до върха 5 се състои от пет ребра, от които всичко, в допълнение към последното, имат посока 0; Получаваме код 00001.

Изчислете за този пример истъпителна и средна дължина на думата.

H (x) \u003d - (0.3 log 0.3 + 0.2 log 0.2 + 2 0.1 log 0.1+ 2 0.05 log 0.05+

0.03 log 0.03 + 0.02 log 0.02) \u003d 2.23 бита

l CP \u003d 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

Както може да се види, средната дължина на думата е близо до ентропията.

Кодовете HAFMAN са изградени върху различен алгоритъм. Процедурата за кодиране се състои от два етапа. На първия етап еднократната компресия на азбуката е последователно. Еднократната компресия е подмяната на последните два знака (с по-ниски вероятности), с обща вероятност. Компресията се извършва, докато останат два знака. В същото време попълнете таблицата за кодиране, в която са прикрепени получените вероятности, и също така изобразяват маршрути, за които новите герои се движат на следващия етап.

На втория етап самата кодиране се случва, което започва от последния етап: първият от два знака присвояват код 1, вторият - 0. След това отидете на предишния етап. Към символите, които не са участвали в компресията на този етап, атрибут кодове от следващия етап и към двата най-новите знака два пъти приписват кода на символа, получен след залепване, и добавете към горния символ код 1, по-нисък - 0. Ако Символът е по-нататък в участниците в залепване, неговият код остава непроменен. Процедурата продължава до края (т.е. до първия етап).

Таблица 2.3 показва кодиране по алгоритъма на Хафман. Както може да се види от таблицата, кодирането се извършва в 7 етапа. Отляво са вероятностите на символи, дясно - междинни кодове. Стрелките показват движещи се новообразувани знаци. На всеки етап последните два знака се различават само с по-младия разряд, който съответства на кодиращата техника. Изчисляваме средната продължителност на думата:

l CF \u003d 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 \u003d 2.7

Той е още по-близо до ентропията: Кодът е още по-ефективен. На фиг. 2.12 показва кодовото дърво HAFMAN.

Таблица 2.3.

Кодиране на алгоритъма на Хафман

Н. PLE. кодът I. II. III IV. В. Срок VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

И двата кодекса отговарят на изискването за декодиране на уникалност: както може да се види от таблиците, по-късите комбинации не са началото на по-дълги кодове.

С увеличаване на броя на символите, ефективността на кодовете се увеличава, така че в някои случаи кодирани по-големи блокове (например, ако говорим за текстове, можете да кодирате някои от най-често срещаните срички, думи и дори фрази).

Ефектът от прилагането на такива кодове се определя в сравнение с единния код:

(2.24)

където п е броят на единните изхвърляния на кода, който се заменя с ефективни.

Модификации на Khafman кодове

Класическият алгоритъм HAFMAN се отнася до две проходими, т.е. Изисква първоначалния набор от статистически данни за символите и съобщенията, а след това описаните по-горе процедури. На практика е неудобно, защото увеличава времето за обработка на съобщенията и натрупването на речника. Еднократни методи, при които се комбинират процедурите за натрупване и кодиране. Такива методи също се наричат \u200b\u200bадаптивна компресия по HAFMAN [46].

Същността на адаптивната компресия в HAFMAN се свежда до изграждането на първоначалния код на кода и неговата последователна модификация след получаването на всеки следващ символ. Както и преди, дърветата тук са двоични, т.е. От всеки връх на графиката - дърво се наблюдава максимум два дъга. Обичайно е да се обади на оригиналния връх от страна на родителя и двете свързани с тях върхове - деца. Въвеждаме концепцията за теглото на върха - това е броят на знаците (думи), съответстващ на този върха, получен при прилагането на първоначалната последователност. Очевидно сумата на скалите на децата е равна на теглото на родителя.

След като въведете следващия символ на входната последователност, кодовото дърво се преразглежда: теглата на върховете се преизчисляват и, ако е необходимо, върховете се пренареждат. Правилото за пренареждане на върховете, както следва: теглото на долните върхове са най-малките, а върховете, оставени на колоната, имат най-малки тежести.

В същото време върховете са номерирани. Номерирането започва с по-ниското (висящо, т.е. които нямат деца) върхове от ляво на дясно, след това се прехвърлят горно ниво и т.н. към номерацията на последния източник на Vertex. В същото време се постига следният резултат: по-малко тежест на върха, толкова по-малък е неговият номер.

Пермутацията се извършва главно за висящи върхове. Когато се счита за пермутация формулираното правило: върховете с голямо тегло имат по-голям брой.

След преминаване на последователността (той също се нарича контрол или тест), комбинациите кодове се присвояват на всички висящи върхове. Правилото за разпределяне на правилото е подобно на горното: броят на изхвърлянията на кодовете е равен на броя на върховете, през които маршрутът преминава от източника към този висящ връх, а стойността на конкретен развод съответства на посоката от родителя "Детето" (да речем, преходът наляво от родителя съответства на стойността 1, дясно - 0).

Получените комбинации от код се въвеждат в паметта на компресионното устройство заедно с техните аналози и образуват речник. Използването на алгоритъма е както следва. Сгъваемата последователност от символи е разделена на фрагменти в съответствие със съществуващия речник, след което всеки от фрагментите се заменя със своя код от речника. Фрагменти, които не са открити в речника формират нови висящи върхове, наддават и се въвеждат в речника. Това се формира от адаптивен алгоритъм за речническо попълване.

Да се \u200b\u200bповиши ефективността на метода, е желателно да се увеличи размерът на речника; В този случай коефициентът на компресия нараства. На практика размерът на речника е 4 - 16 KB памет.


Илюстрираме алгоритъма, даден от пример. На фиг. 2.13 показва изходната диаграма (тя се нарича още с HAFMAN дърво). Всеки връх от дърво се показва с правоъгълник, при който две цифри са вписани през фракцията: първият означава броят на върховете, вторият е неговото тегло. Как можете да се уверите, че връзките на връзките и техните номера са доволни.

Да предположим сега, че символът, съответстващ на Vertex 1, в последователността на теста, отговаря на вторичния. Теглото на върховете се променя, както е показано на фиг. 2.14 в резултат на това е нарушен броят на номерацията на върха. На следващия етап променяме оформлението на висящите върхове, за които сменяме върховете 1 и 4 и пренасинявате всички върхове на дървото. Получената графика е показана на фиг. 2.15. След това процедурата продължава по подобен начин.

Трябва да се помни, че всеки висящ връх в HAFMAN дървото съответства на конкретен символ или тяхната група. Родителят е различен от децата от факта, че група герои, подходяща за него, за един символ накратко, отколкото децата му, и тези деца се различават в последния символ. Например, родителите съответстват на символите "автомобили"; Тогава децата могат да имат "кара" и "шаран" последователности.

Горният алгоритъм не е академик и се използва активно в програми - Archiers, включително при компресиране на графични данни (те ще бъдат обсъдени по-долу).

Lempel - алгоритми Ziva

Това са най-често използваните алгоритми за компресиране. Те се използват в повечето програми - Архидърд (например, PKZIP. ARJ, LHA). Същността на алгоритмите е, че някои символи се заменят при архивиране в специално генериран речник. Например, често срещан в делата на фразата "на вашето писмо изходящо число ..." може да заема в речника позиция 121; След това, вместо да прехвърляте или съхранявате споменатата фраза (30 байта), можете да съхранявате номера на фразата (1,5 байта в двоична десетична форма или 1 байтова).

Алгоритмите са кръстени на авторите, които ги предлагат през 1977 година. От тях първия - LZ77. За архивиране се създава така нареченият плъзгащ прозорец, състоящ се от две части. Първата част, по-голям формат, служи за образуване на речник и има размер на порядъка на няколко килобайта. Във втората, по-малка част (обикновено до 100 байта) се приемат от текущите знаци на разглеждания текст. Алгоритъмът се опитва да намери в речника набор от герои, които съвпадат с гледания прозорец. Ако е възможно, се генерира код, състоящ се от три части: изместване в речника относно първоначалното му подстрояване, дължината на този подстър до този субстрат. Например, специален субстрат се състои от "приложение" символи (само 6 знака), следният символ е "E". След това, ако подстрочът има адрес (място в речника) 45, тогава записът в речника има формата "45, 6. e". След това съдържанието на прозореца се измества в положението и търсенето продължава. Така се формира речник.

Предимството на алгоритъма е лесно формализиран алгоритъм за съставяне на речник. В допълнение, е възможно да се изследват и без първоначалния речник (желателно е да има тестова последователност) - речникът се формира в процеса на Unimber.

Недостатъците на алгоритъма се появяват с увеличаване на размера на речника - времето за търсене се увеличава. В допълнение, ако в текущия прозорец липсват низ от символи, всеки символ е написан на три елементарен код, т.е. Оказва се, че не е компресия, но разтягане.

Най-добрите функции Той има алгоритъм на LZSS, предложен през 1978 година. Той има разлики в поддържането на плъзгащия се прозорец и изходните кодове на компресора. В допълнение към прозореца, алгоритъмът образува двоично дърво, подобно на HAFMAN дървото, за да се ускори търсенето на съвпадения: всяка подстригване, напускаща текущия прозорец, се добавя към дървото като едно от децата. Такъв алгоритъм ви позволява допълнително да увеличите размера на текущия прозорец (желателно е неговата стойност, равна на степента на две: 128, 256 и др. Байт). Кодовете по последователности също се образуват по различен начин: допълнително се въвежда 1-битов префикс за разграничаване на неопределените знаци от двойки "офсет, дължина".

Допълнителна компресия се получава с използване на алгоритми тип LZW. Описаните по-горе алгоритми имат фиксиран размер на прозореца, което води до невъзможност за влизане в речника на фразите, е по-дълъг от размера на прозореца. В алгоритмите на LZW (и техният предшественик LZ78) прозорецът View има неограничен размер, а речникът натрупва фразата (и не е съвкупност от символи както преди). Речникът има неограничена дължина, а енкодерът (декодерът) работи в режим на готовност. Когато фразата, която съвпада с речника, е създадена, е издадена съвпадения код (т.е. код на тази фраза в речника) и кода на следния символ зад него. Ако тъй като символите се натрупват нова фраза, тя също се въвежда в речника, като най-краткия. В резултат на това се образува рекурсивна процедура, осигуряваща бързо кодиране и декодиране.

Допълнителна възможност Компресията осигурява компресирано кодиране на повтарящи се знаци. Ако в последователността някои символи следват в ред (например в текста, той може да бъде "космически" герои, в цифровата последователност - течащи нули и т.н.), има смисъл да се замени техния чифт "символ; дължина "или" знак, дължина ". В първия случай кодът показва функцията, която последователността е кодирана (обикновено 1 бита), след това кода на повтарящия се символ и дължината на последователността. Във втория случай (предвиден за най-често срещаните символи) в префикса показва просто признак на повторения.