فشرده سازی صدا: اصل و پیکربندی. سنتز و تشخیص گفتار

در طول زمان زمانی که محققان همچنین به حل مشکل ایجاد یک رابط گفتار برای رایانه ها ادامه دادند، اغلب لازم بود که تجهیزات را به طور مستقل تولید کنیم، به شما این امکان را می دهد که اطلاعات صوتی را وارد کنید، و همچنین آن را از کامپیوتر نمایش دهید. امروزه چنین دستگاه هایی ممکن است منافع تاریخی منحصر به فرد داشته باشند، زیرا کامپیوترهای مدرن به راحتی می توانند دستگاه های ورودی و خروجی مانند آداپتورهای صوتی، میکروفون، هدفون و ستون های صوتی را تجهیز کنند.

ما به جزئیات عمیق تر نخواهیم شد دستگاه داخلی این دستگاه ها، اما ما در مورد چگونگی کار آنها، و برخی از توصیه هایی را برای انتخاب دستگاه های کامپیوتری صوتی برای کار با سیستم های شناخت و سنتز گفتار ارائه می دهیم.

همانطور که قبلا در فصل گذشته صحبت کرده ایم، صدای چیزی بیش از نوسانات هوا نیست، که فرکانس آن در محدوده فرکانس قرار می گیرد که توسط فرد درک می شود. در افراد مختلف، محدودیت های دقیق محدوده فرکانس های قابل شنیدن ممکن است متفاوت باشد، با این حال، اعتقاد بر این است که نوسانات صوتی در محدوده 16-20،000 هرتز قرار دارد.

وظیفه میکروفون تبدیل نوسانات صوتی به نوسانات الکتریکی است که می تواند همچنان تقویت شود، فیلتر شده برای حذف تداخل و دیجیتالی برای وارد کردن اطلاعات صوتی به کامپیوتر.

با توجه به اصل عملیات، رایج ترین میکروفون ها به ذغال سنگ، الکترودینامیک، کندانسور و الکتریکی تقسیم می شوند. برخی از این میکروفن ها نیاز به کار خود دارند منبع خارجی در حال حاضر (به عنوان مثال، زغال سنگ و کندانسور)، دیگران تحت تاثیر نوسانات صدا می توانند به طور مستقل یک ولتاژ برق متناوب تولید کنند (این میکروفون های الکترودینامیک و الکتریکی هستند).

شما همچنین می توانید میکروفون را برای هدف تقسیم کنید. میکروفون های استودیو وجود دارد که می تواند در دست یا امن نگه داشته شود، میکروفون های رادیویی وجود دارد که می تواند بر روی لباس ها ثابت شود و غیره.

همچنین میکروفن ها به طور خاص برای رایانه ها طراحی شده اند. چنین میکروفون معمولا بر روی پایه روی سطح جدول متصل می شوند. میکروفون های کامپیوتری می توانند با هدفون ترکیب شوند، همانطور که در شکل نشان داده شده است. 2-1.

شکل. 2-1. هدفون با میکروفون

نحوه انتخاب از همه انواع میکروفون یکی که برای سیستم های تشخیص گفتار مناسب است؟

در اصل، شما می توانید با هر میکروفون که دارید دارید، آزمایش کنید، مگر آنکه بتوان آن را به یک آداپتور صوتی کامپیوتر متصل کرد. با این حال، توسعه دهندگان سیستم های تشخیص گفتار توصیه می شود که چنین میکروفون را بدست آورند، که در محل کار در فاصله دائمی دهان بلندگو خواهد بود.

اگر فاصله بین میکروفون و دهان تغییر نمی کند، میانگین سیگنال الکتریکی از میکروفون نیز بیش از حد تغییر خواهد کرد. این تاثیر مثبتی بر کیفیت کار سیستم های شناخت گفتار مدرن خواهد داشت.

اینجا مشکل چیست؟

یک فرد قادر به موفقیت به رسمیت شناختن سخنرانی است، حجم آن در حد بسیار گسترده ای تغییر می کند. مغز انسان قادر به فیلتر کردن سخنرانی آرام از تداخل، مانند سر و صدا اتومبیل عبور از خیابان، مکالمات خارجی و موسیقی است.

همانطور که برای سیستم های تشخیص گفتار مدرن، توانایی های آنها در این زمینه بسیار مورد نیاز است. اگر میکروفون بر روی میز قرار بگیرد، هنگامی که سر چرخش یا تغییر موقعیت بدن، فاصله بین دهان و میکروفون تغییر خواهد کرد. این منجر به تغییر در سطح سیگنال خروجی میکروفون می شود که به نوبه خود، قابلیت اطمینان تشخیص گفتار را بدتر خواهد کرد.

بنابراین، هنگام کار با سیستم های تشخیص گفتار، بهترین نتایج به دست می آید اگر از میکروفون متصل به سفتی استفاده کنید، همانطور که در شکل نشان داده شده است. 2-1. هنگام استفاده از چنین میکروفون، فاصله بین دهان و میکروفون دائمی خواهد بود.

ما همچنین توجه شما را جلب می کنیم که تمام آزمایشات با سیستم های تشخیص گفتار بهتر است، حفظ در یک اتاق آرام. در این مورد، اثر تداخل حداقل خواهد بود. البته، اگر شما نیاز به انتخاب یک سیستم تشخیص گفتار که قادر به کار در شرایط تداخل قوی است، آزمایشات باید متفاوت باشد. با این حال، تا آنجا که به نویسندگان کتاب شناخته شده است، در حالی که رعایت سیستم های تشخیص گفتار هنوز بسیار کم است.

میکروفون برای تبدیل ایالات متحده نوسانات صوتی در نوسانات انجام می شود جریان الکتریسیته. این نوسانات را می توان بر روی صفحه نمایش از اسیلوسکوپ مشاهده کرد، اما برای خرید این دستگاه گران قیمت به فروشگاه عجله نکنید. تمام تحقیقات نوسانگر ما می توانیم با استفاده از یک کامپیوتر معمولی مجهز به یک آداپتور صدا، مانند آداپتور صدا بلستر، صرف استفاده کنیم. بعدا به شما می گویم که چگونه این کار را انجام دهید.

در شکل 2-2 ما یک اسیلوگرم نشان دادیم سیگنال صوتی، هنگامی که یک صدای بلند را به دست آورد، به دست آورد. این نوسانگر با استفاده از برنامه Goldwave به دست آمد، که در آن ما هنوز در این فصل کتاب، و همچنین استفاده از آداپتور صوتی صوتی و میکروفون، شبیه به آنچه که در شکل نشان داده شده است، به دست آمده است. 2-1.

شکل. 2-2. اسیلوگرم سیگنال صوتی

برنامه Goldwave به شما اجازه می دهد تا نوسانات را در امتداد محور زمان کشش کنید، که به شما اجازه می دهد تا کوچکترین جزئیات را ببینید. در شکل 2-3 ما یک قطعه کششی از اسیلوژگرافی صدا ذکر شده را نشان دادیم.

شکل. 2-3. Sound Sound Oscillogram fragment

لطفا توجه داشته باشید که مقدار سیگنال ورودی که از میکروفون حاصل می شود، به صورت دوره ای متفاوت است و هر دو مقدار مثبت و منفی را می گیرد.

اگر تنها یک فرکانس در سیگنال ورودی وجود داشته باشد (یعنی اگر صدای "خالص" باشد)، شکل سیگنال به دست آمده از میکروفون سینوسی خواهد بود. با این حال، همانطور که گفته شد، طیف صداهای سخنرانی انسانی شامل مجموعه ای از فرکانس ها می شود، زیرا نتیجه آن فرم سیگنال گفتار سیگنال دور از سینوسی است.

سیگنال که ارزش آن با زمان به طور مداوم تغییر می کند، ما تماس خواهیم گرفت سیگنال آنالوگ. این سیگنال از میکروفون می آید. بر خلاف آنالوگ، سیگنال دیجیتال مجموعه ای از مقادیر عددی است که با زمان گسسته متفاوت است.

به کامپیوتر می تواند بوق را پردازش کند، باید از فرم آنالوگ به دیجیتال ترجمه شود، یعنی، به شکل مجموعه ای از مقادیر عددی، ترجمه شود. این فرایند دیجیتالی یک سیگنال آنالوگ نامیده می شود.

دیجیتالی کردن صدا (و هر سیگنال آنالوگ) با استفاده از یک دستگاه خاص به نام انجام می شود مبدل آنالوگ به دیجیتال ADC (آنالوگ به مبدل دیجیتال، ADC). این دستگاه در هیئت مدیره آداپتور صوتی است و یک میکروسیکور رایج است.

چگونه یک مبدل آنالوگ به دیجیتال کار می کند؟

این دوره به صورت دوره ای سطح سیگنال ورودی را اندازه گیری می کند و مقدار عددی خروجی نتیجه اندازه گیری را می دهد. این فرایند در شکل نشان داده شده است. 2-4. در اینجا، مستطیل های خاکستری، مقادیر ورودی را در یک فاصله زمانی ثابت مشخص مشخص کردند. مجموعه ای از این ارزش ها و نمایش دیجیتالی از سیگنال آنالوگ ورودی است.

شکل. 2-4. اندازه گیری وابستگی دامنه سیگنال از زمان

در شکل 2-5 ما ارتباط مبدل آنالوگ به دیجیتال را به میکروفون نشان دادیم. در این مورد، ورودی x 1 خدمت می کند سیگنال آنالوگ، و سیگنال دیجیتال از خروجی های U 1 -U حذف می شود.

شکل. 2-5. مبدل آنالوگ دیجیتال

مبدل های آنالوگ به دیجیتال با دو پارامتر مهم - فرکانس تبدیل و تعداد سطوح کوانتیزه سیگنال ورودی مشخص می شود. انتخاب صحیح این پارامترها برای دستیابی به نمایندگی کافی در شکل دیجیتال سیگنال آنالوگ بسیار مهم است.

چقدر اغلب شما اغلب نیاز به اندازه گیری مقدار دامنه سیگنال آنالوگ ورودی دارید به طوری که به دلیل دیجیتال سازی اطلاعات مربوط به تغییرات سیگنال آنالوگ ورودی را از دست ندهید؟

به نظر می رسد که پاسخ ساده است - سیگنال ورودی باید تا حد ممکن اندازه گیری شود. در واقع، اغلب مبدل آنالوگ به دیجیتال این اندازه گیری ها را انجام می دهد، بهتر است که کوچکترین تغییرات در دامنه سیگنال آنالوگ ورودی ردیابی شود.

با این حال، اندازه گیری های غیر ضروری مکرر می تواند منجر به رشد ناعادلانه جریان داده های دیجیتال و صرفه جویی در منابع کامپیوتری بی فایده در هنگام پردازش یک سیگنال شود.

خوشبختانه انتخاب درست تبدیل فرکانس (فرکانس نمونه گیری) به اندازه کافی ساده است. برای انجام این کار، کافی است که با قضیه Kotelnikov تماس بگیرید، شناخته شده به کسانی که در زمینه پردازش سیگنال دیجیتال شناخته شده است. قضیه بیان می کند که فرکانس تبدیل باید دو برابر بیشتر از حداکثر فرکانس طیف سیگنال تبدیل شود. بنابراین، برای دیجیتالی کردن بدون از دست دادن کیفیت سیگنال صدا، فرکانس آن در محدوده 16-20،000 هرتز قرار دارد، شما باید فرکانس تبدیل را انتخاب کنید، نه کمتر از 40،000 هرتز.

توجه داشته باشید، با این حال، که در تجهیزات صوتی حرفه ای، فرکانس تبدیل چندین بار از مقدار مشخص شده انتخاب شده است. این کار برای رسیدن به کیفیت بسیار بالایی از صدای دیجیتالی انجام شده است. برای سیستم های تشخیص گفتار، این کیفیت مناسب نیست، بنابراین ما توجه شما را بر چنین انتخابی تیز نمی کنیم.

و چه فرکانس تحول برای دیجیتالی کردن صدای سخنرانی انسان ضروری است؟

از آنجا که صداهای سخنرانی انسانی در محدوده فرکانس 300 تا 4000 هرتز قرار دارد، حداقل فرکانس لازم تبدیل 8000 هرتز است. با این حال، بسیاری برنامه های کامپیوتری تشخیص گفتار از استاندارد برای آداپتورهای صوتی معمولی استفاده می کند. فرکانس تحول 44000 هرتز است. از یک طرف، این فرکانس تحول منجر به افزایش بیش از حد جریان داده های دیجیتال نمی شود و دیگر - دیجیتالی گفتار را با کیفیت کافی فراهم می کند.

حتی در مدرسه، ما آموختیم که با هر اندازه گیری، اشتباهات بوجود می آیند، که از آن غیر ممکن است از شر کاملا خلاص شود. چنین خطاهایی به دلیل حل و فصل محدود ابزار اندازه گیری رخ می دهد، و همچنین به دلیل این واقعیت است که خود فرآیند اندازه گیری ممکن است برخی از تغییرات را به مقدار اندازه گیری شده انجام دهد.

یک مبدل آنالوگ به دیجیتال نشان دهنده سیگنال آنالوگ ورودی در قالب جریان تعداد کمی از کمی است. آداپتورهای صوتی معمولی حاوی بلوک های ADC 16 بیتی هستند که می توانند دامنه سیگنال ورودی را به شکل 216 \u003d 65536 مقادیر مختلف نشان دهند. دستگاه های ADC در تجهیزات صوتی بالا پایان می تواند 20 بیتی باشد، دقت بیشتری از دامنه سیگنال صوتی را فراهم می کند.

سیستم های مدرن و برنامه های تشخیص گفتار برای رایانه های معمولی مجهز به آداپتورهای صوتی معمولی ایجاد شده است. بنابراین، برای انجام آزمایشات با تشخیص گفتار، شما نیازی به دریافت یک آداپتور صوتی حرفه ای نخواهید داشت. چنین آداپتور به عنوان صدا بلستر کاملا مناسب برای گفتار دیجیتالی کردن برای تشخیص بیشتر آن است.

همراه با سیگنال مفید به میکروفون، صداهای مختلف معمولا سقوط می کنند - سر و صدا از خیابان، نویز باد، مکالمات خارجی، و غیره سر و صدا تاثیر منفی بر کیفیت کار سیستم های تشخیص گفتار دارد، بنابراین باید با آن برخورد شود. یکی از راه های ما قبلا ذکر شده است - سیستم های تشخیص گفتار امروز بهترین استفاده را در یک اتاق آرام، با یک کامپیوتر یکی در یکی.

با این حال، شرایط ایده آل را می توان همیشه ایجاد کرد، بنابراین شما باید استفاده کنید روش های ویژهبه شما اجازه می دهد خلاص شدن از سر و صدا. برای کاهش سطح سر و صدا، ترفندهای ویژه هنگام ساخت میکروفون ها و فیلترهای مخصوص استفاده می شود که از طیف یک سیگنال فرکانس آنالوگ که اطلاعات مفید را حمل نمی کنند، استفاده می شود. علاوه بر این، این تکنیک به عنوان فشرده سازی استفاده می شود. محدوده دینامیکی سطوح ورودی

در مورد این همه به ترتیب بگویید.

فیلتر فرکانس یک دستگاه که طیف فرکانس یک سیگنال آنالوگ را تبدیل می کند نامیده می شود. در این مورد، در طول فرآیند تحول (یا جذب) نوسانات فرکانس های خاص رخ می دهد.

شما می توانید این دستگاه را در قالب یک سری جعبه سیاه با یک ورودی و یک خروجی تصور کنید. با توجه به وضعیت ما، یک میکروفون به ورودی فیلتر فرکانس متصل می شود و مبدل آنالوگ به دیجیتال به خروجی متصل می شود.

فیلترهای فرکانس متفاوت هستند:

· فیلتر فرکانس پایین؛

· فیلترهای فرکانس بالا؛

· عبور از فیلترهای نوار؛

· فیلترهای نوار رانده شده

فیلترهای فرکانس پایین تر (Filter Low-Pass) از طیف ورودی تمام فرکانس ها حذف می شود که مقادیر آنها زیر برخی از فرکانس آستانه بسته به تنظیمات فیلتر است.

از آنجا که سیگنال های صوتی در محدوده 16-20،000 هرتز دروغ می گویند، تمام فرکانس های کمتر از 16 هرتز می تواند بدون کاهش کیفیت صدا قطع شود. برای تشخیص گفتار، محدوده فرکانس 300-4000 هرتز مهم است، بنابراین شما می توانید فرکانس های زیر 300 هرتز را کاهش دهید. در این مورد، تمام تداخل از سیگنال ورودی قطع می شود، طیف فرکانس آن کمتر از 300 هرتز قرار دارد و آنها با روند تشخیص گفتار دخالت نمی کنند.

به طور مشابه، فیلترهای فرکانس بالا (فیلتر بالا -Pass) از طیف ورودی تمام فرکانس های بالاتر از برخی از فرکانس آستانه قطع شده است.

یک فرد صداهای با فرکانس 20،000 هرتز و بالاتر را نمی شنود، بنابراین آنها می توانند از طیف خارج شوند بدون ضایعات کیفیت صدای قابل توجه. همانطور که برای تشخیص گفتار، در اینجا شما می توانید تمام فرکانس های بیش از 4000 هرتز را کاهش دهید، که منجر به کاهش قابل توجهی در سطح تداخل فرکانس بالا می شود.

انتقال فیلتر نوار (فیلتر نوار باند) می تواند به عنوان ترکیبی از فیلتر پایین و فرکانس بالا تصور شود. چنین فیلتر تمام فرکانس های زیر را به اصطلاح تاخیر می دهد فرکانس پایینو همچنین بالا پهنای باند فرکانس بالا.

بنابراین، برای سیستم تشخیص گفتار، یک فیلتر پهنای باند راحت است، که تمام فرکانس ها را تاخیر می اندازد، به جز فرکانس های محدوده 300-4000 هرتز.

همانطور که برای فیلتر های نوار احتراق (فیلتر نوار -STOP)، آنها به شما این امکان را می دهند که از طیف ورودی تمام فرکانس های دروغین در محدوده مشخص شده را قطع کنید. چنین فیلتر مناسب است، به عنوان مثال، برای سرکوب سر و صدا که بخش جامد از طیف سیگنال را اشغال می کند.

در شکل 2-6 ما اتصال فیلتر پهنای باند را نشان دادیم.

شکل. 2-6 فیلتر سیگنال صدا قبل از دیجیتالی سازی

لازم به ذکر است که آداپتورهای صوتی معمول نصب شده در رایانه در ترکیب آنها یک فیلتر نوار است که از طریق آن سیگنال آنالوگ قبل از دیجیتالی سازی عبور می کند. پهنای باند این فیلتر معمولا به محدوده سیگنال های صوتی مربوط می شود، یعنی 16-20،000 هرتز (در آداپتورهای صوتی مختلف، مقادیر فرکانس بالا و پایین ممکن است در محدودیت های کوچک متفاوت باشد).

و چگونگی دستیابی به پهنای باند باریک 300-4000 هرتز، مربوط به بخش آموزنده ترین طیف طیفی انسان است؟

البته، اگر تمایل به طراحی تجهیزات الکترونیکی رادیویی داشته باشید، می توانید فیلتر خود را از میکروسیرکی تقویت کننده عملیاتی، مقاومت و خازن ها ایجاد کنید. تقریبا اولین سازندگان سیستم های تشخیص گفتار.

ولی سیستم های صنعتی تشخیص گفتار باید بر روی سخت افزار رایانه استاندارد کارآمد باشد، بنابراین مسیر تولید یک فیلتر باند ویژه در اینجا مناسب نیست.

در عوض، به اصطلاح به اصطلاح در سیستم های پردازش مدرن سخنرانی استفاده می شود فیلترهای فرکانس دیجیتالبرنامه های کاربردی را اجرا می کند. پس از آن ممکن بود پرداز کامپیوتر به اندازه کافی قدرتمند شده است.

فرکانس فرکانس فرکانس دیجیتال، سیگنال دیجیتال ورودی را به سیگنال دیجیتال خروجی تبدیل می کند. در روند تبدیل، این برنامه یک جریان ویژه از یک سیگنال از لومینسانسی دامنه سیگنال را از یک مبدل آنالوگ به دیجیتال پردازش می کند. نتیجه تبدیل نیز تعداد اعداد نیز خواهد بود، با این حال، این موضوع به یک سیگنال قبلا فیلتر شده مطابقت دارد.

صحبت کردن در مورد مبدل آنالوگ به دیجیتال، ما اشاره کردیم یک ویژگی مهمبه عنوان تعداد سطوح کوانتیزاسیون. اگر یک مبدل آنالوگ به دیجیتال 16 بیتی در آداپتور صوتی نصب شود، پس از دیجیتالی کردن سطح سیگنال صدا را می توان به عنوان 216 \u003d 65536 مقادیر مختلف نشان داد.

اگر تعداد کمی از کوانتیزه وجود دارد، پس از آن به اصطلاح سر و صدا. برای کاهش این نویز، در سیستم های دیجیتالی با کیفیت بالا، مبدل های آنالوگ دیجیتال باید با حداکثر تعداد موجود از سطوح کوانتیزه استفاده شود.

با این حال، پذیرش دیگری وجود دارد که به شما امکان می دهد تا اثر نویز کوانتومی بر کیفیت سیگنال صوتی را که در سیستم های ضبط صدا دیجیتال استفاده می شود، کاهش دهید. هنگام استفاده از این پذیرش قبل از دیجیتالی، سیگنال از طریق یک تقویت کننده غیر خطی عبور می کند، نشان دهنده سیگنال ها با دامنه کوچکی از سیگنال است. چنین دستگاه باعث افزایش سیگنال های ضعیف قوی تر از قوی می شود.

این توسط یک نمودار از وابستگی دامنه سیگنال خروجی از دامنه سیگنال ورودی نشان داده شده در شکل نشان داده شده است. 2-7.

شکل. 2-7. تقویت غیر خطی قبل از دیجیتالی

در مرحله تبدیل معکوس صوتی دیجیتالی به آنالوگ (ما این مرحله را در این فصل در نظر می گیریم) قبل از نمایش ستون صوتی، سیگنال آنالوگ دوباره از طریق یک تقویت کننده غیر خطی عبور می کند. این بار دیگر تقویت کننده استفاده می شود، که بر سیگنال ها با دامنه بزرگ تأکید می کند و دارای ویژگی انتقال (وابستگی دامنه سیگنال خروجی از دامنه سیگنال ورودی)، معکوس است که در طی دیجیتالی سازی مورد استفاده قرار گرفت.

چگونه همه اینها به سازندگان سیستم های تشخیص گفتار کمک می کنند؟

فرد، همانطور که شناخته شده است، به خوبی توسط سخنرانی که توسط یک زمزمه آرام یا صدای بلند بلند شناخته شده است، به خوبی شناخته شده است. می توان گفت که محدوده دینامیکی سطوح حجمی از سخنرانی با موفقیت به رسمیت شناخته شده برای یک فرد بسیار گسترده است.

امروز سیستم های کامپیوتری تشخیص گفتار، متاسفانه، تا زمانی که آن را داشته باشد. با این حال، با هدف توسعه مشخصی از محدوده دینامیکی مشخص شده قبل از دیجیتالی کردن، می توانید یک سیگنال از میکروفون را از طریق یک تقویت کننده غیر خطی از بین ببرید، ویژگی انتقال آن در شکل نشان داده شده است. 2-7. این میزان نویز کوانتیزاسیون را در طی دیجیتالی شدن سیگنال های ضعیف کاهش می دهد.

توسعه دهندگان سیستم های تشخیص گفتار، مجددا مجبور به تمرکز عمدتا به آداپتورهای صوتی سریال تولید می شوند. آنها تبدیل سیگنال غیر خطی را که در بالا توضیح داده شده را ارائه نمی دهند.

با این حال، شما می توانید یک معادل نرم افزار یک تقویت کننده غیر خطی ایجاد کنید که یک سیگنال دیجیتالی را قبل از انتقال آن به ماژول تشخیص گفتار تبدیل می کند. و اگر چه چنین تقویت کننده برنامه قادر به کاهش سر و صدای کوانتیزاسیون نخواهد بود، ممکن است بر این سطوح سیگنال تأکید داشته باشید که بیشترین اطلاعات گفتار را حمل می کنند. به عنوان مثال، شما می توانید دامنه سیگنال های ضعیف را کاهش دهید، از بین بردن سیگنال از سر و صدا.

یا عرض جغرافیایی عکاسی مواد عکس رابطه بین حداکثر و حداقل مقادیر قرار گرفتن در معرض است که می تواند به درستی در تصویر گرفته شود. با اشاره به عکاسی دیجیتال، محدوده پویا در واقع معادل نسبت حداکثر و حداقل مقدار ممکن سیگنال الکتریکی مفید تولید شده توسط Seensor عکس در طول قرار گرفتن در معرض است.

محدوده دینامیکی در مراحل قرار گرفتن در معرض اندازه گیری می شود (). هر مرحله مربوط به دو برابر شدن مقدار نور است. به عنوان مثال، اگر یک دوربین خاص دارای دامنه پویا 8 EV باشد، این بدان معنی است که حداکثر مقدار ممکن از سیگنال مفید ماتریس آن به حداقل 2 8: 1 اشاره دارد، به این معنی که دوربین قادر به گرفتن درون یک است اشیاء قاب در روشنایی بیش از 256 بار متفاوت است. دقیق تر، می تواند اشیاء آن را با هر روشنایی ضبط کند، اما اشیائی که روشنایی آن حداکثر بیش از حد است ارزش مجاز بیایید بر روی یک عکس از خیره کننده سفید، و اشیایی که روشنایی آنها کمتر از حداقل مقدار - ذغال سنگ سیاه است. جزئیات و بافت ها فقط بر روی آن اشیا قابل تشخیص هستند که روشنایی آنها در محدوده دینامیکی محفظه قرار می گیرد.

برای توصیف رابطه بین روشنایی درخشان ترین و تاریک ترین از اشیاء قابل جابجایی، اصطلاح کاملا صحیح "دامنه صحنه پویا" اغلب استفاده می شود. این درست است که در مورد محدوده روشنایی یا در سطح کنتراست صحبت شود، زیرا محدوده دینامیکی معمولا مشخصه دستگاه اندازه گیری است (در این مورد، ماتریس دوربین دیجیتال).

متاسفانه، محدوده روشنایی بسیاری از صحنه های زیبا که ما با آن مواجه هستیم زندگی واقعیممکن است به طور قابل توجهی از محدوده دینامیکی دوربین دیجیتال تجاوز کند. در چنین مواردی، عکاس مجبور است تصمیم بگیرد که کدام اشیا باید در تمام بخش ها کار کند، و کدام یک را می توان در خارج از محدوده پویا بدون تعصب به طراحی خلاقانه ترک کرد. به منظور استفاده موثرتر از محدوده دینامیکی دوربین خود، گاهی اوقات ممکن است درک کامل از اصل کار فتوسنسور، چقدر هنری توسعه یافته است.

عوامل دامنه دینامیک

مرز پایین تر از محدوده دینامیک توسط سطح سر و صدای خود را از Seensor عکس تنظیم شده است. حتی ماتریس Unlit یک سیگنال الکتریکی پس زمینه تولید می کند، به نام نویز تاریک است. همچنین، تداخل زمانی اتفاق می افتد که شارژ به مبدل آنالوگ به دیجیتال منتقل می شود و ADC یک خطای خاصی را در سیگنال دیجیتالی به اصطلاح معرفی می کند. نمونه گیری سر و صدا

اگر عکس را در یک تاریکی کامل یا با یک درب بر روی لنز بگیرید، دوربین تنها این سر و صدای بی معنی را ثبت می کند. اگر شما به حداقل تعداد نور اجازه دهید به سنسور دسترسی پیدا کنید، Photodiodes شروع به جمع آوری اتهام الکتریکی می کند. ارزش شارژ، که به معنی شدت سیگنال مفید است، متناسب با تعداد فوتون های دستگیر شده است. به منظور یک عکس فوری، حداقل برخی از جزئیات معنی دار، لازم است که سطح سیگنال مفید بیش از سطح نویز پس زمینه باشد.

بنابراین، مرز پایین تر از محدوده دینامیکی یا به عبارت دیگر، آستانه حساسیت سنسور به صورت رسمی می تواند به عنوان سطح سیگنال خروجی تعریف شود که نسبت سیگنال به نویز بیشتر از واحد است.

حد بالای محدوده دینامیکی توسط کانتینر یک فوتودید جداگانه تعیین می شود. اگر، در طول نمایشگاه، هر فوتودیود یک بار الکتریکی از مقادیر محدود کننده خود را انباشته شود، پس پیکسل تصویر مربوط به فتوودیدهای بیش از حد سفید، کاملا سفید است و تابش بیشتر بر روشنایی آن تاثیر نمی گذارد. این پدیده به نام Clipping نامیده می شود. بالاترین توانایی فانتزی فوتودیود، بیشتر سیگنال می تواند قبل از اشباع به خروجی کمک کند.

برای وضوح بیشتر، ما به منحنی مشخصه تبدیل می شویم، که یک نمودار از وابستگی سیگنال خروجی از قرار گرفتن در معرض آن است. در محور افقی، لگاریتم دودویی اشعه ای که توسط سنسور به دست آمده است، به تعویق می افتد و بر روی لگاریتم عمودی باینری مقدار سیگنال الکتریکی تولید شده توسط سنسور در پاسخ به این تابش. نقاشی من عمدتا مشروط است و به دنبال اهداف فوق العاده ای است. منحنی مشخصه سنسور عکس کنونی دارای یک فرم پیچیده تر است و سطح سر و صدا به ندرت بسیار زیاد است.

این نمودار به وضوح قابل مشاهده دو نقطه سختگیرانه بحرانی است: در اول از این، سطح سیگنال مفید از آستانه نویز عبور می کند، و در دومین فوتودیوود، اشباع می شود. مقادیر قرار گرفتن در معرض بین این دو نقطه، محدوده دینامیکی هستند. در این مثال انتزاعی، برابر با چگونگی اطلاع رسانی آسان است، 5 EV، I.E. دوربین قادر به هضم پنج برابر دو برابر شدن است که معادل 32x (2 5 \u003d 32) در تفاوت روشنایی است.

مناطق قرار گرفتن در معرض که دامنه دینامیکی را تشکیل می دهند، نابرابر هستند. مناطق فوقانی با نسبت سیگنال به نویز بالاتر مشخص می شوند و بنابراین واضح تر و دقیق تر از پایین تر نگاه می کنند. به عنوان یک نتیجه، حد بالایی از محدوده دینامیکی بسیار واقعی و قابل توجه است - قطع شدن چراغ های پیچیده در کوچکترین بیش از حد، در حالی که مرز پایین تر به طور فزاینده ای در سر و صدا غرق می شود، و انتقال به رنگ سیاه و سفید دور از خیلی برش است.

وابستگی خطی سیگنال از قرار گرفتن در معرض، و همچنین عملکرد تیز به فلات، ویژگی های منحصر به فرد از فرایند عکاسی دیجیتال است. برای مقایسه، نگاهی به منحنی مشخصه شرطی Photoplinka سنتی نگاه کنید.

شکل منحنی و به ویژه زاویه گرایش به نوع فیلم و از روش تظاهرات آن بستگی دارد، اما اصلی ترین چیزی است که تفاوت بین برنامه فیلم از دیجیتال باقی می ماند - ماهیت غیر خطی وابستگی به تراکم نوری فیلم از مقدار نوردهی بدون تغییر باقی می ماند.

مرز پایین تر از عرض جغرافیایی عکاسی فیلم منفی با تراکم حجاب، و بالاتر از آن - حداکثر تراکم نوری قابل دستیابی از فتوکلون تعیین می شود؛ فیلم های چرخش - بر خلاف. هر دو در سایه ها و در چراغ ها، خم های صاف منحنی مشخصه وجود دارد، که نشان می دهد کاهش در مقابل در هنگام نزدیک شدن به مرزهای دامنه دینامیکی، به دلیل زاویه گرایش منحنی متناسب با کنتراست تصویر است. بنابراین، مناطق قرار گرفتن در معرض دروغین در قسمت وسط برنامه، حداکثر کنتراست، در حالی که در چراغ ها و سایه ها، کنتراست کاهش می یابد. در عمل، تفاوت بین فیلم و ماتریس دیجیتال به ویژه در چراغ ها قابل توجه است: جایی که در تصویر دیجیتال نور با قطع شدن سوزانده می شود، قطعاتی که در فیلم هنوز هم قابل تشخیص هستند، گرچه کم کنتراست و انتقال به رنگ سفید خالص به نظر می رسد صاف و طبیعی است.

در حساسیت سنجی، حتی دو اصطلاح مستقل استفاده می شود: در واقع عرض جغرافیایی عکاسیمحدود شده توسط بخش نسبتا خطی منحنی مشخصه، و عرض جغرافیایی مفید، علاوه بر بخش خطی، گرافیک پایه و شانه نیز.

قابل توجه است که هنگام پردازش عکس های دیجیتال، آن را به عنوان یک قاعده، منحنی بیشتر یا کمتر تلفظ شده S شکل را اعمال می کند که کنتراست را در نیمکره در هزینه کاهش آن در سایه ها و چراغ ها افزایش می دهد، که یک تصویر دیجیتالی را می دهد نگاه طبیعی تر و دلپذیر چشم.

تعظیم

بر خلاف ماتریس دوربین دیجیتال، دیدگاه انسانی عجیب است، بیایید بگویم، یک دیدگاه لگاریتمی از جهان است. دو برابر شدن متوالی از مقدار نور توسط ما به عنوان تغییرات برابر در روشنایی درک می شود. اعداد نور حتی می توانند با اکتاو موسیقی مقایسه شوند، زیرا تغییرات دوگانه فرکانس صدا توسط شایعه به عنوان یک فاصله موسیقی تنها درک می شود. این اصل از حواس های دیگر استفاده می کند. غیر خطی ادراک، گستره حساسیت انسان را به محرک شدت های مختلف گسترش می دهد.

هنگام تبدیل فایل خام (مهم نیست، ابزار دوربین یا در مبدل خام) حاوی داده های خطی، به اصطلاح به طور خودکار به آن اعمال می شود. منحنی گاما، که به طور غیر خطی طراحی شده است، روشنایی تصویر دیجیتال را افزایش می دهد، که منجر به آن با ویژگی های بینایی انسان می شود.

با تبدیل خطی، تصویر بیش از حد تاریک است.

پس از اصلاح گاما، روشنایی به حالت عادی می آید.

منحنی گاما به عنوان آن را کشش تانک تیره و فشار نور، توزیع درجه بندی درجه بندی لباس های بیشتر. به عنوان یک نتیجه، تصویر یک نگاه طبیعی را به دست می آورد، اما سر و صدا و مصنوعات نمونه برداری در سایه ها ناگزیر می شود قابل توجه تر است، که تنها با تعداد کمی از سطوح روشنایی در مناطق پایین تر تشدید می شود.

توزیع خطی درجه بندی های روشنایی.

توزیع یکنواخت پس از استفاده از یک منحنی گاما.

ISO و دامنه دینامیک

علیرغم این واقعیت که در عکاسی دیجیتال، همان مفهوم حساس به حساسیت به حساسیت به مواد عکاسی به عنوان عکس از فیلم استفاده می شود، باید درک شود که این تنها به دلیل سنت سنت است، زیرا رویکردهای تغییر حساسیت به نور در دیجیتال و عکاسی فیلم در اصل متفاوت است.

بهبود حساسیت ISO در عکاسی سنتی به معنای جایگزینی یک فیلم به دیگری با دانه ای بزرگتر است. یک تغییر عینی در خواص مواد عکس وجود دارد. در دوربین دیجیتال، حساسیت سنسور به شدت توسط ویژگی های فیزیکی آن تنظیم شده است و نمی تواند به معنای واقعی کلمه تغییر کند. با افزایش ISO، دوربین حساسیت واقعی سنسور را تغییر نمی دهد، اما تنها سیگنال الکتریکی تولید شده توسط سنسور را در پاسخ به تابش افزایش می دهد و به درستی الگوریتم دیجیتالی سازی را برای این سیگنال تنظیم می کند.

یک نتیجه مهم از این است که کاهش دامنه دینامیکی موثر نسبت به افزایش ISO، زیرا با یک سیگنال مفید، نویز افزایش می یابد. اگر ISO 100 کل محدوده مقادیر سیگنال را دیجیتالی کند - از صفر تا نقطه اشباع، سپس با ISO 200، تنها نیمی از ظرفیت PhotoDiodes برای حداکثر پذیرفته شده است. با هر دو برابر حساسیت ISO، مرحله بالایی از محدوده پویا قطع شده است، و مراحل باقی مانده به جای آن سخت می شود. به همین دلیل استفاده از ارزش های ISO فوق بالا از معنای عملی محروم می شود. با موفقیت همان، شما می توانید عکس را در مبدل خام روشن کنید و سطح قابل توجهی از سر و صدا را دریافت کنید. تفاوت بین افزایش ISO و یک روشنایی مصنوعی تصویر این است که با افزایش ISO، تقویت سیگنال قبل از دریافت آن در ADC رخ می دهد، و بنابراین سر و صدا از کوانتیزاسیون افزایش نمی یابد، بر خلاف سر و صدای خود را از سنسور، در حالی که در مبدل خام، تقویت، از جمله اشتباهات ADC است. علاوه بر این، کاهش دامنه دیجیتالی به معنای نمونه گیری دقیق تر از مقادیر ورودی باقی مانده است.

به هر حال، یک ISO در برخی از دستگاه های زیر ارزش پایه موجود است (به عنوان مثال، به ISO 50)، محدوده دینامیکی را گسترش نمی دهد و به سادگی سیگنال را دو بار افزایش می دهد، که برابر با عکس فوری در مبدل خام برابر است. این تابع حتی می تواند به عنوان مضر درمان شود، زیرا استفاده از ارزش زیستی ISO، یک محفظه را به افزایش قرار گرفتن در معرض قرار می دهد که با آستانه بدون تغییر باقی مانده از سنسور، خطر ابتلا به لغزش در چراغ ها را افزایش می دهد.

محدوده دینامیک واقعی

تعدادی از برنامه هایی مانند (DXO Analyzer، Imatest، Rawdigger و غیره) به شما امکان می دهد تا محدوده دینامیکی یک دوربین دیجیتال را در خانه اندازه گیری کنید. در اصل، این یک نیاز بزرگ نیست، زیرا داده ها برای اکثر دوربین ها می توانند آزادانه در اینترنت، به عنوان مثال، در وب سایت dxomark.com یافت شوند.

آیا باید نتایج چنین آزمایشاتی را باور کنم؟ کاملا. با تنها رزرو که تمام این آزمایش ها کارآمد هستند یا اگر بتوانید آن را بیان کنید، محدوده دینامیکی فنی، I.E. رابطه بین سطح اشباع و سطح سر و صدا ماتریس. برای عکاس، دامنه پویا مفید عمدتا مهم است، I.E. تعداد مناطق قرار گرفتن در معرض که واقعا به شما اجازه می دهد برخی از اطلاعات مفید را ضبط کنید.

همانطور که به یاد می آورید، آستانه دامنه دینامیک توسط سطح سر و صدا از Seensor عکس مشخص شده است. مشکل این است که در عمل، مناطق پایین تر به طور رسمی دریافت می شود در محدوده دینامیک، شامل همه چیز بیش از حد سر و صدا به طوری که آنها می توانند مورد استفاده قرار گیرد. در اینجا، بسیار بستگی به فشرده سازی فردی دارد - سطح قابل قبول سر و صدا هر کدام برای خود تعیین می کند.

دیدگاه ذهنی من این است که جزئیات در سایه ها شروع به نگاه بیشتر یا کمتر با نسبت سیگنال / نویز حداقل هشت. بر این اساس، من برای خودم یک دامنه پویا مفید را تعیین می کنم، به عنوان یک محدوده دینامیکی فنی منفی حدود سه مرحله.

به عنوان مثال، اگر محفظه آینه بر اساس نتایج آزمایش های قابل اعتماد، دارای محدوده پویا 13 EV است که برای استانداردهای امروز بسیار مفید است، سپس دامنه پویا مفید آن حدود 10 EV است که به طور کلی نیز بسیار کامل است . البته، ما در مورد تیراندازی در خام صحبت می کنیم، با حداقل ISO و حداکثر بیت. هنگام عکسبرداری در JPEG، محدوده دینامیکی به شدت به تنظیمات کنتراست بستگی دارد، اما به طور متوسط \u200b\u200bدو یا سه مرحله باید از بین برود.

برای مقایسه: عکس های عکس های رنگی دارای عرض جغرافیایی عکاسی مفید 5-6 مرحله هستند؛ فیلم های منفی سیاه و سفید به 9-10 مرحله با تظاهرات استاندارد و روش های چاپ، و با دستکاری های خاص - تا 16-18 مرحله می پردازند.

خلاصه ای از موارد فوق، ما سعی خواهیم کرد چند قواعد ساده را فرموله کنیم، که به شما کمک می کند تا از سنسور حداکثر عملکرد دوربین خود فشار دهید:

محدوده دینامیکی دوربین دیجیتال فقط در هنگام عکسبرداری خام به طور کامل قابل دسترسی است.
محدوده دینامیکی با افزایش حساسیت نور کاهش می یابد و بنابراین از ارزش های ISO بالا جلوگیری می کند اگر هیچ ضرورت تیز وجود ندارد.
با استفاده از تخلیه بالاتر برای فایل های خام دامنه دینامیکی واقعی را افزایش نمی دهد، اما جداسازی تونال را در سایه ها به دلیل افزایش می دهد بیشتر سطوح روشنایی.
قرار گرفتن در معرض درست مناطق بالای قرار گرفتن در معرض همیشه دارای حداکثر هستند اطلاعات مفید با حداقل سر و صدا و باید به طور موثر استفاده شود. در عین حال، شما نباید در مورد خطر قطع شدن - پیکسل هایی که به اشباع رسیده اند، کاملا بی فایده باشند.

و اصلی ترین چیز: لازم نیست که در مورد دامنه پویا دوربین خود نگران باشید. با یک دامنه پویا، درست است. توانایی شما برای دیدن نور و صلاحیت مدیریت قرار گرفتن در معرض بسیار مهم تر است. عکاس خوب در مورد فقدان عرض جغرافیایی عکاسی شکایت نمی کند، اما سعی خواهد کرد که برای روشنایی راحت تر صبر کند یا زاویه را تغییر دهد یا از فلش استفاده کند، به یک کلمه، مطابق با شرایط عمل خواهد کرد. من به شما بیشتر می گویم: بعضی از صحنه ها تنها به دلیل این واقعیت که آنها در محدوده دینامیکی دوربین قرار نمی گیرند، برنده نمی شوند. اغلب فراوانی غیر ضروری قطعات به سادگی ضروری است که به یک شباهت سیاه و سفید نیمه رنده شده که یک عکس را در همان زمان به طور مختصر و غنی تر می سازد پنهان شود.

کنتراست بالا همیشه بد نیست - شما فقط باید قادر به کار با آن باشید. یاد بگیرید که از معایب تجهیزات و مزایای آن بهره برداری کنید، و شما شگفت زده خواهید شد که فرصت های خلاقانه شما گسترش یابد.

از توجه شما سپاسگزارم!

vasily A.

ارسال Scriptum

اگر مقاله برای شما مفید و آموزنده باشد، می توانید از این پروژه حمایت کنید، کمک به توسعه آن. اگر مقاله را دوست نداشتید، اما شما فکر می کنید که چگونه آن را بهتر کنید، انتقادات شما با هیچ قدردانی کمتر پذیرفته خواهد شد.

فراموش نکنید که این مقاله هدف کپی رایت است. چاپ مجدد و نقل قول مجاز است اگر یک مرجع موجود به منبع اصلی وجود داشته باشد، متن مورد استفاده نباید انتخاب یا اصلاح شود.

افرادی که مشتاق با صدای خانگی هستند، یک پارادوکس جالب را نشان می دهند. آنها آماده هستند تا اتاق گوش دادن را بچرخانند تا ستون ها را با مخلوقات عجیب و غریب بسازند، اما آنها در مقابل کنسرو های موسیقی خجالت می کشند، مثل گرگ در مقابل پرچم قرمز. و در واقع، چرا جعبه کادر انتخاب غیر ممکن است، و از کنسرو سعی کنید برای آشپزی چیزی بیشتر خوراکی؟

به طور دوره ای، شکایات در انجمن وجود دارد: "مشاوره آلبوم های ضبط شده". قابل فهم است نسخه های صوتی ویژه، هر چند آنها را خوشحال خواهند کرد که اولین دقیقه را شنیدند، اما هیچ کس به پایان نمی رسد، آن را به رپرتیور آسیب می رساند. همانطور که برای بقیه فونوتک، مشکل به نظر می رسد واضح است. شما می توانید ذخیره کنید، اما شما نمی توانید ذخیره و خالی کردن پول به قطعات را ذخیره کنید. من هنوز هم دوست ندارم به موسیقی مورد علاقه خود را در حجم بالا و امکان تقویت کننده در اینجا گوش دهید.

امروزه، حتی در آلبوم های Hi-Res، قله های فونوگرافی و حجم رانده شده به قطع می شود. اعتقاد بر این است که اکثریت بر روی هر ناخواسته به موسیقی گوش می دهند و بنابراین لازم است "از گات بپرسید"، برای ایجاد نوعی تعهد.

البته، این به طور خاص انجام نشده است به ناراحتی audiophiles. در مورد آنها به طور کلی تعداد کمی از مردم به یاد داشته باشید. خوب، به جز اینکه آنها حدس می زنند تا فایل های اصلی را که گردش اصلی آن کپی شده است، اجازه دهید - CDS، MP3 و غیره. البته، جادوگر به مدت طولانی توسط کمپرسور مسطح شده است، هیچ کس به طور آگاهانه نسخه های ویژه ای را برای آهنگ های HD آماده نخواهد کرد. این است که یک روش خاص برای حامل وینیل، که به همین دلیل و به نظر انسان بیشتر است. و برای مسیر دیجیتال، همه چیز به پایان می رسد - یک کمپرسور بزرگ ضخیم.

بنابراین، در حال حاضر، در حال حاضر 100٪ از phonograms منتشر شده، منهای موسیقی کلاسیک، تحت فشرده سازی قرار می گیرند زمانی که masthering. کسی این روش را بیشتر یا کمتر ماهرانه انجام می دهد و کسی کاملا احمق است. در نتیجه، ما Pilgrims در انجمن ها با خط پلاگین DR برای سینوس، مقایسه دردناک از نشریات، فرار به وینیل، که در آن شما همچنین به یک پوپر اصلی نیاز دارید.

بیشترین فریزر در نگاه تمام این نارضایتی ها به معنای واقعی کلمه در کفش های صوتی بود. هیچ شوخی، آنها کتاب مقدس مقدس مقدس را به عقب خوانده اند! برنامه های ویرایش صوتی مدرن برخی از ابزار ترمیم دارند موج صوتیکلیپ شده قطع شده است.

در ابتدا، این قابلیت برای استودیوها در نظر گرفته شده است. هنگامی که مخلوط شده است، شرایط زمانی وجود دارد که قطع به نوشتن آمده است، و دیگر ممکن نیست جلسه را به دلایل تعدیل کنید، و در اینجا به ویرایشگر صوتی آرسنال کمک می کند - Decalipper، Decompressor و غیره

و در حال حاضر برای چنین نرم افزاری، تمامی جسورانه دستگیره ای از شنوندگان عادی را که خون از گوش ها پس از نوآوری بعدی خون دارند، می کشد. کسی ترجیح می دهد ایزوتوپ، کسی Adobe Adoutition، شخص عملیاتی بین چندین برنامه را به اشتراک می گذارد. معنای بازسازی پویایی سابق این است که به درستی اصلاح پیک های سیگنال کلیپ، که، استراحت در 0 دسی بل، شبیه دنده است.

بله، حدود 100٪ احیای منبع سخنرانی نمی رود، از آنجا که فرآیندهای interpolation در الگوریتم های نسبتا احتمالی رخ می دهد. اما هنوز، برخی از نتایج پردازش به نظر من جالب و ارزشمند مطالعه بود.

به عنوان مثال، آلبوم لانا دل ری "شهوت زندگی"، به طور مداوم خسته، PAH، رانندگی! در آهنگ اصلی "زمانی که جهان در حال جنگ بود، رقص را حفظ کردیم" مثل این بود.

و پس از یک سری از decalippers و decomptressors، آن را تبدیل به این شد. ضریب دکتر از 5 تا 9 تغییر کرده است. قبل و بعد از پردازش به نمونه دانلود کنید و گوش دهید.

من نمی توانم بگویم که این روش جهانی است و برای همه آلبوم های مستقر مناسب است، اما در این مورد من ترجیح دادم در مجموعه ای دقیقا این گزینه را با یک فعال فعال Rutraker، به جای انتشار رسمی در 24 بیت، حفظ کنم.

حتی اگر کشیدن مصنوعی از قله ها از صدا می شود، پویایی واقعی عملکرد موسیقی را باز نمی گرداند، DAC شما هنوز هم می گوید به هر حال. او خیلی سخت بود که او بدون اشتباه در سطوح محدود کار کند، جایی که احتمال ابتلا به قله های به اصطلاح intersmonic (ISP) عالی است. و در حال حاضر تا 0 دسی بل، تنها اسپورهای نادر سیگنال را نادیده می گیرد. علاوه بر این، فونوگرافی فعال شده هنگامی که فشرده شده در FLAC یا سایر کدک های بدون افتادگی در حال حاضر کوچکتر خواهد بود. بیشتر "هوا" در سیگنال موجب صرفه جویی در فضای هارد دیسک می شود.

سعی کنید آلبوم های پرطرفدار خود را که در "جنگ حجم" کشته شده اند، احیا کنید. برای رزرو سخنران، ابتدا باید سطح مسیر را در -6 دسی بل کاهش دهید و سپس Deckipper را شروع کنید. کسانی که معتقدند کامپیوتر ها می توانند به راحتی بین دستگاه پخش سی دی و تقویت کننده استودیو تقویت کننده قرار گیرند. این دستگاه در اصل، آن را به همان شیوه انجام می شود - به عنوان آن را می تواند بازسازی و کشیدن قله های فشرده شده بر روی پویایی سیگنال صوتی. دستگاه های مشابه از 80-90s وجود دارد که نمی گویند بسیار گران است، و به عنوان یک آزمایش، آنها را بسیار جالب تلاش کنید.

کنترل کننده دامنه دینامیک DBX 3BX سیگنال را به طور جداگانه در سه نوار - LF، SC و RF پردازش می کند

هنگامی که اکولایزر به صورت اجزای سیستم صوتی اعطا شد و هیچکس از آنها نترسید. امروز لازم نیست که فرکانس های بالا نوار مغناطیسی را بالا ببریم، اما با پویایی زشت، برای حل چیزی، برادران لازم است.

فشرده سازی پویا (فشرده سازی دامنه پویا، DRC) محدود کردن (یا گسترش در مورد گسترش) دامنه دینامیکی Phonogram است. محدوده دینامیکیاین تفاوت بین آرام ترین و صدای بلند ترین صدا است. گاهی اوقات آرام ترین در فونوگرام، صدای کمی از سر و صدای کمی از سر و صدا خواهد بود، و گاهی اوقات کمی آرام تر از صدای بلند. دستگاه های سخت افزاری و برنامه های انجام فشرده سازی پویا کمپرسور هستند، که چهار گروه اصلی را برجسته می کنند: کمپرسور، محدود کننده، گسترش دهنده ها و گیتس.

کمپرسور آنالوگ لامپ DBX 566

کاهش و ترویج فشرده سازی

فشرده سازی پایین (فشرده سازی پایین) حجم صدا را هنگامی که از مقدار آستانه خاصی شروع می شود، کاهش می دهد، صدای ساکت تر را بدون تغییر تغییر می دهد. گزینه افراطی فشرده سازی پایین تر است محدود کننده. فشرده سازی افزایش (فشرده سازی رو به بالا)، برعکس، حجم صدا را افزایش می دهد، اگر زیر آستانه باشد، بدون تأثیر بیشتر صداهای بلند. در عین حال، هر دو نوع فشرده سازی دامنه دینامیکی سیگنال صوتی را محدود می کنند.

فشرده سازی پایین

فشرده سازی افزایش

گسترش و دروازه

اگر کمپرسور دامنه دینامیکی را کاهش دهد، Expander آن را افزایش می دهد. هنگامی که سطح سیگنال بالاتر از سطح آستانه می شود، Expander آن را حتی بیشتر افزایش می دهد، بنابراین تفاوت بین صداهای بلند و آرام را افزایش می دهد. چنین دستگاه هایی اغلب هنگام ضبط نصب درام برای جداسازی صداهای برخی از درامز از دیگران استفاده می شود.

نوع گسترش، که از آن استفاده نمی شود به افزایش با صدای بلند، و خشک کردن صداهای آرام که از سطح مقدار آستانه تجاوز نمی کند (به عنوان مثال، سر و صدای پس زمینه) نامیده می شود دروازه سر و صدا. در چنین دستگاهی، به محض اینکه سطح صدا کمتر از آستانه می شود، گذر سیگنال متوقف می شود. به طور معمول، دروازه برای سرکوب نویز در مکث ها استفاده می شود. در برخی از مدل ها می توان آن را انجام داد، به طوری که صدا زمانی که سطح آستانه به شدت متوقف نمی شود، اما به تدریج به سر می برد. در این مورد، سرعت انقباض توسط تنظیم کننده انقباض (رکود اقتصادی) تعیین می شود.

دروازه، مانند سایر انواع کمپرسورها، شاید وابسته به فرکانس (به روش های مختلفی برای پردازش نوارهای فرکانس خاص) و می تواند در حالت کار کند زنجیره جانبی. (نگاه کنید به زیر).

اصل عملیات کمپرسور

سیگنال سقوط به کمپرسور به دو نسخه تقسیم می شود. یک کپی به تقویت کننده ارسال می شود، که در آن درجه تقویت توسط یک سیگنال خارجی کنترل می شود، نسخه دوم - این سیگنال را تشکیل می دهد. این دستگاه به نام زنجیره جانبی وارد می شود، جایی که سیگنال اندازه گیری می شود و پاکت بر اساس این داده ها ایجاد تغییر در حجم آن است.
بنابراین کمپرسورهای مدرن مدرن مرتب شده اند، این نوع به اصطلاح Feed-forward است. در دستگاه های قدیمی تر (نوع بازخورد)، سطح سیگنال پس از تقویت کننده اندازه گیری می شود.

فن آوری های مختلف کنترل آنالوگ (تقویت افزایش متغیر)، هر کدام با مزایا و معایب آن: لامپ ها، نوری با استفاده از Photoresistra و Transistum وجود دارد. هنگام کار با صوتی دیجیتال (در ویرایشگر صوتی یا DAW)، الگوریتم های ریاضی خود را می توان مورد استفاده قرار داد یا عملکرد تکنولوژی آنالوگ را می توان وارد کرد.

پارامترهای اصلی کمپرسورها

آستانه.

کمپرسور سیگنال صوتی را کاهش می دهد اگر مقادیر دامنه آن یک مقدار آستانه خاص (آستانه) باشد. این معمولا در دسیبل نشان داده شده است، با آستانه پایین تر (به عنوان مثال، -60 دسی بل) به این معنی است که صدا از یک آستانه بالاتر (به عنوان مثال -5 دسی بل) پردازش می شود.

نسبت

درجه کاهش سطح توسط پارامتر نسبت تعیین می شود: نسبت 4: 1 به این معنی است که اگر سطح ورودی 4 دسی بل بیش از آستانه باشد، سطح خروجی بالاتر از آستانه 1 دسی بل است.
مثلا:
آستانه \u003d -10 دسی بل
ورودی سیگنال \u003d -6 db (بر روی 4 دسی بل بالایی)
خروجی سیگنال \u003d -9 دسی بل (بر روی 1 دسی بل بالایی)

مهم است که به یاد داشته باشید که سرکوب سطح سیگنال ادامه می یابد و برخی از زمان پس از آن زیر سطح آستانه کاهش می یابد، و این بار با ارزش پارامتر تعیین می شود رهایی.

فشرده سازی با حداکثر مقدار نسبت ∞: 1 محدودیت نامیده می شود. این بدان معنی است که هر سیگنال بالای سطح آستانه قبل از سطح آستانه (به استثنای یک دوره کوتاه پس از افزایش شدید حجم ورودی) سرکوب می شود. برای جزئیات، زیر "محدود کننده" را ببینید.

نمونه هایی از مقادیر نسبت های مختلف

حمله و انتشار

کمپرسور کنترل خاصی را کنترل می کند که به سرعت به تغییر دینامیک سیگنال پاسخ می دهد. پارامتر حمله زمان را تعیین می کند که کمپرسور ضریب سود را به سطح کاهش می دهد، که توسط پارامتر نسبت تعیین می شود. انتشار زمانی تعریف می کند که کمپرسور، برعکس، ضریب افزایش را افزایش می دهد یا اگر سطح سیگنال ورودی زیر مقدار آستانه قطره باشد، ضریب افزایش را افزایش می دهد یا به حالت عادی بازگردانده می شود.

حمله و مراحل انتشار

این پارامترها نشان می دهد زمان (معمولا در میلی ثانیه)، که مورد نیاز برای تغییر تقویت به مقدار مشخصی از دسیبل، معمولا 10 دسی بل است. به عنوان مثال، در این مورد، اگر حمله به 1 میلی ثانیه تنظیم شود، برای کاهش 10 دسی بل، 1 میلی ثانیه مورد نیاز است، و 20 دسی بل - 2 میلی ثانیه.

در بسیاری از کمپرسورها، پارامترهای حمله و انتشار را می توان پیکربندی کرد، اما در برخی از آنها در ابتدا تنظیم و تنظیم نمی شوند. گاهی اوقات آنها به عنوان "به صورت خودکار" یا "وابسته به برنامه" تعیین می شوند، I.E. بسته به سیگنال ورودی متفاوت است.

زانو

یکی دیگر از پارامتر کمپرسور: زانوی سخت / نرم. این تعیین می کند که آیا شروع کاربرد فشرده سازی تیز (سخت) یا تدریجی (نرم) است. زانو نرم باعث کاهش غلظت انتقال از سیگنال خام به سیگنال تحت فشار فشرده سازی، به ویژه در مقادیر نسبت بالا و افزایش حجم شدید کاهش می یابد.

زانوی سخت و فشرده سازی نرم زانو

پیک و RMS.

کمپرسور می تواند به اوج (حداکثر کوتاه مدت) یا بر روی سطح ورودی متوسط \u200b\u200bواکنش نشان دهد. استفاده از مقادیر پیک می تواند منجر به نوسانات شدید در درجه فشرده سازی و حتی تحریف شود. بنابراین، کمپرسورها عملکرد متوسط \u200b\u200bرا اعمال می کنند (معمولا این سیگنال ورودی RMS در مقایسه با یک مقدار آستانه است. این فشرده سازی راحت تر، نزدیک به درک انسان از حجم است.

RMS یک پارامتر است که منعکس کننده حجم متوسط \u200b\u200bفونوگرام است. از نقطه ریاضی از دیدگاه RMS (میدان متوسط \u200b\u200bریشه) مقدار RMS دامنه تعداد مشخصی از نمونه ها است:

پیوند استریو

کمپرسور در حالت پیوند استریو، همان افزایش را به کانال های استریو اعمال می کند. این اجتناب از جابجایی Stereopanorama، که می تواند نتیجه پردازش فردی کانال های چپ و راست باشد. چنین جابجایی رخ می دهد اگر، به عنوان مثال، هر عنصر با صدای بلند در مرکز نیست.

افزایش آرایش

از آنجا که کمپرسور سطح کلی سیگنال را کاهش می دهد، احتمال افزایش ثابت در خروجی معمولا اضافه می شود، که به شما امکان می دهد سطح مطلوب را دریافت کنید.

نگاه کن

تابع پیش رو پیش رو طراحی شده است تا مشکلات خاصی را حل کند، هر دو مقدار بسیار زیاد و بیش از حد کوچک حمله و انتشار را منتشر می کنند. حملات بیش از حد به شما اجازه نمی دهد که به طور موثری از گذرگاه های عبور کنید، اما ممکن است خیلی کوچک برای شنونده راحت نباشد. هنگام استفاده از تابع پیش فرض، سیگنال اصلی نسبت به کنترلر به تأخیر افتاده است، به شما این امکان را می دهد تا قبل از شروع فشرده سازی، حتی قبل از اینکه سیگنال به مقدار آستانه برسد، شروع به فشرده سازی کنید.
تنها ضرر این روش، تاخیر زمانی سیگنال است که در برخی موارد نامطلوب است.

استفاده از فشرده سازی پویا

فشرده سازی در همه جا استفاده می شود، نه تنها در فونوگرافی های موسیقی، بلکه در همه جا، جایی که شما باید حجم کلی را افزایش دهید، بدون افزایش سطح پیک که در آن تجهیزات ارزان قیمت صدا استفاده می شود یا یک کانال انتقال محدود (سیستم هشدار، رادیو آماتور، استفاده می شود و غیره).

فشرده سازی هنگام بازی اعمال می شود موسیقی پس زمینه (در فروشگاه ها، رستوران ها، و غیره)، جایی که هر گونه تغییرات حجم قابل توجهی نامطلوب است.

اما مهمترین دامنه استفاده از فشرده سازی پویا، تولید و پخش موسیقی است. فشرده سازی برای دادن صدای "تراکم" و "درایو" برای ترکیبی بهتر از ابزارها با یکدیگر، و مخصوصا هنگام پردازش خواننده استفاده می شود.

احزاب صوتی در موسیقی راک و پاپ معمولا تحت فشرده سازی قرار می گیرند تا آنها را در پس زمینه همراهی برجسته کنند و وضوح را اضافه کنند. نوع خاصی از کمپرسور، تنها بر روی فرکانس های خاص پیکربندی شده است، برای سرکوب پس زمینه hissing استفاده می شود.

در احزاب سازمانی، فشرده سازی نیز برای اثرات که به طور مستقیم به حجم مربوط نمی شود، استفاده می شود، به عنوان مثال، صداهای درام به سرعت در حال فروپاشی می تواند طولانی تر شود.

در موسیقی رقص الکترونیک (EDM)، Side-chaning اغلب استفاده می شود (نگاه کنید به زیر) - به عنوان مثال، خط باس را می توان توسط یک بشکه یا چیزی شبیه به جلوگیری از درگیری باس و درامز کنترل و ایجاد یک پالس پویا.

فشرده سازی به طور گسترده ای در انتقال پخش (رادیو، تلویزیون، پخش اینترنتی) مورد استفاده قرار می گیرد تا حجم درک شده را افزایش دهد در حالی که کاهش دامنه پویا صوتی منبع (معمولا CD). اکثر کشورها محدودیت های قانونی را در حداکثر حجم فوری دارند که می توانند پخش شوند. به طور معمول، این محدودیت ها توسط کمپرسورهای ثابت سخت افزاری در زنجیره اترالی اجرا می شود. علاوه بر این، افزایش حجم درک شده، "کیفیت" صدا را از نقطه نظر بیشتر شنوندگان بهبود می بخشد.

همچنین ببینید جنگ با صدای بلند.

افزایش سازگار در حجم همان آهنگ که از سال 1983 تا 2000 به CD منتقل شد.

شستن

یکی دیگر از سوئیچ های کمپرسور اغلب "زنجیره جانبی" است. در این حالت، فشرده سازی صوتی بسته به سطح خود رخ نمی دهد، اما بسته به سطح سیگنال وارد اتصال به اتصال، که معمولا به عنوان زنجیره جانبی نامیده می شود.

این را می توان چندین برنامه را پیدا کرد. به عنوان مثال، Shepelvit Vocalist و تمام حروف "C" از تصویر کلی خارج می شوند. صدای خود را از طریق کمپرسور پر می کنید و اتصال زنجیره جانبی به همان صدایی می پردازد، اما از طریق اکولایزر از دست رفته است. در اکولایزر شما تمام فرکانس ها را حذف می کنید، به جز کسانی که توسط خواننده مورد استفاده قرار می گیرند هنگام تلفظ نامه "C". معمولا حدود 5 کیلوهرتز، اما می تواند از 3 کیلوهرتز تا 8 کیلوهرتز باشد. اگر سپس یک کمپرسور را به حالت زنجیره جانبی قرار دهید، سپس فشرده سازی صدا در آن لحظات زمانی رخ می دهد که حرف «C» تلفظ شود. بنابراین، یک دستگاه شناخته شده به عنوان "Deesser" (De-Esser) معلوم شد. این روش کار به نام "وابسته به فرکانس" (وابسته به فرکانس) نامیده می شود.

استفاده دیگر از این ویژگی "Ducker" نامیده می شود. به عنوان مثال، در یک ایستگاه رادیویی، موسیقی از طریق کمپرسور، و کلمات DJ - از طریق یک زنجیره جانبی می رود. هنگامی که DJ شروع به چت می کند، حجم موسیقی به طور خودکار کاهش می یابد. این اثر را می توان با موفقیت در سوابق استفاده کرد، به عنوان مثال، حجم دسته های صفحه کلید را در هنگام آواز خواندن کاهش می دهد.

محدود کردن دیوار آجر

کمپرسور و محدود کننده تقریبا یکسان هستند، می توان گفت که محدود کننده یک کمپرسور نسبت بالا (از 10: 1) و، معمولا، زمان حمله کم است.

یک مفهوم محدود کننده دیوار آجر وجود دارد - محدودیت بسیار بالا (از 20: 1 و بالاتر) و یک حمله بسیار سریع. در حالت ایده آل، این اجازه نمی دهد که سیگنال بیش از سطح آستانه باشد. نتیجه برای شایعه ناخوشایند خواهد بود، اما این باعث جلوگیری از آسیب به تکنولوژی تولید کننده صدا یا پهنای باند کانال اضافی می شود. بسیاری از تولید کنندگان دستگاه های محدود کننده را برای این منظور ادغام می کنند.

clipper vs. محدود کننده، قطع نرم و سخت

این گروه از روش ها بر اساس این واقعیت است که سیگنال های منتقل شده تحت تغییرات دامنه غیر خطی قرار می گیرند و در انتقال و دریافت بخش های غیر خطی تبدیل می شوند. به عنوان مثال، اگر فرستنده از یک تابع غیر خطی ÖU استفاده کند، در گیرنده - U 2. کاربرد سازگار از توابع همگرا منجر به این واقعیت می شود که به طور کلی تبدیل خطی باقی می ماند.

ایده روش های فشرده سازی داده های غیر خطی به این واقعیت کاهش می یابد که فرستنده می تواند طیف وسیعی از تغییر در پارامتر منتقل شده را با دامنه مشابه سیگنال های خروجی (یعنی محدوده دینامیکی بیشتر) ارائه دهد. محدوده دینامیکی - این در واحدهای نسبی یا نگرش Decibellah از بزرگترین دامنه سیگنال قابل قبول به کوچکترین بیان شده است:

;	(2.17)
.	(2.18)

تمایل طبیعی برای افزایش دامنه دینامیکی با کاهش U MIN محدود به حساسیت تجهیزات و افزایش اثر تداخل و سر و صدای خود است.

اغلب فشرده سازی دامنه دینامیکی با استفاده از یک جفت توابع همگرا از لگاریتم و پتانسیل انجام می شود. اولین عملیات دامنه تغییر نامیده می شود فشرده سازی(فشرده سازی)، دوم - گسترش (کشش). انتخاب این توابع مربوط به بزرگترین قابلیت فشرده سازی آنها است.

در عین حال، این روش ها دارای معایب هستند. اول از آنها این است که لگاریتم تعداد کمی منفی است و در حد محدود است:

به عبارت دیگر، حساسیت بسیار غیر خطی است.

برای کاهش این اشکالات، هر دو توابع توسط افست و تقریبی اصلاح می شوند. به عنوان مثال، برای کانال های تلفنی، تابع تقریبی مرتبط است (نوع A،):

و a \u003d 87.6. افزایش از فشرده سازی 24dB است.

فشرده سازی داده ها با روش های غیر خطی توسط امکانات آنالوگ با خطاهای بزرگ اجرا می شود. استفاده از ابزارهای دیجیتال می تواند دقت یا سرعت تغییر را بهبود بخشد. در عین حال، استفاده مستقیم از بودجه تجهیزات کامپیوتر (یعنی محاسبه مستقیم لگاریتم ها و نمایندگی ها) نتیجه ای بهتر به دلیل سرعت کم سرعت و محاسبه محاسبات جمع آوری نخواهد کرد.

فشرده سازی داده ها با فشرده سازی با توجه به محدودیت های دقت در موارد غیر پاسخ، به عنوان مثال، برای انتقال سخنرانی در کانال های تلفن و رادیویی استفاده می شود.

برنامه نویسی موثر

کدهای موثر به Sundon، Fano و Hafman ارائه شد. ماهیت کدهای این است که آنها ناهموار هستند، یعنی، با یک دسته متفاوت از تخلیه ها، و طول کد به طور معکوس متناسب با احتمال ظهور آن است. یکی دیگر از ویژگی های قابل توجهی از کدهای موثر - آنها نیازی به جداکنندگان ندارند، یعنی کاراکترهای خاص جداسازی ترکیب کد های همسایه. این به دست آوردن با مشاهده حکومت ساده: کدهای کوتاهتر شروع به طولانی تر نیستند. در این مورد، جریان جامد تخلیه دودویی به طور منحصر به فرد رمزگشایی شده است، زیرا رمزگشایی اولین ترکیب کد کوتاه را نشان می دهد. کدهای موثر برای مدت زمان طولانی صرفا تحصیل بودند، اما اخیرا در شکل گیری پایگاه های داده، و همچنین در فشرده سازی اطلاعات در مودم های مدرن و در آرشیو نرم افزار استفاده شده است.

به دلیل ناهنجاری، طول متوسط \u200b\u200bکد معرفی شده است. طول متوسط \u200b\u200b- انتظارات ریاضی طول کد:

علاوه بر این، L CP تمایل به H (x) از بالا (یعنی l، l wed\u003e h (x)).

پیاده سازی شرایط (2.23) با افزایش N. افزایش می یابد

دو گونه از کدهای موثر وجود دارد: شانون فنو و حافن. دریافت رسید خود را در مثال. فرض کنید احتمال از شخصیت ها در دنباله، معانی نشان داده شده در جدول 2.1 است.

جدول 2.1

احتمالات نمادها

n.
P I.	0.1	0.2	0.1	0.3	0.05	0.15	0.03	0.02	0.05

نمادها رتبه بندی شده اند، یعنی، آنها به دنبال یک ردیف در مورد احتمال نزولی هستند. پس از آن، با توجه به روش Shennon Fano، روش زیر به صورت دوره ای تکرار می شود: کل گروهی از رویدادها به دو زیرگروه تقسیم می شود که احتمال کامل (یا تقریبا مشابه) را دارند. این روش ادامه می یابد تا زمانی که یک عنصر در زیر گروه بعدی باقی بماند، پس از آن این عنصر حذف می شود و با این اقدامات باقی مانده ادامه می یابد. این اتفاق می افتد تا زمانی که دو زیرگروه آخر یک عنصر باقی بمانند. در نظر گرفتن مثال ما، که در جدول 2.2 کاهش می یابد.

جدول 2.2

روش چنون فنو

n.	P I.
4	0.3		من.
	0.2	من.	دوم
6	0.15		من.	من.
	0.1			دوم
1	0.1			من.	من.
9	0.05	دوم			دوم
5	0.05		دوم		من.
7	0.03			دوم	دوم	من.
8	0.02					دوم

همانطور که از جدول 2.2 دیده می شود، اولین نماد با احتمال P 4 \u003d 0.3 در دو روش پارتیشن بندی شرکت کرد و هر دو بار به گروه با تعداد I رسید. با توجه به این، آن را توسط کد دو بیتی کد دوم کدگذاری شده است. عنصر دوم در مرحله اول پارتیشن متعلق به گروه I در دوم گروه دوم بود. بنابراین، کد 10. کد های بقیه شخصیت ها در نظرات اضافی نیازی نیست.

معمولا کدهای ناهموار به شکل درختان کد نشان داده شده است. درخت کد یک نمودار است که نشان دهنده ترکیب کد مجاز است. پیش از مشخص کردن مسیرهای دنده های این نمودار، همانطور که در شکل 2.11 نشان داده شده است (انتخاب جهت خودسرانه).

گراف به صورت زیر هدایت می شود: یک مسیر را برای یک نماد اختصاصی تشکیل دهید؛ تعداد تخلیه ها برای آن برابر با تعداد لبه ها در مسیر است، و ارزش هر تخلیه برابر با جهت نوار مربوطه است. مسیر ساخته شده است نقطه منبع (بر روی نقاشی با یک حرف الف) مشخص شده است. به عنوان مثال، مسیر به رأس 5 شامل پنج دنده است که از همه چیز، علاوه بر دومی، جهت 0؛ ما کد 00001 را دریافت می کنیم.

برای این مثال آنتروپی و طول متوسط \u200b\u200bکلمه را محاسبه کنید.

h (x) \u003d - (0.3 log 0.3 + 0.2 log 0.2 + 2 0.2 log 0.1 + 2 0.05 log 0.05+

0.03 Log 0.03 + 0.02 Log 0.02) \u003d 2.23 بیت

l CP \u003d 0.3 2 + 0.2 2 + 0.15 3 + 0.1 3 + 0.1 4 + 0.05 5 +0.05 4+

0.03 6 + 0.02 6 = 2.9 .

همانطور که دیده می شود، طول متوسط \u200b\u200bکلمه نزدیک به آنتروپی است.

کدهای حافظ بر روی یک الگوریتم متفاوت ساخته شده اند. روش رمزگذاری شامل دو مرحله است. در مرحله اول، فشرده سازی یک بار از الفبای به طور پیوسته است. فشرده سازی یک بار جایگزینی دو کاراکتر آخر (با احتمال کمتر) یکی، با احتمال کل. فشرده سازی انجام می شود تا دو کاراکتر باقی بماند. در همان زمان، جدول کدگذاری را پر کنید که در آن احتمال احتمالات حاصل شده است، و همچنین مسیرهایی را که شخصیت های جدید در مرحله بعدی حرکت می کنند را نشان می دهند.

در مرحله دوم، برنامه نویسی خود اتفاق می افتد، که از مرحله آخر شروع می شود: اول از دو کاراکتر کد 1 را تعیین می کند، دوم - 0 پس از آن، به مرحله قبلی بروید. به نمادهای که در این مرحله در این مرحله شرکت نکردند، کد های مشخصی از مرحله بعدی را مشخص نکردند، و به دو آخرین کاراکتر دو بار کد نماد به دست آمده پس از چسباندن، و اضافه کردن به کد نماد بالا 1، پایین تر - 0. اگر نماد بیشتر در Gluing شرکت می کند، کد آن بدون تغییر باقی می ماند. این روش همچنان به پایان می رسد (یعنی تا مرحله اول).

جدول 2.3 نشان می دهد کدگذاری در امتداد الگوریتم حافظ. همانطور که از جدول دیده می شود، کدگذاری در 7 مرحله انجام شد. در سمت چپ احتمال شخصیت ها، کد های راست راست است. فلش ها نشان می دهد که شخصیت های جدید شکل گرفته اند. در هر مرحله، دو کاراکتر آخر تنها با تخلیه جوانتر متفاوت است، که مربوط به تکنیک برنامه نویسی است. ما طول متوسط \u200b\u200bکلمه را محاسبه می کنیم:

l CF \u003d 0.3 2 + 0.2 2 + 0.15 3 ++ 2 0.1 3 + +0.05 4 + 0.05 5 + 0.03 6 + 0.02 6 \u003d 2.7

این حتی نزدیک به آنتروپی است: کد حتی موثرتر است. در شکل 2.12 نشان می دهد که درخت کد حافظ.

جدول 2.3

برنامه نویسی در الگوریتم حافظ

n.	P I.	کد	من.	دوم	III	IV	V.	اب	vii
	0.3		0.3 11	0.3 11	0.3 11	0.3 11	0.3 11	0.4 0	0.6 1
	0.2		0.2 01	0.2 01	0.2 01	0.2 01	0.3 10	0.3 11	0.4 0
	0.15		0.15 101	0.15 101	0.15 101	0.2 00	0.2 01	0.3 10
	0.1		0.1 001	0.1 001	0.15 100	0.15 101	0.2 00
	0.1		0.1 000	0.1 000	0.1 001	0.15 100
	0.05		0.05 1000	0.1 1001	0.1 000
	0.05		0.05 10011	0.05 1000
	0.03		0.05 10010
	0.02

هر دو کدهای مورد نیاز منحصر به فرد رمزگشایی را برآورده می کنند: همانطور که می توان از جداول دیده می شود، ترکیبات کوتاهتر از شروع کدهای طولانی نیستند.

با افزایش تعداد نمادها، اثربخشی کدهای افزایش می یابد، بنابراین در بعضی موارد، بلوک های بزرگتر را کدگذاری کرده اند (به عنوان مثال، اگر ما در مورد متون صحبت می کنیم، شما می توانید برخی از رایج ترین هجا، کلمات و حتی عبارات را رمزگذاری کنید).

تأثیر اجرای چنین کدها در مقایسه با کد یکنواخت تعیین می شود:

(2.24)

جایی که N تعداد تخلیه کد یکنواخت است که با موثر بودن جایگزین می شود.

اصلاحات کدهای خفمان

الگوریتم Hafman کلاسیک به دو پاسپورت، I.E. نیاز به مجموعه اولیه آمار در مورد نمادها و پیام ها، و سپس روش های شرح داده شده در بالا. این در عمل ناخوشایند است، زیرا زمان پردازش پیام ها و انباشت فرهنگ لغت را افزایش می دهد. روش های تک گذر که در آن روشهای انباشت و برنامه نویسی ترکیب می شوند. چنین روش هایی نیز فشرده سازی انطباقی را در کنار حافان نامیده اند [46].

ماهیت فشرده سازی سازگار در سراسر حافن به ساخت یک درخت اولیه کد و اصلاح سازگار آن پس از دریافت هر نماد بعدی کاهش می یابد. همانطور که قبلا، درختان اینجا باینری هستند، به عنوان مثال از هر رأس گراف - چوب، حداکثر دو قوس رخ می دهد. این معمول است که با والدین اصلی، و دو رأس بعدی مرتبط - کودکان، تماس بگیرید. ما مفهوم وزن VERTEX را معرفی می کنیم - این تعداد کاراکترهای (کلمات) مربوط به این رأس به دست آمده زمانی که توالی اولیه اعمال می شود. بدیهی است، مجموع مقیاس های کودکان برابر با وزن والدین است.

پس از وارد شدن به نماد بعدی توالی ورودی، درخت کد تجدید نظر شده است: وزن رأس ها دوباره محاسبه می شوند و در صورت لزوم، رأس ها مجددا مرتب می شوند. حاکمیت بازسازی رأس ها به شرح زیر است: وزنهای رأس های پایین تر کوچکترین هستند و رأس هایی که روی ستون باقی مانده اند، کوچکترین وزن دارند.

در عین حال، رأس ها شماره گذاری می شوند. شماره گیری با پایین تر شروع می شود (حلق آویز، یعنی کسانی که فرزندان ندارند) رأس ها از چپ به راست، سپس منتقل می شوند مرحله بالاتر و غیره. به شماره آخرین، رأس منبع. در عین حال، نتیجه زیر به دست می آید: وزن کمتر از رأس، تعداد کمتر آن.

جایگزینی عمدتا برای حلق آویز رأی ها انجام می شود. هنگامی که جایگزینی، قانون فرموله شده در نظر گرفته شده است: تاپس با وزن بالا تعداد بیشتری داشته باشد.

پس از گذر از دنباله (همچنین کنترل یا تست نامیده می شود)، ترکیب کد به تمام رأس های حلق آویز اختصاص داده می شود. قانون تخصیص قانون شبیه به بالا است: تعداد تخلیه های کد برابر با تعداد رأس ها است که از طریق آن مسیر از منبع به این رأس حلق آویز می شود و ارزش یک تخلیه خاص مربوط به جهت پدر و مادر است "کودک" (می گویند، انتقال به سمت چپ از پدر و مادر مربوط به مقدار 1، راست - 0).

ترکیبات کد به دست آمده به حافظه دستگاه فشرده سازی همراه با آنالوگ های خود وارد می شوند و یک فرهنگ لغت را تشکیل می دهند. استفاده از الگوریتم به شرح زیر است. توالی فشرده سازی کاراکترهای با توجه به فرهنگ لغت موجود به قطعات تقسیم می شود، پس از آن هر یک از قطعات توسط کد آن از فرهنگ لغت جایگزین می شود. قطعه هایی که در فرهنگ لغت شناسایی نشده اند، رأس های جدید حلق آویز، افزایش وزن و همچنین به فرهنگ لغت وارد می شوند. این توسط یک الگوریتم تطبیقی \u200b\u200bبرای تکثیر فرهنگ لغت تشکیل شده است.

برای افزایش کارایی روش، مطلوب است که اندازه فرهنگ لغت را افزایش دهید؛ در این مورد، ضریب فشرده سازی افزایش می یابد. تقریبا اندازه فرهنگ لغت 4 تا 16 کیلوبایت حافظه است.

ما الگوریتم داده شده را نشان می دهیم. در شکل 2.13 نمودار منبع را نشان می دهد (همچنین با یک درخت حافان نامیده می شود). هر رأس چوب با یک مستطیل نشان داده شده است، که در آن دو رقم از طریق کسری ثبت می شود: اولین معنی تعداد رأس ها، دوم وزن آن است. چگونه می توان اطمینان حاصل کرد که وزن های آبی و تعداد آنها راضی هستند.

فرض کنید اکنون نماد مربوط به رأس 1، در دنباله تست، ثانویه را ملاقات کرد. وزن رأس ها تغییر کرده است، همانطور که در شکل نشان داده شده است. 2.14، به عنوان یک نتیجه، تعداد شماره های رأس نقض شده است. در مرحله بعد، ما طرح بندی رأس های حلق آویز را تغییر می دهیم، که ما آن را تغییر دادیم که رأس های 1 و 4 را تغییر می دهیم و تمام رأس های درخت را اصلاح می کنیم. گراف نتیجه در شکل نشان داده شده است. 2.15. بعد، این روش همچنان ادامه دارد.

باید به یاد داشته باشید که هر پیک حلق آویز در درخت حافظ به یک نماد خاص یا گروه آنها مربوط می شود. والدین با این واقعیت متفاوت از کودکان هستند که یک گروه از شخصیت ها، برای او مناسب است، برای یک نماد کوتاه تر از فرزندانش، و این کودکان در آخرین نماد متفاوت هستند. به عنوان مثال، والدین به نمادهای "ماشین" مربوط می شوند؛ سپس کودکان ممکن است توالی "کارا" و "کپور" داشته باشند.

الگوریتم فوق آکادمیک نیست و به طور فعال در برنامه ها - آرشیو ها، از جمله هنگام فشرده سازی داده های گرافیکی استفاده می شود (آنها در زیر بحث خواهند شد).

الگوریتم های Lempel - Ziva

این الگوریتم های فشرده سازی رایج ترین استفاده می شود. آنها در اکثر برنامه ها استفاده می شود - آرشیو ها (به عنوان مثال، PKZIP، ARJ، LHA). جوهر الگوریتم ها این است که برخی از مجموعه ای از شخصیت ها هنگام آرشیو آن در یک فرهنگ لغت خاص تولید می شود. به عنوان مثال، اغلب در امور عبارت "بر روی حرف شما شماره خروجی شما یافت می شود ..." می تواند در موقعیت فرهنگ لغت 121 اشغال کند؛ سپس، به جای انتقال یا ذخیره کردن عبارت ذکر شده (30 بایت)، شما می توانید شماره عبارت (1.5 بایت در فرم اعشاری - اعشاری یا 1 بایت - در باینری) را ذخیره کنید.

الگوریتم ها پس از نویسندگان نامیده می شوند که ابتدا آنها را در سال 1977 ارائه دادند. از اینها، اولین LZ77. برای آرشیو، پنجره به اصطلاح کشویی متشکل از دو بخش ایجاد شده است. بخش اول، فرمت بزرگتر، برای ایجاد یک فرهنگ لغت عمل می کند و دارای اندازه ای از چندین کیلوبایت است. در دومین بخش کوچکتر (معمولا تا 100 بایت) توسط شخصیت های فعلی متن مورد نظر پذیرفته می شوند. الگوریتم در حال تلاش برای پیدا کردن در مجموعه فرهنگ لغت شخصیت ها هماهنگ با پنجره مشاهده شده است. اگر امکان پذیر است، یک کد متشکل از سه بخش تولید می شود: جابجایی در فرهنگ لغت مربوط به بستر اولیه آن، طول این زیرمجموعه در کنار این شخصیت بستر. به عنوان مثال، یک زیرمجموعه اختصاصی شامل نمادهای "برنامه" (فقط 6 کاراکتر)، نماد زیر "E" است. سپس، اگر Substring یک آدرس داشته باشد (محل در فرهنگ لغت) 45، پس از آن رکورد در فرهنگ لغت فرم "45، 6." است. پس از آن، محتویات پنجره به موقعیت تغییر می کند و جستجو ادامه می یابد. بنابراین، یک فرهنگ لغت شکل گرفته است.

مزیت الگوریتم یک الگوریتم به راحتی رسمی برای کامپایل یک فرهنگ لغت است. علاوه بر این، می توان از یک فرهنگ لغت اولیه استفاده کرد (مطلوب است که یک دنباله تست داشته باشد) - فرهنگ لغت در فرآیند Unimber شکل گرفته است.

معایب الگوریتم با افزایش اندازه فرهنگ لغت ظاهر می شود - زمان جستجو افزایش می یابد. علاوه بر این، اگر یک رشته از کاراکترها در پنجره فعلی گم شده باشد، هر نماد به کد سه عنصر نوشته شده است، I.E. به نظر نمی رسد فشرده سازی، اما کشش.

بهترین ویژگی ها این الگوریتم LZSS پیشنهاد شده در سال 1978 است. این تفاوت در حفظ پنجره کشویی و کدهای خروجی کمپرسور دارد. علاوه بر پنجره، الگوریتم یک درخت دودویی را شکل می دهد، شبیه به درخت حافان برای سرعت بخشیدن به جستجو برای مختصات: هر زیرزمینی از پنجره فعلی به عنوان یکی از کودکان اضافه می شود. چنین الگوریتم به شما امکان می دهد تا اندازه پنجره فعلی را افزایش دهید (مطلوب است که ارزش آن برابر با درجه دو: 128، 256 و غیره بایت) باشد. کدهای توالی نیز متفاوت هستند: پیشوند 1 بیتی علاوه بر این برای تشخیص شخصیت های غیر پیش بینی شده از جفت "افست، طول" معرفی شده است.

فشرده سازی حتی بیشتر با استفاده از الگوریتم های نوع LZW به دست می آید. الگوریتم های قبلا شرح داده شده دارای یک اندازه پنجره ثابت هستند که منجر به عدم امکان ورود به فرهنگ لغت عبارات طولانی تر از اندازه پنجره می شود. در الگوریتم های LZW (و سلف خود را LZ78) پنجره نمایش دارای اندازه نامحدود است، و فرهنگ لغت عبارت (و نه کل شخصیت ها را به عنوان قبل) جمع آوری می کند. فرهنگ لغت طول نامحدود دارد و رمزگذار (رمزگشایی) در حالت حالت آماده به کار عمل می کند. هنگامی که عبارتی که با فرهنگ لغت همخوانی دارد تشکیل شده است، کد تصادفی صادر می شود (کد I.E. از این عبارت در فرهنگ لغت) و کد نماد زیر پشت آن است. اگر به عنوان نمادها یک عبارت جدید را جمع آوری می شود، آن را به عنوان کوتاه ترین به فرهنگ لغت وارد می شود. در نتیجه، یک روش بازگشتی شکل می گیرد، رمزگذاری سریع و رمزگشایی را فراهم می کند.

فرصت اضافی فشرده سازی رمزگذاری فشرده کاراکترهای تکراری را فراهم می کند. اگر در دنباله، برخی از شخصیت ها در یک ردیف پیروی می کنند (به عنوان مثال، در متن ممکن است شخصیت های "فضا"، در توالی عددی - جریان صفر، و غیره)، منطقی است که جایگزین جفت ارز خود را "نماد طول "یا" علامت، طول ". در اولین مورد، کد نشان دهنده ویژگی است که توالی کدگذاری شده (معمولا 1 بیتی)، سپس کد نماد تکراری و طول دنباله است. در مورد دوم (ارائه شده برای رایج ترین نمادهای تکراری) در پیشوند، به سادگی نشانه ای از تکرار نشان می دهد.