کیفیت بازتولید صدا. رمزگذاری صدا قبل از تبدیل موسیقی به فرمت دیگر، باید آن را به WAV "از حالت فشرده خارج کنید".

اطلاعات صدا صوت موجی است که در هوا، آب یا سایر رسانه‌ها با شدت و فرکانس متغیر منتشر می‌شود.

شخص امواج صوتی (ارتعاشات هوا) را با کمک شنوایی به صورت صدا با حجم ها و تن های مختلف درک می کند. هر چه شدت موج صوتی بیشتر باشد، صدا بلندتر باشد، فرکانس موج بیشتر باشد، تن صدا بیشتر می شود (شکل 1.1).

برنج. 1.1. وابستگی بلندی و زیر و بم صدا به شدت و فرکانس موج صوتی

گوش انسان صدا را در فرکانس هایی از 20 ارتعاش در ثانیه (صدای کم) تا 20000 ارتعاش در ثانیه (صدای بالا) درک می کند.

یک فرد می تواند صدا را در طیف وسیعی از شدت ها درک کند که در آن حداکثر شدت 1014 برابر بیشتر از حداقل (صد هزار میلیارد بار) است. برای اندازه گیری حجم صدا از واحد ویژه "دسی بل" (dbl) استفاده می شود (جدول 5.1). کاهش یا افزایش 10 دسی بل حجم صدا به کاهش یا افزایش 10 برابری شدت صدا مربوط می شود.

جدول 5.1. حجم صدا
بلندی صدا بر حسب دسی بل
حد پایین حساسیت گوش انسان 0
خش خش برگ 10
مکالمه 60
بوق ماشین 90
موتور جت 120
آستانه درد 140
نمونه برداری زمانی از صدا برای اینکه کامپیوتر بتواند صدا را پردازش کند، یک سیگنال صوتی پیوسته باید با استفاده از نمونه برداری زمانی به شکل دیجیتال گسسته تبدیل شود. یک موج صوتی پیوسته به بخش های زمانی کوچک جداگانه تقسیم می شود، برای هر بخش مقدار مشخصی از شدت صدا تنظیم می شود.

بنابراین، وابستگی مداوم بلندی صدا به زمان A(t) با یک توالی مجزا از سطوح بلندی صدا جایگزین می شود. در نمودار، به نظر می رسد که یک منحنی صاف را با دنباله ای از "گام ها" جایگزین کنید (شکل 1.2).

برنج. 1.2. نمونه گیری صوتی زمانی

فرکانس نمونه برداری یک میکروفون متصل به کارت صدا برای ضبط صدای آنالوگ و تبدیل آن به فرم دیجیتال استفاده می شود. کیفیت صدای دیجیتال دریافتی به تعداد اندازه گیری سطح حجم صدا در واحد زمان، یعنی فرکانس نمونه برداری بستگی دارد. هرچه اندازه‌گیری‌های بیشتری در یک ثانیه انجام شود (فرکانس نمونه‌برداری بالاتر)، «نردبان» سیگنال صوتی دیجیتال با دقت بیشتری منحنی سیگنال گفتگو را تکرار می‌کند.

نرخ نمونه صدا تعداد اندازه گیری های حجم صدا در یک ثانیه است.

نرخ نمونه برداری صدا می تواند بین 8000 تا 48000 اندازه گیری حجم صدا در ثانیه باشد.

عمق رمزگذاری صدا به هر "گام" مقدار مشخصی از سطح صدای صدا اختصاص داده می شود. سطوح بلندی صدا را می توان به عنوان مجموعه ای از حالت های ممکن N در نظر گرفت که برای رمزگذاری آن مقدار مشخصی از اطلاعات I مورد نیاز است که به آن عمق کدگذاری صدا می گویند.

عمق رمزگذاری صدا مقدار اطلاعات مورد نیاز برای رمزگذاری سطوح بلندی صدای دیجیتال گسسته است.

اگر عمق کدگذاری مشخص باشد، تعداد سطوح صدای دیجیتال را می توان با استفاده از فرمول N = 2I محاسبه کرد. اجازه دهید عمق رمزگذاری صدا 16 بیت باشد، سپس تعداد سطوح بلندی صدا برابر است با:

N = 2I = 216 = 65536.

در طی فرآیند رمزگذاری، به هر سطح حجم صدا، کد باینری 16 بیتی خود اختصاص داده می شود، کمترین سطح صدا با کد 00000000000000000 و بالاترین - 1111111111111111 مطابقت دارد.

کیفیت صدای دیجیتالی شده هر چه فرکانس و عمق نمونه برداری صدا بیشتر باشد، کیفیت صدای دیجیتالی بهتر خواهد بود. کمترین کیفیت صدای دیجیتالی، مربوط به کیفیت ارتباط تلفنی، با نرخ نمونه برداری 8000 بار در ثانیه، عمق نمونه برداری 8 بیت و ضبط یک آهنگ صوتی (حالت "مونو") به دست می آید. بالاترین کیفیت صدای دیجیتالی شده، مطابق با کیفیت یک سی دی صوتی، با نرخ نمونه برداری 48000 بار در ثانیه، عمق نمونه برداری 16 بیت و ضبط دو تراک صوتی (حالت استریو) به دست می آید.

باید به خاطر داشت که هر چه کیفیت صدای دیجیتال بالاتر باشد حجم اطلاعات فایل صوتی بیشتر می شود. می توانید حجم اطلاعات یک فایل صوتی دیجیتال استریو با مدت زمان صدای 1 ثانیه را با کیفیت صدای متوسط (16 بیت، 24000 اندازه گیری در ثانیه) تخمین بزنید. برای انجام این کار، عمق رمزگذاری باید در تعداد اندازه گیری ها در هر 1 ثانیه ضرب شود و در 2 ضرب شود (صدای استریو):

16 بیت × 24000 × 2 = 768000 بیت = 96000 بایت = 93.75 کیلوبایت.

ویرایشگرهای صدا ویرایشگرهای صدا به شما این امکان را می دهند که نه تنها صدا را ضبط و پخش کنید، بلکه آن را نیز ویرایش کنید. صدای دیجیتالی در ویرایشگرهای صدا به صورت بصری ارائه می شود، بنابراین عملیات کپی، جابجایی و حذف قسمت هایی از آهنگ صوتی را می توان به راحتی با استفاده از ماوس انجام داد. علاوه بر این، می توانید آهنگ های صوتی را روی هم قرار دهید (صداها را مخلوط کنید) و جلوه های صوتی مختلف (پژواک، پخش معکوس و غیره) را اعمال کنید.

صداموجی با دامنه و فرکانس در حال تغییر است. هر چه دامنه بیشتر باشد، هر چه برای شخص بلندتر باشد، فرکانس بیشتر، تون بالاتر است.

صدای دیجیتالیک سیگنال صوتی آنالوگ است که با مقادیر عددی گسسته دامنه آن نشان داده می شود.

در هسته کدگذاری صوتی با استفاده از رایانه، فرآیند تبدیل ارتعاشات هوا به ارتعاشات جریان الکتریکی و متعاقب آن گسسته سازی سیگنال الکتریکی آنالوگ است.

رمزگذاری و پخش اطلاعات صدا با کمک برنامه های ویژه (ویرایشگرهای ضبط صدا) انجام می شود.

کیفیت پخش صدای کدگذاری شده به فرکانس نمونه برداری و وضوح آن بستگی دارد.

دیجیتالی شدن صدا - (یا تبدیل آنالوگ به دیجیتال) - یک فناوری برای تبدیل سیگنال صوتی آنالوگ به شکل دیجیتال است که با اندازه گیری دامنه سیگنال با یک مرحله زمانی مشخص و سپس ثبت مقادیر به دست آمده به صورت عددی انجام می شود.

دیجیتالی کردن صدا شامل دو فرآیند است:

فرآیند گسسته سازی (اجرای نمونه برداری سیگنال بر اساس زمان)؛

فرآیند کوانتیزاسیون با دامنه

فرآیند گسسته سازی زمان - فرآیند به دست آوردن مقادیر سیگنالی که با یک مرحله زمانی مشخص تبدیل می شوند - مرحله نمونه برداری .

تعداد اندازه گیری های قدرت سیگنال انجام شده در یک ثانیه نامیده می شود نرخ نمونهیا نرخ نمونهبرداری، یا نرخ نمونه(از انگلیسی "ampling" - "نمونه").

هرچه گام نمونه برداری کوچکتر باشد، فرکانس نمونه برداری بیشتر است و نمایش دقیق تری از سیگنال دریافت می کنیم.

روند کوانتیزاسیون دامنه - فرآیند جایگزینی مقادیر واقعی دامنه سیگنال با مقادیر تقریبی با کمی دقت.

کوانتیزاسیون- گسسته سازی سطح

فرض بر این است که خطاهای کوانتیزاسیون ناشی از کوانتیزه سازی 16 بیتی تقریباً برای شنونده نامحسوس باقی می ماند.

هر یک از 2 N سطح ممکن نامیده می شود سطح کوانتیزاسیون، و فاصله بین دو نزدیکترین سطح کوانتیزاسیون نامیده می شود مرحله کوانتیزاسیون.

عدد N نامیده می شود عمق بیت کوانتیزاسیونو اعداد به دست آمده در نتیجه گرد کردن مقادیر دامنه - شمارش معکوسیا نمونه ها(از انگلیسی "نمونه" - "اندازه گیری").

خطاهای کوانتیزاسیون ناشی از کوانتیزاسیون 16 بیتی تقریباً برای شنونده غیرقابل محسوس است.

دیجیتالی شدن صدا - نتیجه:

طرفداران: شما می توانید هر صدایی را رمزگذاری کنید (از جمله صدا، سوت، خش خش، ...)

معایب: از دست دادن اطلاعات، حجم زیادی از فایل ها وجود دارد

پارامترهای اصلی موثر بر کیفیت صدا:

1. عمق بیت- بعد (تعداد بیت های اطلاعات رمزگذاری شده / رمزگشایی شده با ADC و DAC).

2. نرخ نمونه- فرکانس نمونه برداری از یک سیگنال پیوسته در زمان در طول نمونه برداری آن (ADC) که بر حسب هرتز اندازه گیری می شود.

3. سر و صدا- انحرافات تصادفی فاز و/یا فرکانس ناخواسته سیگنال ارسالی

فرمت های فایل های صوتی

WAV(شکل موج سمعی قالب), اغلب بدون فشرده سازی (اندازه!)

نماینده مجلس3 (MPEG-1 سمعی لایه 3 فشرده سازی با در نظر گرفتن ادراک انسان)

AAC (کدگذاری صوتی پیشرفته, 48 کانال, فشرده سازی)

WMA (Windows Media Audio,پخش صدا، فشرده سازی)

OGG (Ogg Vorbis،فرمت باز، فشرده سازی)

بیت ها، هرتز، به هم ریختگی شکل...

چه چیزی در پس این مفاهیم نهفته است؟ هنگام توسعه استاندارد دیسک فشرده صوتی (CD Audio)، مقادیر گرفته شد 44 کیلوهرتز، 16 بیت و 2 کانال (یعنی استریو). دقیقا چرا اینقدر زیاد؟ دلیل این انتخاب چیست و همچنین چرا تلاش می شود تا این مقادیر را مثلاً به 96 کیلوهرتز و 24 یا حتی تا 32 بیت افزایش دهند ...

بیایید ابتدا به وضوح نمونه برداری بپردازیم - یعنی با عمق بیت. اتفاقاً باید بین اعداد 16، 24 و 32 انتخاب کنید. مقادیر متوسط البته از نظر صدا راحت تر هستند، اما برای استفاده در فناوری دیجیتال بسیار ناخوشایند هستند (مقادیر نسبتاً بحث برانگیز بیانیه، با توجه به اینکه بسیاری از ADC ها دارای خروجی دیجیتال 11 یا 12 بیتی هستند - یادداشت وضعیت).

این پارامتر مسئول چیست؟ به طور خلاصه - برای محدوده دینامیکی. محدوده ولوم های بازتولید شده به طور همزمان از حداکثر دامنه (0 دسی بل) تا کوچکترین دامنه ای است که وضوح اجازه می دهد، به عنوان مثال، حدود منهای 93 دسی بل برای صدای 16 بیتی. به اندازه کافی عجیب، این به شدت به سطح نویز گرامافون مرتبط است. در اصل، برای صدای 16 بیتی، انتقال سیگنال هایی با توان -120 دسی بل کاملاً امکان پذیر است، با این حال، به دلیل مفهوم اساسی مانند استفاده از این سیگنال ها در عمل دشوار خواهد بود. نویز نمونه برداری. واقعیت این است که هنگام گرفتن مقادیر دیجیتال، ما همیشه اشتباه می کنیم و مقدار واقعی آنالوگ را به نزدیکترین مقدار دیجیتال ممکن گرد می کنیم. کوچکترین خطای ممکن صفر است، اما حداکثر خطا نصف رقم آخر است (بیت، از این پس عبارت LSB به اختصار MB خواهد شد). این خطا به اصطلاح نویز نمونه برداری را به ما می دهد - یک اختلاف تصادفی بین سیگنال دیجیتالی و اصلی. این نویز ثابت است و حداکثر دامنه برابر با نصف رقم کم اهمیت دارد. این را می توان به عنوان مقادیر تصادفی در یک سیگنال دیجیتال در نظر گرفت. گاهی اوقات به این نویز گرد کردن یا کوانتیزاسیون می گویند (که نام دقیق تری است، زیرا کدگذاری دامنه کوانتیزه نامیده می شود، و نمونه برداری فرآیند تبدیل یک سیگنال پیوسته به یک توالی گسسته (پالسی) است - تقریباً حالت.).

اجازه دهید با جزئیات بیشتری در مورد اینکه منظور از قدرت سیگنال، اندازه گیری شده در بیت است، صحبت کنیم. قوی‌ترین سیگنال در پردازش صدای دیجیتال معمولاً 0 دسی‌بل در نظر گرفته می‌شود که مربوط به همه بیت‌های تنظیم‌شده روی 1 است. که مربوط به کاهش سطح 6 دسی بل است (10 * log(2) = 6). بنابراین، با صفر کردن واحدها از بالاترین به پایین ترین رقم، سطح سیگنال را شش دسی بل کاهش می دهیم. واضح است که حداقل سطح سیگنال (یک در کمترین رقم، و همه ارقام دیگر صفر هستند) (N-1) * 6 دسی بل است که در آن N عمق بیت نمونه است. برای 16 بیت، ما سطح ضعیف ترین سیگنال را دریافت می کنیم - 90 دسی بل.

وقتی می گوییم "نیمی از LSB"، منظور ما 90/2- نیست، بلکه نیمی از گام به بیت بعدی است - یعنی 3 دسی بل دیگر پایین تر، منهای 93 دسی بل.

ما به انتخاب رزولوشن دیجیتالی شدن باز می گردیم. همانطور که قبلاً ذکر شد، دیجیتالی کردن نویز را در سطح نیمی از کمترین رقم ایجاد می کند، به این معنی که یک رکورد در 16 بیت دیجیتالی می شود. مدام سر و صدا می کنددر منفی 93 دسی بل. می‌تواند سیگنال‌ها را حتی آرام‌تر ارسال کند، اما نویز همچنان در -93 دسی‌بل باقی می‌ماند. بر این اساس، محدوده دینامیکی صدای دیجیتال تعیین می شود - جایی که نسبت سیگنال به نویز به نویز / سیگنال تبدیل می شود (نویز بیشتری نسبت به سیگنال مفید وجود دارد)، حد پایین این محدوده قرار دارد. بدین ترتیب، اصلیمعیار دیجیتالی شدن - چقدر سر و صداآیا می توانیم سیگنال بازیابی شده را بپردازیم؟ پاسخ به این سوال تا حدی به میزان نویز در ضبط اصلی بستگی دارد. نکته مهم این است که اگر ما چیزی را با منهای 80 دسی بل دیجیتالی کنیم، مطلقاً دلیلی برای دیجیتالی کردن آن با بیش از 16 بیت وجود ندارد، زیرا از یک طرف، نویز -93 دسی بل بسیار کمی به صدای بسیار زیاد (نسبتا) اضافه می کند - نویز 80 دسی بل، و از سوی دیگر - در خود فونوگرام آرام تر از -80 دسی بل، نویز / سیگنال از قبل شروع می شود و به سادگی دیجیتالی کردن و انتقال چنین سیگنالی ضروری نیست.

از نظر تئوری، این تنها معیار برای انتخاب رزولوشن دیجیتالی است. بیشتر ما سهیم نباشیدمطلقاً هیچ تحریف یا نادرستی وجود ندارد. تمرین، به اندازه کافی عجیب، تقریباً به طور کامل نظریه را تکرار می کند. این همان چیزی است که آن دسته از افرادی را که وضوح 16 بیتی را برای سی دی های صوتی انتخاب کردند راهنمایی کرد. نویز منهای 93 دسی بل وضعیت بسیار خوبی است که تقریباً دقیقاً با شرایط درک ما مطابقت دارد: تفاوت بین آستانه درد (140 دسی بل) و صدای معمول پس زمینه در شهر (30-50 دسی بل) فقط حدود صد است. دسی بل، و با توجه به اینکه در سطح صدایی که باعث درد می شود، به موسیقی گوش نمی دهند - که دامنه را حتی بیشتر محدود می کند - معلوم می شود که صداهای واقعی اتاق یا حتی تجهیزات بسیار قوی تر از نویز کوانتیزاسیون هستند. اگر بتوانیم سطحی زیر منفی 90 دسی بل را در یک ضبط دیجیتال بشنویم، نویز کوانتیزاسیون را می شنویم و درک می کنیم، در غیر این صورت به سادگی هرگز تعیین نمی کنیم که این صدا دیجیتالی است یا زنده. به سادگی هیچ تفاوت دیگری از نظر محدوده دینامیکی وجود ندارد. اما در اصل، یک فرد می تواند به طور معناداری در محدوده 120 دسی بل بشنود، و خوب است که کل محدوده را حفظ کند، که به نظر می رسد 16 بیت قادر به مقابله با آن نیستند.

اما این فقط در نگاه اول است: با کمک یک تکنیک خاص به نام به هم ریختگی شکل، می توانید طیف فرکانس نویز نمونه برداری را تغییر دهید، تقریباً به طور کامل آنها را به منطقه بیش از 7-15 کیلوهرتز منتقل کنید. به نظر می رسد که ما در حال تغییر وضوح فرکانس (خودداری از بازتولید فرکانس های بالای آرام) برای یک محدوده دینامیکی اضافی در محدوده فرکانس باقیمانده هستیم. در ترکیب با ویژگی‌های شنوایی ما - حساسیت ما به ناحیه فرکانس بالا ده‌ها دسی‌بل کمتر از ناحیه اصلی (2-4 کیلوهرتز) است - این امکان انتقال سیگنال‌های مفید نسبتاً بی‌صدا را به میزان 10 افزایش می‌دهد. -20 دسی بل ساکت تر از -93 دسی بل - بنابراین، محدوده دینامیکی صدای 16 بیتی برای یک فرد حدود 110 دسی بل است. و به طور کلی - در عین حال، یک فرد به سادگی نمی تواند صداهایی را 110 دسی بل آرام تر از صدای بلندی که تازه شنیده شده بشنود. گوش، مانند چشم، با حجم واقعیت اطراف تنظیم می شود، بنابراین دامنه شنوایی همزمان ما نسبتاً کوچک است - حدود 80 دسی بل. بیایید پس از بحث در مورد جنبه های فرکانس در مورد دیترینگ با جزئیات بیشتری صحبت کنیم.

برای سی دی ها، نرخ نمونه 44100 هرتز است. نظری وجود دارد (بر اساس سوء تفاهم از قضیه Kotelnikov-Nyquist) که تمام فرکانس ها تا 22.05 کیلوهرتز بازتولید می شوند ، اما این کاملاً درست نیست. ما فقط می توانیم به صراحت بگوییم که هیچ فرکانس بالاتر از 22.05 کیلوهرتز در سیگنال دیجیتالی وجود ندارد. تصویر واقعی از بازتولید صدای دیجیتالی همیشه به این بستگی دارد تکنیک خاصو همیشه آنطور که ما دوست داریم کامل نیست و با نظریه سازگار نیست. همه چیز به DAC خاص (مبدل دیجیتال به آنالوگ مسئول دریافت سیگنال صوتی از یک دنباله دیجیتال) بستگی دارد.

بیایید ابتدا بفهمیم که چه چیزی را می خواهیم دریافت کنیم. یک فرد میانسال (بسیار جوان) می تواند صداهایی از 10 هرتز تا 20 کیلوهرتز را احساس کند، شنیدن آن معنادار است - از 30 هرتز تا 16 کیلوهرتز. صداهای بالا و پایین درک می شوند، اما یک حس آکوستیک ایجاد نمی کنند. صداهای بالای 16 کیلوهرتز به عنوان یک عامل ناخوشایند آزاردهنده احساس می شوند - فشار روی سر، درد، به خصوص صداهای بلند چنان ناراحتی شدیدی را به همراه دارد که می خواهید اتاق را ترک کنید. احساسات ناخوشایند آنقدر قوی هستند که عملکرد دستگاه های امنیتی بر این اساس است - چند دقیقه صدای بسیار بلند با فرکانس بالا هر کسی را دیوانه می کند و دزدیدن چیزی در چنین محیطی کاملاً غیرممکن می شود. صداهای زیر 30 تا 40 هرتز با دامنه کافی به عنوان ارتعاش ناشی از اجسام (بلندگوها) درک می شوند. در عوض، حتی می توان چنین گفت - فقط یک ارتعاش. یک فرد تقریباً از نظر آکوستیک موقعیت مکانی چنین صداهای کم را تعیین نمی کند ، بنابراین سایر اندام های حسی در حال حاضر استفاده می شوند - لمسی ، ما چنین صداهایی را با بدن خود احساس می کنیم.

با فرکانس های بالا، همه چیز کمی بدتر است، حداقل مطمئنا سخت تر. تقریباً تمام جوهره پیشرفت ها و عوارض DAC و ADC دقیقاً در انتقال قابل اطمینان تر فرکانس های بالا است. منظور ما از "بالا" فرکانس های قابل مقایسه با فرکانس نمونه برداری است - یعنی در مورد 44.1 کیلوهرتز، این فرکانس 7-10 کیلوهرتز و بالاتر است.

یک سیگنال سینوسی با فرکانس 14 کیلوهرتز، دیجیتالی شده با نرخ نمونه برداری 44.1 کیلوهرتز را تصور کنید. حدود سه نقطه (شمارش) برای یک دوره از سینوسی ورودی وجود دارد و برای بازگرداندن فرکانس اصلی به صورت سینوسی، باید کمی تخیل نشان دهید. فرآیند بازیابی شکل موج از نمونه ها نیز در DAC اتفاق می افتد، این کار توسط فیلتر بازیابی انجام می شود. و اگر فرکانس‌های نسبتاً پایین تقریباً سینوسی‌های آماده باشند، شکل و بر این اساس، کیفیت بازیابی فرکانس‌های بالا کاملاً بر عهده سیستم بازیابی DAC است. بنابراین، فرکانس سیگنال به یک ثانیه نزدیک‌تر است. فرکانس نمونه برداری، بازیابی شکل سیگنال دشوارتر است.

این مشکل اصلی در هنگام بازتولید فرکانس های بالا است. اما مشکل آنقدرها هم که به نظر می رسد بد نیست. همه DACهای مدرن از فناوری چند نرخی استفاده می کنند که شامل بازیابی دیجیتالی به نرخ نمونه برداری چند برابر بالاتر و سپس تبدیل آن به سیگنال آنالوگ با فرکانس افزایش یافته است. بنابراین مشکل بازگرداندن فرکانس‌های بالا به دوش فیلترهای دیجیتالی منتقل می‌شود که می‌تواند کیفیت بسیار بالایی داشته باشد. آنقدر کیفیت بالا که در مورد دستگاه های گران قیمت مشکل دارد به طور کاملحذف شده - تولید مثل بدون تحریف فرکانس ها تا 19-20 کیلوهرتز را فراهم می کند. نمونه برداری مجدد در دستگاه های نه چندان گران قیمت نیز استفاده می شود، بنابراین در اصل می توان این مشکل را نیز حل شده در نظر گرفت. دستگاه‌های بین 30 تا 60 دلار (کارت‌های صدا) یا مراکز موسیقی تا 600 دلار، که معمولاً در DAC مشابه این کارت‌های صدا هستند، فرکانس‌هایی را تا 10 کیلوهرتز، تا 14 تا 15 و به نوعی بقیه را کاملاً بازتولید می‌کنند. این کاملابرای اکثر برنامه های موسیقی واقعی کافی است، و اگر کسی به کیفیت بیشتری نیاز داشته باشد - آن را در دستگاه های حرفه ای پیدا می کند که خیلی گران تر نیستند - آنها فقط هوشمندانه ساخته شده اند.

برگردیم به dithering، بیایید ببینیم چگونه می‌توانیم به طور مفید محدوده دینامیکی را بیش از 16 بیت افزایش دهیم.

ایده dithering مخلوط کردن با سیگنال است سر و صدا. ممکن است عجیب به نظر برسد، برای کاهش نویز و اثرات کوانتیزاسیون ناخوشایند، ما اضافه کردنسر و صدای شما بیایید یک مثال را در نظر بگیریم - اجازه دهید از توانایی CoolEdit برای کار در 32 بیت استفاده کنیم. 32 بیت 65 هزار برابر دقیق تر از 16 بیت است، بنابراین در مورد ما، 32 بیت را می توان یک آنالوگ اصلی در نظر گرفت و تبدیل آن به 16 بیت دیجیتالی است. بگذارید بالاترین سطح صدا در صدای 32 بیتی اصلی منهای 110 دسی بل باشد. این مقدار بسیار کم صداتر از محدوده دینامیکی صدای 16 بیتی است که ضعیف ترین صدای قابل شنیدن برای آن منهای 90 دسی بل است. بنابراین، اگر به سادگی داده ها را به 16 بیت گرد کنیم، به سکوت دیجیتال کامل خواهیم رسید.

بیایید نویز "سفید" را به سیگنال اضافه کنیم (یعنی پهنای باند و یکنواخت در کل باند فرکانس) با سطح منهای 90 دسی بل که تقریباً از نظر سطح نویز کوانتیزاسیون مطابقت دارد. حال، اگر این مخلوط سیگنال و نویز "سفید" را به 16 بیت تبدیل کنیم (فقط مقادیر صحیح ممکن است - 0، 1، -1، ...)، معلوم می شود که بخشی از سیگنال باقی می ماند. در جایی که سیگنال اصلی دارای سطح بالاتری بود، تعداد بیشتری وجود دارد، جایی که سیگنال پایین‌تر صفر است.

برای تأیید آزمایشی روش فوق، می توانید از ویرایشگر صوتی Cool Edit (یا هر دیگری که از فرمت 32 بیتی پشتیبانی می کند) استفاده کنید. برای شنیدن آنچه اتفاق می افتد، باید سیگنال را 14 بیت (78 دسی بل) تقویت کنید.

نتیجه صدای نویز 16 بیتی حاوی سیگنال اصلی است که منهای 110 دسی بل بود. در اصل، این روش استاندارد برای گسترش دامنه دینامیکی است که اغلب به خودی خود مشخص می شود - سر و صدای کافی در همه جا وجود دارد. با این حال، این به خودی خود بی معنی است - سطح نویز نمونه گیری در همان سطح باقی می ماند، و انتقال سیگنال ضعیف تر از نویز از نقطه نظر منطقی چندان واضح نیست ... (نظر بسیار اشتباه، از زمان ارسال یک سیگنال با سطح کمتر از نویز سطح، یکی از روش های اساسی رمزگذاری داده ها است.

راه پیچیده تر - به هم ریختگی شکل، در این واقعیت نهفته است که از آنجایی که هنوز فرکانس های بالا را در صداهای بسیار آرام نمی شنویم، به این معنی است که قدرت اصلی نویز باید به این فرکانس ها هدایت شود، در حالی که حتی می توانید از نویز سطح بالاتر استفاده کنید - من استفاده خواهم کرد. سطح 4 رقم کم اهمیت (دو بیت در سیگنال 16 بیتی). مخلوط حاصل از سیگنال و نویز 32 بیتی را به یک سیگنال 16 بیتی تبدیل می کنیم، فرکانس های بالا (که واقعاً توسط گوش درک نمی شود) را فیلتر می کنیم و سطح سیگنال را افزایش می دهیم تا بتوانیم نتیجه را ارزیابی کنیم.

این در حال حاضر بسیار خوب (برای حجم بسیار کم) انتقال صدا است، نویز تقریباً از نظر قدرت با خود صدا با سطح اولیه منفی 110 دسی بل برابر است! نکته مهم: ما مطرح کردنویز واقعی نمونه برداری از نصف بیت کم اهمیت (93- دسی بل) تا چهار بیت کم اهمیت (84- دسی بل) تنزل دادننویز نمونه برداری قابل شنیدن از -93dB تا حدود -110dB. نسبت سیگنال به نویز بدتر شد، اما سر و صدا به منطقه فرکانس بالا رفت و دیگر قابل شنیدن نبود که باعث شد بهبود قابل توجه در واقعینسبت سیگنال به نویز (قابل درک انسان).

(به عبارت دیگر، از آنجایی که قدرت نویز، همانطور که بود، در محدوده فرکانس "لکه دار" است، بدون اینکه فرکانس های بالایی را از دست بدهیم، بخشی از توان را از آن می گیریم، در نتیجه سیگنال به -نسبت نویز در نمایش زمانی سیگنال ها بهبود می یابد - تقریباً آمار)

در عمل، این سطح نویز نمونه برداری صوتی 20 بیتی است. تنها شرط این فناوری وجود فرکانس برای نویز است. صدای 44.1 کیلوهرتز امکان قرار دادن نویز در فرکانس‌های 10-20 کیلوهرتز را فراهم می‌کند که با صدای آرام غیرقابل شنیدن هستند. اما اگر با فرکانس 96 کیلوهرتز دیجیتالی کنید، دامنه فرکانس نویز (برای انسان غیرقابل شنیدن) آنقدر بزرگ خواهد بود که هنگام استفاده از دیترینگ شکلی 16 بیت واقعاتبدیل به همه 24.

[توجه: اسپیکر PC یک دستگاه یک بیتی است، اما با حداکثر نرخ نمونه برداری نسبتاً بالا (روشن/خاموش آن تک بیت). با استفاده از فرآیندی شبیه به دیترینگ، به نام مدولاسیون نسبتاً عرض پالس، صدای دیجیتال کاملاً باکیفیت روی آن پخش شد - 5-8 بیت فرکانس پایین از یک بیت خارج شد و نرخ نمونه برداری بالا و عدم توانایی تجهیزاتی برای بازتولید چنین فرکانس های بالایی و همچنین ناتوانی ما در شنیدن آنها. با این حال، یک سوت کمی با فرکانس بالا - قسمت قابل شنیدن این صدا - قابل شنیدن بود.]

بنابراین، دیترینگ شکلی به شما امکان می‌دهد تا نویز نمونه‌برداری کم صداهای ۱۶ بیتی را به میزان قابل توجهی کاهش دهید، بنابراین بی‌صدا محدوده دینامیکی مفید (بی‌صدا) را افزایش دهید. همهحوزه شنوایی انسان از آنجایی که اکنون دیترینگ شکلی همیشه هنگام ترجمه از فرمت کاری 32 بیتی به 16 بیت نهایی برای یک سی دی استفاده می شود، 16 بیت ما برای انتقال کامل یک تصویر صوتی کاملاً کافی است.

لازم به ذکر است که این فناوری فقط در مرحله آماده سازی مواد برای پخش عمل می کند. هنگام پردازش صدای با کیفیت بالا، به سادگی لازم استدر 32 بیت بمانید تا بعد از هر عملیات از دود شدن جلوگیری کنید، کدگذاری بهتر به 16 بیت باز می گردد. اما اگر سطح نویز گرامافون بیش از منفی 60 دسی بل باشد - می توانید بدون کوچکترین وجدان، تمام پردازش ها را در 16 بیت انجام دهید. انحراف متوسط تضمین می کند که هیچ اعوجاج گردی وجود ندارد و نویز اضافه شده توسط آن خواهد بود صدها بارضعیف تر از موجود و بنابراین کاملاً بی تفاوت.

س:

چرا می گویند صدای 32 بیتی بهتر از 16 بیتی است؟
A1:	آنها اشتباه می کنند.
A2:	[معنای آنها کمی متفاوت است: هنگام پردازش یا ضبط صدا نیاز بهاز وضوح بالاتر استفاده کنید از آن استفاده می کنند همیشه. اما در صدا مانند محصول نهایی، وضوح بیش از 16 بیت مورد نیاز نیست.]

س:	آیا افزایش نرخ نمونه برداری (مثلا تا 48 کیلوهرتز یا تا 96) منطقی است؟
A1:	ندارد. حداقل با روشی شایسته در طراحی DAC 44 کیلوهرتز ارسال می کند تماممحدوده فرکانس مورد نظر
A2:	[معنای آنها کمی متفاوت است: منطقی است، اما فقط هنگام پردازش یا ضبط صدا.]

س:	چرا معرفی فرکانس های بالا و بیتنس همچنان ادامه دارد؟
A1:	برای پیشرفت حرکت مهم است. کجا و چرا - چندان مهم نیست ...
A2:	بسیاری از فرآیندها در این مورد آسان تر هستند. به عنوان مثال، اگر دستگاه قرار است صدا را پردازش کند، انجام این کار در 96 کیلوهرتز / 32 بیت برای او آسان تر خواهد بود. تقریباً همه DSP ها از 32 بیت برای پردازش صدا استفاده می کنند و توانایی فراموش کردن تبدیل ها یک پیشرفت آسان تر است و همچنان کیفیت کمی افزایش می یابد. و به طور کلی - صدا برای پردازش بیشتر این داردبه معنی ذخیره در وضوح بالاتر از 16 بیت. برای دستگاه های پیشرفته که فقط صدا پخش می کنند، این کار است کاملابي تفاوت.

س:	آیا DACهای 32x یا 24x یا حتی 18 بیتی بهتر از 16 بیتی هستند؟
آ:	به طور کلی - خیر. کیفیت تبدیل اصلاً به عمق بیت بستگی ندارد. کدک AC "97 (یک کارت صدای مدرن زیر 50 دلار) از یک کدک 18 بیتی استفاده می کند و کارت های 500 دلاری که حتی نمی توان صدای آنها را با این مزخرفات مقایسه کرد، از 16 بیت استفاده می کند. هیچ تفاوتی با پخش صدای 16 بیتی ندارد.. همچنین شایان ذکر است که اکثر DAC ها معمولاً بیت های کمتری را نسبت به آنچه می گیرند پخش می کنند. به عنوان مثال، سطح نویز واقعی یک کدک ارزان معمولی -90 دسی بل است که 15 بیت است، و حتی اگر خود 24 بیت باشد - شما هیچ بازگشتی به 9 بیت "اضافی" نخواهید داشت - نتیجه کار آنها ، حتی اگر در دسترس بود، در سر و صدای خودشان غرق می شوند. اکثر دستگاه های ارزان قیمت فقط هستند چشم پوشیبیت های اضافی - آنها واقعاً در فرآیند سنتز صدای خود حساب نمی شوند، اگرچه به ورودی دیجیتال DAC می روند.

س:	و برای ثبت؟
آ:	برای ضبط بهتر است ADC با ظرفیت بیشتر داشته باشید. باز هم بیشتر واقعیعمق بیت عمق بیت DAC باید با سطح نویز گرامافون اصلی مطابقت داشته باشد یا به سادگی برای رسیدن به سطح پایین مورد نظر کافی باشد. سر و صدا. همچنین برای استفاده از محدوده دینامیکی بالاتر برای کنترل سطح ضبط دقیق تر، داشتن کمی عمق بیشتر مفید است. اما به یاد داشته باشید - همیشه باید ضربه بزنید واقعیمحدوده کدک در واقع، یک ADC 32 بیتی، برای مثال، تقریبا به طور کامل است بی معنی، از آنجایی که ده بیت پایین فقط به طور مداوم نویز ایجاد می کنند - بنابراینصدای کم (زیر 200 دسی بل) فقط نمیتونه باشهدر یک منبع موسیقی آنالوگ

ارزش صدای افزایش عمق بیت یا فرکانس نمونه برداری را در مقایسه با سی دی با کیفیت بهتر ندارد. 16bit/44kHz که با دیترینگ شکلی به حداکثر رسیده است، کاملاً قادر است به طور کاملاگر در مورد فرآیند پردازش صدا نباشد، اطلاعاتی را که به آن علاقه مندیم منتقل کنیم. فضا را برای داده های اضافی در مواد نهایی خود هدر ندهید، همانطور که از DVD-Audio با 96 کیلوهرتز/24 بیت آن انتظار کیفیت صدای برتر را نداشته باشید. با یک رویکرد شایسته، هنگام ایجاد صدا در فرمت CD استاندارد، کیفیتی خواهیم داشت که فقط نیازی ندارددر بهبود بیشتر، و مسئولیت ضبط صحیح صدای داده‌های نهایی مدت‌هاست که توسط الگوریتم‌های توسعه‌یافته و افرادی که می‌دانند چگونه از آنها به درستی استفاده کنند، بر عهده گرفته شده است. در چند سال گذشته، دیسک جدیدی را بدون دیترینگ شکل و سایر تکنیک‌ها برای بالا بردن کیفیت صدا به حداکثر نخواهید یافت. بله ، برای افراد تنبل یا ساده تر راحت تر خواهد بود که مواد آماده را در 32 بیت و 96 کیلوهرتز ارائه دهند ، اما از نظر تئوری - آیا ارزش چندین برابر داده های صوتی دارد؟ ..

صدا نقش فزاینده‌ای در دنیای مدرن بازی می‌کند، زیرا مدت‌هاست که از ارتباط نزدیک با تصویری که در دوران اوج تلویزیون و سینما پدید آمده است، جدا شده است. تجهیزات چندرسانه ای مدرن نه تنها برای بازتولید آن، بلکه حتی برای تغییر صدا نیز وسیع ترین امکانات را دارند. قبلاً به عنوان یک رکورد مرده، بازتولید ایستا از رویدادهای گذشته طولانی، که به شدت بر روی حامل خود نقش بسته است، متوقف شده است. مهمترین نقش در تغییر ایده های ما در مورد صدا با توسعه یک روش دیجیتال برای ضبط صدا، تبدیل آن به یک جریان داده، که به راحتی و به طور طبیعی توسط دستگاه های مدرن قابل استفاده است، ایفا کرد.

فرمت ها: صدای دیجیتال چیست

امروزه هر دستگاه چندرسانه ای موجود در بازار، اعم از پخش کننده سی دی، ضبط صدا، یا پخش کننده فلش مموری، از طیف گسترده ای از نمایش های جریان داده استفاده می کند که سپس به صدا تبدیل می شود. و حتی فرمت های صوتی بیشتری که برای اهداف حرفه ای استفاده می شود اختراع شده است. یک خریدار بی‌تجربه مجبور می‌شود اطلاعات مربوط به نام‌گذاری روی جعبه‌ها و دستگاه‌ها را از منابع مختلف دریافت کند، اغلب اطلاعات اشتباه یا حتی بیشتر گیج می‌شود.

تقریباً هر دستگاه از بخش کاتالوگ چندین فرمت صوتی را به طور همزمان پشتیبانی می کند و بسیاری از دستگاه هایی که به این دسته تعلق ندارند نیز دارای برچسب پشتیبانی از پخش فایل های صوتی هستند. به منظور کمک به خواننده خود، تصمیم گرفتیم یک واژه نامه کوچک از اختصارات ایجاد کنیم و در مورد رایج ترین قالب ها صحبت کنیم. ما قصد داریم آن را برای اضافات و اصلاحات باز کنیم، قالب‌های جدید اضافه کنیم و مزایا و معایب مواردی که قبلاً رایج یا فراموش شده‌اند را با جزئیات بیشتر شرح دهیم.

کمی تئوری

برای شروع، لازم به یادآوری است که صدای دیجیتال چیزی بیش از مجموعه ای از اعداد نیست. عامل تعیین کننده سیستمی است که توسط آن صدا به عنوان فشار هوا به جریان داده تبدیل شده و برای پردازش و پخش بیشتر کدگذاری می شود. بر این اساس، صدای دیجیتال معمولاً در فایل های رایانه ای با پسوندهای مختلف موجود است که اغلب (اما نه همیشه) قالب آن را تعیین می کند. و خود مفهوم قالب می تواند به طور متناقض دو معنی داشته باشد. اول، قالب می تواند به عنوان یک مشخصه جامع وجود داشته باشد که هم نوع و هم ویژگی های فیزیکی رسانه (دیسک یا کاست)، روش ضبط، اصول کدگذاری و حفاظت از خطا را شامل می شود. ثانیاً ، قالب را فقط می توان به عنوان روش رمزگذاری و فشرده سازی صدا درک کرد ، زیرا از وسایل استاندارد برای انتقال استفاده می شود ، به عنوان مثال ، رایانه.

صدای آنالوگ، بر خلاف دیجیتال، در دستگاه های آنالوگ بازتولید می شود و دارای تعدادی تفاوت قابل توجه است. صدای آنالوگ که یک جریان داده نیست، با یک سیگنال الکتریکی پیوسته نشان داده می شود که نشان دهنده تغییر در موج صوتی است. برای ترجمه آن به یک فرمت دیجیتال، صدا "دیجیتالیزه" می شود، یعنی به بخش های خاصی تقسیم می شود که در آن مقدار عددی دامنه در لحظه ثابت است. ما به اصول ایجاد صدای دیجیتال نمی پردازیم، اما کاملاً ضروری است که توجه داشته باشیم که هر چه بیشتر بخشی از صدا تقسیم شود و ویژگی های آن شرح داده شود، تصویر واضح تر و کامل تر از خود صدا ایجاد می شود.

چنین فرآیندی حجم عظیمی از داده‌ها را برای توصیف صدا تولید می‌کند، و بدیهی است که هر فرمت صوتی دیجیتال چیزی نیست جز مصالحه‌ای بین نیاز به ارائه بهترین صدا و محدودیت‌های رایانه یا حافظه دستگاه پخش.

کمی تئوری بیشتر گوش انسان در بیشتر موارد صدا را با فرکانس بالاتر از 22000 هرتز درک می کند و برای توصیف کامل آن به صورت دیجیتال، فرکانس نمونه برداری حداقل 44.1 کیلوهرتز مورد نیاز است. از آنجایی که تعیین دقیق مقدار یک سیگنال در یک نقطه زمانی خاص غیرممکن است، کوانتیزاسیون در طول دیجیتالی شدن اتفاق می افتد، یعنی مقادیر واقعی سیگنال با مقادیر تقریبی جایگزین می شوند. هر چه سطوح کوانتیزاسیون صدا بیشتر باشد، سطح سیگنال با دقت بیشتری توصیف می شود. در نتیجه، هر CD استاندارد یک سیگنال صوتی با فرکانس نمونه برداری همان 44.1 کیلوهرتز و سطح کوانتیزاسیون 16 بیت را حمل می کند و برخی از دستگاه ها با فرکانس 48 کیلوهرتز نمونه برداری می کنند.

ما در حین کار روی پروژه خود چیزهای زیادی در مورد همه اینها یاد گرفتیم، و امروز سعی خواهم کرد برخی از مفاهیم اساسی را که اگر با پردازش صدای دیجیتال سروکار دارید، در انگشتانم شرح دهم. این مقاله حاوی ریاضیات جدی مانند تبدیل فوریه سریع و چیزهای دیگر نیست - یافتن این فرمول ها در شبکه آسان است. من ماهیت و معنای چیزهایی را که باید با آنها روبرو شویم شرح خواهم داد.

دیجیتالی شدن، یا آنجا و برگشت

اول از همه، بیایید بفهمیم که سیگنال دیجیتال چیست، چگونه از سیگنال آنالوگ به دست می آید، و سیگنال آنالوگ واقعا از کجا می آید. دومی را می توان به ساده ترین شکل ممکن به عنوان نوسانات ولتاژ ناشی از ارتعاشات غشاء در میکروفون تعریف کرد.

برنج. 1. شکل موج صدا

این یک اسیلوگرام از صدا است - این چیزی است که سیگنال صوتی به نظر می رسد. من فکر می کنم هر کسی حداقل یک بار در زندگی خود چنین عکس هایی را دیده است. برای اینکه بفهمید فرآیند تبدیل سیگنال آنالوگ به دیجیتال چگونه کار می کند، باید یک اسیلوگرام صدا را روی کاغذ میلی متری رسم کنید. برای هر خط عمودی، نقطه تقاطع با اسیلوگرام و نزدیکترین مقدار صحیح را در مقیاس عمودی پیدا می کنیم - مجموعه ای از چنین مقادیری ساده ترین رکورد یک سیگنال دیجیتال خواهد بود.

بیایید از این مثال تعاملی برای درک نحوه همپوشانی امواج فرکانس های مختلف و نحوه دیجیتالی شدن استفاده کنیم. در منوی سمت چپ، می‌توانید نمایش نمودارها را روشن/خاموش کنید، پارامترهای داده ورودی و پارامترهای نمونه‌برداری را تنظیم کنید، یا می‌توانید به سادگی نقاط کنترل را جابه‌جا کنید.

در واقع، برای ایجاد یک جلوه استریو هنگام ضبط صدا، اغلب نه یک، بلکه چندین کانال به طور همزمان ضبط می شود. بسته به فرمت ذخیره سازی مورد استفاده، ممکن است به طور مستقل ذخیره شوند. همچنین سطوح سیگنال را می توان به عنوان تفاوت بین سطح کانال اصلی و سطح فعلی ثبت کرد.

تبدیل معکوس از سیگنال دیجیتال به آنالوگ با استفاده از مبدل های دیجیتال به آنالوگ انجام می شود که می توانند دستگاه و اصول عملکرد متفاوتی داشته باشند. من از شرح این اصول در این مقاله صرف نظر می کنم.

نمونه برداری

همانطور که می دانید سیگنال دیجیتال مجموعه ای از مقادیر سطح سیگنال است که در بازه های زمانی مشخص ثبت می شود. فرآیند تبدیل سیگنال آنالوگ پیوسته به سیگنال دیجیتال را نمونه برداری (بر اساس زمان و سطح) می گویند. دو ویژگی اصلی سیگنال دیجیتال وجود دارد - نرخ نمونه برداری و عمق نمونه برداری سطح.

سبز مولفه فرکانس را نشان می دهد که فرکانس آن بالاتر از فرکانس Nyquist است. هنگام دیجیتالی کردن چنین جزء فرکانسی، امکان ثبت داده های کافی برای توصیف صحیح آن وجود ندارد. در نتیجه، در حین پخش، یک سیگنال کاملاً متفاوت به دست می آید - یک منحنی زرد.

سطح سیگنال

برای شروع، باید بلافاصله درک کنید که وقتی صحبت از سیگنال دیجیتال می شود، فقط می توانید در مورد سطح نسبی سیگنال صحبت کنید. مطلق در درجه اول به تجهیزات تولید مثل بستگی دارد و به طور مستقیم با نسبی متناسب است. هنگام محاسبه سطوح سیگنال نسبی، استفاده از دسی بل مرسوم است. در این حالت، سیگنالی با حداکثر دامنه ممکن در یک عمق نمونه برداری معین به عنوان نقطه مرجع در نظر گرفته می شود. این سطح به صورت 0 dBFS (dB - دسی بل، FS = Full Scale - Full Scale) نشان داده شده است. سطوح سیگنال پایین تر به صورت -1 dBFS، -2 dBFS و غیره نشان داده می شوند. کاملاً واضح است که به سادگی هیچ سطح بالاتری وجود ندارد (ما در ابتدا بالاترین سطح ممکن را می گیریم).

در ابتدا، تشخیص اینکه چگونه دسی بل و سطح سیگنال واقعی با هم ارتباط دارند، می تواند دشوار باشد. در واقع همه چیز ساده است. هر ~6 دسی بل (به طور دقیق تر 20 log(2) ~ 6.02 دسی بل) نشان دهنده تغییر سطح سیگنال با ضریب دو است. یعنی وقتی در مورد سیگنالی با سطح dBFS-12 صحبت می کنیم، متوجه می شویم که این سیگنالی است که سطح آن چهار برابر کمتر از حداکثر است و -18 dBFS هشت برابر کمتر است و غیره. اگر به تعریف دسی بل نگاه کنید، یک مقدار را بیان می کند - پس 20 از کجا می آید؟ مسئله این است که دسی بل لگاریتم نسبت دو کمیت انرژی همنام است که در 10 ضرب می شود. دامنه آن نیست. انرژیمقدار، بنابراین باید به یک مقدار مناسب تبدیل شود. توان حمل شده توسط امواج با دامنه های مختلف متناسب با مربع دامنه است. بنابراین، برای دامنه (اگر همه شرایط دیگر، به جز دامنه، بدون تغییر در نظر گرفته شوند)، فرمول را می توان به صورت زیر نوشت:

N.B.شایان ذکر است که لگاریتم در این حالت به صورت اعشاری در نظر گرفته می شود، در حالی که اکثر کتابخانه ها تحت تابعی به نام log یک لگاریتم طبیعی را فرض می کنند.

در اعماق نمونه برداری مختلف، سطح سیگنال در این مقیاس تغییر نخواهد کرد. سیگنال -6 dBFS سیگنال -6 dBFS باقی می ماند. اما هنوز یک مشخصه تغییر خواهد کرد - محدوده دینامیکی. محدوده دینامیکی یک سیگنال، تفاوت بین مقدار حداقل و حداکثر آن است. با فرمول محاسبه می شود، که در آن n عمق گسسته سازی است (برای تخمین های تقریبی، می توانید از یک فرمول ساده تر استفاده کنید: n * 6). برای 16 بیت ~ 96.33 دسی بل، برای 24 بیت ~ 144.49 دسی بل است. این بدان معناست که بزرگترین افت سطحی که می توان با عمق نمونه برداری 24 بیتی (144.49 دسی بل) توصیف کرد، 48.16 دسی بل بزرگتر از بزرگترین افت سطح با عمق 16 بیتی (96.33 دسی بل) است. بعلاوه، صدای خرد شدن در 24 بیت 48 دسی بل کم صداتر است.

ادراک

وقتی در مورد درک انسان از صدا صحبت می کنیم، ابتدا باید درک کنیم که مردم چگونه صدا را درک می کنند. بدیهی است که ما با گوش خود می شنویم. امواج صوتی با پرده گوش تعامل می کنند و آن را جابه جا می کنند. ارتعاشات به گوش داخلی منتقل می شوند و در آنجا توسط گیرنده ها دریافت می شوند. اینکه پرده گوش چقدر حرکت می کند به ویژگی هایی مانند فشار صدا بستگی دارد. در این مورد، بلندی درک شده به فشار صدا بستگی دارد نه مستقیم، بلکه به صورت لگاریتمی. بنابراین، هنگام تغییر صدا، مرسوم است که از مقیاس نسبی SPL (سطح فشار صدا) استفاده کنید، که مقادیر آن در همان دسی بل نشان داده شده است. همچنین شایان ذکر است که بلندی درک شده یک صدا نه تنها به سطح فشار صدا، بلکه به فرکانس صدا نیز بستگی دارد:

جلد

ساده ترین مثال پردازش صدا تغییر حجم آن است. در این مورد، سطح سیگنال به سادگی در مقداری ثابت ضرب می شود. با این حال، حتی در یک موضوع ساده مانند تنظیم صدا، یک دام وجود دارد. همانطور که قبلاً اشاره کردم، بلندی درک شده به لگاریتم فشار صدا بستگی دارد، به این معنی که استفاده از مقیاس بلندی خطی چندان مؤثر نیست. با مقیاس حجمی خطی، دو مشکل به طور همزمان ایجاد می شود - برای تغییر محسوس در حجم، هنگامی که لغزنده بالای وسط مقیاس قرار دارد، باید آن را به اندازه کافی دور کنید، در حالی که به پایین ترازوی نزدیک تر است، جابجایی کمتر از ضخامت یک مو است، می تواند دو بار حجم را تغییر دهد (فکر می کنم همه این را تجربه کرده اند). برای حل این مشکل از مقیاس لگاریتمی بلندی صدا استفاده می شود. در همان زمان، حرکت لغزنده در یک فاصله ثابت در تمام طول آن، حجم را به همان تعداد بار تغییر می دهد. در تجهیزات ضبط و پردازش حرفه ای، به عنوان یک قاعده، این مقیاس صدای لگاریتمی است که استفاده می شود.

ریاضیات

در اینجا شاید کمی به ریاضیات برگردم، زیرا اجرای مقیاس لگاریتمی برای بسیاری چیز ساده و بدیهی نیست و یافتن این فرمول در اینترنت آنقدر که ما می خواهیم آسان نیست. در همان زمان، من به شما نشان خواهم داد که چقدر آسان است که مقادیر حجم را به dBFS و بالعکس تبدیل کنید. برای توضیح بیشتر مفید خواهد بود.

// مقدار حداقل حجم - در این سطح، صدا خاموش می شود var EPSILON = 0.001; // ضریب تبدیل به و از dBFS var DBFS_COEF = 20 / Math.log(10); // حجم را از موقعیت روی مقیاس محاسبه می کند var volumeToExponent = function(value) (var volume = Math.pow(EPSILON, 1 - value); volume return > EPSILON ? volume: 0; ); // موقعیت روی مقیاس را از مقدار حجم var volumeFromExponent = function(volume) محاسبه می کند ( return 1 - Math.log(Math.max(volume, EPSILON)) / Math.log(EPSILON); ); // تبدیل مقدار حجم به dBFS var volumeToDBFS = function(volume) ( return Math.log(volume) * DBFS_COEF; ); // تبدیل مقدار dBFS به حجم var volumeFromDBFS = تابع(dbfs) ( بازگشت Math.exp(dbfs / DBFS_COEF؛ )

پردازش دیجیتال

حالا به این واقعیت برگردیم که سیگنال دیجیتال داریم نه آنالوگ. دو ویژگی سیگنال دیجیتال وجود دارد که باید هنگام کار با بلندی صدا در نظر بگیرید:

دقتی که با آن سطح سیگنال نشان داده می شود محدود است (و کاملاً قوی است. 16 بیت 2 برابر کمتر از مقدار استفاده شده برای یک عدد ممیز شناور استاندارد است).
سیگنال دارای یک حد سطح بالایی است که نمی تواند از آن فراتر رود.

این واقعیت که سطح سیگنال دارای محدودیت دقت است به دو چیز دلالت دارد:

با افزایش صدا، سطح صدای خرد شدن افزایش می یابد. برای تغییرات کوچک، این معمولاً خیلی مهم نیست، زیرا سطح نویز اولیه بسیار ساکت‌تر از سطح درک شده است و می‌توان آن را با ضریب 4-8 افزایش داد (به عنوان مثال، از یک اکولایزر با محدودیت مقیاس ± استفاده کنید. 12 دسی بل)؛
ابتدا نباید سطح سیگنال را بسیار پایین بیاورید و سپس آن را بسیار افزایش دهید - در این حالت ممکن است صداهای خردکننده جدیدی ظاهر شوند که در ابتدا وجود نداشتند.

از این واقعیت که سیگنال دارای محدودیت سطح بالایی است، به این نتیجه می رسد که افزایش حجم بالاتر از واحد ایمن نیست. در این صورت، پیک هایی که بالاتر از حد مجاز هستند، قطع می شوند و داده ها از بین می روند.

در عمل، همه اینها به این معنی است که پارامترهای نمونه برداری استاندارد برای Audio-CD (16 بیت، 44.1 کیلوهرتز) امکان پردازش صدای با کیفیت بالا را ندارند، زیرا افزونگی بسیار کمی دارند. برای این منظور بهتر است از فرمت های اضافی بیشتری استفاده کنید. با این حال، به خاطر داشته باشید که حجم کل فایل متناسب با پارامترهای نمونه گیری است، بنابراین انتشار چنین فایل هایی برای پخش آنلاین ایده خوبی نیست.

اندازه گیری بلندی صدا

برای مقایسه بلندی دو سیگنال مختلف، ابتدا باید به نحوی اندازه گیری شود. حداقل سه معیار برای اندازه‌گیری بلندی سیگنال‌ها وجود دارد - حداکثر مقدار پیک، میانگین مقدار سطح سیگنال و متریک ReplayGain.

حداکثر مقدار پیک یک معیار نسبتاً ضعیف برای ارزیابی بلندی صدا است. به هیچ وجه سطح کلی صدا را در نظر نمی گیرد - به عنوان مثال، اگر یک طوفان رعد و برق را ضبط کنید، در بیشتر مواقع در ضبط، باران بی سر و صدا می بارد و تنها چند بار رعد و برق صدا می کند. حداکثر مقدار پیک سطح سیگنال چنین ضبطی کاملاً بالا خواهد بود، اما بیشتر موارد ضبط دارای سطح سیگنال بسیار پایین خواهند بود. با این حال، این معیار هنوز مفید است - به شما امکان می دهد حداکثر بهره را که می توان در رکورد اعمال کرد، محاسبه کرد، که در آن داده ها به دلیل "برش" قله ها از بین نمی رود.

میانگین سطح سیگنال متریک مفیدتری است و به راحتی محاسبه می شود، اما همچنان دارای اشکالات قابل توجهی در ارتباط با نحوه درک ما از صدا است. صدای جیغ یک اره مدور و صدای آبشار که با همان سطح سیگنال متوسط ثبت شده است، کاملاً متفاوت درک خواهد شد.

ReplayGain با بیشترین دقت سطح حجم درک شده ضبط را منتقل می کند و ویژگی های فیزیولوژیکی و ذهنی ادراک صدا را در نظر می گیرد. برای انتشار صنعتی رکوردها، بسیاری از استودیوهای ضبط از آن استفاده می کنند، و همچنین توسط اکثر پخش کننده های رسانه ای محبوب پشتیبانی می شود. (WIKI حاوی نادرستی های زیادی است و در واقع به درستی ماهیت فناوری را توصیف نمی کند)

نرمال سازی حجم

اگر بتوانیم بلندی صدای ضبط های مختلف را اندازه گیری کنیم، می توانیم آن را نرمال کنیم. ایده عادی سازی این است که صداهای مختلف را به همان سطح بلندی درک شده برساند. برای این کار از چندین روش مختلف استفاده می شود. به عنوان یک قاعده، آنها سعی می کنند صدا را به حداکثر برسانند، اما این به دلیل محدودیت های حداکثر سطح سیگنال همیشه امکان پذیر نیست. بنابراین، مقداری معمولاً کمی کمتر از حداکثر (به عنوان مثال -14 dBFS) گرفته می‌شود که همه سیگنال‌ها سعی در رساندن آن به آن دارند.

بلندی صدا گاهی در یک ضبط منفرد عادی می شود و قسمت های مختلف ضبط با مقادیر متفاوتی تقویت می شوند به طوری که بلندی درک شده آنها یکسان است. این رویکرد اغلب در پخش‌کننده‌های ویدیویی رایانه‌ای استفاده می‌شود - موسیقی متن بسیاری از فیلم‌ها می‌تواند شامل بخش‌هایی با بلندی صدای بسیار متفاوت باشد. در چنین شرایطی، هنگام تماشای فیلم‌ها بدون هدفون در زمان بعدی، مشکلاتی به وجود می‌آید - با صدایی که معمولاً زمزمه‌های شخصیت‌های اصلی شنیده می‌شود، عکس‌ها می‌توانند همسایه‌ها را بیدار کنند. و در حجمی که ضربات به گوش نمی رسد، زمزمه به طور کلی غیر قابل تشخیص می شود. با نرمال سازی حجم داخل آهنگ، پخش کننده به طور خودکار صدا را در مناطق ساکت افزایش می دهد و در مناطق با صدای بلند آن را کاهش می دهد. با این حال، این رویکرد در هنگام انتقال تیز بین صدای آرام و بلند، مصنوعات پخش ملموسی ایجاد می‌کند و همچنین گاهی اوقات حجم برخی از صداها را بیش از حد برآورد می‌کند که از نظر طراحی، باید پس‌زمینه باشند و به سختی قابل تشخیص باشند.

همچنین، نرمال سازی داخلی گاهی اوقات برای افزایش حجم کلی آهنگ ها انجام می شود. به این حالت عادی سازی با فشرده سازی می گویند. با این رویکرد، مقدار متوسط سطح سیگنال با تقویت کل سیگنال با مقدار معینی به حداکثر می رسد. مناطقی که باید "قطع" می شدند به دلیل فراتر رفتن از حداکثر سطح با مقدار کمتری تقویت می شوند و بنابراین از این امر جلوگیری می شود. این روش افزایش حجم به طور قابل توجهی کیفیت صدای آهنگ را کاهش می دهد، اما، با این وجود، بسیاری از استودیوهای ضبط در استفاده از آن تردیدی ندارند.

فیلتراسیون

من مطلقاً همه فیلترهای صوتی را توصیف نمی کنم، فقط به موارد استانداردی که در Web Audio API وجود دارد محدود می کنم. ساده ترین و رایج ترین آنها فیلتر دوتایی (BiquadFilterNode) است - این یک فیلتر مرتبه دوم فعال با پاسخ ضربه ای بی نهایت است که می تواند تعداد نسبتاً زیادی از افکت ها را بازتولید کند. اصل عملکرد این فیلتر مبتنی بر استفاده از دو بافر است که هر کدام دارای دو نمونه است. یک بافر حاوی دو نمونه آخر در سیگنال ورودی و بافر دیگر شامل دو نمونه آخر در سیگنال خروجی است. مقدار حاصل از جمع پنج مقدار بدست می آید: نمونه فعلی و نمونه های هر دو بافر ضرب در ضرایب از پیش محاسبه شده. ضرایب این فیلتر مستقیما تنظیم نمی شود، بلکه از پارامترهای فرکانس، ضریب کیفیت (Q) و بهره محاسبه می شود.

تمام نمودارهای زیر محدوده فرکانس 20 هرتز تا 20000 هرتز را نمایش می دهند. محور افقی فرکانس را نشان می دهد، یک مقیاس لگاریتمی در امتداد آن اعمال می شود، محور عمودی - بزرگی (نمودار زرد) از 0 تا 2، یا تغییر فاز (گراف سبز) از -Pi به Pi. فرکانس تمام فیلترها (632 هرتز) با خط قرمز روی نمودار مشخص شده است.

پایین گذار

برنج. 8. فیلتر پایین گذر.

فقط فرکانس های زیر فرکانس تنظیم شده را عبور می دهد. فیلتر بر اساس فرکانس و فاکتور کیفیت تنظیم می شود.

مرتفع گذر

برنج. 9. فیلتر مرتفع.

مانند lowpass عمل می کند، با این تفاوت که فرکانس های بالاتر از فرکانس مشخص شده را ارسال می کند، نه پایین تر.

پاس باند

برنج. 10. فیلتر باند گذر.

این فیلتر انتخابی تر است - فقط از یک باند فرکانسی خاص عبور می کند.

شکاف

برنج. 11. فیلتر ناچ.

این برعکس باند گذر است - همه فرکانس ها را خارج از باند داده شده عبور می دهد. با این حال، شایان ذکر است که تفاوت در منحنی های میرایی ضربه و ویژگی های فاز این فیلترها وجود دارد.

قفسه پایین

برنج. 12. فیلتر پایین قفسه.

این یک نسخه "هوشمند" تر از highpass است - فرکانس های پایین تر از تنظیم شده را تقویت یا کاهش می دهد، فرکانس های بالا را بدون تغییر عبور می دهد. فیلتر بر اساس فرکانس و بهره تنظیم می شود.

قفسه بالا

برنج. 13. فیلتر قفسه بالا.

یک نسخه هوشمندتر از lowpass - فرکانس های بالاتر از یک مورد خاص را تقویت یا کاهش می دهد، فرکانس های پایین را بدون تغییر عبور می دهد.

اوج گرفتن

برنج. 14. فیلتر پیکینگ.

این یک نسخه "هوشمند" تر از ناچ است - فرکانس ها را در یک محدوده معین تقویت یا کاهش می دهد و بقیه فرکانس ها را بدون تغییر عبور می دهد. فیلتر بر اساس فرکانس، بهره و فاکتور کیفیت تنظیم می شود.

فیلتر همه پاس

برنج. 15. فیلتر Allpass.

Allpass با بقیه متفاوت است - ویژگی های دامنه سیگنال را تغییر نمی دهد، در عوض باعث تغییر فاز فرکانس های داده شده می شود. فیلتر بر اساس فرکانس و فاکتور کیفیت تنظیم می شود.

فیلتر WaveShaperNode

Waveshaper () برای ایجاد جلوه های پیچیده اعوجاج صدا استفاده می شود، به ویژه، می توان از آن برای اجرای جلوه های "اعوجاج"، "overdrive" و "fuzz" استفاده کرد. این فیلتر عملکرد شکل دهی خاصی را به سیگنال ورودی اعمال می کند. اصول ساخت چنین توابعی کاملاً پیچیده است و نیاز به مقاله جداگانه ای دارد، بنابراین من از شرح آنها صرف نظر می کنم.

فیلتر ConvolverNode

فیلتری که به صورت خطی سیگنال ورودی را با یک بافر صوتی که پاسخ ضربه ای مشخصی را تعریف می کند، پیچش می دهد. پاسخ ضربه ای پاسخ یک سیستم به یک تکانه است. به زبان ساده، این را می توان «عکس» صدا نامید. اگر یک عکس واقعی حاوی اطلاعاتی در مورد امواج نور، نحوه انعکاس، جذب و تعامل آنها باشد، پاسخ ضربه حاوی اطلاعات مشابهی در مورد امواج صوتی است. پیچیدگی یک جریان صوتی با چنین "عکسی" تأثیرات محیطی را که در آن پاسخ ضربه ای روی سیگنال ورودی گرفته شده است، تحمیل می کند.

برای اینکه این فیلتر کار کند، سیگنال باید به اجزای فرکانس تجزیه شود. این تجزیه با کمک (متاسفانه در ویکی پدیای روسی زبان کاملاً خالی است، ظاهراً برای افرادی نوشته شده است که قبلاً می دانند FFT چیست و می توانند همان مقاله خالی را خودشان بنویسند) انجام می شود. همانطور که در مقدمه گفتم، در این مقاله به ریاضیات FFT نمی پردازم، اما ذکر نکردن الگوریتم سنگ بنا برای پردازش سیگنال دیجیتال اشتباه است.

این فیلتر افکت Reverb را پیاده سازی می کند. کتابخانه های زیادی از بافرهای صوتی آماده برای این فیلتر وجود دارد که افکت های مختلف ( , ) را پیاده سازی می کنند، چنین کتابخانه هایی در صورت درخواست به خوبی در دسترس هستند.