چه پارامترهایی کیفیت صدای دیجیتال را تعیین می کنند. فرمت ها: صدای دیجیتال چگونه است کیفیت صدای دیجیتالی به آن بستگی دارد

صدااین موجی است که اغلب در هوا، آب یا رسانه های دیگر با شدت و فرکانس در حال تغییر مداوم منتشر می شود.

شخص می تواند امواج صوتی (ارتعاشات هوا) را با کمک شنیدن به شکل صدا درک کند و در عین حال صدا و تن را تشخیص دهد.

بیشتر شدتموج صوتی، هر چه صدا بلندتر باشد، فرکانس موج بالاتر، تن صدا بالاتر می رود.

وابستگی بلندی صدا و همچنین زیر و بمی صدا به شدت و فرکانس موج صوتی

هرتز(با هرتز یا هرتز مشخص می شود) - واحد اندازه گیری فرکانس فرآیندهای دوره ای (به عنوان مثال، نوسانات). 1 هرتز یعنی یک اجرای چنین فرآیندی در یک ثانیه: 1 هرتز = 1/s.

اگر 10 هرتز داشته باشیم، این بدان معناست که ده اجرای چنین فرآیندی را در یک ثانیه داریم.

گوش انسان می تواند صدا را در فرکانس هایی از 20 ارتعاش در ثانیه (20 هرتز، صدای کم) تا 20000 ارتعاش در ثانیه (20 کیلوهرتز، صدای بالا) درک کند.

علاوه بر این، یک فرد می تواند صدا را در طیف وسیعی از شدت ها درک کند که در آن حداکثر شدت 1014 برابر بیشتر از حداقل (صد هزار میلیارد بار) است.

برای اندازه گیری بلندی صدا، یک واحد ویژه اختراع و مورد استفاده قرار گرفت. دسی بل" (دسی بل)

کاهش یا افزایش 10 دسی بل حجم صدا به کاهش یا افزایش 10 برابری شدت صدا مربوط می شود.

حجم صدا بر حسب دسی بل

برای اینکه سیستم‌های رایانه‌ای بتوانند صدا را پردازش کنند، یک سیگنال صوتی پیوسته باید با استفاده از نمونه‌گیری زمانی به شکل دیجیتال و گسسته تبدیل شود.

برای انجام این کار، یک موج صوتی پیوسته به بخش های زمانی کوچک جداگانه تقسیم می شود، برای هر یک از این بخش ها مقدار مشخصی از شدت صدا تنظیم می شود.

بنابراین، وابستگی مداوم بلندی صدا به زمان A(t) با یک توالی مجزا از سطوح بلندی صدا جایگزین می شود. در نمودار، به نظر می رسد که یک منحنی صاف را با دنباله ای از "گام ها" جایگزین کنید.

نمونه گیری صوتی زمانی

یک میکروفون متصل به کارت صدا برای ضبط صدای آنالوگ و تبدیل آن به فرم دیجیتال استفاده می شود.

هرچه نوارهای مجزا روی نمودار متراکم تر باشند، نتیجه بهتری برای بازسازی صدای اصلی خواهد بود.

کیفیت صدای دیجیتال دریافتی به تعداد اندازه‌گیری‌های سطح حجم صدا در واحد زمان، یعنی نرخ نمونه‌برداری بستگی دارد.

نرخ نمونه برداری صوتیتعداد اندازه گیری های حجم صدا در یک ثانیه است.

هرچه اندازه گیری های بیشتری در یک ثانیه انجام شود (هر چه میزان نمونه برداری بیشتر باشد)، "نردبان" سیگنال صوتی دیجیتال با دقت بیشتری منحنی سیگنال آنالوگ را تکرار می کند.

به هر "گام" در نمودار مقدار مشخصی از سطح حجم صدا اختصاص داده می شود. سطوح صدای صدا را می توان به عنوان مجموعه ای از حالت های ممکن در نظر گرفت ن(درجه بندی)، که برای رمزگذاری به مقدار معینی از اطلاعات نیاز دارند منکه به آن عمق کدگذاری صوتی می گویند.

عمق رمزگذاری صدامقدار اطلاعات مورد نیاز برای رمزگذاری سطوح بلندی صدای دیجیتال گسسته است.

اگر عمق رمزگذاری مشخص باشد، تعداد سطوح صدای دیجیتال را می توان با استفاده از فرمول کلی محاسبه کرد N = 2 I.

به عنوان مثال، اگر عمق رمزگذاری صدا 16 بیت باشد، تعداد سطوح صدای صدا برابر است با:

N = 2 I = 2 16 = 65536.

در طی فرآیند رمزگذاری، به هر سطح حجم صدا، کد باینری 16 بیتی خود اختصاص داده می شود، کمترین سطح صدا با کد 00000000000000000 و بالاترین - 1111111111111111 مطابقت دارد.

کیفیت صدای دیجیتالی شده

بنابراین، هر چه فرکانس نمونه برداری و عمق کدگذاری صدا بیشتر باشد، کیفیت صدای دیجیتالی بهتر خواهد بود و بهتر می توان صدای دیجیتالی شده را به صدای اصلی نزدیک کرد.

کمترین کیفیت صدای دیجیتالی، مربوط به کیفیت ارتباط تلفنی، با نرخ نمونه برداری 8000 بار در ثانیه، عمق نمونه برداری 8 بیت و ضبط یک آهنگ صوتی (حالت "مونو") به دست می آید.

بالاترین کیفیت صدای دیجیتالی شده، مطابق با کیفیت یک سی دی صوتی، با نرخ نمونه برداری 48000 بار در ثانیه، عمق نمونه برداری 16 بیت و ضبط دو تراک صوتی (حالت استریو) به دست می آید.

باید به خاطر داشت که هر چه کیفیت صدای دیجیتال بالاتر باشد حجم اطلاعات فایل صوتی بیشتر می شود.

شما به راحتی می توانید حجم اطلاعات یک فایل صوتی دیجیتال استریو 1 ثانیه ای را با کیفیت صدای متوسط (16 بیت، 24000 نمونه در ثانیه) تخمین بزنید. برای انجام این کار، عمق رمزگذاری باید در تعداد اندازه گیری ها در 1 ثانیه ضرب شود و در 2 کانال (صدای استریو) ضرب شود:

16 بیت × 24000 × 2 = 768000 بیت = 96000 بایت = 93.75 کیلوبایت.

ویرایشگرهای صدا

ویرایشگرهای صدا به شما این امکان را می دهند که نه تنها صدا را ضبط و پخش کنید، بلکه آن را نیز ویرایش کنید. برجسته ترین را می توان با خیال راحت نامید، مانند سونی ساند فورج, Adobe Audition, موج طلاییو دیگران.

صدای دیجیتالی در ویرایشگرهای صدا به صورت تصویری واضح ارائه می شود، بنابراین عملیات کپی، جابجایی و حذف قسمت های یک آهنگ صوتی را می توان به راحتی با استفاده از ماوس کامپیوتر انجام داد.

علاوه بر این، می‌توانید آهنگ‌های صوتی را روی هم قرار دهید (صداها را مخلوط کنید) و جلوه‌های صوتی مختلف (اکو، پخش معکوس و غیره) را اعمال کنید.

ویرایشگرهای صدا به شما این امکان را می دهند که کیفیت صدای دیجیتال و حجم فایل صوتی نهایی را با تغییر نرخ نمونه برداری و عمق کدگذاری تغییر دهید. صدای دیجیتالی را می توان بدون فشرده سازی به عنوان فایل های صوتی در فرمت جهانی WAV (فرمت مایکروسافت) یا در فرمت های فشرده OGG، MP3 (از دست دادن) ذخیره کرد.
فرمت های کمتر رایج اما قابل توجه با فشرده سازی بدون تلفات نیز در دسترس هستند.

هنگام ذخیره صدا در فرمت های فشرده، فرکانس های صوتی با شدت پایین که برای ادراک انسان نامحسوس و نامحسوس ("بیش از حد") هستند، همزمان با فرکانس های صوتی با شدت بالا، کنار گذاشته می شوند. استفاده از این فرمت به شما امکان می دهد فایل های صوتی را ده ها بار فشرده کنید، اما منجر به از دست دادن غیرقابل برگشت اطلاعات می شود (فایل ها را نمی توان به شکل اصلی و اصلی خود بازیابی کرد).

بیت ها، هرتز، به هم ریختگی شکل...

چه چیزی در پس این مفاهیم نهفته است؟ هنگام توسعه استاندارد دیسک فشرده صوتی (CD Audio)، مقادیر گرفته شد 44 کیلوهرتز، 16 بیت و 2 کانال (یعنی استریو). دقیقا چرا اینقدر زیاد؟ دلیل این انتخاب چیست و همچنین چرا تلاش می شود تا این مقادیر را مثلاً به 96 کیلوهرتز و 24 یا حتی تا 32 بیت افزایش دهند ...

بیایید ابتدا به وضوح نمونه برداری بپردازیم - یعنی با عمق بیت. اتفاقاً باید بین اعداد 16، 24 و 32 انتخاب کنید. مقادیر متوسط البته از نظر صدا راحت تر هستند، اما برای استفاده در فناوری دیجیتال بسیار ناخوشایند هستند (مقادیر نسبتاً بحث برانگیز بیانیه، با توجه به اینکه بسیاری از ADC ها دارای خروجی دیجیتال 11 یا 12 بیتی هستند - یادداشت وضعیت).

این پارامتر مسئول چیست؟ به طور خلاصه - برای محدوده دینامیکی. محدوده ولوم های بازتولید شده به طور همزمان از حداکثر دامنه (0 دسی بل) تا کوچکترین دامنه ای است که وضوح اجازه می دهد، به عنوان مثال، حدود منهای 93 دسی بل برای صدای 16 بیتی. به اندازه کافی عجیب، این به شدت به سطح نویز گرامافون مرتبط است. در اصل، برای صدای 16 بیتی، انتقال سیگنال هایی با توان -120 دسی بل کاملاً امکان پذیر است، با این حال، به دلیل مفهوم اساسی مانند استفاده از این سیگنال ها در عمل دشوار خواهد بود. نویز نمونه برداری. واقعیت این است که هنگام گرفتن مقادیر دیجیتال، ما همیشه اشتباه می کنیم و مقدار واقعی آنالوگ را به نزدیکترین مقدار دیجیتال ممکن گرد می کنیم. کوچکترین خطای ممکن صفر است، اما حداکثر خطا نصف رقم آخر است (بیت، از این پس عبارت LSB به اختصار MB خواهد شد). این خطا به اصطلاح نویز نمونه برداری را به ما می دهد - یک اختلاف تصادفی بین سیگنال دیجیتالی و اصلی. این نویز ثابت است و حداکثر دامنه برابر با نصف رقم کم اهمیت دارد. این را می توان به عنوان مقادیر تصادفی در یک سیگنال دیجیتال در نظر گرفت. گاهی اوقات به این نویز گرد کردن یا کوانتیزاسیون می گویند (که نام دقیق تری است، زیرا کدگذاری دامنه کوانتیزه نامیده می شود، و نمونه برداری فرآیند تبدیل یک سیگنال پیوسته به یک توالی گسسته (پالسی) است - تقریباً حالت.).

اجازه دهید با جزئیات بیشتری در مورد اینکه منظور از قدرت سیگنال، اندازه گیری شده در بیت است، صحبت کنیم. قوی‌ترین سیگنال در پردازش صدای دیجیتال معمولاً 0 دسی‌بل در نظر گرفته می‌شود که مربوط به همه بیت‌های تنظیم‌شده روی 1 است. که مربوط به کاهش سطح 6 دسی بل است (10 * log(2) = 6). بنابراین، با صفر کردن واحدها از بالاترین به پایین ترین رقم، سطح سیگنال را شش دسی بل کاهش می دهیم. واضح است که حداقل سطح سیگنال (یک در کمترین رقم، و همه ارقام دیگر صفر هستند) (N-1) * 6 دسی بل است که در آن N عمق بیت نمونه است. برای 16 بیت، ما سطح ضعیف ترین سیگنال را دریافت می کنیم - 90 دسی بل.

وقتی می گوییم "نیمی از LSB"، منظور ما 90/2- نیست، بلکه نیمی از گام به بیت بعدی است - یعنی 3 دسی بل دیگر پایین تر، منهای 93 دسی بل.

ما به انتخاب رزولوشن دیجیتالی شدن باز می گردیم. همانطور که قبلاً ذکر شد، دیجیتالی کردن نویز را در سطح نیمی از کمترین رقم ایجاد می کند، به این معنی که یک رکورد در 16 بیت دیجیتالی می شود. مدام سر و صدا می کنددر منفی 93 دسی بل. می‌تواند سیگنال‌ها را حتی آرام‌تر ارسال کند، اما نویز همچنان در -93 دسی‌بل باقی می‌ماند. بر این اساس، محدوده دینامیکی صدای دیجیتال تعیین می شود - جایی که نسبت سیگنال به نویز به نویز / سیگنال تبدیل می شود (نویز بیشتری نسبت به سیگنال مفید وجود دارد)، حد پایین این محدوده قرار دارد. بدین ترتیب، اصلیمعیار دیجیتالی شدن - چقدر سر و صداآیا می توانیم سیگنال بازیابی شده را بپردازیم؟ پاسخ به این سوال تا حدی به میزان نویز در ضبط اصلی بستگی دارد. نکته مهم این است که اگر ما چیزی را با منهای 80 دسی بل دیجیتالی کنیم، مطلقاً دلیلی برای دیجیتالی کردن آن با بیش از 16 بیت وجود ندارد، زیرا از یک طرف، نویز -93 دسی بل بسیار کمی به صدای بسیار زیاد (نسبتا) اضافه می کند - نویز 80 دسی بل، و از سوی دیگر - در خود فونوگرام آرام تر از -80 دسی بل، نویز / سیگنال از قبل شروع می شود و به سادگی دیجیتالی کردن و انتقال چنین سیگنالی ضروری نیست.

از نظر تئوری، این تنها معیار برای انتخاب رزولوشن دیجیتالی است. بیشتر ما سهیم نباشیدمطلقاً هیچ تحریف یا نادرستی وجود ندارد. تمرین، به اندازه کافی عجیب، تقریباً به طور کامل نظریه را تکرار می کند. این همان چیزی است که آن دسته از افرادی را که وضوح 16 بیتی را برای سی دی های صوتی انتخاب کردند راهنمایی کرد. نویز منهای 93 دسی بل وضعیت بسیار خوبی است که تقریباً دقیقاً با شرایط درک ما مطابقت دارد: تفاوت بین آستانه درد (140 دسی بل) و صدای معمول پس زمینه در شهر (30-50 دسی بل) فقط حدود صد است. دسی بل، و با توجه به اینکه در سطح صدایی که باعث درد می شود، به موسیقی گوش نمی دهند - که دامنه را حتی بیشتر محدود می کند - معلوم می شود که صداهای واقعی اتاق یا حتی تجهیزات بسیار قوی تر از نویز کوانتیزاسیون هستند. اگر بتوانیم سطحی زیر منفی 90 دسی بل را در یک ضبط دیجیتال بشنویم، نویز کوانتیزاسیون را می شنویم و درک می کنیم، در غیر این صورت به سادگی هرگز تعیین نمی کنیم که این صدا دیجیتالی است یا زنده. به سادگی هیچ تفاوت دیگری از نظر محدوده دینامیکی وجود ندارد. اما در اصل، یک فرد می تواند به طور معناداری در محدوده 120 دسی بل بشنود، و خوب است که کل محدوده را حفظ کند، که به نظر می رسد 16 بیت قادر به مقابله با آن نیستند.

اما این فقط در نگاه اول است: با کمک یک تکنیک خاص به نام به هم ریختگی شکل، می توانید طیف فرکانس نویز نمونه برداری را تغییر دهید، تقریباً به طور کامل آنها را به منطقه بیش از 7-15 کیلوهرتز منتقل کنید. به نظر می رسد که ما در حال تغییر وضوح فرکانس (خودداری از بازتولید فرکانس های بالای آرام) برای یک محدوده دینامیکی اضافی در محدوده فرکانس باقیمانده هستیم. در ترکیب با ویژگی‌های شنوایی ما - حساسیت ما به ناحیه فرکانس بالا ده‌ها دسی‌بل کمتر از ناحیه اصلی (2-4 کیلوهرتز) است - این امکان انتقال سیگنال‌های مفید نسبتاً بی‌صدا را به میزان 10 افزایش می‌دهد. -20 دسی بل ساکت تر از -93 دسی بل - بنابراین، محدوده دینامیکی صدای 16 بیتی برای یک فرد حدود 110 دسی بل است. و به طور کلی - در عین حال، یک فرد به سادگی نمی تواند صداهایی را 110 دسی بل آرام تر از صدای بلندی که تازه شنیده شده بشنود. گوش، مانند چشم، با حجم واقعیت اطراف تنظیم می شود، بنابراین دامنه شنوایی همزمان ما نسبتاً کوچک است - حدود 80 دسی بل. بیایید پس از بحث در مورد جنبه های فرکانس در مورد دیترینگ با جزئیات بیشتری صحبت کنیم.

برای سی دی ها، نرخ نمونه 44100 هرتز است. نظری وجود دارد (بر اساس سوء تفاهم از قضیه Kotelnikov-Nyquist) که تمام فرکانس ها تا 22.05 کیلوهرتز بازتولید می شوند ، اما این کاملاً درست نیست. ما فقط می توانیم به صراحت بگوییم که هیچ فرکانس بالاتر از 22.05 کیلوهرتز در سیگنال دیجیتالی وجود ندارد. تصویر واقعی از بازتولید صدای دیجیتالی همیشه به این بستگی دارد تکنیک خاصو همیشه آنطور که ما دوست داریم کامل نیست و با نظریه سازگار نیست. همه چیز به DAC خاص (مبدل دیجیتال به آنالوگ مسئول دریافت سیگنال صوتی از یک دنباله دیجیتال) بستگی دارد.

بیایید ابتدا بفهمیم که چه چیزی را می خواهیم دریافت کنیم. یک فرد میانسال (بسیار جوان) می تواند صداهایی از 10 هرتز تا 20 کیلوهرتز را احساس کند، شنیدن آن معنادار است - از 30 هرتز تا 16 کیلوهرتز. صداهای بالا و پایین درک می شوند، اما یک حس آکوستیک ایجاد نمی کنند. صداهای بالای 16 کیلوهرتز به عنوان یک عامل ناخوشایند آزاردهنده احساس می شوند - فشار روی سر، درد، به خصوص صداهای بلند چنان ناراحتی شدیدی را به همراه دارد که می خواهید اتاق را ترک کنید. احساسات ناخوشایند آنقدر قوی هستند که عملکرد دستگاه های امنیتی بر این اساس است - چند دقیقه صدای بسیار بلند با فرکانس بالا هر کسی را دیوانه می کند و دزدیدن چیزی در چنین محیطی کاملاً غیرممکن می شود. صداهای زیر 30 تا 40 هرتز با دامنه کافی به عنوان ارتعاش ناشی از اجسام (بلندگوها) درک می شوند. در عوض، حتی می توان چنین گفت - فقط یک ارتعاش. یک فرد تقریباً از نظر آکوستیک موقعیت مکانی چنین صداهای کم را تعیین نمی کند ، بنابراین سایر اندام های حسی در حال حاضر استفاده می شوند - لمسی ، ما چنین صداهایی را با بدن خود احساس می کنیم.

با فرکانس های بالا، همه چیز کمی بدتر است، حداقل مطمئنا سخت تر. تقریباً تمام جوهره پیشرفت ها و عوارض DAC و ADC دقیقاً در انتقال قابل اطمینان تر فرکانس های بالا است. منظور ما از "بالا" فرکانس های قابل مقایسه با فرکانس نمونه برداری است - یعنی در مورد 44.1 کیلوهرتز، این فرکانس 7-10 کیلوهرتز و بالاتر است.

یک سیگنال سینوسی با فرکانس 14 کیلوهرتز، دیجیتالی شده با نرخ نمونه برداری 44.1 کیلوهرتز را تصور کنید. حدود سه نقطه (شمارش) برای یک دوره از سینوسی ورودی وجود دارد و برای بازگرداندن فرکانس اصلی به صورت سینوسی، باید کمی تخیل نشان دهید. فرآیند بازیابی شکل موج از نمونه ها نیز در DAC اتفاق می افتد، این کار توسط فیلتر بازیابی انجام می شود. و اگر فرکانس‌های نسبتاً پایین تقریباً سینوسی‌های آماده باشند، شکل و بر این اساس، کیفیت بازیابی فرکانس‌های بالا کاملاً بر عهده سیستم بازیابی DAC است. بنابراین، فرکانس سیگنال به یک ثانیه نزدیک‌تر است. فرکانس نمونه برداری، بازیابی شکل سیگنال دشوارتر است.

این مشکل اصلی در هنگام بازتولید فرکانس های بالا است. اما مشکل آنقدرها هم که به نظر می رسد بد نیست. همه DACهای مدرن از فناوری چند نرخی استفاده می کنند که شامل بازیابی دیجیتالی به نرخ نمونه برداری چند برابر بالاتر و سپس تبدیل آن به سیگنال آنالوگ با فرکانس افزایش یافته است. بنابراین مشکل بازگرداندن فرکانس‌های بالا به دوش فیلترهای دیجیتالی منتقل می‌شود که می‌تواند کیفیت بسیار بالایی داشته باشد. آنقدر کیفیت بالا که در مورد دستگاه های گران قیمت مشکل دارد به طور کاملحذف شده - تولید مثل بدون تحریف فرکانس ها تا 19-20 کیلوهرتز را فراهم می کند. نمونه برداری مجدد در دستگاه های نه چندان گران قیمت نیز استفاده می شود، بنابراین در اصل می توان این مشکل را نیز حل شده در نظر گرفت. دستگاه‌های بین 30 تا 60 دلار (کارت‌های صدا) یا مراکز موسیقی تا 600 دلار، که معمولاً در DAC مشابه این کارت‌های صدا هستند، فرکانس‌هایی را تا 10 کیلوهرتز، تا 14 تا 15 و به نوعی بقیه را کاملاً بازتولید می‌کنند. این کاملابرای اکثر برنامه های موسیقی واقعی کافی است، و اگر کسی به کیفیت بیشتری نیاز داشته باشد - آن را در دستگاه های حرفه ای پیدا می کند که خیلی گران تر نیستند - آنها فقط هوشمندانه ساخته شده اند.

برگردیم به dithering، بیایید ببینیم چگونه می‌توانیم به طور مفید محدوده دینامیکی را بیش از 16 بیت افزایش دهیم.

ایده dithering مخلوط کردن با سیگنال است سر و صدا. ممکن است عجیب به نظر برسد، برای کاهش نویز و اثرات کوانتیزاسیون ناخوشایند، ما اضافه کردنسر و صدای شما بیایید یک مثال را در نظر بگیریم - اجازه دهید از توانایی CoolEdit برای کار در 32 بیت استفاده کنیم. 32 بیت 65 هزار برابر دقیق تر از 16 بیت است، بنابراین در مورد ما، 32 بیت را می توان یک آنالوگ اصلی در نظر گرفت و تبدیل آن به 16 بیت دیجیتالی است. بگذارید بالاترین سطح صدا در صدای 32 بیتی اصلی منهای 110 دسی بل باشد. این مقدار بسیار کم صداتر از محدوده دینامیکی صدای 16 بیتی است که ضعیف ترین صدای قابل شنیدن برای آن منهای 90 دسی بل است. بنابراین، اگر به سادگی داده ها را به 16 بیت گرد کنیم، به سکوت دیجیتال کامل خواهیم رسید.

بیایید نویز "سفید" را به سیگنال اضافه کنیم (یعنی پهنای باند و یکنواخت در کل باند فرکانس) با سطح منهای 90 دسی بل که تقریباً از نظر سطح نویز کوانتیزاسیون مطابقت دارد. حال، اگر این مخلوط سیگنال و نویز "سفید" را به 16 بیت تبدیل کنیم (فقط مقادیر صحیح ممکن است - 0، 1، -1، ...)، معلوم می شود که بخشی از سیگنال باقی می ماند. در جایی که سیگنال اصلی دارای سطح بالاتری بود، تعداد بیشتری وجود دارد، جایی که سیگنال پایین‌تر صفر است.

برای تأیید آزمایشی روش فوق، می توانید از ویرایشگر صوتی Cool Edit (یا هر دیگری که از فرمت 32 بیتی پشتیبانی می کند) استفاده کنید. برای شنیدن آنچه اتفاق می افتد، باید سیگنال را 14 بیت (78 دسی بل) تقویت کنید.

نتیجه صدای نویز 16 بیتی حاوی سیگنال اصلی است که منهای 110 دسی بل بود. در اصل، این روش استاندارد برای گسترش دامنه دینامیکی است که اغلب به خودی خود مشخص می شود - سر و صدای کافی در همه جا وجود دارد. با این حال، این به خودی خود بی معنی است - سطح نویز نمونه گیری در همان سطح باقی می ماند، و انتقال سیگنال ضعیف تر از نویز از نقطه نظر منطقی چندان واضح نیست ... (نظر بسیار اشتباه، از زمان ارسال یک سیگنال با سطح کمتر از نویز سطح، یکی از روش های اساسی رمزگذاری داده ها است.

راه پیچیده تر - به هم ریختگی شکل، در این واقعیت نهفته است که از آنجایی که هنوز فرکانس های بالا را در صداهای بسیار آرام نمی شنویم، به این معنی است که قدرت اصلی نویز باید به این فرکانس ها هدایت شود، در حالی که حتی می توانید از نویز سطح بالاتر استفاده کنید - من استفاده خواهم کرد. سطح 4 رقم کم اهمیت (دو بیت در سیگنال 16 بیتی). مخلوط حاصل از سیگنال و نویز 32 بیتی را به یک سیگنال 16 بیتی تبدیل می کنیم، فرکانس های بالا (که واقعاً توسط گوش درک نمی شود) را فیلتر می کنیم و سطح سیگنال را افزایش می دهیم تا بتوانیم نتیجه را ارزیابی کنیم.

این در حال حاضر بسیار خوب (برای حجم بسیار کم) انتقال صدا است، نویز تقریباً از نظر قدرت با خود صدا با سطح اولیه منفی 110 دسی بل برابر است! نکته مهم: ما مطرح کردنویز واقعی نمونه برداری از نصف بیت کم اهمیت (93- دسی بل) تا چهار بیت کم اهمیت (84- دسی بل) تنزل دادننویز نمونه برداری قابل شنیدن از -93dB تا حدود -110dB. نسبت سیگنال به نویز بدتر شد، اما سر و صدا به منطقه فرکانس بالا رفت و دیگر قابل شنیدن نبود که باعث شد بهبود قابل توجه در واقعینسبت سیگنال به نویز (قابل درک انسان).

(به عبارت دیگر، از آنجایی که قدرت نویز، همانطور که بود، در محدوده فرکانس "لکه دار" است، بدون اینکه فرکانس های بالایی را از دست بدهیم، بخشی از توان را از آن می گیریم، در نتیجه سیگنال به -نسبت نویز در نمایش زمانی سیگنال ها بهبود می یابد - تقریباً آمار)

در عمل، این سطح نویز نمونه برداری صوتی 20 بیتی است. تنها شرط این فناوری وجود فرکانس برای نویز است. صدای 44.1 کیلوهرتز امکان قرار دادن نویز در فرکانس‌های 10-20 کیلوهرتز را فراهم می‌کند که با صدای آرام غیرقابل شنیدن هستند. اما اگر با فرکانس 96 کیلوهرتز دیجیتالی کنید، دامنه فرکانس نویز (برای انسان غیرقابل شنیدن) آنقدر بزرگ خواهد بود که هنگام استفاده از دیترینگ شکلی 16 بیت واقعاتبدیل به همه 24.

[توجه: اسپیکر PC یک دستگاه یک بیتی است، اما با حداکثر نرخ نمونه برداری نسبتاً بالا (روشن/خاموش آن تک بیت). با استفاده از فرآیندی شبیه به دیترینگ، به نام مدولاسیون نسبتاً عرض پالس، صدای دیجیتال کاملاً باکیفیت روی آن پخش شد - 5-8 بیت فرکانس پایین از یک بیت خارج شد و نرخ نمونه برداری بالا و عدم توانایی تجهیزاتی برای بازتولید چنین فرکانس های بالایی و همچنین ناتوانی ما در شنیدن آنها. با این حال، یک سوت کمی با فرکانس بالا - قسمت قابل شنیدن این صدا - قابل شنیدن بود.]

بنابراین، دیترینگ شکلی به شما امکان می‌دهد تا نویز نمونه‌برداری کم صداهای ۱۶ بیتی را به میزان قابل توجهی کاهش دهید، بنابراین بی‌صدا محدوده دینامیکی مفید (بی‌صدا) را افزایش دهید. همهحوزه شنوایی انسان از آنجایی که اکنون دیترینگ شکلی همیشه هنگام ترجمه از فرمت کاری 32 بیتی به 16 بیت نهایی برای یک سی دی استفاده می شود، 16 بیت ما برای انتقال کامل یک تصویر صوتی کاملاً کافی است.

لازم به ذکر است که این فناوری فقط در مرحله آماده سازی مواد برای پخش عمل می کند. هنگام پردازش صدای با کیفیت بالا، به سادگی لازم استدر 32 بیت بمانید تا بعد از هر عملیات از دود شدن جلوگیری کنید، کدگذاری بهتر به 16 بیت باز می گردد. اما اگر سطح نویز گرامافون بیش از منفی 60 دسی بل باشد، می توانید بدون کوچکترین وجدان، تمام پردازش ها را در 16 بیت انجام دهید. انحراف متوسط تضمین می کند که هیچ اعوجاج گردی وجود ندارد و نویز اضافه شده توسط آن خواهد بود صدها بارضعیف تر از موجود و بنابراین کاملاً بی تفاوت.

س:

چرا می گویند صدای 32 بیتی بهتر از 16 بیتی است؟
A1:	آنها اشتباه می کنند.
A2:	[معنای آنها کمی متفاوت است: هنگام پردازش یا ضبط صدا نیاز بهاز وضوح بالاتر استفاده کنید از آن استفاده می کنند همیشه. اما در صدا مانند محصول نهایی، وضوح بیش از 16 بیت مورد نیاز نیست.]

س:	آیا افزایش نرخ نمونه برداری (مثلا تا 48 کیلوهرتز یا تا 96) منطقی است؟
A1:	ندارد. حداقل با روشی شایسته در طراحی DAC 44 کیلوهرتز ارسال می کند تماممحدوده فرکانس مورد نظر
A2:	[معنای آنها کمی متفاوت است: منطقی است، اما فقط هنگام پردازش یا ضبط صدا.]

س:	چرا معرفی فرکانس های بالا و بیتنس همچنان ادامه دارد؟
A1:	برای پیشرفت حرکت مهم است. کجا و چرا - چندان مهم نیست ...
A2:	بسیاری از فرآیندها در این مورد آسان تر هستند. به عنوان مثال، اگر دستگاه قرار است صدا را پردازش کند، انجام این کار در 96 کیلوهرتز / 32 بیت برای او آسان تر خواهد بود. تقریباً همه DSP ها از 32 بیت برای پردازش صدا استفاده می کنند و توانایی فراموش کردن تبدیل ها یک پیشرفت آسان تر است و همچنان کیفیت کمی افزایش می یابد. و به طور کلی - صدا برای پردازش بیشتر این داردبه معنی ذخیره در وضوح بالاتر از 16 بیت. برای دستگاه های پیشرفته ای که فقط صدا پخش می کنند، این است کاملابي تفاوت.

س:	آیا DACهای 32x یا 24x یا حتی 18 بیتی بهتر از 16 بیتی هستند؟
آ:	به طور کلی - خیر. کیفیت تبدیل اصلاً به عمق بیت بستگی ندارد. کدک AC "97 (یک کارت صدای مدرن زیر 50 دلار) از یک کدک 18 بیتی استفاده می کند و کارت های 500 دلاری که حتی نمی توان صدای آنها را با این مزخرفات مقایسه کرد، از 16 بیت استفاده می کند. هیچ تفاوتی با پخش صدای 16 بیتی ندارد.. همچنین شایان ذکر است که اکثر DAC ها معمولاً بیت های کمتری را نسبت به آنچه می گیرند پخش می کنند. به عنوان مثال، سطح نویز واقعی یک کدک ارزان معمولی -90 دسی بل است که 15 بیت است، و حتی اگر خود 24 بیت باشد - شما هیچ بازگشتی به 9 بیت "اضافی" نخواهید داشت - نتیجه کار آنها ، حتی اگر در دسترس بود، در سر و صدای خودشان غرق می شوند. اکثر دستگاه های ارزان قیمت فقط هستند چشم پوشیبیت های اضافی - آنها واقعاً در فرآیند سنتز صدای خود حساب نمی شوند، اگرچه به ورودی دیجیتال DAC می روند.

س:	و برای ثبت؟
آ:	برای ضبط بهتر است ADC با ظرفیت بیشتر داشته باشید. باز هم بیشتر واقعیعمق بیت عمق بیت DAC باید با سطح نویز گرامافون اصلی مطابقت داشته باشد یا به سادگی برای رسیدن به سطح پایین مورد نظر کافی باشد. سر و صدا. همچنین برای استفاده از محدوده دینامیکی بالاتر برای کنترل سطح ضبط دقیق تر، داشتن کمی عمق بیشتر مفید است. اما به یاد داشته باشید - همیشه باید ضربه بزنید واقعیمحدوده کدک در واقع، یک ADC 32 بیتی، برای مثال، تقریبا به طور کامل است بی معنی، از آنجایی که ده بیت پایین فقط به طور مداوم نویز ایجاد می کنند - بنابراینصدای کم (زیر 200 دسی بل) فقط نمیتونه باشهدر یک منبع موسیقی آنالوگ

ارزش صدای افزایش عمق بیت یا فرکانس نمونه برداری را در مقایسه با سی دی با کیفیت بهتر ندارد. 16bit/44kHz که با دیترینگ شکلی به حداکثر رسیده است، کاملاً قادر است به طور کاملاگر در مورد فرآیند پردازش صدا نباشد، اطلاعاتی را که به آن علاقه مندیم منتقل کنیم. فضا را برای داده های اضافی در مواد نهایی خود هدر ندهید، همانطور که از DVD-Audio با 96 کیلوهرتز/24 بیت آن انتظار کیفیت صدای برتر را نداشته باشید. با یک رویکرد شایسته، هنگام ایجاد صدا در فرمت CD استاندارد، کیفیتی خواهیم داشت که فقط نیازی ندارددر بهبود بیشتر، و مسئولیت ضبط صحیح صدای داده‌های نهایی مدت‌هاست که توسط الگوریتم‌های توسعه‌یافته و افرادی که می‌دانند چگونه از آنها به درستی استفاده کنند، بر عهده گرفته شده است. در چند سال گذشته، دیسک جدیدی را بدون دیترینگ شکل و سایر تکنیک‌ها برای بالا بردن کیفیت صدا به حداکثر نخواهید یافت. بله ، برای افراد تنبل یا ساده تر راحت تر خواهد بود که مواد آماده را در 32 بیت و 96 کیلوهرتز ارائه دهند ، اما از نظر تئوری - آیا ارزش چندین برابر داده های صوتی دارد؟ ..

اطلاعات صدا صوت موجی است که در هوا، آب یا سایر رسانه‌ها با شدت و فرکانس متغیر منتشر می‌شود.

شخص امواج صوتی (ارتعاشات هوا) را با کمک شنوایی به صورت صدا با حجم ها و تن های مختلف درک می کند. هر چه شدت موج صوتی بیشتر باشد، صدا بلندتر باشد، فرکانس موج بیشتر باشد، تن صدا بیشتر می شود (شکل 1.1).

برنج. 1.1. وابستگی بلندی و زیر و بم صدا به شدت و فرکانس موج صوتی

گوش انسان صدا را در فرکانس هایی از 20 ارتعاش در ثانیه (صدای کم) تا 20000 ارتعاش در ثانیه (صدای بالا) درک می کند.

یک فرد می تواند صدا را در طیف وسیعی از شدت ها درک کند که در آن حداکثر شدت 1014 برابر بیشتر از حداقل (صد هزار میلیارد بار) است. برای اندازه گیری حجم صدا از واحد ویژه "دسی بل" (dbl) استفاده می شود (جدول 5.1). کاهش یا افزایش 10 دسی بل حجم صدا به کاهش یا افزایش 10 برابری شدت صدا مربوط می شود.

جدول 5.1. حجم صدا
بلندی صدا بر حسب دسی بل
حد پایین حساسیت گوش انسان 0
خش خش برگ 10
مکالمه 60
بوق ماشین 90
موتور جت 120
آستانه درد 140
نمونه برداری زمانی از صدا برای اینکه کامپیوتر بتواند صدا را پردازش کند، یک سیگنال صوتی پیوسته باید با استفاده از نمونه برداری زمانی به شکل دیجیتال گسسته تبدیل شود. یک موج صوتی پیوسته به بخش های زمانی کوچک جداگانه تقسیم می شود، برای هر بخش مقدار مشخصی از شدت صدا تنظیم می شود.

بنابراین، وابستگی مداوم بلندی صدا به زمان A(t) با یک توالی مجزا از سطوح بلندی صدا جایگزین می شود. در نمودار، به نظر می رسد که یک منحنی صاف را با دنباله ای از "گام ها" جایگزین کنید (شکل 1.2).

برنج. 1.2. نمونه گیری صوتی زمانی

فرکانس نمونه برداری یک میکروفون متصل به کارت صدا برای ضبط صدای آنالوگ و تبدیل آن به فرم دیجیتال استفاده می شود. کیفیت صدای دیجیتال دریافتی به تعداد اندازه گیری سطح حجم صدا در واحد زمان، یعنی فرکانس نمونه برداری بستگی دارد. هرچه اندازه‌گیری‌های بیشتری در یک ثانیه انجام شود (فرکانس نمونه‌برداری بالاتر)، «نردبان» سیگنال صوتی دیجیتال با دقت بیشتری منحنی سیگنال گفتگو را تکرار می‌کند.

نرخ نمونه صدا تعداد اندازه گیری های حجم صدا در یک ثانیه است.

نرخ نمونه برداری صدا می تواند بین 8000 تا 48000 اندازه گیری حجم صدا در ثانیه باشد.

عمق رمزگذاری صدا به هر "گام" مقدار مشخصی از سطح صدای صدا اختصاص داده می شود. سطوح بلندی صدا را می توان به عنوان مجموعه ای از حالت های ممکن N در نظر گرفت که برای رمزگذاری آن مقدار مشخصی از اطلاعات I مورد نیاز است که به آن عمق کدگذاری صدا می گویند.

عمق رمزگذاری صدا مقدار اطلاعات مورد نیاز برای رمزگذاری سطوح بلندی صدای دیجیتال مجزا است.

اگر عمق کدگذاری مشخص باشد، تعداد سطوح صدای دیجیتال را می توان با استفاده از فرمول N = 2I محاسبه کرد. اجازه دهید عمق رمزگذاری صدا 16 بیت باشد، سپس تعداد سطوح بلندی صدا برابر است با:

N = 2I = 216 = 65536.

کیفیت صدای دیجیتالی شده هر چه فرکانس و عمق نمونه برداری صدا بیشتر باشد، کیفیت صدای دیجیتالی بهتر خواهد بود. کمترین کیفیت صدای دیجیتالی، مربوط به کیفیت ارتباط تلفنی، با نرخ نمونه برداری 8000 بار در ثانیه، عمق نمونه برداری 8 بیت و ضبط یک آهنگ صوتی (حالت "مونو") به دست می آید. بالاترین کیفیت صدای دیجیتالی شده، مطابق با کیفیت یک سی دی صوتی، با نرخ نمونه برداری 48000 بار در ثانیه، عمق نمونه برداری 16 بیت و ضبط دو تراک صوتی (حالت استریو) به دست می آید.

باید به خاطر داشت که هر چه کیفیت صدای دیجیتال بالاتر باشد حجم اطلاعات فایل صوتی بیشتر می شود. می توانید حجم اطلاعات یک فایل صوتی دیجیتال استریو با مدت زمان صدای 1 ثانیه را با کیفیت صدای متوسط (16 بیت، 24000 اندازه گیری در ثانیه) تخمین بزنید. برای انجام این کار، عمق رمزگذاری باید در تعداد اندازه گیری ها در هر 1 ثانیه ضرب شود و در 2 ضرب شود (صدای استریو):

16 بیت × 24000 × 2 = 768000 بیت = 96000 بایت = 93.75 کیلوبایت.

ویرایشگرهای صدا ویرایشگرهای صدا به شما این امکان را می دهند که نه تنها صدا را ضبط و پخش کنید، بلکه آن را نیز ویرایش کنید. صدای دیجیتالی شده در ویرایشگرهای صدا به صورت تصویری ارائه می شود، بنابراین عملیات کپی، جابجایی و حذف قسمت هایی از آهنگ صوتی را می توان به راحتی با استفاده از ماوس انجام داد. علاوه بر این، می توانید آهنگ های صوتی را روی هم قرار دهید (صداها را مخلوط کنید) و جلوه های صوتی مختلف (پژواک، پخش معکوس و غیره) را اعمال کنید.

درس " "

راه های آنالوگ و گسسته برای نمایش صدا

اطلاعات از جمله گرافیک و صدا را می توان به صورت آنالوگ یا مجزا ارائه کرد.

یک مثال ذخیره سازی صوتی آنالوگ یک صفحه وینیل است (تراک صدا به طور مداوم شکل خود را تغییر می دهد)، و گسسته - یک سی دی صوتی (که آهنگ صوتی آن شامل مناطقی با بازتاب متفاوت است).

درک انسان از صدا

امواج صوتی توسط اندام شنوایی گرفته می شود و باعث تحریک در آن می شود که از طریق سیستم عصبی به مغز منتقل می شود و احساس صدا ایجاد می کند.

ارتعاشات پرده تمپان به نوبه خود به گوش داخلی منتقل می شود و عصب شنوایی را تحریک می کند. این گونه است که انسان صدا را درک می کند.

هرتز (هرتز یا هرتز) - واحد اندازه گیری فرکانس نوسان. 1 هرتز = 1/s

- آنالوگ - پیوسته - صدا

رمزگذاری صدا

برای اینکه کامپیوتر صدا را پردازش کند، پیوسته است سیگنال صوتی باید به دنباله ای از تکانه های الکتریکی تبدیل شود(صفر و یک دودویی).

در فرآیند رمزگذاری یک سیگنال صوتی پیوسته، نمونه برداری زمانی آن انجام می شود. یک موج صوتی پیوسته به بخش های زمانی کوچک جداگانه تقسیم می شود و برای هر یک از این بخش ها مقدار دامنه مشخصی تنظیم می شود.

که در رمزگذاری دودویی یک سیگنال صوتی پیوسته، با دنباله ای از سطوح سیگنال گسسته جایگزین می شود.

برنج. نمونه گیری صوتی زمانی

بنابراین، وابستگی پیوسته دامنه سیگنال به زمان A(t) با یک توالی مجزا از سطوح بلندی صدا جایگزین می شود.

در نمودار، به نظر می رسد که یک منحنی صاف را با دنباله ای از "گام ها" جایگزین کنید:

به هر "گام" مقدار سطح صدای صدا، کد آن (1، 2، 3، و غیره) اختصاص داده می شود.

سطوح ولوم صدا را می توان مجموعه ای از حالت های ممکن در نظر گرفت، به ترتیب، هر چه سطوح ولوم بیشتری در فرآیند کدگذاری تخصیص داده شود، اطلاعات بیشتری توسط مقدار هر سطح حمل می شود و صدا بهتر می شود.

کارت های صوتی مدرن عمق کدگذاری صوتی 16 بیتی را ارائه می دهند. تعداد سطوح سیگنال مختلف (وضعیت های یک رمزگذاری معین) را می توان با استفاده از فرمول محاسبه کرد: N=2 i = 2 16 = 65536، جایی که i عمق صدا است.

بنابراین، کارت های صوتی مدرن می توانند 65536 سطح سیگنال را رمزگذاری کنند. به هر مقدار دامنه سیگنال صوتی یک کد 16 بیتی اختصاص داده می شود.

تعداد اندازه‌گیری‌ها در هر ثانیه می‌تواند از 8000 تا 48000 متغیر باشد، یعنی نرخ نمونه‌برداری سیگنال صوتی آنالوگ می‌تواند مقادیری از 8 تا 48 کیلوهرتز داشته باشد. در فرکانس 8 کیلوهرتز، کیفیت سیگنال صوتی نمونه برداری شده با کیفیت پخش رادیویی مطابقت دارد و در فرکانس 48 کیلوهرتز، کیفیت کیفیت صدای audio-C مطابقت دارد. D . همچنین لازم به ذکر است که هر دو حالت مونو و استریو امکان پذیر است.

وظیفه 1.

می توانید حجم اطلاعات یک فایل صوتی استریو با مدت زمان صدای 1 ثانیه را با کیفیت صدای بالا (16 بیت، 48 کیلوهرتز) تخمین بزنید. برای انجام این کار، تعداد بیت های هر نمونه باید در تعداد نمونه ها در 1 ثانیه ضرب شود و در 2 (استریو) ضرب شود:

راه حل: 16 بیت 48000 2 = 1536000 بیت = 192000 بایت = 187.5 کیلوبایت.

وظیفه 2.

تخمین حجم اطلاعات یک فایل صوتی دیجیتال استریو با مدت زمان 1 دقیقه با کیفیت صدای متوسط (16 بیت، 24)کیلوهرتز).

راه حل: 16 بیت × 24,000 × 2 × 60 = 46,080,000 بیت = 5,760 000 بایت = 5625 کیلوبایت ≈ 5.5 مگابایت

برنامه استاندارد ضبط صدا نقش یک ضبط صوت دیجیتال را بازی می کند و به شما امکان می دهد صدا را ضبط کنید، یعنی سیگنال های صوتی را نمونه برداری کنید و آنها را در فایل های صوتی با فرمت ذخیره کنید.دبلیو AV این برنامه به شما امکان می دهد فایل های صوتی را ویرایش کنید، آنها را میکس کنید (روی یکدیگر قرار دهید) و همچنین پخش کنید.

کیفیت رمزگذاری باینری یک تصویر یا صدابا نرخ نمونه برداری و عمق کدگذاری تعیین می شود.

مشق شب- حل مشکلات:

1. تعداد سطوح سیگنال کارت صدای 24 بیتی را تعیین کنید.

2. اگر آهنگی دارای پارامترهای زیر باشد، می‌تواند روی یک فلاپی دیسک 1.44 مگابایتی قرار بگیرد: مدت زمان صدای استریو 3 دقیقه با کیفیت صدای 16 بیت، 16 کیلوهرتز.

ما در حین کار روی پروژه خود چیزهای زیادی در مورد همه اینها یاد گرفتیم، و امروز سعی خواهم کرد برخی از مفاهیم اساسی را که اگر با پردازش صدای دیجیتال سروکار دارید، در انگشتانم شرح دهم. این مقاله حاوی ریاضیات جدی مانند تبدیل فوریه سریع و چیزهای دیگر نیست - یافتن این فرمول ها در شبکه آسان است. من ماهیت و معنای چیزهایی را که باید با آنها روبرو شویم شرح خواهم داد.

دیجیتالی شدن، یا آنجا و برگشت

اول از همه، بیایید بفهمیم که سیگنال دیجیتال چیست، چگونه از سیگنال آنالوگ به دست می آید، و سیگنال آنالوگ واقعا از کجا می آید. دومی را می توان به ساده ترین شکل ممکن به عنوان نوسانات ولتاژ ناشی از ارتعاشات غشاء در میکروفون تعریف کرد.

برنج. 1. شکل موج صدا

این یک اسیلوگرام از صدا است - این چیزی است که سیگنال صوتی به نظر می رسد. من فکر می کنم هر کسی حداقل یک بار در زندگی خود چنین عکس هایی را دیده است. برای اینکه بفهمید فرآیند تبدیل سیگنال آنالوگ به دیجیتال چگونه کار می کند، باید یک اسیلوگرام صدا را روی کاغذ میلی متری رسم کنید. برای هر خط عمودی، نقطه تقاطع با اسیلوگرام و نزدیکترین مقدار صحیح را در مقیاس عمودی پیدا می کنیم - مجموعه ای از چنین مقادیری ساده ترین رکورد یک سیگنال دیجیتال خواهد بود.

بیایید از این مثال تعاملی برای درک نحوه همپوشانی امواج فرکانس های مختلف و نحوه دیجیتالی شدن استفاده کنیم. در منوی سمت چپ، می‌توانید نمایش نمودارها را روشن/خاموش کنید، پارامترهای داده ورودی و پارامترهای نمونه‌برداری را تنظیم کنید، یا می‌توانید به سادگی نقاط کنترل را جابه‌جا کنید.

در واقع، برای ایجاد یک جلوه استریو هنگام ضبط صدا، اغلب نه یک، بلکه چندین کانال به طور همزمان ضبط می شود. بسته به فرمت ذخیره سازی مورد استفاده، ممکن است به طور مستقل ذخیره شوند. همچنین سطوح سیگنال را می توان به عنوان تفاوت بین سطح کانال اصلی و سطح فعلی ثبت کرد.

تبدیل معکوس از سیگنال دیجیتال به آنالوگ با استفاده از مبدل های دیجیتال به آنالوگ انجام می شود که می توانند دستگاه و اصول عملکرد متفاوتی داشته باشند. من از شرح این اصول در این مقاله صرف نظر می کنم.

نمونه برداری

همانطور که می دانید سیگنال دیجیتال مجموعه ای از مقادیر سطح سیگنال است که در بازه های زمانی مشخص ثبت می شود. فرآیند تبدیل سیگنال آنالوگ پیوسته به سیگنال دیجیتال را نمونه برداری (بر اساس زمان و سطح) می گویند. دو ویژگی اصلی سیگنال دیجیتال وجود دارد - نرخ نمونه برداری و عمق نمونه برداری سطح.

سبز مولفه فرکانس را نشان می دهد که فرکانس آن بالاتر از فرکانس Nyquist است. هنگام دیجیتالی کردن چنین جزء فرکانسی، امکان ثبت داده های کافی برای توصیف صحیح آن وجود ندارد. در نتیجه، در حین پخش، یک سیگنال کاملاً متفاوت به دست می آید - یک منحنی زرد.

سطح سیگنال

برای شروع، باید بلافاصله درک کنید که وقتی صحبت از سیگنال دیجیتال می شود، فقط می توانید در مورد سطح نسبی سیگنال صحبت کنید. مطلق در درجه اول به تجهیزات تولید مثل بستگی دارد و به طور مستقیم با نسبی متناسب است. هنگام محاسبه سطوح سیگنال نسبی، استفاده از دسی بل مرسوم است. در این حالت، سیگنالی با حداکثر دامنه ممکن در یک عمق نمونه برداری معین به عنوان نقطه مرجع در نظر گرفته می شود. این سطح به صورت 0 dBFS (dB - دسی بل، FS = Full Scale - Full Scale) نشان داده شده است. سطوح سیگنال پایین تر به صورت -1 dBFS، -2 dBFS و غیره نشان داده می شوند. کاملاً واضح است که به سادگی هیچ سطح بالاتری وجود ندارد (ما در ابتدا بالاترین سطح ممکن را می گیریم).

در ابتدا، تشخیص اینکه چگونه دسی بل و سطح سیگنال واقعی با هم ارتباط دارند، می تواند دشوار باشد. در واقع همه چیز ساده است. هر ~6 دسی بل (به طور دقیق تر 20 log(2) ~ 6.02 دسی بل) نشان دهنده تغییر سطح سیگنال با ضریب دو است. یعنی وقتی در مورد سیگنالی با سطح dBFS-12 صحبت می کنیم، متوجه می شویم که این سیگنالی است که سطح آن چهار برابر کمتر از حداکثر است و -18 dBFS هشت برابر کمتر است و غیره. اگر به تعریف دسی بل نگاه کنید، یک مقدار را بیان می کند - پس 20 از کجا می آید؟ مسئله این است که دسی بل لگاریتم نسبت دو کمیت انرژی همنام است که در 10 ضرب می شود. دامنه آن نیست. انرژیمقدار، بنابراین باید به یک مقدار مناسب تبدیل شود. توان حمل شده توسط امواج با دامنه های مختلف متناسب با مربع دامنه است. بنابراین، برای دامنه (اگر همه شرایط دیگر، به جز دامنه، بدون تغییر در نظر گرفته شوند)، فرمول را می توان به صورت زیر نوشت:

N.B.شایان ذکر است که لگاریتم در این حالت به صورت اعشاری در نظر گرفته می شود، در حالی که اکثر کتابخانه ها تحت تابعی به نام log یک لگاریتم طبیعی را فرض می کنند.

در اعماق نمونه برداری مختلف، سطح سیگنال در این مقیاس تغییر نخواهد کرد. سیگنال -6 dBFS سیگنال -6 dBFS باقی می ماند. اما هنوز یک مشخصه تغییر خواهد کرد - محدوده دینامیکی. محدوده دینامیکی یک سیگنال، تفاوت بین مقدار حداقل و حداکثر آن است. با فرمول محاسبه می شود، که در آن n عمق گسسته سازی است (برای تخمین های تقریبی، می توانید از یک فرمول ساده تر استفاده کنید: n * 6). برای 16 بیت ~ 96.33 دسی بل، برای 24 بیت ~ 144.49 دسی بل است. این بدان معناست که بزرگترین افت سطحی که می توان با عمق نمونه برداری 24 بیتی (144.49 دسی بل) توصیف کرد، 48.16 دسی بل بزرگتر از بزرگترین افت سطح با عمق 16 بیتی (96.33 دسی بل) است. بعلاوه، صدای خرد شدن در 24 بیت 48 دسی بل کم صداتر است.

ادراک

وقتی در مورد درک انسان از صدا صحبت می کنیم، ابتدا باید درک کنیم که مردم چگونه صدا را درک می کنند. بدیهی است که ما با گوش خود می شنویم. امواج صوتی با پرده گوش تعامل می کنند و آن را جابه جا می کنند. ارتعاشات به گوش داخلی منتقل می شوند و در آنجا توسط گیرنده ها دریافت می شوند. اینکه پرده گوش چقدر حرکت می کند به ویژگی هایی مانند فشار صدا بستگی دارد. در این مورد، بلندی درک شده به فشار صدا بستگی دارد نه مستقیم، بلکه به صورت لگاریتمی. بنابراین، هنگام تغییر صدا، مرسوم است که از مقیاس نسبی SPL (سطح فشار صدا) استفاده کنید، که مقادیر آن در همان دسی بل نشان داده شده است. همچنین شایان ذکر است که بلندی درک شده یک صدا نه تنها به سطح فشار صدا، بلکه به فرکانس صدا نیز بستگی دارد:

جلد

ساده ترین مثال پردازش صدا تغییر حجم آن است. در این مورد، سطح سیگنال به سادگی در مقداری ثابت ضرب می شود. با این حال، حتی در یک موضوع ساده مانند تنظیم صدا، یک دام وجود دارد. همانطور که قبلاً اشاره کردم، بلندی درک شده به لگاریتم فشار صدا بستگی دارد، به این معنی که استفاده از مقیاس بلندی خطی چندان مؤثر نیست. با مقیاس حجمی خطی، دو مشکل به طور همزمان ایجاد می شود - برای تغییر محسوس در حجم، هنگامی که لغزنده بالای وسط مقیاس قرار دارد، باید آن را به اندازه کافی دور کنید، در حالی که به پایین ترازوی نزدیک تر است، جابجایی کمتر از ضخامت یک مو است، می تواند دو بار حجم را تغییر دهد (فکر می کنم همه این را تجربه کرده اند). برای حل این مشکل از مقیاس لگاریتمی بلندی صدا استفاده می شود. در همان زمان، حرکت لغزنده در یک فاصله ثابت در تمام طول آن، حجم را به همان تعداد بار تغییر می دهد. در تجهیزات ضبط و پردازش حرفه ای، به عنوان یک قاعده، این مقیاس صدای لگاریتمی است که استفاده می شود.

ریاضیات

در اینجا شاید کمی به ریاضیات برگردم، زیرا اجرای مقیاس لگاریتمی برای بسیاری چیز ساده و بدیهی نیست و یافتن این فرمول در اینترنت آنقدر که ما می خواهیم آسان نیست. در همان زمان، من به شما نشان خواهم داد که چقدر آسان است که مقادیر حجم را به dBFS و بالعکس تبدیل کنید. برای توضیح بیشتر مفید خواهد بود.

// مقدار حداقل حجم - در این سطح، صدا خاموش می شود var EPSILON = 0.001; // ضریب تبدیل به و از dBFS var DBFS_COEF = 20 / Math.log(10); // حجم را از موقعیت روی مقیاس محاسبه می کند var volumeToExponent = function(value) (var volume = Math.pow(EPSILON, 1 - value); volume return > EPSILON ? volume: 0; ); // موقعیت روی مقیاس را از مقدار حجم var volumeFromExponent = function(volume) محاسبه می کند ( return 1 - Math.log(Math.max(volume, EPSILON)) / Math.log(EPSILON); ); // تبدیل مقدار حجم به dBFS var volumeToDBFS = function(volume) ( return Math.log(volume) * DBFS_COEF; ); // تبدیل مقدار dBFS به حجم var volumeFromDBFS = تابع(dbfs) ( بازگشت Math.exp(dbfs / DBFS_COEF؛ )

پردازش دیجیتال

حالا به این واقعیت برگردیم که سیگنال دیجیتال داریم نه آنالوگ. دو ویژگی سیگنال دیجیتال وجود دارد که باید هنگام کار با بلندی صدا در نظر بگیرید:

دقتی که با آن سطح سیگنال نشان داده می شود محدود است (و کاملاً قوی است. 16 بیت 2 برابر کمتر از مقدار استفاده شده برای یک عدد ممیز شناور استاندارد است).
سیگنال دارای یک حد سطح بالایی است که نمی تواند از آن فراتر رود.

این واقعیت که سطح سیگنال دارای محدودیت دقت است به دو چیز دلالت دارد:

با افزایش صدا، سطح صدای خرد شدن افزایش می یابد. برای تغییرات کوچک، این معمولاً خیلی مهم نیست، زیرا سطح نویز اولیه بسیار ساکت‌تر از سطح درک شده است و می‌توان آن را با ضریب 4-8 افزایش داد (به عنوان مثال، از یک اکولایزر با محدودیت مقیاس ± استفاده کنید. 12 دسی بل)؛
ابتدا نباید سطح سیگنال را بسیار پایین بیاورید و سپس آن را بسیار افزایش دهید - در این حالت ممکن است صداهای خردکننده جدیدی ظاهر شوند که در ابتدا وجود نداشتند.

از این واقعیت که سیگنال دارای محدودیت سطح بالایی است، به این نتیجه می رسد که افزایش حجم بالاتر از واحد ایمن نیست. در این صورت، پیک هایی که بالاتر از حد مجاز هستند، قطع می شوند و داده ها از بین می روند.

در عمل، همه اینها به این معنی است که پارامترهای نمونه برداری استاندارد برای Audio-CD (16 بیت، 44.1 کیلوهرتز) امکان پردازش صدای با کیفیت بالا را ندارند، زیرا افزونگی بسیار کمی دارند. برای این منظور بهتر است از فرمت های اضافی بیشتری استفاده کنید. با این حال، به خاطر داشته باشید که حجم کل فایل متناسب با پارامترهای نمونه گیری است، بنابراین انتشار چنین فایل هایی برای پخش آنلاین ایده خوبی نیست.

اندازه گیری بلندی صدا

برای مقایسه بلندی دو سیگنال مختلف، ابتدا باید به نحوی اندازه گیری شود. حداقل سه معیار برای اندازه‌گیری بلندی سیگنال‌ها وجود دارد - حداکثر مقدار پیک، میانگین مقدار سطح سیگنال و متریک ReplayGain.

حداکثر مقدار پیک یک معیار نسبتاً ضعیف برای ارزیابی بلندی صدا است. به هیچ وجه سطح کلی صدا را در نظر نمی گیرد - به عنوان مثال، اگر یک طوفان رعد و برق را ضبط کنید، در بیشتر مواقع در ضبط، باران بی سر و صدا می بارد و تنها چند بار رعد و برق صدا می کند. حداکثر مقدار پیک سطح سیگنال چنین ضبطی کاملاً بالا خواهد بود، اما بیشتر موارد ضبط دارای سطح سیگنال بسیار پایین خواهند بود. با این حال، این معیار هنوز مفید است - به شما امکان می دهد حداکثر بهره را که می توان در رکورد اعمال کرد، محاسبه کرد، که در آن داده ها به دلیل "برش" قله ها از بین نمی رود.

میانگین سطح سیگنال متریک مفیدتری است و به راحتی محاسبه می شود، اما همچنان دارای اشکالات قابل توجهی در ارتباط با نحوه درک ما از صدا است. صدای جیغ یک اره مدور و صدای آبشار که با همان سطح سیگنال متوسط ثبت شده است، کاملاً متفاوت درک خواهد شد.

ReplayGain با بیشترین دقت سطح حجم درک شده ضبط را منتقل می کند و ویژگی های فیزیولوژیکی و ذهنی ادراک صدا را در نظر می گیرد. برای انتشار صنعتی رکوردها، بسیاری از استودیوهای ضبط از آن استفاده می کنند، و همچنین توسط اکثر پخش کننده های رسانه ای محبوب پشتیبانی می شود. (WIKI حاوی نادرستی های زیادی است و در واقع به درستی ماهیت فناوری را توصیف نمی کند)

نرمال سازی حجم

اگر بتوانیم بلندی صدای ضبط های مختلف را اندازه گیری کنیم، می توانیم آن را نرمال کنیم. ایده عادی سازی این است که صداهای مختلف را به همان سطح بلندی درک شده برساند. برای این کار از چندین روش مختلف استفاده می شود. به عنوان یک قاعده، آنها سعی می کنند صدا را به حداکثر برسانند، اما این به دلیل محدودیت های حداکثر سطح سیگنال همیشه امکان پذیر نیست. بنابراین، مقداری معمولاً کمی کمتر از حداکثر (به عنوان مثال -14 dBFS) گرفته می‌شود که همه سیگنال‌ها سعی در رساندن آن به آن دارند.

بلندی صدا گاهی در یک ضبط منفرد عادی می شود و قسمت های مختلف ضبط با مقادیر متفاوتی تقویت می شوند به طوری که بلندی درک شده آنها یکسان است. این رویکرد اغلب در پخش‌کننده‌های ویدیویی رایانه‌ای استفاده می‌شود - موسیقی متن بسیاری از فیلم‌ها می‌تواند شامل بخش‌هایی با بلندی صدای بسیار متفاوت باشد. در چنین شرایطی، هنگام تماشای فیلم‌ها بدون هدفون در زمان بعدی، مشکلاتی به وجود می‌آید - با صدایی که معمولاً زمزمه‌های شخصیت‌های اصلی شنیده می‌شود، عکس‌ها می‌توانند همسایه‌ها را بیدار کنند. و در حجمی که ضربات به گوش نمی رسد، زمزمه به طور کلی غیر قابل تشخیص می شود. با نرمال سازی حجم داخل آهنگ، پخش کننده به طور خودکار صدا را در مناطق ساکت افزایش می دهد و در مناطق با صدای بلند آن را کاهش می دهد. با این حال، این رویکرد در هنگام انتقال تیز بین صدای آرام و بلند، مصنوعات پخش ملموسی ایجاد می‌کند و همچنین گاهی اوقات حجم برخی از صداها را بیش از حد برآورد می‌کند که از نظر طراحی، باید پس‌زمینه باشند و به سختی قابل تشخیص باشند.

همچنین، نرمال سازی داخلی گاهی اوقات برای افزایش حجم کلی آهنگ ها انجام می شود. به این حالت عادی سازی با فشرده سازی می گویند. با این رویکرد، مقدار متوسط سطح سیگنال با تقویت کل سیگنال با مقدار معینی به حداکثر می رسد. مناطقی که باید "قطع" می شدند به دلیل فراتر رفتن از حداکثر سطح با مقدار کمتری تقویت می شوند و بنابراین از این امر جلوگیری می شود. این روش افزایش حجم به طور قابل توجهی کیفیت صدای آهنگ را کاهش می دهد، اما، با این وجود، بسیاری از استودیوهای ضبط در استفاده از آن تردیدی ندارند.

فیلتراسیون

من مطلقاً همه فیلترهای صوتی را توصیف نمی کنم، فقط به موارد استانداردی که در Web Audio API وجود دارد محدود می کنم. ساده ترین و رایج ترین آنها فیلتر دوتایی (BiquadFilterNode) است - این یک فیلتر مرتبه دوم فعال با پاسخ ضربه ای بی نهایت است که می تواند تعداد نسبتاً زیادی از افکت ها را بازتولید کند. اصل عملکرد این فیلتر مبتنی بر استفاده از دو بافر است که هر کدام دارای دو نمونه است. یک بافر حاوی دو نمونه آخر در سیگنال ورودی و بافر دیگر شامل دو نمونه آخر در سیگنال خروجی است. مقدار حاصل از جمع پنج مقدار بدست می آید: نمونه فعلی و نمونه های هر دو بافر ضرب در ضرایب از پیش محاسبه شده. ضرایب این فیلتر مستقیما تنظیم نمی شود، بلکه از پارامترهای فرکانس، ضریب کیفیت (Q) و بهره محاسبه می شود.

تمام نمودارهای زیر محدوده فرکانس 20 هرتز تا 20000 هرتز را نمایش می دهند. محور افقی فرکانس را نشان می دهد، یک مقیاس لگاریتمی در امتداد آن اعمال می شود، محور عمودی - بزرگی (نمودار زرد) از 0 تا 2، یا تغییر فاز (گراف سبز) از -Pi به Pi. فرکانس تمام فیلترها (632 هرتز) با خط قرمز روی نمودار مشخص شده است.

پایین گذار

برنج. 8. فیلتر پایین گذر.

فقط فرکانس های زیر فرکانس تنظیم شده را عبور می دهد. فیلتر بر اساس فرکانس و فاکتور کیفیت تنظیم می شود.

مرتفع گذر

برنج. 9. فیلتر مرتفع.

مانند lowpass عمل می کند، با این تفاوت که فرکانس های بالاتر از فرکانس مشخص شده را ارسال می کند، نه پایین تر.

پاس باند

برنج. 10. فیلتر باند گذر.

این فیلتر انتخابی تر است - فقط از یک باند فرکانسی خاص عبور می کند.

شکاف

برنج. 11. فیلتر ناچ.

این برعکس باند گذر است - همه فرکانس ها را خارج از باند داده شده عبور می دهد. با این حال، شایان ذکر است که تفاوت در منحنی های میرایی ضربه و ویژگی های فاز این فیلترها وجود دارد.

قفسه پایین

برنج. 12. فیلتر پایین قفسه.

این یک نسخه "هوشمند" تر از highpass است - فرکانس های پایین تر از تنظیم شده را تقویت یا کاهش می دهد، فرکانس های بالا را بدون تغییر عبور می دهد. فیلتر بر اساس فرکانس و بهره تنظیم می شود.

قفسه بالا

برنج. 13. فیلتر قفسه بالا.

یک نسخه هوشمندتر از lowpass - فرکانس های بالاتر از یک مورد خاص را تقویت یا کاهش می دهد، فرکانس های پایین را بدون تغییر عبور می دهد.

اوج گرفتن

برنج. 14. فیلتر پیکینگ.

این یک نسخه "هوشمند" تر از ناچ است - فرکانس ها را در یک محدوده معین تقویت یا کاهش می دهد و بقیه فرکانس ها را بدون تغییر عبور می دهد. فیلتر بر اساس فرکانس، بهره و فاکتور کیفیت تنظیم می شود.

فیلتر همه پاس

برنج. 15. فیلتر Allpass.

Allpass با بقیه متفاوت است - ویژگی های دامنه سیگنال را تغییر نمی دهد، در عوض باعث تغییر فاز فرکانس های داده شده می شود. فیلتر بر اساس فرکانس و فاکتور کیفیت تنظیم می شود.

فیلتر WaveShaperNode

Waveshaper () برای ایجاد جلوه های پیچیده اعوجاج صدا استفاده می شود، به ویژه، می توان از آن برای اجرای جلوه های "اعوجاج"، "overdrive" و "fuzz" استفاده کرد. این فیلتر عملکرد شکل دهی خاصی را به سیگنال ورودی اعمال می کند. اصول ساخت چنین توابعی کاملاً پیچیده است و نیاز به مقاله جداگانه ای دارد، بنابراین من از شرح آنها صرف نظر می کنم.

فیلتر ConvolverNode

فیلتری که به صورت خطی سیگنال ورودی را با یک بافر صوتی که پاسخ ضربه ای مشخصی را تعریف می کند، پیچش می دهد. پاسخ ضربه ای پاسخ یک سیستم به یک تکانه است. به زبان ساده، این را می توان «عکس» صدا نامید. اگر یک عکس واقعی حاوی اطلاعاتی در مورد امواج نور، نحوه انعکاس، جذب و تعامل آنها باشد، پاسخ ضربه حاوی اطلاعات مشابهی در مورد امواج صوتی است. پیچیدگی یک جریان صوتی با چنین "عکسی" تأثیرات محیطی را که در آن پاسخ ضربه ای روی سیگنال ورودی گرفته شده است، تحمیل می کند.

برای اینکه این فیلتر کار کند، سیگنال باید به اجزای فرکانس تجزیه شود. این تجزیه با کمک (متاسفانه در ویکی پدیای روسی زبان کاملاً خالی است، ظاهراً برای افرادی نوشته شده است که قبلاً می دانند FFT چیست و می توانند همان مقاله خالی را خودشان بنویسند) انجام می شود. همانطور که در مقدمه گفتم، در این مقاله به ریاضیات FFT نمی پردازم، اما ذکر نکردن الگوریتم سنگ بنا برای پردازش سیگنال دیجیتال اشتباه است.

این فیلتر افکت Reverb را پیاده سازی می کند. کتابخانه های زیادی از بافرهای صوتی آماده برای این فیلتر وجود دارد که جلوه های مختلفی را پیاده سازی می کند ( , )، چنین کتابخانه هایی در صورت درخواست به خوبی در دسترس هستند.