Kvalita reprodukce zvuku. Kódování zvuku. Před převodem hudby do jiného formátu byste ji měli "dekomprimovat" do WAV

Zvukové informace. Zvuk je vlna šířící se vzduchem, vodou nebo jiným prostředím s plynule se měnící intenzitou a frekvencí.

Zvukové vlny (vibrace vzduchu) člověk vnímá pomocí sluchu ve formě zvuků různých hlasitostí a tónů. Čím větší je intenzita zvukové vlny, tím je zvuk hlasitější, čím větší je frekvence vlny, tím vyšší je tón zvuku (obr. 1.1).

Rýže. 1.1. Závislost hlasitosti a výšky zvuku na intenzitě a frekvenci zvukové vlny

Lidské ucho vnímá zvuk ve frekvencích od 20 vibrací za sekundu (nízký zvuk) do 20 000 vibrací za sekundu (vysoký zvuk).

Člověk může vnímat zvuk v obrovském rozsahu intenzit, kdy maximální intenzita je 1014krát větší než minimální (stotisíc miliardkrát). Pro měření hlasitosti zvuku se používá speciální jednotka "decibel" (dbl) (tab. 5.1). Snížení nebo zvýšení hlasitosti zvuku o 10 dB odpovídá snížení nebo zvýšení intenzity zvuku 10krát.

Tabulka 5.1. Hlasitost
Hlasitost zvuku v decibelech
Dolní hranice citlivosti lidského ucha 0
Šustění listí 10
Rozhovor 60
Klakson auta 90
Proudový motor 120
Práh bolesti 140
Časové vzorkování zvuku. Aby počítač mohl zpracovávat zvuk, musí být nepřetržitý zvukový signál převeden do diskrétní digitální podoby pomocí časového vzorkování. Souvislá zvuková vlna je rozdělena na samostatné malé časové úseky, pro každý takový úsek je nastavena určitá hodnota intenzity zvuku.

Plynulá závislost hlasitosti zvuku na čase A(t) je tedy nahrazena diskrétní sekvencí úrovní hlasitosti. Na grafu to vypadá jako nahrazení hladké křivky sekvencí „kroků“ (obr. 1.2).

Rýže. 1.2. Časové vzorkování zvuku

Vzorkovací frekvence. Mikrofon připojený ke zvukové kartě se používá k záznamu analogového zvuku a jeho převodu do digitální podoby. Kvalita přijímaného digitálního zvuku závisí na počtu měření úrovně hlasitosti zvuku za jednotku času, tedy vzorkovací frekvenci. Čím více měření je provedeno za 1 sekundu (čím vyšší je vzorkovací frekvence), tím přesněji "žebřík" digitálního audio signálu opakuje křivku dialogového signálu.

Vzorkovací frekvence zvuku je počet měření hlasitosti zvuku za jednu sekundu.

Vzorkovací frekvence zvuku se může pohybovat od 8 000 do 48 000 měření hlasitosti zvuku za sekundu.

Hloubka kódování zvuku. Každému „kroku“ je přiřazena určitá hodnota úrovně hlasitosti zvuku. Úrovně hlasitosti zvuku lze považovat za množinu možných stavů N, pro jejichž kódování je potřeba určité množství informací I, které se nazývá hloubka kódování zvuku.

Hloubka kódování zvuku je množství informací potřebných ke kódování jednotlivých úrovní hlasitosti digitálního zvuku.

Pokud je známa hloubka kódování, lze počet úrovní hlasitosti digitálního zvuku vypočítat pomocí vzorce N = 2I. Nechť je hloubka kódování zvuku 16 bitů, pak počet úrovní hlasitosti zvuku je:

N = 21 = 216 = 65536.

Během procesu kódování je každé úrovni hlasitosti přiřazen vlastní 16bitový binární kód, nejnižší úroveň zvuku bude odpovídat kódu 0000000000000000 a nejvyšší - 1111111111111111.

Kvalita digitalizovaného zvuku. Čím vyšší je frekvence a hloubka vzorkování zvuku, tím lepší bude kvalita digitalizovaného zvuku. Nejnižší kvalita digitalizovaného zvuku, odpovídající kvalitě telefonní komunikace, je získána při vzorkovací frekvenci 8000krát za sekundu, hloubce vzorkování 8 bitů a záznamu jedné zvukové stopy (režim „mono“). Nejvyšší kvality digitalizovaného zvuku, odpovídající kvalitě zvukového CD, je dosaženo se vzorkovací frekvencí 48 000krát za sekundu, hloubkou vzorkování 16 bitů a záznamem dvou zvukových stop (režim stereo).

Je třeba mít na paměti, že čím vyšší je kvalita digitálního zvuku, tím větší je informační objem zvukového souboru. Můžete odhadnout informační objem digitálního stereofonního zvukového souboru s délkou zvuku 1 sekundu s průměrnou kvalitou zvuku (16 bitů, 24 000 měření za sekundu). K tomu je třeba hloubku kódování vynásobit počtem měření za 1 sekundu a vynásobit 2 (stereo zvuk):

16 bitů × 24 000 × 2 = 768 000 bitů = 96 000 bajtů = 93,75 kB.

zvukové editory. Zvukové editory umožňují zvuk nejen nahrávat a přehrávat, ale také jej upravovat. Digitalizovaný zvuk je ve zvukových editorech prezentován ve vizuální podobě, takže operace kopírování, přesouvání a mazání částí zvukové stopy lze snadno provádět pomocí myši. Kromě toho můžete překrývat zvukové stopy přes sebe (mixovat zvuky) a aplikovat různé akustické efekty (echo, zpětné přehrávání atd.).

Zvuk je vlna s plynule se měnící amplitudou a frekvencí. Čím větší je amplituda, tím je pro člověka hlasitější, čím větší frekvence, tím vyšší tón.

digitální zvuk je analogový zvukový signál reprezentovaný diskrétními číselnými hodnotami jeho amplitudy.

V jádru kódování zvuku s využitím počítačů spočívá proces přeměny vzduchových vibrací na vibrace elektrického proudu a následná diskretizace analogového elektrického signálu.

Kódování a přehrávání zvukových informací se provádí pomocí speciálních programů (editorů zvukových nahrávek).

Kvalita přehrávání kódovaného zvuku závisí na vzorkovací frekvenci a jejím rozlišení.

Digitalizace zvuku - (neboli analogově-digitální konverze) - technologie pro převod analogového zvukového signálu do digitální podoby, která se provádí měřením amplitudy signálu s určitým časovým krokem a následným zaznamenáním získaných hodnot v číselné podobě.

Digitalizace zvuku zahrnuje dva procesy:

diskretizační proces (implementace vzorkování signálu podle času);

kvantizační proces podle amplitudy.

Proces časové diskretizace - proces získávání hodnot signálu, které jsou převedeny s určitým časovým krokem - vzorkovací krok .

Vyvolá se počet měření síly signálu provedených za jednu sekundu vzorkovací frekvence nebo vzorkovací frekvence nebo vzorkovací frekvence(z anglického "ampling" - "vzorek").

Čím menší je krok vzorkování, tím vyšší je vzorkovací frekvence a tím přesnější zobrazení signálu získáme.

Proces amplitudové kvantování - proces nahrazování skutečných hodnot amplitudy signálu hodnotami přibližnými s určitou přesností.

Kvantování– diskretizace úrovně.

Předpokládá se, že kvantizační chyby vyplývající z 16bitové kvantizace zůstávají pro posluchače téměř nepostřehnutelné.

Je volána každá z 2 N možných úrovní kvantizační úroveň, a nazývá se vzdálenost mezi dvěma nejbližšími kvantizačními úrovněmi krok kvantování.

Volá se číslo N kvantizační bitová hloubka a čísla získaná jako výsledek zaokrouhlení hodnot amplitudy - odpočítávání nebo Vzorky(z anglického „sample“ – „measurement“).

Kvantizační chyby vyplývající z 16bitové kvantizace jsou pro posluchače téměř nepostřehnutelné.

Digitalizace zvuku - výsledek:

Klady: můžete zakódovat jakýkoli zvuk (včetně hlasu, píšťalky, šustění, ...)

mínusy: dochází ke ztrátě informací, velkému objemu souborů

Hlavní parametry ovlivňující kvalitu zvuku:

1. Bitová hloubka- dimenze (počet bitů informace kódované / dekódované pomocí ADC a DAC).

2. Vzorkovací frekvence- četnost odebírání vzorků signálu spojitě v čase při jeho vzorkování (ADC), měřená v Hertzech.

3. Hluk- nežádoucí fázové a/nebo frekvenční náhodné odchylky přenášeného signálu

Formáty zvukových souborů

WAV(tvar vlny Zvuk formát), často bez komprese (velikost!)

MP3 (MPEG-1 Zvuk vrstva 3 , komprese zohledňující lidské vnímání)

AAC (Pokročilé kódování zvuku, 48 kanálů, komprese)

WMA (Windows Media Audio, streamování zvuku, komprese)

OGG (ogg Vorbis, otevřený formát, komprese)

Bity, hertz, tvarovaný dithering...

Co se za těmito pojmy skrývá? Při vývoji standardu audio kompaktních disků (CD Audio) byly brány hodnoty 44 kHz, 16 trochu a 2 kanál (tj. stereo). Proč přesně tolik? Jaký je důvod této volby a také proč jsou činěny pokusy zvýšit tyto hodnoty na řekněme 96 kHz a 24 nebo dokonce až na 32 bitů ...

Pojďme se nejprve zabývat rozlišením vzorkování – tedy bitovou hloubkou. Náhodou se stane, že si musíte vybrat mezi čísly 16, 24 a 32. Mezilehlé hodnoty by samozřejmě byly z hlediska zvuku pohodlnější, ale příliš nepříjemné pro použití v digitální technologii (spíše kontroverzní vzhledem k tomu, že mnoho ADC má 11 nebo 12bitový digitální výstup – poznámka ke stavu).

Za co je tento parametr zodpovědný? Stručně řečeno - pro dynamický rozsah. Rozsah současně reprodukovaných hlasitostí je od maximální amplitudy (0 decibelů) až po nejmenší amplitudu, kterou rozlišení umožňuje, např. cca minus 93 decibelů pro 16bitový zvuk. Kupodivu to silně souvisí s úrovní šumu zvukového záznamu. V zásadě je pro 16bitové audio celkem možné přenášet signály o výkonu -120 dB, nicméně tyto signály budou v praxi obtížně aplikovatelné kvůli tak zásadnímu konceptu, jako je vzorkovací šum. Faktem je, že při pořizování digitálních hodnot neustále děláme chyby a zaokrouhlujeme skutečnou analogovou hodnotu na nejbližší možnou digitální hodnotu. Nejmenší možná chyba je nula, ale maximální chyba je polovina poslední číslice (bit, dále termín LSB bude zkrácen na MB). Tato chyba nám dává tzv. vzorkovací šum – náhodný nesoulad mezi digitalizovaným signálem a originálem. Tento šum je konstantní a má maximální amplitudu rovnou polovině nejméně významné číslice. To lze považovat za náhodné hodnoty smíchané do digitálního signálu. Někdy se tomu říká zaokrouhlovací nebo kvantizační šum (což je přesnější název, protože amplitudové kódování se nazývá kvantování a vzorkování je proces převodu spojitého signálu na diskrétní (pulzní) sekvenci - přibližný stav.).

Zastavme se podrobněji u toho, co znamená výkon signálu, měřený v bitech. Nejsilnější signál při digitálním zpracování zvuku je obvykle brán jako 0 dB, což odpovídá všem bitům nastaveným na 1. Pokud je nejvýznamnější bit (dále jen SB) nastaven na nulu, bude výsledná digitální hodnota poloviční, což odpovídá hodnotě 0 dB. což odpovídá ztrátě hladiny 6 decibelů (10 * log(2) = 6). Vynulováním jednotek od nejvyšší po nejnižší číslici tedy snížíme úroveň signálu o šest decibelů. Je jasné, že minimální úroveň signálu (jedna z nejméně významné číslice a všechny ostatní číslice jsou nuly) je (N-1) * 6 decibelů, kde N je bitová hloubka vzorku. Pro 16 bitů dostaneme úroveň nejslabšího signálu – 90 decibelů.

Když říkáme "polovina LSB", nemáme na mysli -90/2, ale polovinu kroku k dalšímu bitu - tedy o další 3 decibely níže, mínus 93 decibelů.

Vracíme se k volbě rozlišení digitalizace. Jak již bylo zmíněno, digitalizace zavádí šum na úrovni poloviny nejméně významné číslice, což znamená, že záznam digitalizovaný v 16 bitech neustále vydávat hluk při minus 93 decibelech. Dokáže přenášet signály ještě tišeji, ale šum stále zůstává na -93 dB. Na tomto základě je určen dynamický rozsah digitálního zvuku - tam, kde se poměr signálu k šumu mění na šum / signál (šumu je více než užitečného signálu), nachází se spodní hranice tohoto rozsahu. Tím pádem, hlavní kritérium digitalizace - kolik hluku můžeme si dovolit v obnoveném signálu? Odpověď na tuto otázku závisí částečně na tom, kolik šumu bylo v původní nahrávce. Důležité je, že pokud digitalizujeme něco při minus 80 decibelech, není absolutně žádný důvod to digitalizovat při více než 16 bitech, protože na jedné straně -93 dB šum přidává velmi málo k již tak obrovskému (poměrně) - 80. dB, a na druhou stranu - tišší než -80 dB v samotném fonogramu, šum / signál již začíná a není prostě nutné takový signál digitalizovat a přenášet.

Teoreticky je to jediné kritérium pro volbu rozlišení digitalizace. Více my nepřispívat absolutně žádné zkreslení nebo nepřesnosti. Praxe kupodivu téměř úplně opakuje teorii. To bylo to, co vedlo lidi, kteří zvolili 16bitové rozlišení pro audio CD. Hlučnost mínus 93 decibelů je docela dobrý stav, který téměř přesně odpovídá podmínkám našeho vnímání: rozdíl mezi prahem bolesti (140 decibelů) a běžným hlukem v pozadí ve městě (30-50 decibelů) je jen asi stovka decibelů a vzhledem k tomu, že na úrovni hlasitosti, která přináší bolest, neposlouchají hudbu – což rozsah ještě více zužuje – ukazuje se, že skutečné zvuky místnosti nebo dokonce zařízení jsou mnohem silnější než kvantizační šum. Pokud v digitálním záznamu slyšíme úroveň pod minus 90 decibelů, uslyšíme a vnímáme kvantizační šum, jinak prostě nikdy nezjistíme, zda je tento zvuk digitalizovaný nebo živý. Jiný rozdíl v dynamickém rozsahu prostě není. Ale v zásadě člověk smysluplně slyší v rozsahu 120 decibelů a bylo by fajn zachovat celý rozsah, se kterým si 16 bitů jakoby neví rady.

Ale to je jen na první pohled: s pomocí speciální techniky tzv tvarovaný dithering, můžete změnit frekvenční spektrum vzorkovacího šumu, téměř úplně je posunout do oblasti více než 7-15 kHz. Zdá se, že měníme frekvenční rozlišení (odmítáme reprodukovat tiché vysoké frekvence) pro další dynamický rozsah ve zbývajícím frekvenčním rozsahu. V kombinaci se zvláštnostmi našeho sluchu - naše citlivost na vyraženou vysokofrekvenční oblast je o desítky dB nižší než v hlavní oblasti (2-4 kHz) - to umožňuje přenášet relativně nehlučné užitečné signály o dalších 10 -20 dB tišší než -93 dB - tedy dynamický rozsah 16bitového zvuku pro osobu je asi 110 decibelů. A vůbec – přitom člověk prostě neslyší zvuky o 110 decibelů tišší než právě slyšený hlasitý zvuk. Ucho se stejně jako oko přizpůsobuje hlasitosti okolní reality, takže současný dosah našeho sluchu je poměrně malý – asi 80 decibelů. Promluvme si o dithringu podrobněji po probrání frekvenčních aspektů.

U CD je vzorkovací frekvence 44100 Hz. Existuje názor (založený na nepochopení Kotelnikov-Nyquistovy věty), že jsou reprodukovány všechny frekvence do 22,05 kHz, ale není to tak úplně pravda. Můžeme pouze jednoznačně říci, že v digitalizovaném signálu nejsou frekvence nad 22,05 kHz. Reálný obraz reprodukce digitalizovaného zvuku vždy závisí na specifická technika a vždy není tak dokonalý, jak bychom chtěli, a tak konzistentní s teorií. Vše závisí na konkrétním DAC (digitálně-analogový převodník zodpovědný za příjem audio signálu z digitální sekvence).

Nejprve si ujasněme, co bychom rádi dostali. Člověk středního věku (spíše mladý) cítí zvuky od 10 Hz do 20 kHz, je smysluplné slyšet - od 30 Hz do 16 kHz. Zvuky nahoře a dole jsou vnímány, ale nepředstavují akustický vjem. Zvuky nad 16 kHz jsou pociťovány jako nepříjemný nepříjemný faktor - tlak na hlavu, bolest, zvláště hlasité zvuky přinášejí tak ostré nepohodlí, že chcete opustit místnost. Nepříjemné vjemy jsou tak silné, že na tom je založeno i působení bezpečnostních zařízení – pár minut velmi hlasitého vysokofrekvenčního zvuku každého přivede k šílenství a v takovém prostředí se stává naprosto nemožné cokoliv ukrást. Zvuky pod 30 - 40 Hz s dostatečnou amplitudou jsou vnímány jako vibrace vycházející z předmětů (reproduktorů). Spíše by se to dokonce řeklo – jen vibrace. Člověk akusticky téměř neurčuje prostorovou polohu takto nízkých zvuků, proto se již používají jiné smyslové orgány - hmat, takové zvuky cítíme tělem.

S vysokými frekvencemi je vše trochu horší, alespoň určitě obtížnější. Téměř celá podstata vylepšení a komplikací DAC a ADC je zaměřena právě na spolehlivější přenos vysokých frekvencí. „Vysokým“ rozumíme frekvence srovnatelné se vzorkovací frekvencí – tedy v případě 44,1 kHz se jedná o 7-10 kHz a vyšší.

Představte si sinusový signál o frekvenci 14 kHz, digitalizovaný se vzorkovací frekvencí 44,1 kHz. Za jednu periodu vstupní sinusoidy jsou asi tři body (počty) a pro obnovení původní frekvence v podobě sinusoidy je potřeba projevit trochu fantazie. Proces obnovy tvaru vlny ze vzorků se také vyskytuje v DAC, to se provádí filtrem obnovy. A pokud jsou relativně nízké frekvence téměř hotové sinusoidy, pak tvar a tedy i kvalita obnovy vysokých frekvencí leží zcela na svědomí systému obnovy DAC. Tedy čím více se frekvence signálu blíží jedné sekundě vzorkovací frekvence, tím obtížnější je obnovit tvar signálu.

To je hlavní problém při reprodukci vysokých frekvencí. Problém však není tak hrozný, jak by se mohlo zdát. Všechny moderní D/A převodníky využívají vícerychlostní technologii, která spočívá v digitálním obnovení na několikanásobně vyšší vzorkovací frekvenci a následném převedení na analogový signál se zvýšenou frekvencí. Problém obnovy vysokých frekvencí se tak přesouvá na bedra digitálních filtrů, které mohou být velmi kvalitní. Tak kvalitní, že v případě drahých zařízení problém plně odstraněno - poskytuje nezkreslenou reprodukci frekvencí až do 19-20 kHz. Převzorkování se používá i v nepříliš drahých zařízeních, takže v zásadě lze i tento problém považovat za vyřešený. Zařízení v oblasti 30 - 60 USD (zvukové karty) nebo hudební centra do 600 USD, obvykle podobná v DAC těmto zvukovým kartám, perfektně reprodukují frekvence do 10 kHz, snesitelně do 14 - 15 a tak nějak zbytek. Tento docela stačí pro většinu skutečných hudebních aplikací, a pokud někdo potřebuje větší kvalitu - najde ji v profesionálních zařízeních, která nejsou o tolik dražší - jsou prostě chytře vyrobená.

Zpět k ditheringu, podívejme se, jak můžeme užitečně zvýšit dynamický rozsah nad 16 bitů.

Myšlenka ditheringu je vmíchat se do signálu hluk. Jakkoli to může znít zvláštně, abychom snížili šum a nepříjemné kvantizační efekty, my přidat tvůj hluk. Vezměme si příklad – použijme schopnost CoolEditu pracovat ve 32 bitech. 32 bitů je 65 tisíckrát přesnější než 16 bitů, takže v našem případě lze 32 bitů považovat za analogový originál a převod na 16 bitů je digitalizace. Nechte nejvyšší úroveň zvuku v původním 32bitovém zvuku odpovídat mínus 110 decibelům. To je nepatrně mnohem tišší než dynamický rozsah 16bitového zvuku, u kterého nejslabší slyšitelný zvuk odpovídá mínus 90 decibelům. Pokud tedy data jednoduše zaokrouhlíme na 16 bitů, dostaneme úplné digitální ticho.

K signálu připočtěme "bílý" šum (tedy širokopásmový a rovnoměrný v celém frekvenčním pásmu) s úrovní minus 90 decibelů, přibližně odpovídající z hlediska úrovně kvantizačního šumu. Pokud nyní převedeme tuto směs signálu a "bílého" šumu na 16 bitů (jsou možné pouze celočíselné hodnoty - 0, 1, -1, ...), ukáže se, že nějaká část signálu zůstane. Tam, kde měl původní signál vyšší úroveň, je více jedniček, kde nižší jsou nuly.

Pro experimentální ověření výše uvedené metody můžete použít zvukový editor Cool Edit (nebo jakýkoli jiný, který podporuje 32bitový formát). Abyste slyšeli, co se stane, měli byste zesílit signál o 14 bitů (o 78 dB).

Výsledkem je zašuměný 16bitový zvuk obsahující původní signál, který byl minus 110 decibelů. V zásadě jde o standardní způsob rozšíření dynamického rozsahu, který se často ukáže téměř sám – šumu je všude dost. To však samo o sobě postrádá smysl - úroveň vzorkovacího šumu zůstává na stejné úrovni a přenos signálu slabšího než šum není z hlediska logiky příliš jasný... (Velmi chybný názor, jelikož přenos signál s úrovní, která je nižší než úroveň šumu, je jednou ze základních metod kódování dat.

Složitější způsob - tvarovaný dithering, spočívá v tom, že vzhledem k tomu, že ve velmi tichých zvucích stále neslyšíme vysoké frekvence, znamená to, že hlavní síla hluku by měla směřovat do těchto frekvencí, přičemž lze použít i šum vyšší úrovně - použiji úroveň 4 nejméně významných číslic (dva bity v 16bitovém signálu). Výslednou směs 32bitového signálu a šumu převedeme na 16bitový signál, odfiltrujeme vysoké frekvence (které člověk sluchem opravdu nevnímá) a zvýšíme úroveň signálu, abychom mohli vyhodnotit výsledek.

To už je docela dobrý (na extrémně nízkou hlasitost) přenos zvuku, hluk se svou silou přibližně rovná zvuku samotnému s počáteční úrovní minus 110 decibelů! Důležitá poznámka: my zvednutý skutečný vzorkovací šum od poloviny nejméně významného bitu (-93 dB) po čtyři nejméně významné bity (-84 dB), downgrade slyšitelný šum vzorkování od -93dB do asi -110dB. Poměr signálu k šumu zhoršila, ale hluk přešel do vysokofrekvenční oblasti a přestal být slyšitelný, což dalo výrazné zlepšení ve skutečnosti(člověk-vnímatelný) odstup signálu od šumu.

(Jinými slovy, protože síla šumu je jakoby „rozmazána“ přes frekvenční rozsah, aniž bychom vynechali horní frekvence, odebereme mu část výkonu, v důsledku čehož signál do -poměr šumu se zlepšuje v časové reprezentaci signálů. - Přibližná stat.)

V praxi se jedná již o úroveň šumu 20bitového vzorkování zvuku. Jedinou podmínkou této technologie je přítomnost frekvencí pro šum. Zvuk 44,1 kHz umožňuje umístit šum ve frekvencích 10-20 kHz, které jsou při tiché hlasitosti neslyšitelné. Ale pokud digitalizujete na 96 kHz, frekvenční doména pro šum (neslyšitelná pro lidi) bude tak velká, že při použití tvarovaného ditheringu 16 bitů opravdu proměnit ve všech 24.

[Poznámka: PC Speaker je jednobitové zařízení, ale s poměrně vysokou maximální vzorkovací frekvencí (zapnutí/vypnutí tohoto jediného bitu). Procesem v podstatě podobným ditheringu, nazývaným spíše pulzně šířková modulace, se na něm přehrával vcelku kvalitní digitální zvuk - z jednoho bitu bylo vytaženo 5-8 bitů nízké frekvence a vysoká vzorkovací frekvence a nemožnost zařízení k reprodukci tak vysokých frekvencí, stejně jako naše neschopnost je slyšet. Lehký vysokofrekvenční hvizd - slyšitelná část tohoto hluku - byl však slyšitelný.]

Tvarovaný dithering tedy umožňuje výrazně snížit již tak nízký vzorkovací šum 16bitového zvuku, a tak tiše rozšířit užitečný (bezšumový) dynamický rozsah o Všechno oblast lidského sluchu. Protože se nyní tvarovaný dithering používá vždy při překladu z pracovního formátu 32 bitů na konečných 16 bitů pro CD, našich 16 bitů je zcela dostačujících pro kompletní přenos zvukového obrazu.

Je třeba poznamenat, že tato technologie funguje pouze ve fázi přípravy materiálu pro přehrávání. Při zpracování kvalitního zvuku jednoduše nutné zůstaňte na 32 bitech, abyste se vyhnuli rozkladu po každé operaci, lepší výsledky kódování zpět na 16 bitů. Pokud je však hladina hluku zvukového záznamu více než mínus 60 decibelů - můžete bez sebemenších skrupulí svědomí provést veškeré zpracování v 16 bitech. Intermediate dithering zajistí, že nedochází k zaokrouhlovacímu zkreslení a šumu přidanému ano stokrát slabší než ten stávající a tudíž zcela lhostejný.

Proč se říká, že 32bitový zvuk je lepší než 16bitový?
A1:	Oni se mýlí.
A2:	[Znamenají trochu jinak: při zpracování nebo záznamu zvuku potřebovat použijte vyšší rozlišení. Používají to Vždy. Ale ve zvuku jako v hotovém produktu není vyžadováno rozlišení více než 16 bitů.]

Q:	Má smysl zvýšit vzorkovací frekvenci (např. až 48 kHz nebo až 96)?
A1:	nemá. Přinejmenším jak kompetentní přístup v konstrukci DAC 44 kHz přenáší celý požadovaný frekvenční rozsah.
A2:	[Znamenají trochu jinak: dává to smysl, ale pouze při zpracování nebo záznamu zvuku.]

Q:	Proč zavádění vysokých frekvencí a bitness stále pokračuje?
A1:	Pro pokrok je důležité se posouvat. Kde a proč - není tak důležité ...
A2:	Mnoho procesů je v tomto případě jednodušší. Pokud bude zařízení například zpracovávat zvuk, bude pro něj snazší to udělat v 96 kHz / 32 bitů. Téměř všechny DSP používají pro zpracování zvuku 32 bitů a možnost zapomenout na převody je snazší vývoj a stále mírné zvýšení kvality. A vůbec – zvuk k dalšímu zpracování Má to což znamená ukládat ve vyšším rozlišení než 16 bitů. Pro hi-end zařízení, která přehrávají pouze zvuk, to je Absolutně lhostejný.

Q:	Jsou 32x nebo 24x nebo dokonce 18bitové DAC lepší než 16bitové?
A:	Obecně - Ne. Kvalita převodu vůbec nezávisí na bitové hloubce. Kodek AC "97 (moderní zvuková karta do 50 $) používá 18bitový kodek a karty 500 $, jejichž zvuk se s tímto nesmyslem ani nedá srovnat, používají 16bit. Na přehrávání 16bitového zvuku to absolutně nezáleží.. Také stojí za to mít na paměti, že většina DAC obvykle přehrává méně bitů, než přebírá. Například skutečná hladina šumu typického levného kodeku je -90 dB, což je 15 bitů, a i když je to samotných 24 bitů - nedostanete žádnou návratnost "navíc" 9 bitů - výsledek jejich práce , i kdyby byl k dispozici, utopí se ve vlastním hluku. Většina levných zařízení je prostě ignorovat další bity - prostě se ve svém procesu zvukové syntézy ve skutečnosti nepočítají, ačkoli jdou na digitální vstup DAC.

Q:	A pro pořádek?
A:	Pro nahrávání je lepší mít ADC s větší kapacitou. Opět více nemovitý bitová hloubka. Bitová hloubka DAC by měla odpovídat úrovni šumu původního zvukového záznamu nebo by měla být jednoduše dostatečná k dosažení požadované nízké úrovně. hluk. Je také užitečné mít trochu větší bitovou hloubku pro použití vyššího dynamického rozsahu pro méně přesné ovládání úrovně záznamu. Ale pamatujte - vždy musíte zasáhnout nemovitý rozsah kodeků. Ve skutečnosti je například 32bitový ADC téměř kompletní bezvýznamný, protože nízkých deset bitů bude jen nepřetržitě vydávat hluk - tak jen nízká hlučnost (pod -200 dB). nemůže být v analogovém zdroji hudby.

Od zvuku se nevyplatí vyžadovat zvýšenou bitovou hloubku nebo vzorkovací frekvenci, ve srovnání s CD lepší kvalitu. 16bit/44kHz, posunutý na limit s tvarovaným ditheringem, je docela schopný plně zprostředkovat informace, které nás zajímají, pokud se nejedná o proces zpracování zvuku. Neplýtvejte prostorem na další data ve vašem hotovém materiálu, stejně jako neočekávejte špičkovou kvalitu zvuku od DVD-Audio s jeho 96kHz/24bit. S kompetentním přístupem při vytváření zvuku ve standardním formátu CD budeme mít kvalitu, která prostě nepotřebuje v dalším zlepšování a odpovědnost za správný zvukový záznam výsledných dat již dlouho přebírají vyvinuté algoritmy a lidé, kteří je umí správně používat. V posledních letech nenajdete nový disk bez tvarovaného ditheringu a dalších technik, jak posunout kvalitu zvuku na hranici možností. Ano, pro líné nebo prostě výstřední lidi bude pohodlnější dát hotový materiál ve 32 bitech a 96 kHz, ale teoreticky - stojí za to několikrát více zvukových dat? ..

Zvuk hraje v moderním světě stále důležitější roli, protože se již dávno vymanil z těsného spojení s obrazem, které vznikalo v době rozkvětu televize a kina. Moderní multimediální zařízení má nejširší možnosti nejen pro jeho reprodukci, ale dokonce i pro změnu zvuku. Už přestal být mrtvým záznamem, statickou reprodukcí dávno minulých událostí, pevně vtisknutých do svého nosiče. Nejdůležitější roli v transformaci našich představ o zvuku sehrál vývoj digitální metody pro záznam zvuku, jeho převod do datového toku, který lze snadno a přirozeně ovládat moderními zařízeními.

Formáty: co je digitální zvuk

Každé multimediální zařízení na dnešním trhu, ať už je to CD přehrávač, hlasový záznamník nebo přehrávač flash paměti, využívá širokou škálu reprezentací datových toků, které jsou následně převedeny na zvuk. A bylo vynalezeno ještě více zvukových formátů používaných pro profesionální účely. Nezkušený kupující je nucen čerpat informace o označení na krabicích a zařízeních z různých zdrojů, přičemž často získává nesprávné informace nebo je ještě více zmatený.

Téměř každé zařízení ze sekce katalogu podporuje několik zvukových formátů najednou a řada zařízení, která do této kategorie nepatří, je označena i podporou přehrávání zvukových souborů. Abychom pomohli našemu čtenáři, rozhodli jsme se vytvořit malý slovníček zkratek a popovídat si o nejběžnějších formátech. Plánujeme jej otevřít pro doplňky a úpravy, přidávání nových formátů a podrobnější popis výhod a nevýhod těch již běžných nebo zapomenutých.

Trochu teorie

Pro začátek je třeba připomenout, že digitální zvuk není nic jiného než sada čísel. Určujícím faktorem je systém, kterým byl zvuk jako tlak vzduchu převeden na datové toky a zakódován pro další zpracování a přehrávání. Podle toho je digitální zvuk obvykle obsažen v počítačových souborech s různými příponami, které nejčastěji (ale ne vždy) určují jeho formát. A samotný pojem formát může mít paradoxně dva významy. Za prvé, formát může existovat jako komplexní charakteristika, která zahrnuje jak typ, tak fyzické vlastnosti média (disk nebo kazeta), způsob záznamu, principy kódování a ochrany proti chybám. Za druhé, formát lze chápat pouze jako samotnou metodu kódování a komprese zvuku, protože pro přenos se používají standardní prostředky, například počítač.

Analogový zvuk, na rozdíl od digitálního, je reprodukován v analogových zařízeních a má řadu významných rozdílů. Nejedná se o datový tok, analogový zvuk je reprezentován nepřetržitým elektrickým signálem, který představuje změnu zvukové vlny. Pro převedení do digitálního formátu je zvuk „digitalizován“, to znamená, že je rozdělen do určitých segmentů, ve kterých je v tuto chvíli pevně stanovena číselná hodnota amplitudy. Nebudeme se pouštět do principů tvorby digitálního zvuku, ale je bezpodmínečně nutné poznamenat, že čím častěji je segment zvuku rozdělen a popsána jeho charakteristika, tím jasnější a ucelenější vzniká obraz samotného zvuku.

Takový proces generuje obrovské množství dat popisujících zvuk a je zřejmé, že každý formát digitálního zvuku není ničím jiným než kompromisem mezi nutností podat zvuk co nejlépe a omezeními paměti počítače nebo přehrávacího zařízení.

Ještě trochu teorie. Lidské ucho ve většině případů vnímá zvuk s frekvencí ne vyšší než 22 000 Hz a aby bylo možné jej plně popsat v digitální podobě, je zapotřebí vzorkovací frekvence alespoň 44,1 kHz. Vzhledem k tomu, že není možné absolutně přesně určit hodnotu signálu v určitém okamžiku, dochází během digitalizace ke kvantizaci, to znamená, že skutečné hodnoty signálu jsou nahrazeny přibližnými. Čím více úrovní kvantizace zvuku, tím přesněji je popsána úroveň signálu. Výsledkem je, že každé standardní CD přenáší zvukový signál se vzorkovací frekvencí stejnou 44,1 kHz a úrovní kvantizace 16 bitů a některá zařízení vzorkují na frekvenci 48 kHz.

O tom všem jsme se při práci na našem projektu dozvěděli poměrně hodně a dnes se pokusím v prstech popsat některé základní pojmy, které potřebujete znát, pokud se zabýváte digitálním zpracováním zvuku. Tento článek neobsahuje seriózní matematiku jako rychlé Fourierovy transformace a další věci - tyto vzorce lze snadno najít na internetu. Popíšu podstatu a smysl věcí, kterým bude muset čelit.

Digitalizace aneb tam a zpět

Nejprve si ujasněme, co je digitální signál, jak se získává z analogového signálu a odkud vlastně analogový signál pochází. Ten lze co nejjednodušeji definovat jako kolísání napětí v důsledku vibrací membrány v mikrofonu.

Rýže. 1. Průběh zvuku

Toto je oscilogram zvuku – takto vypadá zvukový signál. Myslím, že každý alespoň jednou v životě viděl podobné obrázky. Abyste pochopili, jak funguje proces převodu analogového signálu na digitální, musíte na milimetrový papír nakreslit oscilogram zvuku. Pro každou svislou čáru najdeme průsečík s oscilogramem a nejbližší celočíselnou hodnotu na vertikální stupnici - sada takových hodnot bude nejjednodušším záznamem digitálního signálu.

Využijme tento interaktivní příklad, abychom pochopili, jak se vlny různých frekvencí překrývají a jak dochází k digitalizaci. V levém menu lze zapínat/vypínat zobrazování grafů, upravovat parametry vstupních dat a parametry vzorkování nebo jednoduše přesouvat kontrolní body.

Ve skutečnosti se pro vytvoření stereo efektu při nahrávání zvuku nejčastěji nahrává ne jeden, ale několik kanálů najednou. V závislosti na použitém formátu úložiště mohou být uloženy nezávisle. Úrovně signálu lze také zaznamenat jako rozdíl mezi úrovní hlavního kanálu a úrovní aktuálního kanálu.

Zpětný převod z digitálního signálu na analogový se provádí pomocí digitálně-analogových převodníků, které mohou mít různé zařízení a principy fungování. Popis těchto principů v tomto článku vynechám.

Vzorkování

Jak víte, digitální signál je soubor hodnot úrovně signálu zaznamenávaných v určených časových intervalech. Proces převodu spojitého analogového signálu na digitální signál se nazývá vzorkování (podle času a úrovně). Digitální signál má dvě hlavní charakteristiky – vzorkovací frekvenci a hloubku vzorkování úrovně.

Zelená ukazuje frekvenční složku, jejíž frekvence je vyšší než Nyquistova frekvence. Při digitalizaci takové frekvenční složky není možné zaznamenat dostatek dat pro její správný popis. Výsledkem je, že během přehrávání je získán zcela jiný signál - žlutá křivka.

Úroveň signálu

Pro začátek byste měli okamžitě pochopit, že pokud jde o digitální signál, můžete mluvit pouze o relativní úrovni signálu. Absolutní závisí především na reprodukčním zařízení a je přímo úměrné relativnímu. Při výpočtu relativních úrovní signálu je zvykem používat decibely. V tomto případě se jako referenční bod bere signál s maximální možnou amplitudou při dané hloubce vzorkování. Tato úroveň je označena jako 0 dBFS (dB - decibel, FS = Full Scale - plný rozsah). Nižší úrovně signálu jsou označeny jako -1 dBFS, -2 dBFS atd. Je zcela zřejmé, že prostě žádné vyšší úrovně neexistují (zpočátku bereme nejvyšší možnou úroveň).

Zpočátku může být obtížné zjistit, jak korelují decibely a skutečná úroveň signálu. Ve skutečnosti je vše jednoduché. Každých ~6 dB (přesněji 20 log(2) ~ 6,02 dB) indikuje změnu úrovně signálu o faktor dva. To znamená, že když mluvíme o signálu s úrovní -12 dBFS, rozumíme tomu, že se jedná o signál, jehož úroveň je čtyřikrát nižší než maximální a -18 dBFS je osmkrát nižší a tak dále. Když se podíváte na definici decibelu, uvádí hodnotu - odkud tedy pochází 20? Jde o to, že decibel je logaritmus poměru dvou energetických veličin stejného jména, vynásobený 10. Amplituda není energie hodnotu, proto je nutné ji převést na vhodnou hodnotu. Výkon přenášený vlnami různých amplitud je úměrný druhé mocnině amplitudy. Proto pro amplitudu (pokud jsou všechny ostatní podmínky kromě amplitudy brány beze změny), lze vzorec zapsat jako

N.B. Stojí za zmínku, že logaritmus je v tomto případě brán jako desítkový, zatímco většina knihoven pod funkcí nazývanou log předpokládá přirozený logaritmus.

Při různých hloubkách vzorkování se úroveň signálu na této stupnici nezmění. Signál -6 dBFS zůstane signálem -6 dBFS. Jedna vlastnost se ale přece jen změní – dynamický rozsah. Dynamický rozsah signálu je rozdíl mezi jeho minimální a maximální hodnotou. Vypočítá se podle vzorce , kde n je hloubka diskretizace (pro hrubé odhady můžete použít jednodušší vzorec: n * 6). Pro 16 bit je to ~96,33 dB, pro 24 bit je to ~144,49 dB. To znamená, že největší pokles úrovně, který lze popsat při 24bitové hloubce vzorkování (144,49 dB), je o 48,16 dB větší než největší pokles úrovně při 16bitové hloubce (96,33 dB). Navíc je drtivý hluk při 24 bitech o 48 dB tišší.

Vnímání

Když mluvíme o lidském vnímání zvuku, musíme nejprve pochopit, jak lidé vnímají zvuk. Pochopitelně slyšíme ušima. Zvukové vlny interagují s ušním bubínkem a přemísťují jej. Vibrace se přenášejí do vnitřního ucha, kde je zachycují receptory. Jak moc se ušní bubínek pohybuje, závisí na charakteristice, jako je akustický tlak. V tomto případě vnímaná hlasitost nezávisí na akustickém tlaku přímo, ale logaritmicky. Proto je při změně hlasitosti obvyklé používat relativní stupnici SPL (hladina akustického tlaku), jejíž hodnoty jsou uvedeny ve stejných decibelech. Za zmínku také stojí, že vnímaná hlasitost zvuku závisí nejen na hladině akustického tlaku, ale také na frekvenci zvuku:

Hlasitost

Nejjednodušším příkladem zpracování zvuku je změna jeho hlasitosti. V tomto případě se úroveň signálu jednoduše vynásobí nějakou pevnou hodnotou. I v tak jednoduché záležitosti, jakou je úprava hlasitosti, je však jedno úskalí. Jak jsem již dříve poznamenal, vnímaná hlasitost závisí na logaritmu akustického tlaku, což znamená, že použití lineární stupnice hlasitosti není příliš efektivní. U lineární stupnice hlasitosti nastávají hned dva problémy – pro znatelnou změnu hlasitosti, kdy je posuvník nad středem stupnice, jej musíte posunout dostatečně daleko, zatímco blíže k samému dnu stupnice se posun je menší než tloušťka vlasu, dokáže změnit objem dvakrát (myslím, že to zažil každý). K vyřešení tohoto problému se používá logaritmická stupnice hlasitosti. Současně posunutím posuvníku v pevné vzdálenosti po celé jeho délce změníte hlasitost stejným počtem opakování. V profesionálních záznamových a zpracovatelských zařízeních se zpravidla používá logaritmická stupnice hlasitosti.

Matematika

Zde se možná trochu vrátím k matematice, protože implementace logaritmické škály není pro mnohé tak jednoduchá a samozřejmá a najít tento vzorec na internetu není tak snadné, jak bychom si přáli. Zároveň vám ukážu, jak snadné je převádět hodnoty hlasitosti na dBFS a naopak. Pro další vysvětlení to bude užitečné.

// Hodnota minimální hlasitosti - na této úrovni je zvuk vypnut var EPSILON = 0.001; // Koeficient pro převod do az dBFS var DBFS_COEF = 20 / Math.log(10); // Vypočítá objem z pozice na stupnici var volumeToExponent = function(value) ( var volume = Math.pow(EPSILON, 1 - hodnota); return volume > EPSILON ? volume: 0; ); // Vypočítá pozici na stupnici z hodnoty objemu var volumeFromExponent = function(volume) ( return 1 - Math.log(Math.max(volume, EPSILON)) / Math.log(EPSILON); ); // Převede hodnotu hlasitosti na dBFS var volumeToDBFS = function(volume) ( return Math.log(volume) * DBFS_COEF; ); // Převést hodnotu dBFS na objem var volumeFromDBFS = function(dbfs) ( return Math.exp(dbfs / DBFS_COEF); )

digitální zpracování

Nyní zpět k tomu, že máme digitální, nikoli analogový signál. Existují dvě vlastnosti digitálního signálu, které byste měli vzít v úvahu při práci s hlasitostí:

přesnost, s jakou je úroveň signálu indikována, je omezená (a poměrně silně. 16 bitů je 2krát méně, než se používá pro standardní číslo s pohyblivou řádovou čárkou);
signál má horní mez úrovně, za kterou nemůže jít.

Skutečnost, že úroveň signálu má limit přesnosti, znamená dvě věci:

Úroveň drcení se zvyšuje se zvyšující se hlasitostí. Pro malé změny to obvykle není příliš kritické, protože počáteční hladina hluku je mnohem tišší než vnímaná hladina a lze ji bezpečně zvýšit faktorem 4-8 (například použijte ekvalizér s limitem stupnice ± 12 dB);
neměli byste nejprve výrazně snížit úroveň signálu a poté ji výrazně zvýšit - v tomto případě se mohou objevit nové drtivé zvuky, které zde původně nebyly.

Z toho, že signál má horní mez úrovně, vyplývá, že není bezpečné zvyšovat hlasitost nad jednotu. V tomto případě budou vrcholy, které jsou nad limitem, „oříznuty“ a dojde ke ztrátě dat.

V praxi to vše znamená, že standardní parametry vzorkování pro Audio-CD (16-bit, 44,1 kHz) neumožňují kvalitní zpracování zvuku, protože mají velmi malou redundanci. Pro tyto účely je lepší použít více redundantních formátů. Mějte však na paměti, že celková velikost souboru je úměrná parametrům vzorkování, takže vydávání takových souborů pro online přehrávání není dobrý nápad.

Měření hlasitosti

Aby bylo možné porovnat hlasitost dvou různých signálů, musí být nejprve nějak změřena. Pro měření hlasitosti signálů existují minimálně tři metriky – maximální špičková hodnota, průměrná hodnota úrovně signálu a metrika ReplayGain.

Maximální špičková hodnota je spíše slabou metrikou pro posouzení hlasitosti. Nijak nezohledňuje celkovou úroveň hlasitosti - pokud například nahráváte bouřku, tak na nahrávce většinu času tiše šumí déšť a jen párkrát zahřmí. Maximální špičková hodnota úrovně signálu takové nahrávky bude poměrně vysoká, ale většina nahrávky bude mít velmi nízkou úroveň signálu. Tato metrika je však stále užitečná – umožňuje vypočítat maximální zisk, který lze na záznam aplikovat, při kterém nedojde ke ztrátě dat v důsledku „ořezávání“ špiček.

Průměrná úroveň signálu je užitečnější metrika a lze ji snadno vypočítat, ale stále má významné nevýhody související s tím, jak vnímáme zvuk. Pískání cirkulárky a dunění vodopádu, zaznamenané se stejnou průměrnou úrovní signálu, bude vnímáno úplně jinak.

ReplayGain nejpřesněji vyjadřuje vnímanou úroveň hlasitosti nahrávky a bere v úvahu fyziologické a mentální charakteristiky vnímání zvuku. Pro průmyslové vydávání nahrávek jej používá mnoho nahrávacích studií a podporují jej také nejoblíbenější přehrávače médií. (WIKI obsahuje mnoho nepřesností a ve skutečnosti nepopisuje správně samotnou podstatu technologie)

Normalizace objemu

Pokud dokážeme změřit hlasitost různých nahrávek, můžeme ji normalizovat. Myšlenkou normalizace je přivést různé zvuky na stejnou vnímanou úroveň hlasitosti. K tomu se používá několik různých přístupů. Zpravidla se snaží maximalizovat hlasitost, ale ne vždy je to možné kvůli omezení maximální úrovně signálu. Proto se obvykle bere nějaká hodnota o něco menší než maximum (například -14 dBFS), na které se všechny signály snaží přivést.

Hlasitost je někdy normalizována v rámci jedné nahrávky, přičemž různé části nahrávky jsou zesíleny různými hodnotami, takže jejich vnímaná hlasitost je stejná. Tento přístup je velmi často používán v počítačových přehrávačích videa – zvuková stopa mnoha filmů může obsahovat sekce s velmi rozdílnou hlasitostí. V takové situaci nastávají problémy při pozdějším sledování filmů bez sluchátek – při hlasitosti, při které je běžně slyšet šepot hlavních hrdinů, mohou výstřely probudit sousedy. A při hlasitosti, při které výstřely nezasahují do uší, se šepot stává obecně nerozeznatelným. S normalizací hlasitosti uvnitř stopy přehrávač automaticky zvýší hlasitost v tichých oblastech a sníží ji v hlasitých oblastech. Tento přístup však vytváří hmatatelné artefakty přehrávání během ostrých přechodů mezi tichým a hlasitým zvukem a také někdy nadhodnocuje hlasitost některých zvuků, které by podle návrhu měly být na pozadí a stěží rozlišitelné.

Někdy se také provádí vnitřní normalizace, aby se zvýšila celková hlasitost stop. Tomu se říká normalizace s kompresí. S tímto přístupem je průměrná hodnota úrovně signálu maximalizována zesílením celého signálu o danou hodnotu. Oblasti, které měly být „odříznuty“, jsou z důvodu překročení maximální úrovně zesíleny o menší množství, čímž se tomu zabrání. Tento způsob zvýšení hlasitosti výrazně snižuje kvalitu zvuku stopy, ale přesto jej mnoho nahrávacích studií neváhá použít.

Filtrace

Nebudu popisovat absolutně všechny zvukové filtry, omezím se pouze na ty standardní, které jsou přítomné ve Web Audio API. Nejjednodušší a nejběžnější z nich je biquad filtr (BiquadFilterNode) - jedná se o aktivní filtr druhého řádu s nekonečnou impulsní odezvou, která dokáže reprodukovat poměrně velké množství efektů. Princip fungování tohoto filtru je založen na použití dvou pufrů, každý se dvěma vzorky. Jeden buffer obsahuje poslední dva vzorky ve vstupním signálu, druhý buffer obsahuje poslední dva vzorky ve výstupním signálu. Výsledná hodnota se získá sečtením pěti hodnot: aktuálního vzorku a vzorků z obou pufrů vynásobených předem vypočítanými koeficienty. Koeficienty tohoto filtru se nenastavují přímo, ale počítají se z parametrů frekvence, činitele kvality (Q) a zesílení.

Všechny níže uvedené grafy zobrazují frekvenční rozsah od 20 Hz do 20 000 Hz. Vodorovná osa zobrazuje frekvenci, podél ní je aplikována logaritmická stupnice, svislá osa - velikost (žlutý graf) od 0 do 2 nebo fázový posun (zelený graf) od -Pi do Pi. Frekvence všech filtrů (632 Hz) je na grafu označena červenou čarou.

Dolní průsmyk

Rýže. 8. Dolní propust.

Propouští pouze frekvence pod nastavenou frekvencí. Filtr je nastaven podle frekvence a faktoru kvality.

horní průjezd

Rýže. 9. Horní propust.

Funguje podobně jako dolní propust, kromě toho, že propouští frekvence nad zadanou frekvencí, nikoli pod.

pásmový průkaz

Rýže. 10. Pásmový filtr.

Tento filtr je selektivnější – propouští jen určité frekvenční pásmo.

Zářez

Rýže. 11. Vrubový filtr.

Je opakem pásmové propusti - propustí všechny frekvence mimo dané pásmo. Za povšimnutí však stojí rozdíl v křivkách útlumu dopadu a ve fázových charakteristikách těchto filtrů.

Nízká police

Rýže. 12. Nízký filtr.

Je to „chytřejší“ verze horní propusti – zesiluje nebo zeslabuje frekvence pod nastavenou, frekvence výše propouští beze změn. Filtr je nastaven podle frekvence a zisku.

Highshelf

Rýže. 13. Vysoký filtr.

Chytřejší verze dolní propusti - zesiluje nebo zeslabuje frekvence nad danou, propouští frekvence pod beze změny.

Vrcholení

Rýže. 14. špičkový filtr.

Jedná se o „chytřejší“ verzi notche – zesiluje nebo zeslabuje frekvence v daném rozsahu a zbytek frekvencí propouští beze změny. Filtr je nastaven podle frekvence, zisku a faktoru kvality.

allpass filtr

Rýže. 15. Allpass filtr.

Allpass je jiný než všechny ostatní - nemění amplitudovou charakteristiku signálu, místo toho provádí fázový posun daných frekvencí. Filtr je nastaven podle frekvence a faktoru kvality.

Filtr WaveShaperNode

Waveshaper () se používá k vytváření komplexních efektů zkreslení zvuku, zejména jej lze použít k implementaci efektů "zkreslení", "overdrive" a "fuzz". Tento filtr aplikuje speciální tvarovací funkci na vstupní signál. Principy konstrukce takových funkcí jsou poměrně složité a vyžadují samostatný článek, takže jejich popis vynechám.

Filtr ConvolverNode

Filtr, který lineárně konvolucuje vstupní signál s audio bufferem, který definuje určitou impulsní odezvu. Impulzní odezva je odezva systému na jeden impulz. Zjednodušeně to lze nazvat „fotkou“ zvuku. Pokud skutečná fotografie obsahuje informace o světelných vlnách, o tom, jak se odrážejí, pohlcují a interagují, pak impulsní odezva obsahuje podobné informace o zvukových vlnách. Konvoluce zvukového toku s takovou „fotkou“ má na vstupní signál vliv prostředí, ve kterém byla impulsní odezva pořízena.

Aby tento filtr fungoval, musí být signál rozložen na frekvenční složky. Tento rozklad se provádí pomocí (bohužel v ruskojazyčné Wikipedii je zcela prázdná, psána zřejmě pro lidi, kteří již vědí, co je FFT a mohou sami napsat stejný prázdný článek). Jak jsem řekl v úvodu, nebudu v tomto článku uvádět matematiku FFT, ale bylo by špatné nezmínit se o základním algoritmu pro digitální zpracování signálu.

Tento filtr implementuje efekt reverb. Existuje mnoho knihoven hotových audio bufferů pro tento filtr, které implementují různé efekty ( , ), takové knihovny jsou dobře dostupné na vyžádání.