Podstawowa wiedza na temat dźwięku i zasady kodowania

1. Podstawowe pojęcia

1) Szybkość transmisji: wskazuje, ile bitów na sekundę mają być reprezentowane zakodowane (skompresowane) dane audio, a jednostką jest zwykle kb/s.

2) Głośność i intensywność: Subiektywne atrybuty dźwięku. Głośność wskazuje, jak głośno brzmi dźwięk. Głośność zmienia się głównie w zależności od natężenia dźwięku, ale ma na nią również wpływ częstotliwość. Ogólnie rzecz biorąc, czyste dźwięki o średniej częstotliwości są lepsze niż czyste dźwięki o niskiej i wysokiej częstotliwości.

3) Próbkowanie i częstotliwość próbkowania: Próbkowanie polega na przekształceniu ciągłego sygnału czasu w dyskretny sygnał cyfrowy. Częstotliwość próbkowania odnosi się do liczby próbek pobieranych na sekundę.

Prawo próbkowania Nyquista: Gdy częstotliwość próbkowania jest większa lub równa 2-krotności najwyższej składowej częstotliwości sygnału ciągłego, próbkowany sygnał można wykorzystać do doskonałej rekonstrukcji pierwotnego sygnału ciągłego.

2. popularne formaty audio

1) Format WAV to format pliku dźwiękowego opracowany przez firmę Microsoft, zwany również plikiem dźwiękowym wave. Jest to najwcześniejszy cyfrowy format audio, szeroko obsługiwany przez platformę Windows i jej aplikacje, a także charakteryzuje się niskim współczynnikiem kompresji.

2) MIDI to skrót od Musical Instrument Digital Interface, znanego również jako Musical Instrument Digital Interface, który jest ujednoliconym międzynarodowym standardem dla muzyki cyfrowej/elektronicznych syntetycznych instrumentów muzycznych. Określa sposób, w jaki komputerowe programy muzyczne, syntezatory cyfrowe i inne urządzenia elektroniczne wymieniają sygnały muzyczne, a także określa protokół transmisji danych między kablami i sprzętem oraz urządzeniami łączącymi elektroniczne instrumenty muzyczne różnych producentów z komputerami, a także może symulować dźwięk wielu utworów muzycznych. instrumenty. Plik MIDI to plik w formacie MIDI, a niektóre polecenia są przechowywane w pliku MIDI. Wyślij te instrukcje do karty dźwiękowej, a karta dźwiękowa zsyntetyzuje dźwięk zgodnie z instrukcjami.

3) Pełna nazwa MP3 to MPEG-1 Audio Layer 3, który został włączony do specyfikacji MPEG w 1992 roku. MP3 może kompresować cyfrowe pliki audio z wysoką jakością dźwięku i niską częstotliwością próbkowania. Najpopularniejsza aplikacja.

4) MP3Pro został opracowany przez szwedzką firmę Coding Technology Company, która zawiera dwie główne technologie: jedna to unikalna technologia dekodowania firmy Coding Technology Company, a druga to integracja wspólnie zbadanych właścicieli patentu MP3, francuskiej firmy Thomson Multimedia Company i niemieckiej technologii dekodowania Fraunhofer A przez Stowarzyszenie Okręgowe. MP3Pro może poprawić oryginalną jakość dźwięku muzyki MP3 bez zasadniczej zmiany rozmiaru pliku. Może w największym stopniu zachować jakość dźwięku przed kompresją, jednocześnie kompresując pliki audio z niższą szybkością transmisji.

5) MP3Pro został opracowany przez szwedzką firmę Coding Technology Company, która zawiera dwie główne technologie: jedna to unikalna technologia dekodowania firmy Coding Technology Company, a druga to integracja wspólnie zbadanych właścicieli patentu MP3, francuskiej firmy Thomson Multimedia Company i niemieckiej technologii dekodowania Fraunhofer A przez Stowarzyszenie Okręgowe. MP3Pro może poprawić oryginalną jakość dźwięku muzyki MP3 bez zasadniczej zmiany rozmiaru pliku. Może w największym stopniu zachować jakość dźwięku przed kompresją, jednocześnie kompresując pliki audio z niższą szybkością transmisji.

6) WMA (Windows Media Audio) to arcydzieło Microsoftu w dziedzinie internetowego audio i wideo. Format WMA osiąga wyższy współczynnik kompresji, zmniejszając ruch danych, ale zachowując jakość dźwięku. Stopień kompresji może na ogół osiągnąć 1:18. Ponadto WMA może również chronić prawa autorskie za pomocą DRM (Digital Rights Management).

7) RealAudio to format pliku uruchomiony przez Real Networks. Największą cechą jest to, że może przesyłać informacje audio w czasie rzeczywistym, zwłaszcza gdy prędkość sieci jest niska, nadal może przesyłać dane płynnie, więc RealAudio nadaje się głównie do odtwarzania online w sieci. Obecne formaty plików RealAudio obejmują głównie RA (RealAudio), RM (RealMedia, RealAudio G2), RMX (RealAudio Secured) itp. Wspólną cechą tych plików jest to, że jakość dźwięku zmienia się wraz z różnicą przepustowości sieci. Przy założeniu, że większość ludzi słyszy płynny dźwięk, słuchacze o szerszym paśmie mogą uzyskać lepszą jakość dźwięku.

8) Audible ma cztery różne formaty: Audible1, 2, 3, 4. Witryna Audible.com sprzedaje głównie książki audio w Internecie i zapewnia ochronę sprzedawanych towarów i plików za pośrednictwem jednego z czterech dedykowanych formatów audio Audible.com . Każdy format dotyczy głównie źródła dźwięku i używanego urządzenia odsłuchowego. Formaty 1, 2 i 3 wykorzystują różne poziomy kompresji głosu, podczas gdy format 4 wykorzystuje niższą częstotliwość próbkowania i tę samą metodę dekodowania co MP3. Otrzymany głos jest wyraźniejszy i można go skuteczniej pobrać z Internetu. Audible używa własnego narzędzia do odtwarzania pulpitu, którym jest Audible Manager. Za pomocą tego odtwarzacza można odtwarzać pliki w formacie Audible zapisane na komputerze lub przesłane do przenośnego odtwarzacza.

9) AAC to właściwie skrót od Advanced Audio Coding. AAC to format audio opracowany wspólnie przez Fraunhofer IIS-A, Dolby i AT&T. Jest to część specyfikacji MPEG-2. Algorytm używany przez AAC różni się od MP3. AAC łączy inne funkcje, aby poprawić wydajność kodowania. Algorytm audio AAC znacznie przewyższa niektóre poprzednie algorytmy kompresji (takie jak MP3 itp.) pod względem możliwości kompresji. Obsługuje również do 48 ścieżek audio, 15 ścieżek audio o niskiej częstotliwości, więcej częstotliwości próbkowania i szybkości transmisji, kompatybilność z wieloma językami i wyższą wydajność dekodowania. Krótko mówiąc, AAC może zapewnić lepszą jakość dźwięku przy założeniu, że jest o 30% mniejszy niż pliki MP3.

10) Ogg Vorbis to nowy format kompresji dźwięku, podobny do istniejących formatów muzycznych, takich jak MP3. Ale jedną różnicą jest to, że jest całkowicie darmowy, otwarty i bez ograniczeń patentowych. Vorbis to nazwa tego mechanizmu kompresji dźwięku, a Ogg to nazwa projektu, który ma na celu zaprojektowanie całkowicie otwartego systemu multimedialnego. VORBIS to również kompresja stratna, ale wykorzystuje bardziej zaawansowane modele akustyczne w celu zmniejszenia strat. Dlatego OGG zakodowane z tą samą szybkością transmisji brzmi lepiej niż MP3.

11) APE to bezstratny skompresowany format audio, przy założeniu, że jakość dźwięku nie jest zmniejszona, rozmiar jest skompresowany do połowy tradycyjnego bezstratnego formatu pliku WAV.

12) FLAC to skrót od Free Lossless Audio Codec, zestawu dobrze znanych darmowych kodów bezstratnej kompresji audio, który charakteryzuje się kompresją bezstratną.

3. podstawowa zasada kodowania dźwięku

Kodowanie mowy ma na celu zmniejszenie przepustowości kanału wymaganej do transmisji przy zachowaniu wysokiej jakości mowy wejściowej.

Celem kodowania mowy jest zaprojektowanie kodera o małej złożoności, aby osiągnąć wysoką jakość transmisji danych przy możliwie najniższej przepływności.

1) Krzywa progu wyciszenia: próg, przy którym ludzkie ucho może słyszeć dźwięk o różnych częstotliwościach tylko w cichym otoczeniu.

2) Krytyczne pasmo częstotliwości

Ponieważ ludzkie ucho ma różne rozdzielczości dla różnych częstotliwości, MPEG1 / Audio dzieli dostrzegalny zakres częstotliwości w zakresie 22 kHz na 23–26 krytycznych pasm częstotliwości zgodnie z różnymi warstwami kodowania i różnymi częstotliwościami próbkowania. Poniższy rysunek przedstawia środkową częstotliwość i szerokość pasma idealnego krytycznego pasma częstotliwości. Jak widać na rysunku, ucho ludzkie ma lepszą rozdzielczość niskich częstotliwości

3) Efekt maskowania w dziedzinie częstotliwości: Sygnał o większej amplitudzie zamaskuje sygnał o podobnej częstotliwości i mniejszej amplitudzie, jak pokazano na poniższym rysunku:

4) Efekt maskowania w dziedzinie czasu: W krótkim czasie, jeśli pojawią się dwa dźwięki, dźwięk o wyższym SPL (poziom ciśnienia akustycznego) zamaskuje dźwięk o niższym SPL. Efekt maskowania w dziedzinie czasu dzieli się na maskowanie do przodu (przed maskowaniem) i maskowanie do tyłu (po maskowaniu). Czas po maskowaniu będzie dłuższy, około 10 razy dłuższy niż przed maskowaniem.

Efekt maskowania w dziedzinie czasu pomaga wyeliminować echo wstępne.

4. podstawowe sposoby kodowania

1) Kwantyzator i kwantyzator

Kwantyzacja i kwantyzator: kwantyzacja przekształca ciągły sygnał w dyskretnym czasie w dyskretny sygnał w dyskretnym czasie. Typowe kwantyzatory to: jednorodny kwantyzator, kwantyzator logarytmiczny i kwantyzator niejednorodny. Celem procesu kwantyzacji jest zminimalizowanie błędu kwantyzacji i zminimalizowanie złożoności kwantyzatora (oba są same w sobie sprzecznością).

(A) Jednolity kwantyzator: najprostszy, najgorsza wydajność, odpowiedni tylko dla głosu telefonicznego.

(B) Kwantyzator logarytmiczny: Jest bardziej skomplikowany niż jednorodny kwantyzator i łatwy do wdrożenia, a jego wydajność jest lepsza niż jednorodny kwantyzator.

(C) Niejednorodny kwantyzator: Zaprojektuj kwantyzator zgodnie z rozkładem sygnału. Szczegółowa kwantyfikacja jest wykonywana, gdy sygnał jest gęsty, a zgrubna kwantyfikacja jest wykonywana, gdy sygnał jest rzadki.

2) Koder głosu

Istnieją trzy typy koderów mowy: (a) Koder przebiegów; (b) Vocoder; (c) Enkoder hybrydowy.

Koder przebiegu ma na celu skonstruowanie przebiegu analogowego, w tym arkusza szumów tła. Działając na wszystkie sygnały wejściowe, będzie generował próbki wysokiej jakości i zużywał dużą przepływność. Vocoder nie zregeneruje oryginalnego kształtu fali. Ten zestaw koderów wyodrębni zestaw parametrów, które są wysyłane do odbiorcy w celu uzyskania modelu generowania głosu. Jakość głosu vocodera nie jest wystarczająco dobra. Enkoder hybrydowy, który łączy w sobie zalety kodera przebiegu i echosondy.

2.1 Koder przebiegu

Konstrukcja kodera przebiegu jest często niezależna od sygnału. Dlatego nadaje się do kodowania różnych sygnałów i nie ogranicza się do mowy.

1) Kodowanie w dziedzinie czasu

a) PCM: modulacja impulsowo-kodowa, jest najprostszą metodą kodowania. Jest to tylko dyskretyzacja i kwantyzacja sygnału, a często stosowana jest logarytmizacja.

b) DPCM: różnicowa modulacja kodu impulsowego, która koduje tylko różnicę między próbkami. Poprzednia jedna lub więcej próbek jest używana do przewidywania bieżącej wartości próbki. Im więcej próbek użytych do prognozowania, tym dokładniejsza jest przewidywana wartość. Różnica między wartością prawdziwą a wartością przewidywaną nazywana jest resztą, która jest przedmiotem kodowania.

c) ADPCM: adaptacyjna różnicowa modulacja kodu impulsu, adaptacyjny różnicowy kod impulsu. Oznacza to, że na podstawie DPCM kwantyzator i predyktor są odpowiednio dostosowywane do zmian sygnału, tak aby przewidywana wartość była bliższa rzeczywistemu sygnałowi, rezydualna była mniejsza, a wydajność kompresji wyższa.

(2) Kodowanie w dziedzinie częstotliwości

Kodowanie w dziedzinie częstotliwości polega na rozłożeniu sygnału na szereg różnych elementów częstotliwości i wykonaniu niezależnego kodowania.

a) Kodowanie podpasmowe: Kodowanie podpasmowe jest najprostszą techniką kodowania w dziedzinie częstotliwości. Jest to technologia, która przekształca oryginalny sygnał z dziedziny czasu do domeny częstotliwości, a następnie dzieli go na kilka podpasm i odpowiednio wykonuje na nich kodowanie cyfrowe. Wykorzystuje grupę filtru pasmowo-przepustowego (BPF) do podzielenia oryginalnego sygnału na kilka (na przykład m) podpasm (nazywanych podpasmami). Przepuść każde podpasmo przez charakterystykę modulacji równoważną modulacji amplitudy z pojedynczym pasmem bocznym, przesuń każde podpasmo do częstotliwości bliskiej zeru, odpowiednio przejdź przez BPF (łącznie m), a następnie przenieś każde podpasmo z określoną szybkością ( Częstotliwość Nyquista) Sygnał wyjściowy podzakresu pasma jest próbkowany, a próbkowana wartość jest zwykle kodowana cyfrowo i ustawiane są m koderów cyfrowych. Wyślij każdy zakodowany sygnał cyfrowy do multipleksera, a na koniec wyślij podpasmowy zakodowany strumień danych.

W przypadku różnych podpasm można zastosować różne metody kwantyzacji, a podpasmom można przydzielić różne liczby bitów zgodnie z modelem percepcji ludzkiego ucha.

b) kodowanie transformacyjne: kodowanie DCT.

5. Wokoder

Channel vocoder: Wykorzystuje niewrażliwość ludzkiego ucha na fazę.

homomorficzny vocoder: potrafi efektywnie przetwarzać sygnały syntetyczne.

Formant vocoder: Większość informacji zawartych w sygnale głosowym znajduje się na pozycji i szerokości pasma formanta.

liniowy wokoder predykcyjny: najczęściej używany wokoder.

6. Hybrydowy enkoder

Koder przebiegu próbuje zachować kształt fali zakodowanego sygnału i może zapewnić wysokiej jakości mowę przy średniej szybkości transmisji (32 kb / s), ale nie może być stosowany w przypadkach o niskiej przepływności. Wokoder próbuje wygenerować sygnał, który jest dźwiękowo podobny do zakodowanego sygnału i może zapewnić zrozumiałą mowę przy niskiej przepływności, ale wynikowa mowa brzmi nienaturalnie. Enkoder hybrydowy łączy zalety obu.

RELP: Na podstawie predykcji liniowej reszta jest kodowana. Mechanizm jest następujący: transmituj tylko niewielką część reszt i rekonstruuj wszystkie reszty na końcu odbierającym (skopiuj reszty pasma podstawowego).

MPC: kodowanie wielopulsowe, które usuwa korelację reszt i służy do kompensacji prostej klasyfikacji głosów wokodera na dźwięczne i bezdźwięczne bez defektów stanów pośrednich.

CELP: przewidywanie liniowe wzbudzane książką kodową, które wykorzystuje przewidywanie ścieżki głosowej i kaskadę predyktora wysokości tonu w celu lepszego przybliżenia oryginalnego sygnału.

MBE: wzbudzenie wielopasmowe, celem jest uniknięcie dużej liczby obliczeń CELP, aby uzyskać wyższą jakość niż wokoder.