Articles

How Does MP3 Compression Work?

Posted on
mp3

Aktualizacja: Feb 15, 2021 – Q & A

Jak działa kompresja MP3? To częste pytanie, które zasługuje na szybką odpowiedź. Właściwie przeszukałem sieć, zanim usiadłem, aby to napisać i zauważyłem, że wszyscy pisali powieści na ten temat, ale nikt nie mógł wyjaśnić tego w szybki, normalny sposób. Więc zaczynamy!

jak działa kompresja mp3

„Każda wystarczająco zaawansowana technologia jest nieodróżnialna od magii.” – Arthur C. Clarke

Dla większości z nas powyższy cytat idealnie podsumowuje tajemnicę kompresji MP3. Niestety, podsumowuje on również większość wyjaśnień.

Jak pliki MP3 są mniejsze, ale brzmią dobrze?

Pytanie:

Kupiłem ostatnio album online i został on dostarczony jako plik 160 kbps. Zauważyłem to tylko dlatego, że sam rozmiar pliku był znacznie mniejszy niż nieskompresowane pliki wave, które sam stworzyłem.

Nie zauważyłem natomiast żadnego spadku jakości. Czy możesz wyjaśnić, jak działa kompresja mp3, bo oczywiście algorytm kompresji pomija pewne dane, aby tak się stało, prawda?

Dzięki,
Mason D.

Odpowiedź:

Mason, to świetne pytanie. Mogę na nie odpowiedzieć w sposób jasny tylko dzięki temu, że spędziłem sporo czasu martwiąc się o to, jak rozpowszechniać własną muzykę w internecie, i oczywiście po odświeżeniu się. Minęło dobre 15 lat odkąd spędziłem czas na intensywnym myśleniu na ten temat.

Czym jest kompresja MP3 & Dlaczego istnieje

Nikogo nie obchodziły te rzeczy, kiedy pracowaliśmy na polu analogowym. Mieliśmy płyty winylowe, 8-tracków, kasety magnetofonowe i płyty kompaktowe (te są cyfrowe, ale nie potrzebują kompresji). MP3 stały się „rzeczą” po eksplozji Internetu.

porównanie kompresji danych audio
Kodowanie MP3 to ogromne oszczędności, jeszcze większe przy prędkości 128 kbps.

Typowy nieskompresowany plik wave może mieć wielkość nawet 30 MB dla typowej 3 minutowej piosenki. Ale po przejściu przez algorytmy kompresji MP3 może spaść do 3 MB bez poważnej utraty jakości.

To było preferowane, gdy nasze prędkości pasma były bardzo niskie na modemach dial-up i mogliśmy nawet mieć limity pasma na miesiąc. Zamiast czekać kilka dni na ściągnięcie piosenki, mogliśmy to zrobić w kilka godzin (a w teraźniejszości, kilka sekund!).

MP3 utrzymują swoją obecność dzięki odtwarzaczom MP3 takim jak iPod. Mają one ograniczone miejsce na dysku twardym lub pendrive’ie, więc dzięki kompresji możemy mieć przy sobie o wiele więcej muzyki.

Plus nie ma potrzeby korzystania z plików w pełnej rozdzielczości, gdy wykonujemy prace na podwórku lub na siłowni, używając malutkich słuchawek sportowych. Jest to również ogromna oszczędność miejsca i przepustowości dla serwisów streamingowych online.

MP3 to skrót od MPEG Layer 3

MPEG to typ pliku wideo, który robi to samo dla wideo, co MP3 dla audio. W rzeczywistości MP3 to tylko 3 warstwa wydzielona dla audio na plikach wideo. To wszystko ta sama technologia.

Jak kompresja MP3 oszczędza tak wiele miejsca?

Tutaj zaczyna się szaleństwo. Ludzie, którzy zaprojektowali te algorytmy kompresji wykorzystali naszą wiedzę o psychoakustyce do zarządzania przepustowością danych. Psychoakustyka odnosi się do tego, jak nasz mózg interpretuje dźwięki.

Mózg używa pewnych sztuczek, takich jak maskowanie słuchowe, aby przydzielić zasoby i uwagę do tego, co jest najważniejszym dźwiękiem w danym momencie. Używając tej informacji, wiemy czego możemy się pozbyć, jeśli chodzi o dane.

Ubytek słuchu u dorosłych

Pierwszą i najłatwiejszą oszczędnością jest pójście naprzód i wycięcie pewnego zakresu częstotliwości, jeśli muzyka na to pozwala. Dorośli zaczynają tracić zdolność słyszenia powyżej 16-18 kHz, podczas gdy górna granica dla ludzi wynosi około 24 kHz. Na tym poziomie nie dzieje się zbyt wiele, jeśli chodzi o zrozumiałość. To tylko „błysk, połysk, połysk.”

jak działa kompresja mp3
Lewa: Nieskompresowany obraz spektralny dźwięku. Po prawej: MP3 Cuts Audio Above 16-18 kHz.

W większości przypadków, nie musimy mieć tego w ogóle lub przynajmniej możemy zakodować to w pliku MP3 w niższej rozdzielczości.

De-Emphasize the Quiet

Odnosi się to do czegoś, co nasze uszy i mózgi nazywają jednoczesnym maskowaniem. Zasadniczo, jeśli głośny dźwięk rozbrzmiewa na tle wielu dźwięków o niskiej głośności, naturalnie skupisz się na głośnym dźwięku. Oznacza to, że możemy poświęcić znacznie mniej danych na ciche dźwięki. Nie potrzebują one tak wiele szczegółów zakodowanych w nich w tym czasie.

Maskowanie czasowe

W ten sam sposób powyżej, jeśli dwa zdarzenia dźwiękowe występują w ciągu milisekund od siebie, będziemy w stanie skupić się tylko na najgłośniejszym z nich. Tak właśnie zostaliśmy ewolucyjnie przygotowani do reagowania. Nasze uszy i umysły nie są w stanie rozdzielić zdarzeń tak bliskich w czasie.

maskowanie czasowe

Więc algorytm kodera ignoruje lub przynajmniej przydziela znacznie mniej danych do cichszego dźwięku, ponieważ i tak go nie odbierzemy.

Minimalny próg słyszalności

Minimalny próg słyszalności odnosi się do głośności. Gdy głos lub dźwięk staje się coraz cichszy i cichszy, jesteśmy w stanie wyłapać coraz mniej szczegółów. Koder wie o tym i decyduje się nie zapisywać każdego szczegółu cichego dźwięku, ponieważ i tak nie możemy go użyć. A jeśli dźwięk spadnie poniżej pewnego progu głośności, gdzie ludzkie ucho nie może go usłyszeć, wtedy zostaje on całkowicie wyrzucony.

Bit Rate, Bit Depth, & Zarządzanie częstotliwością próbkowania

I w końcu to jest miejsce gdzie wykonywana jest prawdziwa praca. Po przetworzeniu wszystkich oszczędności wymienionych powyżej, nadal będziesz w lewo z hefty plik o dużym rozmiarze. To dlatego, że wszystkie pozostawione dane są nadal przechowywane w najwyższej możliwej rozdzielczości. Oto jak geniusze stojący za MP3 rozwiązali ten problem.

Przede wszystkim, MP3 jest z definicji techniką stratnej kompresji danych, ponieważ natychmiast zmniejszamy głębokość bitową dźwięku z 24 bitów lub więcej do 16 bitów. Stratny odnosi się do tego spadku rozdzielczości, ale nie musi oznaczać utraty jakości dźwięku.

16 bitów to głębia, która ma dużo miejsca, aby zapewnić wysoki stosunek sygnału do szumu. Oznacza to, że każda próbka ma 16 bitów do zakodowania (używając 0 lub 1 w systemie binarnym). Schodząc z 24 bitów do 16 bitów już dokonaliśmy 25% oszczędności w rozmiarze bez zauważalnej różnicy w jakości.

Mówiąc o tym, że każda próbka ma 16 bitów… to kolejne miejsce, w którym dokonuje się ogromnych oszczędności. Częstotliwość próbkowania może sięgać nawet 96,000 próbek na sekundę! 44.1 kHz jest typową częstotliwością próbkowania dla MP3 i to wciąż jest mnóstwo próbek na sekundę, ale reprezentuje 50% spadek w ilości przechowywanych danych w porównaniu do częstotliwości próbkowania 96 kHz. Oto jak to działa, poprzez obrazek:

wyjaśnienie częstotliwości próbkowania dla MP3

Podstawą jest to, że niższa częstotliwość próbkowania przechwytuje mniej „ujęć” każdego momentu muzyki. Możesz myśleć o tym jak o filmie lub grze wideo przy 60 klatkach na sekundę w porównaniu do typowych 24 klatek na sekundę. 24 jest więcej niż wystarczająco dobre, ale 60 wygląda świetnie podczas szybkich scen akcji. To samo dotyczy muzyki i częstotliwości próbkowania.

I wreszcie ustalamy limit przepustowości danych. Bierze to pod uwagę wszystko, co zostało wspomniane powyżej, a następnie określa pułap ilości danych, które możesz przesłać na raz. Większość usług strumieniowania i sprzedaży MP3 używa CBR, czyli stałej szybkości transmisji, zwykle 128 kilobajtów na sekundę.

Inne popularne opcje to 192 kbps, i 320 kbps, która jest najwyższą dostępną w MP3 i tak samo dobra jak nieskompresowana jakość dźwięku. Niektóre serwisy strumieniowe wysyłają tylko 64 kbps i można to zdecydowanie stwierdzić. Jakość ma poważny spadek poniżej 128 kbps.

Stałe prędkości bitowe są preferowane dla tych usług i konsumentów, ponieważ pomaga im przewidzieć ich pasmo i potrzeby przechowywania. Ale postępy zostały poczynione dla użytku osobistego, takie jak VBR, który jest zmienną prędkością bitową.

To, co to robi, to pozwala na niższą prędkość bitową podczas cichych części utworów i wyższą prędkość bitową w głośniejszych lub bardziej złożonych częściach utworu. Jest to korzystne dla tych, którzy preferują najwyższą jakość dźwięku, ale nadal pragną oszczędności danych, jakie dają pliki MP3.

Więc jak działa kompresja MP3? That’s How!

And that’s it! To jest najkrótsze i najprostsze wyjaśnienie kompresji MP3, jakie kiedykolwiek znajdziesz. Następnym razem gdy jeden z twoich przyjaciół zapyta „Jak działa kompresja MP3?” możesz wysłać go tutaj lub jeśli pamiętasz te szczegóły, wyjaśnij im to i spraw by poczuli się gorsi. Po to właśnie są przyjaciele!

Dzięki za tak solidne pytanie. Musiałem głęboko kopać, aby odpowiedzieć, jak działa kompresja mp3!
Jared

Jared H.

Jared H. LedgerNote Author HeadshotJared przekroczył swój 20 rok w branży muzycznej. Działa jako właściciel, redaktor, główny autor i projektant stron internetowych LedgerNote, a także współautor wszystkich artykułów. Wydał 4 niezależne albumy i merchandise, które sprzedają się na całym świecie. Zajmował się również miksowaniem, masteringiem i nagrywaniem dla niezliczonych niezależnych artystów. Dowiedz się więcej o Jaredzie & Zespół LN tutaj.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *