Come funziona la compressione MP3? | LedgerNote

Aggiornato: Feb 15, 2021 – D & A

Come funziona la compressione MP3? Questa è una domanda comune che merita una risposta veloce. In realtà ho cercato in giro per la rete prima di sedermi a scrivere questo e ho notato che tutti stavano scrivendo romanzi sull’argomento ma nessuno riusciva a spiegarlo in modo veloce e da persona normale. Quindi eccoci qui!

“Qualsiasi tecnologia sufficientemente avanzata è indistinguibile dalla magia.” – Arthur C. Clarke

Per la maggior parte di noi, la citazione precedente riassume perfettamente il mistero della compressione MP3. Purtroppo, riassume anche la maggior parte delle spiegazioni là fuori.

Come fanno i file MP3 ad essere più piccoli ma a suonare bene?

Domanda:

Ho comprato un album online recentemente e mi è stato consegnato come file a 160 kbps. L’ho notato solo perché la dimensione del file era molto più piccola dei file wave non compressi che ho creato io stesso.

Quello che non ho notato è un calo di qualità. Puoi spiegare come funziona questa compressione mp3, perché ovviamente l’algoritmo di compressione sta lasciando fuori alcuni dati per far sì che questo accada, giusto?

Grazie,
Mason D.

Risposta:

Mason, questa è una grande domanda. Posso rispondere chiaramente solo grazie al fatto di aver passato molto tempo a preoccuparmi di come distribuire la mia musica su internet, e naturalmente dopo essermi rinfrescato. Sono passati ben 15 anni da quando ho passato del tempo a pensare pesantemente all’argomento.

Cosa è la compressione MP3 & Perché esiste

Nessuno si preoccupava di questa roba quando lavoravamo nel campo analogico. Avevamo dischi in vinile, 8 tracce, cassette e compact disc (questi sono digitali ma non avevano bisogno di compressione). Gli MP3 sono diventati una “cosa” dopo l’esplosione di internet.

confronto della compressione dei dati audio — La codifica MP3 rappresenta un enorme risparmio, ancora di più a 128 kbps bit rate.

Un tipico file wave non compresso potrebbe essere grande come 30 MB per una tipica canzone di 3 minuti. Ma dopo essere stato eseguito attraverso gli algoritmi di compressione MP3 potrebbe scendere a 3 MB senza alcuna seria perdita di qualità.

Questo era preferibile quando le nostre velocità di banda erano estremamente basse sui modem dial-up e potevamo anche avere dei limiti di banda per il mese. Invece di aspettare giorni per scaricare una canzone, potevamo farlo in un paio d’ore (e nel presente, un paio di secondi!).

Gli MP3 stanno mantenendo la loro presenza grazie ai lettori MP3 come l’iPod. Hanno uno spazio limitato sul disco rigido o sul flash drive, quindi con la compressione possiamo portare in giro molta più musica.

Inoltre non c’è bisogno di file a piena risoluzione quando stiamo facendo lavori di giardinaggio o in palestra usando piccoli auricolari sportivi. È anche un enorme risparmio di spazio e di banda per i servizi di streaming online.

MP3 sta per MPEG Layer 3

MPEG è un tipo di file video che ha fatto per i video la stessa cosa che gli MP3 hanno fatto per l’audio. Infatti, gli MP3 sono solo il terzo strato separato per l’audio sui file video. È la stessa tecnologia.

Come fa la compressione MP3 a risparmiare così tanto spazio?

Ecco dove la cosa diventa folle. Le persone che hanno progettato questi algoritmi di compressione hanno usato la nostra conoscenza della psicoacustica per gestire la larghezza di banda dei dati. La psicoacustica si riferisce a come il nostro cervello interpreta i suoni.

Il cervello usa certi trucchi come il mascheramento uditivo per allocare le risorse e l’attenzione su quello che è il suono più importante che accade in un dato momento. Usando queste informazioni, sappiamo di cosa possiamo sbarazzarci, in termini di dati.

Perdita dell’udito negli adulti

Il primo e più facile risparmio è quello di andare avanti e tagliare una certa gamma di frequenza se la musica lo permette. Gli adulti cominciano a perdere la loro capacità di sentire sopra i 16-18 kHz, mentre il limite massimo per gli esseri umani è intorno ai 24 kHz. A quel livello non c’è molto da fare in termini di intelligibilità. È solo “scintillio, brillantezza, lucentezza.”

Nella maggior parte dei casi, non abbiamo bisogno di averlo affatto o almeno possiamo codificarlo nel file MP3 ad una risoluzione inferiore.

Definire il silenzio

Questo si riferisce a qualcosa che le nostre orecchie e il nostro cervello fanno chiamato mascheramento simultaneo. Fondamentalmente, se un suono forte sta esplodendo sopra un sacco di suoni a basso volume, è naturale concentrarsi sul suono forte. Ciò significa che possiamo spendere molti meno dati sui suoni tranquilli. Non hanno bisogno di tanti dettagli codificati in quei momenti.

Mascheramento temporale

Nello stesso modo di cui sopra, se due eventi sonori si verificano entro millisecondi l’uno dall’altro, saremo in grado di concentrarci solo su quello più forte. È il modo in cui siamo stati evolutivamente preparati a reagire. Le nostre orecchie e le nostre menti non possono separare eventi così vicini nel tempo.

Quindi ciò che l’algoritmo di codifica fa è ignorare o almeno assegnare molti meno dati al suono più tranquillo, dato che non lo percepiremo comunque.

Soglia minima di ascolto

La soglia minima di ascolto si riferisce al volume. Quando una voce o un suono diventa sempre più silenzioso, siamo in grado di percepire sempre meno dettagli. Il codificatore lo sa e sceglie di non salvare ogni singolo dettaglio dei suoni silenziosi, dato che non possiamo usarlo comunque. E se un suono scende sotto una certa soglia di volume dove l’orecchio umano non può sentirlo, allora viene buttato via completamente.

Bit Rate, Bit Depth, & Gestione del Sample Rate

E infine è qui che viene fatto il vero lavoro. Una volta che hai elaborato tutti i risparmi di cui sopra, rimarrai comunque con un file pesante e di grandi dimensioni. Questo perché tutti i dati rimasti vengono ancora memorizzati alla massima risoluzione possibile. Ecco come i geni dietro l’MP3 hanno risolto il problema.

Prima di tutto, l’MP3 è una tecnica di compressione dei dati in perdita per definizione, perché diminuiamo immediatamente la profondità di bit dell’audio da 24 bit o più a 16 bit. Lossy si riferisce a questo calo di risoluzione, ma non significa necessariamente una perdita di qualità audio.

16 bit è una profondità che ha molto spazio per fornire un alto rapporto segnale-rumore. Significa che ogni campione ha 16 bit da codificare (usando uno 0 o un 1 in binario). Passando da 24 bit a 16 bit abbiamo già fatto un risparmio del 25% in termini di dimensioni senza alcuna differenza di qualità percepibile.

Parlando di ogni campione che ha 16 bit ciascuno… questo è un altro posto dove si fanno enormi risparmi. Le frequenze di campionamento possono arrivare fino a 96.000 campioni al secondo! 44.1 kHz è la tua tipica frequenza di campionamento per gli MP3 ed è ancora una tonnellata di campioni al secondo, ma rappresenta un calo del 50% nella quantità di dati memorizzati rispetto alle frequenze di campionamento di 96 kHz. Ecco come funziona, via immagine:

spiegazione sulla frequenza di campionamento per MP3

Le basi sono che una frequenza di campionamento più bassa cattura meno “scatti” di ogni momento della musica. Potete pensarla come un film o un videogioco a 60 fotogrammi al secondo contro i tipici 24 fps. 24 è più che sufficiente, ma 60 è fantastico durante le scene d’azione veloci. Funziona allo stesso modo per la musica e le frequenze di campionamento.

E infine impostiamo un limite al flusso di dati. Questo prende in considerazione tutto ciò che è stato menzionato sopra e poi stabilisce un tetto massimo su quanti dati si possono inviare in una sola volta. La maggior parte dei servizi di streaming e vendita di MP3 usano un CBR, che è un bit rate costante, di solito di 128 kilobyte al secondo.

Altre opzioni comuni sono 192 kbps, e 320 kbps che è il massimo disponibile su MP3 e buono come la qualità audio non compressa. Alcuni servizi di streaming inviano solo 64 kbps e si può sicuramente notare. La qualità subisce un serio calo sotto i 128 kbps.

I bit rate costanti sono preferibili per questi servizi e per i consumatori perché li aiuta a prevedere le loro esigenze di larghezza di banda e di archiviazione. Ma sono stati fatti dei progressi per uso personale come VBR, che è un bit rate variabile.

Quello che fa è permettere un bit rate più basso durante le parti tranquille delle canzoni e un bit rate più alto nelle parti più forti o complesse di una canzone. Questo è preferibile per coloro che preferiscono la più alta qualità audio ma desiderano ancora il risparmio di dati degli MP3.

Come funziona la compressione MP3? Ecco come!

E questo è tutto! Questa è la spiegazione più breve e semplice della compressione MP3 che potrai mai trovare. La prossima volta che uno dei tuoi amici ti chiede “Come funziona la compressione MP3?” puoi mandarlo qui o, se riesci a ricordare questi dettagli, spiegarglielo e farlo sentire inferiore. È a questo che servono gli amici!

Grazie per questa solida domanda. Ho dovuto scavare a fondo per rispondere a come funziona la compressione mp3!
Jared

Jared H.

Jared H. LedgerNote Autore Headshot Jared ha superato il suo 20° anno nell’industria musicale. È proprietario, editore, autore principale e web designer di LedgerNote, nonché co-autore di tutti gli articoli. Ha pubblicato 4 album e merchandise indipendenti con vendite globali. Ha anche mixato, masterizzato, & registrato per innumerevoli artisti indipendenti. Per saperne di più su Jared & Il Team LN qui.