Articles

How Does MP3 Compression Work?

Posted on
mp3
Actualizado: Fev 15, 2021 – P & A

Como funciona a compressão de MP3? Essa é uma pergunta comum que merece uma resposta rápida. Na verdade, procurei na Internet antes de me sentar para escrever isto e reparei que todos estavam a escrever romances sobre o tema, mas ninguém conseguia explicá-lo de uma forma rápida e normal. Então aqui vamos nós!

how mp3 compression works

“Qualquer tecnologia suficientemente avançada é indistinguível da magia”. – Arthur C. Clarke

Para a maioria de nós, a citação acima resume perfeitamente o mistério da compressão MP3. Infelizmente, também resume a maior parte das explicações que existem.

How Are MP3 Files Smaller But Sound Good?

Question:

Comprei um álbum online recentemente e foi entregue como um ficheiro de 160 kbps. Só reparei porque o tamanho do ficheiro em si era muito mais pequeno do que os ficheiros wave não comprimidos que eu próprio criei.

O que não reparei foi qualquer quebra de qualidade. Pode explicar como funciona esta compressão mp3, porque obviamente o algoritmo de compressão está a deixar de fora alguns dados para que isto aconteça, certo?

Extenso,
Mason D.

Resposta:

Mason, essa é uma grande questão. Só posso responder a isto claramente graças a ter passado muito tempo preocupado com a forma de distribuir a minha própria música através da Internet, e claro, depois de me ter refrescado. Já passaram uns bons 15 anos desde que passei muito tempo a pensar no tópico.

O que é a compressão MP3 & Porque existe

Ninguém se preocupou com estas coisas quando estávamos a trabalhar no campo analógico. Tínhamos discos de vinil, 8 faixas, cassetes, e discos compactos (estes são digitais mas não precisavam de compressão). Os MP3 tornaram-se uma “coisa” após a explosão da Internet.

audio data compression comparison
codificaçãoMP3 representa uma poupança maciça, ainda mais a 128 kbps de bit rate.

Um típico ficheiro de onda não comprimido pode ter o tamanho de 30 MB para uma canção típica de 3 minutos. Mas depois de ser executado através dos algoritmos de compressão MP3 que podem descer para 3 MB sem qualquer perda séria de qualidade.

Isso era preferível quando as nossas velocidades de banda eram extremamente baixas nos modems dial-up e podíamos até ter limites de largura de banda para o mês. Em vez de dias de espera para descarregar uma música, podíamos fazê-lo em algumas horas (e no presente, alguns segundos!).

MP3’s mantêm a sua presença devido a leitores de MP3 como o iPod. Têm um espaço limitado no disco rígido ou flash drive, pelo que com a compressão podemos transportar muito mais música.

Plus não há necessidade de ficheiros de resolução completa quando estamos a fazer trabalho de jardinagem ou no ginásio usando pequenos auscultadores desportivos. É também uma enorme poupança de espaço e largura de banda para serviços de streaming online.

MP3 significa MPEG Layer 3

MPEG é um tipo de ficheiro de vídeo que fez a mesma coisa para vídeos que os MP3 fizeram para áudio. De facto, os MP3 são apenas a terceira camada separada para o áudio nos ficheiros de vídeo. É tudo a mesma tecnologia.

Como é que a compressão de MP3 poupa tanto espaço?

Aqui é onde fica louco. As pessoas que conceberam estes algoritmos de compressão utilizaram os nossos conhecimentos de psicoacústica para gerir a largura de banda de dados. A psicoacústica refere-se à forma como o nosso cérebro interpreta os sons.

O cérebro usa certos truques como a máscara auditiva para atribuir recursos e atenção ao que é o som mais importante que acontece num dado momento. Usando esta informação, sabemos do que nos podemos livrar, em termos de dados.

Perda Auditiva Adulta

A primeira e mais fácil poupança é ir em frente e cortar uma certa gama de frequências se a música o permitir. Os adultos começam a perder a sua capacidade de audição acima dos 16-18 kHz, enquanto que o limite superior para os humanos é de cerca de 24 kHz. A esse nível, não há muito a acontecer em termos de inteligibilidade. É apenas “faísca, brilho, brilho”

como funciona a compressão mp3
Esquerda: Imagem Espectral Sonora não comprimida. Direita: MP3 Corta Áudio Acima de 16-18 kHz.

Na maioria dos casos, não precisamos de o ter ou pelo menos podemos codificá-lo no ficheiro MP3 com uma resolução inferior.

De-Emphasize o Silêncio

Isto refere-se a algo a que os nossos ouvidos e cérebros chamam mascaramento simultâneo. Basicamente, se um som alto estiver a soar em cima de um monte de sons de baixo volume, vai naturalmente concentrar-se no som alto. O que isto significa é que podemos gastar muito menos dados com os sons silenciosos. Não precisam de tantos detalhes codificados neles durante esses tempos.

Temporal Masking

Da mesma forma acima, se dois eventos sonoros ocorrerem a milissegundos um do outro, só nos vamos poder concentrar no mais alto. É como temos estado evolutivamente preparados para reagir. Os nossos ouvidos e mentes não conseguem separar eventos que se fecham no tempo.

mascaramento temporal

Portanto, o que o algoritmo codificador faz é ignorar ou pelo menos atribuir muito menos dados ao som mais silencioso, uma vez que de qualquer modo não o vamos perceber.

Limiar Mínimo de Audição

O limiar mínimo de audição refere-se ao volume. À medida que uma voz ou som se torna mais silencioso e silencioso, somos capazes de distinguir cada vez menos detalhes. O codificador sabe disto e opta por não guardar todos os detalhes de sons silenciosos, uma vez que não o podemos utilizar de qualquer forma. E se um som desce abaixo de um determinado limiar de volume onde o ouvido humano não o consegue ouvir, então é atirado para fora completamente.

Bit Rate, Bit Depth, & Sample Rate Management

E finalmente é aqui que o verdadeiro trabalho é feito. Uma vez processadas todas as poupanças acima mencionadas, ainda lhe vai restar um ficheiro de grandes dimensões. Isto porque todos os dados restantes ainda estão a ser armazenados com a maior resolução possível. Eis como os génios por detrás do MP3 o resolveram.

Primeiro e acima de tudo, o MP3 é uma técnica de compressão de dados com perdas por definição, porque baixamos imediatamente a profundidade de bit do áudio de 24 bit ou mais para 16 bit. Lossy refere-se a esta queda na resolução mas não tem de significar uma perda na qualidade de áudio.

16 bit é uma profundidade que tem muito espaço de manobra para fornecer uma elevada relação sinal/ruído. Significa que cada amostra tem 16 bits para codificar (usando um 0 ou um 1 em binário). Ao descer de 24 bits para 16 bits já fizemos uma poupança de 25% no tamanho sem diferença de qualidade discernível.

Fala de cada amostra com 16 bits cada… é outro lugar onde se faz uma poupança massiva. As taxas de amostragem podem chegar aos 96.000 amostras por segundo! 44,1 kHz é a sua taxa de amostragem típica para MP3 e isso ainda é uma tonelada de amostras por segundo, mas representa uma queda de 50% na quantidade de dados armazenados versus taxas de amostragem de 96 kHz. Eis como funciona, através de picture:

explicação da taxa de amostragem para MP3

O básico é que uma taxa de amostragem mais baixa capta menos “instantâneos” de cada momento de música. Pode-se pensar nisto como um filme ou um jogo de vídeo a 60 frames por segundo versus os típicos 24 fps. 24 é mais do que suficientemente bom, mas 60 parece óptimo durante cenas de acção rápida. Funciona da mesma forma para música e taxas de amostragem.

E finalmente estabelecemos um limite para a produção de dados. Isto leva em conta tudo o que foi mencionado acima e depois estabelece um limite máximo para a quantidade de dados que se pode enviar de uma só vez. A maioria dos serviços de streaming e venda de MP3 utilizam uma taxa de bits constante, normalmente de 128 kilobytes por segundo.

Outras opções comuns são 192 kbps, e 320 kbps que é a mais alta disponível em MP3 e tão boa como a qualidade de áudio não comprimido. Alguns serviços de streaming apenas enviarão 64 kbps e pode definitivamente dizer. A qualidade leva a uma séria queda abaixo dos 128 kbps.

As taxas de bits constantes são preferíveis para estes serviços e consumidores porque os ajuda a prever a sua largura de banda e necessidades de armazenamento. Mas foram feitos avanços para uso pessoal, tais como VBR, que é uma taxa de bits variável.

O que isto faz é permitir uma taxa de bits mais baixa durante partes silenciosas das canções e uma taxa de bits mais alta em partes mais altas ou mais complexas de uma canção. Isto é preferível para aqueles que preferem áudio da mais alta qualidade, mas ainda desejam a poupança de dados dos MP3’s.

Então, como funciona a compressão de MP3? É assim!

E é isso! Esta é a explicação mais breve e mais simples da compressão de MP3 que alguma vez encontrará. Da próxima vez que um dos seus amigos perguntar “Como funciona a compressão MP3”, pode enviá-los para aqui ou se se conseguir lembrar destes detalhes, então explique-lhes e faça-os sentir-se inferiores. É para isso que servem os seus amigos!

Obrigado por uma pergunta tão sólida. Tive de cavar fundo para responder como funciona a compressão mp3!
Jared

Jared H.

Jared ultrapassou o seu 20º ano na indústria musical. Actua como proprietário, editor, autor principal, e web designer da LedgerNote, bem como co-autor em todos os artigos. Lançou 4 álbuns independentes e mercadorias para vendas globais. Tem também misturado, masterizado, & gravado para inúmeros artistas independentes. Saiba mais sobre Jared & The LN Team aqui.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *