¿Cómo funciona la compresión de MP3? Es una pregunta habitual que merece una respuesta rápida. De hecho, he buscado por la red antes de sentarme a escribir esto y me he dado cuenta de que todo el mundo escribía novelas sobre el tema pero nadie era capaz de explicarlo de forma rápida y para personas normales. Así que allá vamos
«Cualquier tecnología suficientemente avanzada es indistinguible de la magia». – Arthur C. Clarke
Para la mayoría de nosotros, la cita anterior resume perfectamente el misterio de la compresión del MP3. Lamentablemente, también resume la mayoría de las explicaciones que existen.
¿Cómo es que los archivos MP3 son más pequeños pero suenan bien?
Pregunta:
Hace poco compré un álbum por Internet y me lo entregaron como un archivo de 160 kbps. Sólo me di cuenta porque el tamaño del archivo en sí era mucho más pequeño que los archivos wave sin comprimir que he creado yo mismo.
Lo que no noté fue ninguna bajada de calidad. Puedes explicar cómo funciona esta compresión de mp3, porque obviamente el algoritmo de compresión está dejando fuera algunos datos para que esto ocurra, ¿verdad?
Gracias,
Mason D.
Respuesta:
Mason, es una gran pregunta. Puedo responderla claramente sólo gracias a haber pasado mucho tiempo preocupándome por cómo distribuir mi propia música a través de Internet, y por supuesto después de refrescarme. Hacía unos buenos 15 años que no dedicaba tiempo a pensar mucho en el tema.
Qué es la compresión MP3 &
Por qué existe
Nadie se preocupaba de estas cosas cuando trabajábamos en el ámbito analógico. Teníamos discos de vinilo, 8 pistas, cintas de casete y discos compactos (estos son digitales pero no necesitaban compresión). Los MP3 se convirtieron en una «cosa» después de la explosión de Internet.
Un típico archivo de onda sin comprimir puede tener un tamaño de 30 MB para una canción típica de 3 minutos. Pero después de pasar por los algoritmos de compresión de MP3 que podría bajar a 3 MB sin ninguna pérdida grave de la calidad.
Esto era preferible cuando nuestras velocidades de ancho de banda eran extremadamente bajos en los módems de acceso telefónico y que incluso podría haber tenido límites de ancho de banda para el mes. En lugar de esperar días para descargar una canción, podíamos hacerlo en un par de horas (y en el presente, ¡en un par de segundos!).
Los MP3 mantienen su presencia gracias a los reproductores de MP3 como el iPod. Tienen un espacio limitado en el disco duro o en el pendrive, así que con la compresión podemos llevar mucha más música.
Además, no hay necesidad de archivos de resolución completa cuando estamos haciendo trabajos de jardinería o en el gimnasio usando pequeños auriculares deportivos. También es un gran ahorro de espacio y ancho de banda para los servicios de streaming online.
MP3 significa MPEG Layer 3
MPEG es un tipo de archivo de vídeo que hizo lo mismo con los vídeos que los MP3 con el audio. De hecho, los MP3’s son sólo la 3ª capa apartada para el audio en los archivos de vídeo. Es la misma tecnología.
¿Cómo la compresión de MP3 ahorra tanto espacio?
Aquí es donde se vuelve una locura. La gente que diseñó estos algoritmos de compresión utilizó nuestros conocimientos de psicoacústica para gestionar el ancho de banda de los datos. La psicoacústica se refiere a cómo nuestro cerebro interpreta los sonidos.
El cerebro utiliza ciertos trucos como el enmascaramiento auditivo para asignar recursos y atención a lo que es el sonido más importante que está ocurriendo en un momento dado. Usando esta información, sabemos de qué podemos deshacernos, en cuanto a datos.
Pérdida auditiva en adultos
El primer y más fácil ahorro es ir recortando un determinado rango de frecuencias si la música lo permite. Los adultos empiezan a perder su capacidad auditiva por encima de los 16-18 kHz, mientras que el límite máximo para los humanos está en torno a los 24 kHz. A ese nivel no hay mucho que hacer en términos de inteligibilidad. Es sólo «chispa, brillo, resplandor».
En la mayoría de los casos, no necesitamos tenerlo en absoluto o, al menos, podemos codificarlo en el archivo MP3 a una resolución más baja.
Destacar el silencio
Esto se refiere a algo que nuestros oídos y cerebros hacen llamado enmascaramiento simultáneo. Básicamente, si un sonido fuerte está sonando por encima de un montón de sonidos de bajo volumen, naturalmente vas a centrarte en el sonido fuerte. Lo que esto significa es que podemos gastar muchos menos datos en los sonidos silenciosos. No necesitan tanto detalle codificado en ellos durante esos momentos.
Enmascaramiento temporal
De la misma manera anterior, si dos eventos sonoros ocurren con milisegundos de diferencia, sólo vamos a poder centrarnos en el más fuerte. Así es como hemos sido preparados evolutivamente para reaccionar. Nuestros oídos y mentes no pueden separar eventos tan cercanos en el tiempo.
Así que lo que hace el algoritmo codificador es ignorar o al menos asignar muchos menos datos al sonido más silencioso ya que no lo percibiremos de todas formas.
Umbral mínimo de audición
El umbral mínimo de audición se refiere al volumen. A medida que una voz o un sonido se vuelve más silencioso, somos capaces de distinguir cada vez menos detalles. El codificador lo sabe y opta por no guardar todos los detalles de los sonidos silenciosos, ya que no podemos utilizarlos de todos modos. Y si un sonido desciende por debajo de un determinado umbral de volumen en el que el oído humano no puede oírlo, entonces se descarta por completo.
Tasa de bits, profundidad de bits, & Gestión de la tasa de muestreo
Y finalmente aquí es donde se hace el verdadero trabajo. Una vez que hayas procesado todos los ahorros mencionados anteriormente, todavía te va a quedar un archivo de gran tamaño. Esto se debe a que todos los datos sobrantes se siguen almacenando a la mayor resolución posible. Así es como los genios detrás del MP3 lo resolvieron.
Primero y más importante, el MP3 es una técnica de compresión de datos con pérdida por definición porque inmediatamente bajamos la profundidad de bits del audio de 24 bits o más a 16 bits. El término «con pérdidas» se refiere a este descenso de la resolución, pero no tiene por qué significar una pérdida de calidad de audio.
16 bits es una profundidad que tiene mucho margen para proporcionar una alta relación señal/ruido. Significa que cada muestra tiene 16 bits para codificar (usando un 0 o un 1 en binario). Al pasar de 24 bits a 16 bits ya hemos ahorrado un 25% de tamaño sin una diferencia de calidad discernible.
Hablando de que cada muestra tiene 16 bits… ese es otro lugar en el que se hacen ahorros masivos. Las frecuencias de muestreo pueden llegar a 96.000 muestras por segundo. 44,1 kHz es la frecuencia de muestreo típica de los MP3 y sigue siendo una tonelada de muestras por segundo, pero representa una reducción del 50% en la cantidad de datos que se almacenan frente a las frecuencias de muestreo de 96 kHz. Así es como funciona, mediante una imagen:
Lo básico es que una frecuencia de muestreo más baja captura menos «instantáneas» de cada momento de la música. Puedes pensar en ello como una película o un videojuego a 60 fotogramas por segundo frente a los típicos 24 fps. 24 es más que suficiente, pero 60 se ve muy bien durante las escenas de acción rápida. Lo mismo ocurre con la música y las frecuencias de muestreo.
Y, por último, establecemos un límite para el rendimiento de los datos. Esto tiene en cuenta todo lo mencionado anteriormente y luego establece un límite a la cantidad de datos que puede enviar a la vez. La mayoría de los servicios de streaming y venta de MP3 utilizan un CBR, que es una tasa de bits constante, normalmente de 128 kilobytes por segundo.
Otras opciones comunes son 192 kbps, y 320 kbps que es la más alta disponible en MP3 y tan buena como la calidad de audio sin comprimir. Algunos servicios de streaming sólo envían 64 kbps y definitivamente se nota. La calidad sufre un serio descenso por debajo de los 128 kbps.
Las tasas de bits constantes son preferibles para estos servicios y los consumidores porque les ayuda a predecir sus necesidades de ancho de banda y almacenamiento. Pero se han hecho avances para el uso personal como el VBR, que es una tasa de bits variable.
Lo que hace esto es permitir una tasa de bits más baja durante las partes tranquilas de las canciones y una tasa de bits más alta en las partes más fuertes o complejas de una canción. Esto es preferible para aquellos que prefieren la más alta calidad de audio, pero todavía desean el ahorro de datos de MP3.
¿Entonces cómo funciona la compresión de MP3? Así es!
Y eso es todo! Esa es la explicación más breve y sencilla de la compresión de MP3 que vas a encontrar. La próxima vez que uno de tus amigos te pregunte «¿Cómo funciona la compresión de MP3?» puedes enviarle aquí o, si puedes recordar estos detalles, explicárselo y hacer que se sienta inferior. Para eso están los amigos!
Gracias por una pregunta tan sólida. Tuve que profundizar para responder cómo funciona la compresión mp3!
Jared