Articles

Comment fonctionne la compression MP3?

Posted on
mp3
Mise à jour : 15 févr. 2021 – Q & A

Comment fonctionne la compression MP3 ? C’est une question courante qui mérite une réponse rapide. En fait, j’ai cherché sur le net avant de m’asseoir pour écrire ceci et j’ai remarqué que tout le monde écrivait des romans sur le sujet mais que personne ne pouvait l’expliquer de manière rapide et normale pour une personne normale. Alors voilà !

comment fonctionne la compression mp3

« Toute technologie suffisamment avancée est indiscernable de la magie. » – Arthur C. Clarke

Pour la plupart d’entre nous, la citation ci-dessus résume parfaitement le mystère de la compression MP3. Malheureusement, elle résume aussi la plupart des explications qui existent.

Comment les fichiers MP3 sont-ils plus petits mais ont-ils un bon son ?

Question:

J’ai acheté un album en ligne récemment et il a été livré sous forme de fichier de 160 kbps. Je l’ai seulement remarqué parce que la taille du fichier lui-même était beaucoup plus petite que les fichiers wave non compressés que j’ai créés moi-même.

Ce que je n’ai pas remarqué, c’est une baisse de qualité. Pouvez-vous expliquer comment fonctionne cette compression mp3, car de toute évidence, l’algorithme de compression laisse de côté certaines données pour que cela se produise, n’est-ce pas ?

Merci,
Mason D.

Réponse:

Mason, c’est une excellente question. Je ne peux y répondre clairement que grâce au fait d’avoir passé beaucoup de temps à me préoccuper de la façon de distribuer ma propre musique sur Internet, et bien sûr après m’être rafraîchi. Cela fait une bonne quinzaine d’années que je n’ai pas passé du temps à réfléchir sérieusement sur le sujet.

Qu’est-ce que la compression MP3 & Pourquoi elle existe

Personne ne se souciait de ce genre de choses lorsque nous travaillions dans le domaine analogique. Nous avions des disques vinyles, des 8-pistes, des cassettes et des disques compacts (ces derniers sont numériques mais n’avaient pas besoin de compression). Les MP3 sont devenus une « chose » après l’explosion d’Internet.

Comparaison de la compression des données audio
L’encodage MP3 représente des économies massives, encore plus à un débit de 128 kbps.

Un fichier wave non compressé typique peut atteindre 30 Mo pour une chanson typique de 3 minutes. Mais après être passé par les algorithmes de compression MP3, cela pourrait descendre à 3 Mo sans perte sérieuse de qualité.

C’était préférable lorsque nos vitesses de bande passante étaient extrêmement faibles sur les modems commutés et que nous pouvions même avoir des plafonds de bande passante pour le mois. Au lieu d’attendre des jours pour télécharger une chanson, nous pouvions le faire en quelques heures (et dans le présent, en quelques secondes !).

Les MP3 maintiennent leur présence grâce aux lecteurs MP3 comme l’iPod. Ils ont un espace limité sur le disque dur ou le lecteur flash, donc avec la compression, nous pouvons transporter beaucoup plus de musique.

En outre, il n’y a pas besoin de fichiers en pleine résolution lorsque nous faisons des travaux de jardinage ou à la salle de gym en utilisant de minuscules écouteurs de sport. C’est aussi un énorme gain d’espace et de bande passante pour les services de streaming en ligne.

MP3 signifie MPEG Layer 3

Le MPEG est un type de fichier vidéo qui faisait la même chose pour les vidéos que les MP3 pour l’audio. En fait, les MP3 ne sont que la 3e couche mise à part pour l’audio sur les fichiers vidéo. C’est la même technologie.

Comment la compression MP3 fait-elle gagner autant d’espace ?

C’est là que ça devient fou. Les personnes qui ont conçu ces algorithmes de compression ont utilisé nos connaissances en psychoacoustique pour gérer la bande passante des données. La psychoacoustique fait référence à la façon dont notre cerveau interprète les sons.

Le cerveau utilise certaines astuces comme le masquage auditif pour allouer les ressources et l’attention à ce qui est le son le plus important qui se produit à un moment donné. Grâce à ces informations, nous savons ce dont nous pouvons nous débarrasser, en termes de données.

La perte auditive chez l’adulte

Les premières économies, les plus faciles, consistent à aller de l’avant et à couper une certaine gamme de fréquences si la musique le permet. Les adultes commencent à perdre leur capacité d’audition au-delà de 16-18 kHz, alors que la limite supérieure pour les humains se situe autour de 24 kHz. À ce niveau, il ne se passe pas grand-chose en termes d’intelligibilité. Ce n’est que « scintillement, brillance, éclat ».

Comment fonctionne la compression mp3
Gauche : image spectrale audio non compressée. Droite : Le MP3 coupe l’audio au-dessus de 16-18 kHz.

Dans la plupart des cas, nous n’avons pas besoin de l’avoir du tout ou nous pouvons au moins l’encoder dans le fichier MP3 à une résolution inférieure.

Dé-accentrer le calme

Cela fait référence à quelque chose que nos oreilles et notre cerveau font appelé le masquage simultané. En gros, si un son fort est diffusé par-dessus un grand nombre de sons de faible volume, vous allez naturellement vous concentrer sur le son fort. Cela signifie que nous pouvons consacrer beaucoup moins de données aux sons faibles. Ils n’ont pas besoin d’autant de détails encodés dans ces moments-là.

Masquage temporel

De la même manière que ci-dessus, si deux événements sonores se produisent à quelques millisecondes d’intervalle, nous allons seulement pouvoir nous concentrer sur le plus fort. C’est ainsi que nous avons été primés par l’évolution pour réagir. Nos oreilles et nos esprits ne peuvent pas séparer des événements aussi proches dans le temps.

masquage temporel

Donc, ce que fait l’algorithme de l’encodeur, c’est ignorer ou du moins allouer beaucoup moins de données au son plus faible puisque nous ne le percevrons de toute façon pas.

Seuil d’audition minimal

Le seuil d’audition minimal fait référence au volume. Lorsqu’une voix ou un son devient de plus en plus silencieux, nous sommes capables de distinguer de moins en moins de détails. L’encodeur le sait et choisit de ne pas enregistrer chaque détail des sons calmes puisque nous ne pouvons pas l’utiliser de toute façon. Et si un son descend en dessous d’un certain seuil de volume où l’oreille humaine ne peut pas l’entendre, alors il est complètement jeté.

Taux de bits, profondeur de bits, & Gestion du taux d’échantillonnage

Et enfin c’est ici que le vrai travail est fait. Une fois que vous avez traité toutes les économies mentionnées ci-dessus, vous allez encore vous retrouver avec un fichier lourd de grande taille. En effet, toutes les données restantes sont toujours stockées dans la plus haute résolution possible. Voici comment les génies à l’origine du MP3 ont résolu ce problème.

Tout d’abord, le MP3 est une technique de compression de données avec perte par définition, car nous faisons immédiatement chuter la profondeur de bits de l’audio de 24 bits ou plus à 16 bits. Perdant fait référence à cette baisse de résolution mais ne doit pas nécessairement signifier une perte de qualité audio.

16 bits est une profondeur qui a beaucoup de marge pour fournir un rapport signal/bruit élevé. Cela signifie que chaque échantillon dispose de 16 bits pour coder (en utilisant un 0 ou un 1 en binaire). En passant de 24 bits à 16 bits, nous avons déjà réalisé une économie de taille de 25% sans différence de qualité perceptible.

En parlant de chaque échantillon ayant 16 bits chacun… c’est un autre endroit où des économies massives sont réalisées. Les taux d’échantillonnage peuvent atteindre jusqu’à 96 000 échantillons par seconde ! 44,1 kHz est votre taux d’échantillonnage typique pour les MP3 et c’est encore une tonne d’échantillons par seconde, mais cela représente une baisse de 50% de la quantité de données stockées par rapport aux taux d’échantillonnage de 96 kHz. Voici comment cela fonctionne, via une image:

explication du taux d'échantillonnage pour les MP3

L’essentiel est qu’un taux d’échantillonnage plus faible capture moins d' »instantanés » de chaque moment de la musique. C’est comme un film ou un jeu vidéo à 60 images par seconde, contre 24 images par seconde habituellement. 24 est plus que suffisant, mais 60 est excellent pour les scènes d’action rapides. Cela fonctionne de la même manière pour la musique et les taux d’échantillonnage.

Et enfin, nous fixons une limite au débit de données. Cela prend en compte tout ce qui a été mentionné ci-dessus et fixe ensuite un plafond sur la quantité de données que vous pouvez envoyer en une fois. La plupart des services de streaming et de vente de MP3 utilisent un CBR, c’est-à-dire un débit constant, généralement de 128 kilobytes par seconde.

Les autres options courantes sont 192 kbps, et 320 kbps qui est le plus élevé disponible sur MP3 et aussi bon que la qualité audio non compressée. Certains services de streaming n’envoient que 64 kbps et vous pouvez définitivement le dire. La qualité chute sérieusement en dessous de 128 kbps.

Les débits constants sont préférables pour ces services et les consommateurs car cela les aide à prévoir leurs besoins en bande passante et en stockage. Mais des progrès ont été réalisés pour l’usage personnel, comme le VBR, qui est un débit binaire variable.

Ce que cela fait, c’est permettre un débit binaire plus faible pendant les parties calmes des chansons et un débit binaire plus élevé lors des parties plus fortes ou plus complexes d’une chanson. Ceci est préférable pour ceux qui préfèrent la plus haute qualité audio mais qui désirent toujours les économies de données des MP3.

Alors, comment fonctionne la compression MP3 ? Voilà comment !

Et c’est tout ! C’est l’explication la plus brève et la plus simple de la compression MP3 que vous trouverez jamais. La prochaine fois qu’un de vos amis vous demandera « Comment fonctionne la compression MP3 ? », vous pourrez l’envoyer ici ou si vous pouvez vous souvenir de ces détails, alors expliquez-le lui et faites-lui sentir son infériorité. C’est à ça que servent les amis !

Merci pour une question aussi solide. J’ai dû creuser profondément pour répondre au fonctionnement de la compression mp3 !
Jared

Jared H.

Jared H. LedgerNote Author HeadshotJared a dépassé sa 20e année dans l’industrie de la musique. Il est le propriétaire, l’éditeur, l’auteur principal et le concepteur Web de LedgerNote, ainsi que le co-auteur de tous les articles. Il a sorti 4 albums indépendants et des produits dérivés aux ventes mondiales. Il a également mixé, masterisé, & enregistré pour d’innombrables artistes indépendants. Apprenez-en davantage sur Jared & L’équipe LN ici.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *