MP3圧縮の仕組みとは？ | LedgerNote

更新。 2021年2月15日 – Q & A

MP3の圧縮はどのように行われるのですか？これはよくある質問で、すぐに答えられるものではありません。この記事を書く前に、実際にネット上を検索してみたところ、誰もがこのトピックについて小説を書いているのに、誰も普通の人にわかりやすく説明できていないことに気づきました。

「十分に進歩した技術は、魔法と見分けがつかない」。 – アーサー・C・クラーク

ほとんどの人にとって、上の引用文はMP3圧縮の謎を完璧に要約しています。

How Are MP3 Files Smaller But Sound Good?

Question:

最近オンラインでアルバムを購入しましたが、160 kbps のファイルとして配信されていました。

私が気づかなかったのは、ファイルのサイズ自体が、私自身が作成した圧縮されていないWaveファイルよりもはるかに小さかったからです。

Thanks,
Mason D.

Answer:

Mason, it’s a great question. 私がこの質問に明確に答えられるのは、自分の音楽をインターネット上で配信する方法について多くの時間を費やして悩み、そしてもちろん自分自身をリフレッシュさせたおかげです。

MP3 圧縮とは & なぜ存在するのか

私たちがアナログ分野で仕事をしていたときには、誰もこのようなことを気にしていませんでした。レコード、8トラック、カセットテープ、そしてコンパクトディスク（これらはデジタルですが、圧縮の必要はありませんでした）がありました。

オーディオデータ圧縮の比較 — MP3エンコーディングは、128kbpsのビットレートではさらに大幅な節約になります。

一般的な非圧縮のwaveファイルは、典型的な3分間の曲で30MBもの大きさになるかもしれません。

これは、ダイアルアップモデムで帯域幅の速度が非常に低く、その月の帯域幅の上限があった場合には好都合でした。

MP3は、iPodのようなMP3プレーヤーのおかげでその存在感を維持しています。

さらに、庭仕事やジムで小さなスポーツ用イヤホンを使っているときに、フル解像度のファイルを使う必要はありません。

MP3はMPEG Layer 3の略

MPEGはビデオファイルタイプで、MP3がオーディオにしたのと同じことをビデオにしたものです。実際には、MP3はビデオファイルのオーディオ用に設定された第3層に過ぎません。

How Does MP3 Compression Save So Much Space?

ここからが面白いところです。これらの圧縮アルゴリズムを設計した人々は、データの帯域幅を管理するために、音響心理学の知識を使用しました。

脳は、聴覚マスキングのようなある種のトリックを使って、ある時点で起こっている最も重要な音にリソースと注意を割り当てます。

大人の難聴

まず、最も簡単な節約方法は、音楽が許す限り、特定の周波数範囲をカットすることです。大人の場合、16～18kHz以上で聴力が低下しますが、人間の場合は24kHz程度が限界です。そのレベルになると、明瞭度という点ではあまり意味がありません。

How does mp3 compression work — 左：非圧縮オーディオのスペクトル画像。右側。

ほとんどの場合、私たちはそれを全く必要としないか、少なくとも低解像度でMP3ファイルにエンコードすることができます。

静かな音を強調しない

これは、私たちの耳と脳が行う「同時マスキング」と呼ばれるものを指します。基本的に、多くの小さな音の上に大きな音が鳴り響いていると、自然と大きな音に集中してしまいます。これは、静かな音にかけるデータ量が少なくて済むことを意味しています。

時間的マスキング

上記と同じように、2 つの音のイベントが数ミリ秒以内に発生した場合、私たちは最も大きい音にのみ集中することができます。これは、人間が進化の過程で身につけた反応方法です。

そのため、エンコーダーアルゴリズムが行うのは、静かな音は無視するか、少なくとも、より少ないデータを割り当てることです。

最小可聴域 しきい値

最小可聴域とは、音量のことです。声や音がだんだん小さくなっていくと、私たちは細部を聞き取ることができなくなります。エンコーダーはこのことを知っていて、静かな音の細部を保存しないことを選択しました、どうせ使えないからです。

ビット レート、ビット深度、& サンプル レート マネジメント 最後に、ここが本当の仕事の場です。上述の節約分をすべて処理しても、サイズの大きなファイルが残りますよね。それは、残ったデータを可能な限り高い解像度で保存しているからです。

まず第一に、MP3は、24ビット以上のオーディオのビット深度を即座に16ビットに落とすため、定義上は非可逆的なデータ圧縮技術です。

16ビットは、高いS/N比を実現するために十分な余裕のあるビット深度です。

16ビットは、高いS/N比を実現するための余裕のあるビット深度です。

各サンプルが16ビットであることについて言えば…これも大幅な節約になります。サンプルレートは96,000サンプル/秒という高さになります。 MP3の典型的なサンプルレートである44.1kHzは、1秒あたりのサンプル数が非常に多いのですが、96kHzのサンプルレートに比べて保存されるデータ量が50%減少します。

基本的には、サンプルレートが低いと、音楽の各瞬間の「スナップショット」をより少なくキャプチャすることになります。例えば、映画やゲームのフレームレートが24fpsであるのに対し、60fpsであるようなものだと考えてください。 24でも十分ですが、60だと速いアクションシーンでも見ごたえがあります。

そして最後に、データのスループットに制限を設けます。これは、上記のすべてを考慮した上で、一度に送信できるデータ量の上限を設定するものです。

ほとんどのMP3ストリーミングおよび販売サービスは、CBR（一定のビットレート）を使用しており、通常は毎秒128キロバイトです。

他にも192 kbps、320 kbpsがあります。

これらのサービスや消費者にとっては、帯域幅やストレージの必要性を予測するのに役立つため、一定のビットレートが望ましいのです。

このようなサービスや消費者にとっては、帯域やストレージの必要性を予測するために、一定のビットレートが望ましいのですが、個人向けには、VBR（可変ビットレート）などの進歩があります。

これは、曲の静かな部分ではビットレートを低くし、曲の大きな部分や複雑な部分ではビットレートを高くするというものです。これは、最高品質のオーディオを好むが、MP3のデータ節約を望む人には好ましいものです。 That’s How!

And that’s it!

以上が、MP3 圧縮についての最も簡単でシンプルな説明です。次回、友人が「MP3圧縮ってどうやるの？」と聞いてきたら、ここに送るか、もしこの詳細を覚えていたら、それを説明して劣等感を与えてあげてください。

しっかりとした質問をありがとうございました。 mp3の圧縮の仕組みを答えるために、深く掘り下げなければなりませんでした！
Jared

Jared H.

Jared H. LedgerNote Author Headshot Jaredは、音楽業界に入って20年目を超えました。 LedgerNoteのオーナー、編集者、リード・オーサー、ウェブ・デザイナー、そしてすべての記事の共同執筆者として活動しています。これまでに4枚のインディペンデント・アルバムとグッズをリリースし、世界的なセールスを記録しています。また、数え切れないほどのインディペンデント・アーティストのミキシング、マスタリング、&&LNチームの詳細はこちら。

MP3圧縮の仕組みについて