コンテンツにスキップ

音声処理

私たちが普段耳にしている音は、空気の振動が波として伝わるアナログ信号です。アナログ信号は連続的に変化するため、そのままではコンピュータで扱うことができません。コンピュータが処理できるのは、0と1の組み合わせで表現されたデジタル信号だけです。

そこで、アナログの音声をデジタルデータに変換する処理が必要になります。この変換の代表的な方式がPCM(Pulse Code Modulation:パルス符号変調)です。PCMはデジタル化の「方式の名前」であり、WAVやMP3のような「ファイル形式の名前」ではない点に注意しましょう。

PCM ── デジタル化の3ステップ

Section titled “PCM ── デジタル化の3ステップ”

PCMでは、アナログの音声信号を次の3つのステップでデジタルデータに変換します。順番が重要なので、しっかり覚えておきましょう。

ステップ1:標本化(サンプリング)

Section titled “ステップ1:標本化(サンプリング)”

標本化とは、連続的に変化するアナログ信号を、一定の時間間隔で区切って値を取り出す処理です。たとえるなら、なめらかに流れる音の波を、一定間隔で「パシャパシャ」とスナップショットを撮るようなイメージです。

このとき、1秒間に何回値を取り出すかを示す数値がサンプリング周波数(サンプリングレート)です。単位はHz(ヘルツ)で表します。たとえば、音楽CDのサンプリング周波数は44,100Hz(44.1kHz)で、1秒間に44,100回の値を取り出しています。サンプリング周波数が高いほど、元の音をより忠実に再現できます。

量子化とは、標本化で取り出した値を、あらかじめ決められた段階的な数値に当てはめる処理です。アナログ信号の値は小数点以下が無限に続く連続値ですが、コンピュータで扱うには有限の段階に丸める必要があります。

このとき、何段階で表現するかを決めるのがビット深度(量子化ビット数)です。たとえば、16ビットなら2の16乗=65,536段階で音の大きさを表現できます。ビット深度が大きいほど、音の強弱をきめ細かく記録でき、音質が向上します。

ステップ3:符号化(エンコード)

Section titled “ステップ3:符号化(エンコード)”

符号化エンコード)とは、量子化で得られた数値を、コンピュータが処理できる0と1のビット列(2進数)に変換する処理です。この処理を経て、アナログの音声がデジタルデータとして完成します。

なお、デジタルデータを元のアナログ信号に戻す処理をデコードと呼びます。スマートフォンやパソコンで音楽を再生するとき、内部ではデコード処理が行われています。

試験で出るポイント

アナログ音声をデジタル化する手順は「標本化 → 量子化 → 符号化」の順番です。順序を入れ替えた選択肢が出ることがあるので、3ステップの順番と各ステップの意味をセットで覚えましょう。

サンプリング周波数とビット深度の関係

Section titled “サンプリング周波数とビット深度の関係”

音質を決める2つの要素を整理しておきましょう。

要素意味値が大きいと身近な例
サンプリング周波数1秒間に何回値を取り出すか高い音まで再現できるCD:44.1kHz
ビット深度1回あたり何段階で表現するか音の強弱がきめ細かくなるCD:16ビット

どちらの値も大きいほど音質は良くなりますが、その分データ量も増えます。データ量は「サンプリング周波数 × ビット深度 × 録音時間」に比例すると考えるとイメージしやすいでしょう。

デジタル化された音声データは、さまざまなファイル形式で保存されます。ITパスポート試験では、以下の形式の特徴と違いが問われます。

形式種類圧縮特徴
WAV音声データ非圧縮PCMで記録した音声をそのまま保存。高音質だがファイルサイズが大きい
MP3音声データ非可逆圧縮人間の耳に聞こえにくい部分を削ってファイルサイズを小さくする。音楽配信で広く普及
AAC音声データ非可逆圧縮MP3の後継規格。同じファイルサイズならMP3より高音質。スマートフォンの音楽再生で標準的
MIDI演奏情報音そのものではなく「どの楽器で、どの音を、どのくらいの長さで鳴らすか」という演奏の指示データ

WAVは、PCMで変換したデジタル音声データをそのまま(圧縮せずに)保存するファイル形式です。音質の劣化がないため、音楽制作の現場などで使われますが、ファイルサイズが非常に大きくなります。「WAVは圧縮形式である」という説明は誤りなので注意しましょう。

MP3 ── 広く普及した非可逆圧縮形式

Section titled “MP3 ── 広く普及した非可逆圧縮形式”

MP3は、人間の耳では聞き取りにくい音の成分を間引くことで、ファイルサイズを元の約10分の1程度まで小さくできる形式です。一度圧縮すると元の音質には戻せない非可逆圧縮方式を使っています。音楽配信サービスやポータブル音楽プレーヤーで広く普及しました。

AAC ── MP3より高音質な後継規格

Section titled “AAC ── MP3より高音質な後継規格”

AAC(Advanced Audio Coding)は、MP3と同じく非可逆圧縮の形式ですが、より効率的な圧縮技術を使っており、同じファイルサイズでもMP3より高い音質を実現できます。iPhoneの標準音楽形式としても採用されています。

試験で出るポイント

MP3とAACはどちらも「非可逆圧縮」です。「可逆圧縮である」という選択肢は誤りです。非可逆圧縮は、圧縮前の状態に完全には戻せない方式であることを押さえておきましょう。圧縮の詳しい仕組みは「情報の圧縮と伸長」で学びます。

MIDI ── 演奏情報を記録する形式

Section titled “MIDI ── 演奏情報を記録する形式”

MIDI(Musical Instrument Digital Interface)は、他の形式とは性質がまったく異なります。MIDIは音声そのものを録音したデータではなく、「ピアノのド音を0.5秒間鳴らす」「音量を80にする」といった演奏の指示情報を記録した形式です。

いわば「楽譜のデジタル版」のようなもので、実際の音は再生する機器やソフトウェア(音源)によって異なります。ファイルサイズが非常に小さいのが特徴で、DTM(デスクトップミュージック:パソコンを使った音楽制作)で広く利用されています。

試験で出るポイント

MIDIは「録音された音声データ」ではなく「演奏の指示データ」です。この違いは引っかけ問題として出やすいので、「MIDIは楽譜のようなもの」と覚えておきましょう。

アプリで問題を解こう!