ボイステック学習生活

2020.09.10

音声データの特徴とフォーマットの違いを知り、ボイレコ生活をいっそう豊かにしよう

この記事のサマリー

音声フォーマットは非可逆圧縮、可逆圧縮、非圧縮の3つに大別
ビット数とサンプリングレートが音質に影響する
用途に応じて適切なレートの設定やファイルフォーマットの選択を心がける

同じ音声データなのに、何がどう違うの？
ビットレートとサンプリングレートを理解しよう
用途によって選ぶレートを変えよう
音声データは3つのフォーマットに大別できる
まとめ

普段、音声を録音するとき、もっともよく利用するのはスマートフォン（スマホ）の録音アプリでしょう。

録音した音声データを個人で利用する際はまったく問題ありませんが、いざ人に渡そうとしたとき、「mp3形式にしてほしいんだけど」といわれて、困った経験はありませんか？

実は、音声データにはさまざまな「フォーマット（形式）」が存在し、用途によって向き不向きがあったり、デバイスやアプリによっては再生や編集ができないことがあります。

そこで今回は、みなさんのリテラシーアップに役立てていただくために、音声データの特徴と音声フォーマットの違いについて解説します。

同じ音声データなのに、何がどう違うの？

そもそも、同じ音声を録音したデータのはずなのに、フォーマットによって何がどう違うのでしょうか。

何となく「音質が変わるのかな？」と思ったあなた。正解です。

より厳密にいえば、フォーマットごとに「圧縮の有無」や「圧縮の方式」に違いがあり、音質に影響する可能性がある、ということになります。

音声データの「圧縮」とは何か

録音直後の生の音声データには、私たちにとって意味のある声や音のほかにも、さまざまな雑音、可聴域を超える音などが含まれています。

こういった意味のない音を含むデータ（非圧縮データ）は、一般的なフォーマットでは1分間で約10MBという、結構な容量になってしまいます。

「1分で10MB？大したことないんじゃない？」と思った人。

たとえば、インターネットにある音楽をスマホで再生する場合、1分で10MBのデータをそのままダウンロードしたらどうなるでしょうか。1時間で600MB、2時間で1.2GBとなり、パケット通信量を容赦なく消費していきます。

安いプランでスマホを利用している人は、あっという間に通信量の上限に到達しまうでしょう。また、容量が大きいデータは当然、ダウンロードに時間がかかり、電波が悪い場所ではスムーズな再生がむずかしくなります。

というわけで、雑音や不可聴音を一定のルールで取り除いたり、空白を省略したりすることで、データ容量を小さくする方法が生まれました。

この処理のことを「圧縮」と呼びます。

たとえば、非圧縮のWAV形式で録音すると1分で約10MBとなりますが、非可逆圧縮のMP3形式で録音すると1分で約1MBです。つまり、データ容量が1/10となり、再生する際の読み込みが速く、データを他人に共有した際もダウンロードが短時間で済むのです。

しかし、何が「意味のない音」なのかは、時と場合によります。

議事録用の音声としては無意味なノイズでも、音楽録音の場面では重要なサウンドの一部である、といったケースが往々にしてあるからです（バンドの楽曲で、ギターの最後のフィードバック音、ドラムのシンバルの響きが勝手に削られてしまったら、情緒がなくなりますよね）。

音声フォーマットがたくさん存在する理由

このような用途の違いを、コンピュータは自動的に判別してくれませんので、どのようなルールで音の取捨選択を行うのかを人間が決める必要があります。

このルールの違いこそが、音声フォーマット（ファイル形式）がたくさん存在する理由なのです。大別すると、非可逆圧縮、可逆圧縮、非圧縮の3つのフォーマットに分けられますが、詳しくは後述します。

なお、音声をどのフォーマットで配信すべきかは、音楽配信会社にとって非常に重要な判断です。

同じ楽曲でも、「A社のストアで聴くよりS社のストアで聴いたほうが、高音域がキレイに聞こえるよね」「S社のストアは再生が遅いけど、A社のストアは再生がスムーズだよね」ということがありえます。会社独自のフォーマットを開発するケースがあるのは、音質、圧縮効率、著作権保護機能などさまざまな観点から検討した結果、既存のフォーマットでは不十分なので、独自のフォーマットを作ろうと判断したからです。

一方、録音アプリや編集アプリで、ひとつのフォーマットにしか対応していないのでは、ユーザーの利便性が大きく下がります。既存のフォーマットに幅広く対応しながら、新しいフォーマットにも随時対応する必要があります。

配信ストアやアプリごとに対応しているフォーマットに違いがあるのは、このような理由があるのです。

ビットレートとサンプリングレートを理解しよう

音声データのしくみを理解するには、ビットレートとサンプリングレートの知識が不可欠です。

ビットレート

まず、ビットレート（bit rate）について理解しましょう。

ビットレートとは、単位時間あたりで処理（転送）されるビット数のことです。通常は1秒あたりの速度を表す「bps」（bit per second、ビット毎秒）が使われます。

ビット数は音の情報量を何段階で表すかであり、16bitの場合は情報量を2の16乗で分割します。ビット数が多ければ原音をより正確に、少なければ省略して表現することになり、前者のほうが高音質となります。解像度の高い写真は被写体が判別しやすく、解像度の低い写真はぼんやりとして判別しにくいのと同様です。

サンプリングレート

もうひとつ、音質に関わってくるのがサンプリングレート（sampling rate、サンプリング周波数）です。

サンプリングレートとは、1秒あたりで実行するサンプリング（標本化）処理の回数のことです。単位は「Hz（ヘルツ）」で表します。

音楽CDのサンプリングレートは44,100Hz（44.1kHz）で、これは毎秒44,100回のサンプリングを行うということです。サンプリングレートが高いほど継ぎ目の少ない滑らかな音となり、音質がよいと感じられます。

ビットレートとサンプリングレートの関係

ビットレートとサンプリングレートの関係は、次の式で表せます。

サンプリングレート（Hz）× ビット数（bit）＝ビットレート（bps）

たとえば、音楽CDはサンプリングレートが44,100Hz（44.1kHz）、ビット数が16bitなので、ビットレートは705,600bps（705.6kbps）と計算できます。ステレオで2チャンネルあるため、2倍の1,411,200bps（1,411.2kbps）が実際のビットレートとなります。

用途によって選ぶレートを変えよう

ビットレートやサンプリングレートはそれぞれの音声フォーマットが定める範囲内で自由に決められますが、高く設定すればするほどデータ容量が大きくなるため、用途に応じて使い分けることが大切です。

録音アプリや編集アプリによっては、録音や編集の際にビットレートやサンプリングレートを設定できます。

議事録用の音声 …… アプリの初期設定の（比較的低い）レートで
音楽 …… なるべく高いレートで
法的な証拠用の音声 …… 最高レートで

という感じでレートを変えるとよいでしょう。

また、これらのレートは、音声データを自動文字起こしで処理する際、精度にも関わってきます。低いレートの場合は精度が低い可能性がありますので、もしデバイスのメモリやハードディスクの容量を大きく圧迫しないのであれば、高いレートで録音しておくとよいでしょう。

特に、法的な証拠用の音声は、発言内容だけでなく、雑音や環境音などが主張の確かさを裏づける後押しになるかもしれません。したがって、こういった音も収録されるように、できるだけ高いレートで録音するとよいでしょう。

なお、iPhoneに標準でインストールされている録音アプリ「ボイスメモ」では、音質が「非可逆圧縮」と「ロスレス圧縮」から選べます（初期設定は非可逆圧縮）。それぞれ、

非可逆圧縮
AACフォーマット（非可逆圧縮）、サンプリングレート48kHz、ビット数16bit
ロスレス圧縮
ALACフォーマット（可逆圧縮）、サンプリングレート48kHz、ビット数32bit

という違いがあり、当然、ロスレス圧縮のほうが記録される情報量（ビット数）が多く、高音質です（ボイスメモの詳しい使い方については、iPhoneの録音アプリ「ボイスメモ」を徹底解説！ボイスレコーダーを便利に使おう【完全版】を参照）。

ほかの録音アプリにも、サンプリングレートとビットレートの両方または一方が選べるものや、ファイルフォーマット（MP3、AAC、WAVなど）が選べるものがあります（iPhoneやAndroid向けの録音アプリについては、おすすめアプリを参照）。

音声データは3つのフォーマットに大別できる

音声データの代表的なファイルフォーマットとしては次のものがあり、非可逆圧縮、可逆圧縮、非圧縮の3つに大別できます。

非可逆圧縮（不可逆圧縮）
原音に戻せない圧縮方式であり、圧縮率が高く、データ容量が小さい
可逆圧縮
原音に戻せる圧縮方式であり、圧縮率はほどほど、データ容量もほどほど
非圧縮（無圧縮）
原音のまま記録したフォーマットであり、データ容量が大きい

非可逆圧縮

MP3（.mp3）

CDとほぼ同じ音質（44,100kHz、16bit）
データサイズは、原音の約10分の1で、非常に高圧縮
ID3タグ（アーティスト名、作成年、ジャケット画像など）が付けられる

AAC（.aac、.m4aなど）

MP3の後継にあたる（Advanced Audio Coding）
Appleでは拡張子「.m4a」として扱う（iPhoneのボイスメモでも「.m4a」として保存）
データサイズは、原音の約10分の1で、非常に高圧縮
MP3よりデータサイズがやや大きいが、そのぶん音質がよい

可逆圧縮

FLAC（.flac）

オープンフォーマットの形式（Free Lossless Audio Codec）
リニアPCMやハイレゾ音源のひとつで、高音質
データサイズは原音の約50％
可逆圧縮のため、元の音声データからの音質の劣化がない

ALAC（.m4aなど）

Appleが開発したMac用の形式（Apple Lossless）
データサイズは原音の30％〜50％
可逆圧縮のため、元の音声データからの音質の劣化がない

非圧縮

AIFF（.aif、.aiffなど）

Appleが開発したMac用の形式
リニアPCMやハイレゾ音源のひとつで、高音質
一般に非圧縮ではあるが、非可逆圧縮でも利用されることもある
非可逆圧縮では拡張子は「.aifc」など

WAV（.wav、.wave）

Microsoftが開発したWiindows用の形式だが、さまざまなデバイスやアプリで利用されている
リニアPCMやハイレゾ音源のひとつで、高音質
非圧縮のため、データ容量が非常に大きい

さて、これらのフォーマットについて、デバイスの再生という面ではほぼ問題はありません。一方、録音アプリや編集アプリが対応しているかどうかは、そのアプリによります。

一般的に、非可逆圧縮、可逆圧縮、非圧縮の順で、原音に近い音で記録される分、データ容量が大きくなります。また、データ容量が大きければ、再生時の読み込みや編集時の書き出し処理が遅くなったり、操作感が重くなったりします。

したがって、すべての録音を可逆圧縮や非圧縮で行う必要はなく、通常は非可逆圧縮（MP3やAACなど）で録音し、必要に応じて可逆圧縮（FLACやALACなど）や非圧縮（WAVなど）で録音するのが賢明です。

アプリによっては、ファイルフォーマットを選ぶと、自動的にそのフォーマットで標準のビットレートやサンプリングレートで録音するものがあります。上記の代表的なファイルフォーマットを覚えておけば、高音質で録音されるのかどうか（非可逆圧縮、可逆圧縮、非圧縮のどれなのか）が判断できます。

まとめ

いかがでしたでしょうか。

お手元の録音アプリやICレコーダーで、ビットレートやサンプリングレート、ファイルフォーマットが選べるかどうかを調べてみると、

「MP3（非可逆圧縮）でしか録音できないのか」
「WAV（非圧縮）で録音できるのか」
「WAVのサンプリングレートは96kHz、48kHz、44.1kHzから選べるのか」

といったことがわかるはずです。

いつもと異なる設定で録音し、音質の差を耳で確かめてみてください。

あなたのボイレコ生活をいっそう豊かにする一助として、この記事が役立てば幸いです。

Voista Media編集部も開発に関わるスマートフォン向けAI録音アプリ「Voistand（ボイスタンド）」がご利用いただけます（iOS版）。

バックグラウンド録音、自動文字起こし、AIベースの話者認識など、個人にもビジネスユースにも最適な機能を搭載。ぜひお使いください！

App Storeからダウンロード

この記事を書いた人

Voista Media 編集部

ボイスレコーダー（スマホアプリやICレコーダー）を使って、生活を豊かにするコツをご紹介するメディア「Voista Media」の編集部です。みなさまのお役に立つ記事を発信してまいります。

Voista Media

音声データの特徴とフォーマットの違いを知り、ボイレコ生活をいっそう豊かにしよう