ボイステック生活

2022.03.10

【イマドキ雑学】スマホやスマートスピーカーの音声認識が賢くなっていく仕組みとは？

この記事のサマリー

音を伝達する空気振動（音波）を数値化しデジタル信号に変換
音波を元に音の最小単位である音素を抽出し、学習された辞書を元に単語に変換
蓄積された文章データから推測し、意味のある文章として組み立てる
AIの機械学習の発展により、継続的な認識精度の向上が可能に

音声認識とは
音声認識の仕組み
音声認識と機械学習
まとめ

雑学は、会話やチャットでのコミュニケーションの幅を広げる手助けになります。

一般的になじみの深いもの、よく耳にすることでも、実は仕組みを知らないことは多いですよね。生活に溶け込みつつあるスマホやスマートスピーカーなどの音声認識機能は、どのように人間の言葉を理解しているのでしょうか？

今日はそんな「音声認識」にまつわる雑学を、コンパクトにご紹介します。

音声認識とは

「Siri」「OK Google」「Alexa」などの音声アシスタントの普及で、機器に向かって話しかける生活が身近なものになっています。

音声認識とは、人間の発した声をマシンにデータとして認識させ、会話をテキスト化したり、マシンに指示を与えたり、話者の特定などの処理を行ったりする技術です。

実はこの音声認識の技術は、英語圏では1990年ごろからゲームやパソコンなどで実用化されていましたが、日本語については同音異義語の多さや子音の少なさなどの理由から、認識率が低く、大幅な普及にはつながりませんでした。

その後、2010年代に「Siri」や「OK Google」が登場し、対応言語の広がりや精度の向上によって音声認識がどんどん身近なものになっているのはご存知のとおりです。

しかし、人間の声は同じ言語だとしても、話し方や声の高さは千差万別です。どのように音声認識が行われているのかを見ていきましょう。

音声認識の仕組み

基本的な音声認識の流れは、次のとおりです。

音声の音波をデジタル変換する
音波から音素を特定する
音素の並びを辞書とマッチングさせ、単語に変換
変換された単語を文章化

以下、それぞれを詳しく説明します。

1. 音声の音波をデジタル変換する

糸電話のメカニズムのように、耳に届く音というのはそもそも空気の振動であり、この音の振動による空気の波を「音波」と呼びます。

音波について補足すると、人間の喉をはじめ、物体が振動する際には空気が押されることにより空気の密度が濃くなります。密度の濃い部分がさらに周囲の空気を押し出し、徐々に移動していくことで音が広がるのですが、この空気の密度の濃い部分と薄い部分が交互になることで「音波」が生まれます。

音波は音の大きさや高さにより形状が変化します。音の大きさや高さを数値化し、マシンが処理できるデジタル信号として変換するのが、音声認識の最初の工程です。

雑音が混じると正確な波形を把握しづらくなるため、音声認識の精度にブレが出ます。近年では、デバイス側のノイズリダクション（除去）の精度が向上してきたため、雑音のある場所でもより正確に音声が認識されるようになってきました。

2. 音波から音素を特定する

続いて、音波から音の最小単位である音素を抽出する作業を行います。

音素の数は言語ごとに異なり、日本語では母音5個、子音17 個（半母音2個を含む）、特殊音素1個の合計23個、英語では母音20個、子音24個の合計44音素です。

たとえば、日本語の「おはよう」の音素は「o-h-a-y-o-u」と分解され、事前に学習させた何千人、何千時間という膨大な人の声から、統計的にどの音素に近いのかをコンピューターが見つけ出します。

音素の種類が多い方がマシンがより正確なデータを抽出できるため、言語ごとに音声認識の正確性に差が出やすいのです。

3. 音素の並びを発音辞書とマッチングさせ、単語に変換

特定された音素から言葉の意味をマシンに理解させるため、機械に学習させてある「発音辞書」に音素の並びをマッチングさせます。

たとえば、先ほどの「o-h-a-y-o-u」から「o-ha-yo-u」をマッチングさせ、「おはよう」という単語に変換します。

4. 変換された単語を文章化

単語の羅列だけでは、文章としての意味を正しく理解できませんし、テキストとして表現することもできません。

ここでも日本語の壁が立ちはだかるのですが、特に日本語には同音異義語や似た言葉が多く、文章の流れや文脈から各単語のつながりを導き出す必要があるのです。

この学習には文章としての音声データが必要になり、蓄積された膨大なデータから、次に来るだろう言葉の出現記録から可能性の高い例を元に文章化します。

滑舌の悪い人や聞き取りにくい環境下の会話でも、相手が何を話しているのかを文脈から理解できる人間の脳の仕組みと同様ですね。

音声認識と機械学習

このような機械学習の仕組みを支えるアルゴリズムにはさまざまなものがありますが、従来であれば事前に学習させた辞書を利用するだけだったので、アプリやサービスのリリース後のアップデートは難しいものでした。

しかし、こちらもAIによる機械学習が発達したことにより、利用する中で継続的に学習する仕組みを備えていたり、テキスト化されたデータを利用者が修正する中でどんどん精度を上げていくものも増えています。

まとめ

いかがだったでしょうか？

スマホやスマートスピーカーなどを通じて利用できる音声認識機能は、その発展の裏にAIの機械学習があります。

私たちVoista Media編集部も開発に関わる無料のAI録音アプリ「Voistand」では、

録音中の音声のリアルタイム文字起こし機能
録音済みデータやインポートデータの文字起こし機能
話者認識機能

など、ビジネスからプライベートまで使いやすい録音アプリを目指して、日々音声認識の精度向上に努めながら開発しています。

iOS版（App Store）	https://apps.apple.com/jp/app/id1544230010#?platform=iphone
Android版（Google Play Store）	https://play.google.com/store/apps/details?id=com.voistand.app

興味がある方はぜひ一度、「Voistand」をお試しくださいね。

参考

この記事を書いた人

かさいちひろ

ウェブ制作・ウェブマーケティングなど。ヘッドフォンを買うなら形の格好良いMarshallか、よりノイキャンや音質を重視すべきか悩んでいる。声フェチが過ぎて、好きな声優さんの配役を動物に形態している時の呼吸音だけで察したことがある。

Voista Media

【イマドキ雑学】スマホやスマートスピーカーの音声認識が賢くなっていく仕組みとは？

音声認識とは

音声認識の仕組み

1. 音声の音波をデジタル変換する

2. 音波から音素を特定する

3. 音素の並びを発音辞書とマッチングさせ、単語に変換

4. 変換された単語を文章化

音声認識と機械学習

まとめ

参考

おすすめアプリ

カテゴリー新着記事

iPhoneで使えるボイスチェンジャーアプリ3選。ヘリウムガスから幽霊、宇宙人、ゾンビまで...

クライアントからの鬼電。緊急性に関わらず、電話ばかりかけてくる人の心理とは？

大量の録音データの管理や検索に困っていない？ AI録音アプリ「Voistand」が便利な3...

iPhoneで使える効果音アプリ3選。パーティーや子ども会で盛り上がること間違いなし！

声を発することはこんなに複雑だった！ブラウザで遊んで学べる発声シミュレーターを紹介

週間アクセスランキング

あなたのスマホが監視されている？盗聴アプリの確認と削除方法とは

iPhoneのマイクはどの機種にも3つある。位置と役割を確認し、通話や録音をより快適に！

人格否定はどんなに親しい間柄でもNG！心を深く傷つける言葉と、その対処法とは

若者が感じる「マルハラ」とは？文末の句点「。」から威圧感を覚える理由を探る

Googleの鼻歌検索がiPhoneでも！ iOSの「Google アプリ」でうろ覚えの曲を検索する方法

Voista Mediaとは

AI録音アプリ「Voistand」

【イマドキ雑学】スマホやスマートスピーカーの音声認識が賢くなっていく仕組みとは？

音声認識とは

音声認識の仕組み

1. 音声の音波をデジタル変換する

2. 音波から音素を特定する

3. 音素の並びを発音辞書とマッチングさせ、単語に変換

4. 変換された単語を文章化

音声認識と機械学習

まとめ

参考

あなたにおすすめの記事

おすすめアプリ

カテゴリー新着記事

週間アクセスランキング

Voista Mediaとは

AI録音アプリ「Voistand」