雑学は、会話やチャットでのコミュニケーションの幅を広げる手助けになります。
一般的になじみの深いもの、よく耳にすることでも、実は仕組みを知らないことは多いですよね。生活に溶け込みつつあるスマホやスマートスピーカーなどの音声認識機能は、どのように人間の言葉を理解しているのでしょうか?
今日はそんな「音声認識」にまつわる雑学を、コンパクトにご紹介します。
音声認識とは
「Siri」「OK Google」「Alexa」などの音声アシスタントの普及で、機器に向かって話しかける生活が身近なものになっています。
音声認識とは、人間の発した声をマシンにデータとして認識させ、会話をテキスト化したり、マシンに指示を与えたり、話者の特定などの処理を行ったりする技術です。
実はこの音声認識の技術は、英語圏では1990年ごろからゲームやパソコンなどで実用化されていましたが、日本語については同音異義語の多さや子音の少なさなどの理由から、認識率が低く、大幅な普及にはつながりませんでした。
その後、2010年代に「Siri」や「OK Google」が登場し、対応言語の広がりや精度の向上によって音声認識がどんどん身近なものになっているのはご存知のとおりです。
しかし、人間の声は同じ言語だとしても、話し方や声の高さは千差万別です。どのように音声認識が行われているのかを見ていきましょう。
音声認識の仕組み
基本的な音声認識の流れは、次のとおりです。
- 音声の音波をデジタル変換する
- 音波から音素を特定する
- 音素の並びを辞書とマッチングさせ、単語に変換
- 変換された単語を文章化
以下、それぞれを詳しく説明します。
1. 音声の音波をデジタル変換する
糸電話のメカニズムのように、耳に届く音というのはそもそも空気の振動であり、この音の振動による空気の波を「音波」と呼びます。
音波について補足すると、人間の喉をはじめ、物体が振動する際には空気が押されることにより空気の密度が濃くなります。密度の濃い部分がさらに周囲の空気を押し出し、徐々に移動していくことで音が広がるのですが、この空気の密度の濃い部分と薄い部分が交互になることで「音波」が生まれます。
音波は音の大きさや高さにより形状が変化します。音の大きさや高さを数値化し、マシンが処理できるデジタル信号として変換するのが、音声認識の最初の工程です。
雑音が混じると正確な波形を把握しづらくなるため、音声認識の精度にブレが出ます。近年では、デバイス側のノイズリダクション(除去)の精度が向上してきたため、雑音のある場所でもより正確に音声が認識されるようになってきました。
2. 音波から音素を特定する
続いて、音波から音の最小単位である音素を抽出する作業を行います。
音素の数は言語ごとに異なり、日本語では母音5個、子音17 個(半母音2個を含む)、特殊音素1個の合計23個、英語では母音20個、子音24個の合計44音素です。
たとえば、日本語の「おはよう」の音素は「o-h-a-y-o-u」と分解され、事前に学習させた何千人、何千時間という膨大な人の声から、統計的にどの音素に近いのかをコンピューターが見つけ出します。
音素の種類が多い方がマシンがより正確なデータを抽出できるため、言語ごとに音声認識の正確性に差が出やすいのです。
3. 音素の並びを発音辞書とマッチングさせ、単語に変換
特定された音素から言葉の意味をマシンに理解させるため、機械に学習させてある「発音辞書」に音素の並びをマッチングさせます。
たとえば、先ほどの「o-h-a-y-o-u」から「o-ha-yo-u」をマッチングさせ、「おはよう」という単語に変換します。
4. 変換された単語を文章化
単語の羅列だけでは、文章としての意味を正しく理解できませんし、テキストとして表現することもできません。
ここでも日本語の壁が立ちはだかるのですが、特に日本語には同音異義語や似た言葉が多く、文章の流れや文脈から各単語のつながりを導き出す必要があるのです。
この学習には文章としての音声データが必要になり、蓄積された膨大なデータから、次に来るだろう言葉の出現記録から可能性の高い例を元に文章化します。
滑舌の悪い人や聞き取りにくい環境下の会話でも、相手が何を話しているのかを文脈から理解できる人間の脳の仕組みと同様ですね。
音声認識と機械学習
このような機械学習の仕組みを支えるアルゴリズムにはさまざまなものがありますが、従来であれば事前に学習させた辞書を利用するだけだったので、アプリやサービスのリリース後のアップデートは難しいものでした。
しかし、こちらもAIによる機械学習が発達したことにより、利用する中で継続的に学習する仕組みを備えていたり、テキスト化されたデータを利用者が修正する中でどんどん精度を上げていくものも増えています。
まとめ
いかがだったでしょうか?
スマホやスマートスピーカーなどを通じて利用できる音声認識機能は、その発展の裏にAIの機械学習があります。
私たちVoista Media編集部も開発に関わる無料のAI録音アプリ「Voistand」では、
- 録音中の音声のリアルタイム文字起こし機能
- 録音済みデータやインポートデータの文字起こし機能
- 話者認識機能
など、ビジネスからプライベートまで使いやすい録音アプリを目指して、日々音声認識の精度向上に努めながら開発しています。
iOS版(App Store) | https://apps.apple.com/jp/app/id1544230010#?platform=iphone |
Android版(Google Play Store) | https://play.google.com/store/apps/details?id=com.voistand.app |
興味がある方はぜひ一度、「Voistand」をお試しくださいね。