AI音声認識とは〜音声認識の仕組みと活用事例3選〜

スマートフォンに搭載されたSiriやアレクサといった音声アシスタントによって、機械への音声入力が身近になっています。キーボードなどの入力インターフェースを必要とせず、より直感的な入力が可能なのが音声入力の利点です。しかし、音声はそのままでは機械が理解できないデータであるため、機械が音声を理解できるように、テキストに変換する「音声認識」技術が使われています。近年、この音声認識の精度が急速に上がっていますが、それを支えるのがAIによる技術革新です。

音声をテキスト化する技術

AIが音声認識技術を用い、音声をテキスト化する場合には、対象物の特徴を元にして、識別することができるパターン認識という技術を用いて文字起こしをします。
調査、探したいジャンルなどをAIに学習させることで、AIは音声データからテキスト化をすることが可能となります。
音声に限らず、顔や建造物などは論理的な情報ではなく処理しづらいものですが、パターン認識を活用することで、AIの処理できる情報の幅を大きく広げることができるようになります。

アルゴリズムの重要性

ところで、コンピューターを動かすためには「アルゴリズム」が必要になります。すべてのコンピューターやwebサイトは一定のアルゴリズムに沿って動いてます。
アルゴリズムは、与えられた問題や課題に対して、正しい回答を導き出すプロセスや計算方法のようなもので、用意された設問やパターンに沿って判断していくことで、コンピューターはユーザーの求める正しい情報を提示することができようになります。
もちろん、AIのパターン認識も、音声や画像などの情報を学習させるためのアルゴリズムがなければ、正しく動作させることができなくなってしまいます。

この記事では、AIによる音声認識の基本的な仕組みを紹介するとともに、実際の活用事例についても解説します。

目次

1.音声認識の仕組み
1-1.音声認識を活用するメリット
1-2.音響分析
1-3.音響モデル
1-4.発音辞書
1-5.言語モデル
2.AI音声認識の活用事例
2-1.活用事例1:駅構内インフォメーションセンターの多言語対応型AIロボット導入
2-2.活用事例2:コールセンターでの業務改善・効率化
2-3.活用事例3:会議の議事録の自動化
3.まとめ
4.音声データアノテーションのご相談はヒューマンサイエンスへ
4-1.教師データ作成数4,800万件の実績
4-2.クラウドソーシングを利用しないリソース管理
4-3.最新のアノテーションツールを活用
4-4.自社内にセキュリティルームを完備

1.音声認識の仕組み (４つのステップを経て音声からテキストへ)

マイクなどの録音機器によって入力された音声データは、様々な波形が混ざった状態です。その中から人の声を特定することは私達の耳では容易ですが、機械にとっては簡単なことではありません。また、言葉に対応する波形を特定できても、それをテキストデータなどに変換しなければ、機械が正しく認識し、正しい指示を出すことはできません。また、テキスト変換の際にも同音異義語などを正しく選択する必要があります。これらを解決するために、主に４つのステップを経て音声をテキスト化していきます。それぞれのステップで使われる技術が次に紹介する音響分析、音響モデル、言語モデル、発音辞書です。

1-1.音声認識を活用するメリット

音声認識を導入するメリットについて3つご紹介します。
①業務の効率化
ミーティングや商談などの場で、文字起こし作業を省略することで、業務の効率化を図ることができます。例えば議事録を作成する場面だと、これまでは録音した音声データを聞いてタイピングを行う必要がありました。しかし音声認識技術があれば、半自動で作成することができ作業時間の削減につながります。
②入力ミスの減少
ヒューマンエラーによるタイピングミスは、人間が業務を行う限り完全になくすことはできません。一方で音声認識では聞き間違いや入力のミスを防ぎやすいといったメリットがあります。もちろん雑音や会話の声量などに関するいくつかの注意点はありますが、人間が側で修正を加えることで、より完成度の高い文字起こしを行うことが可能です。
③ハンズフリーでの入力が可能
音声認識では、文字起こしをハンズフリーで行うことができます。タイピングする必要がないため、別の業務を行いながら音声をテキスト化することが可能です。タイピングが苦手な方や、文字起こしに時間をかけている方の業務の効率化も見込めます。

1-2.音響分析

音響分析とは、入力された音声の特徴量（周波数、音の強弱など）を分析した上で、AIで扱いやすいデータとして抽出、変換していく作業のことです。そもそもAIは、人間と同じように生の音声データから音声を認識することはできません。例えば街中で様々な騒音の中でも人間は特定の人の話し声を簡単に認識できます。しかし、音響分析前のデータではAIは様々な音が混ざった状態として認識しています。そのため、AIが人間の音声を認識できるようにデジタル化し、背景音などのノイズの除去を行う必要があります。このプロセスが音響分析です。こうして抽出された人間の音声データをもとに、AIは音声認識を進めていきます。

1-3.音響モデル

音響モデルとは、音響分析によって抽出されたデータを、AIが事前に学習したデータと照らし合わせ、音素を抽出していく作業のことです。音素とは「発話を細分化した場合に意味を持つ最小単位」であり、日本語であれば母音、子音、撥音などが音素とされます。文字に例えると「お・も・て・な・し」のそれぞれの文字というイメージです。音素抽出のための学習データは数千人、数千時間に及ぶ様々な人間の声を処理したものが用いられます。こうして、音素を抽出することによって、AIが音声をテキスト化する上で必要な情報が整います。

1-4.発音辞書

音響モデルによって発話の最小単位となる音素が決まると、その音素を正しい単語に再構成する必要があります。そのために使われるのが発音辞書です。これは音響モデルによって抽出された音素を組み合わせて、単語として構成していく際のデータベースの役割を担っています。この発音辞書を利用した音素の連結によって、初めて単語に相当する単語音響モデルを構築することができるのです。先程の音響モデルでは「お・も・て・な・し」であった音素が結合され「おもてなし」となるイメージです。こうして単語が構成されると次は言語モデルに進みます。

1-5.言語モデル

言語モデルとは、人間が話したり書いたりする「言葉」を、単語の出現確率でモデル化したものです。出現確率とは例えば「お客様をおもてなし」という発話は「お客様を表無し」ともなりえますが、確率的には低いでしょう。昨今ではニューラルネットワークによる言語モデルが広く使われています。大規模言語モデルとして2020年に登場したGPT-3では1750億のパラメータを使用しています。

これらの技術により私達の会話はAIに認識され、テキスト化、さらにはデバイスの操作に活用できるようになります。

2. AI音声認識の活用事例

AI音声認識を活用することで、サービスの拡充、業務の効率化が実現できます。今回は3つの活用事例をご紹介いたします。

2-1. 活用事例1：駅構内インフォメーションセンターの多言語対応型AIロボット導入

駅のインフォメーションセンターに、旅行客などを対象にした、多言語音声認識AIを搭載する対話型ロボットを設置することで、問い合わせや窓口対応の効率化が期待できます。

さらに、対話ログから利用者のニーズを把握してサービスを反映させることで、より利用者に求められるサービスを提供できるようになります。対話ログを分析することで顧客の声や満足度を収集・分析し、サービスに反映できる点も、音声認識AIの強みです。単なる音声ガイドの役割だけでなく、顧客満足度向上やサービス拡充に繋がるメリットが期待できます。
>>駅改札そばに設置した対話ロボット、東京都交通局の担当者が指摘する課題

2-2.活用事例2：コールセンターでの業務改善・効率化

音声認識の技術が最も導入されている分野がコールセンターです。従来、コールセンターで通話データをテキスト化する際には、人が音声データを聞いて書き起こしをしなければなりませんでした。音声認識技術の発展により、こうしたAIの自動化による書き起こしの精度は非常に高くなっています。

またコールセンターの電子マニュアルは、紙媒体にすると数千ページ分に及ぶこともあり、オペレーターがFAQを探すのに、かなりの工数がかかってしまいます。こうした課題に対して音声認識AIを導入することで業務改善とお客様満足度の向上が期待できます。
>>リアルタイム音声認識でコールセンター業務が大幅に効率化

2-3.活用事例3：会議の議事録の自動化

これまで会議の議事録は担当者がリアルタイムで記録していくか、もしくは録音された音声データを聞きながら書き起こしする必要がありました。リアルタイムでは聞き漏れ、聞き間違いなどが起こる可能性があります。また書き起こしは二度手間になりますし、内容によっては大幅に時間をとられてしまうこともあります。よりスピーディな業務が求められる中、書き起こし作業は他の業務遂行を圧迫することもあり、時間のかかるルーティーンとして担当者の生産性を低下させる一因となります。こうした課題に対して音声認識AIを導入することで業務改善が期待できます。
>>議事録作成から取材にも応用し幅広い文字起こしを効率化
運用の工夫も相まり、認識精度が90％以上にアップ

3.まとめ

今回はAIによる音声認識の活用事例を３つご紹介いたしました。

昨今、AI音声認識の活用範囲はますます広がっています。それに伴い、AIが学習するための教師データ作成の必要性も高まっています。

教師データ作成のためのアノテーション業務のコストを抑えたい場合、アノテーション業務の代行・委託を検討することも有効な手段の一つです。当社ではアノテーションツールのご相談からアノテーション仕様策定支援、仕様書作成、アノテーションの代行まで幅広く対応しておりますので、ぜひお気軽にお声がけください。

4.音声データアノテーションのご相談はヒューマンサイエンスへ

4-1.教師データ作成数4,800万件の実績

「AIを導入したいけれど何から取り組んだらよいのかわからない」

「外注するにも何を依頼すればよいのかわからない」

そんなときはぜひヒューマンサイエンスにご相談ください。ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAI開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応します。
>>ヒューマンサイエンスのアノテーションサービス

4-2.クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

4-3.最新のアノテーションツールを活用

ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

4-4.自社内にセキュリティルームを完備

ヒューマンサイエンスでは新宿オフィス内に ISMSの基準をクリアしたセキュリティルームを完備しています。守秘性の高いプロジェクトであってもオンサイトでご対応します。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。