Some parts of this page may be machine-translated.

 

教師データの品質を担保、向上させるには?実践方法を解説!

教師データの品質を担保、向上させるには?実践方法を解説!

AIの活用がさまざまな分野で進んでいます。AIによって定量的データだけでなく、定性的なデータもAIの学習する能力を使って処理する事ができるようになり、今後もAIの活用される領域はどんどん広がっていくでしょう。AIは学習する事で認識精度を高めます。そのために教師データと言われる学習データを使用する「教師あり学習」や、学習データを必要とせずAI自らデータを解釈し学習を進める「教師なし学習」など様々な手法があります。ここでは「教師あり学習」について、AI開発のプロジェクトの中で教師データを作成するプロセスの実践的な方法を主に紹介していきます。



目次

1. 教師データとは

AIがデータから必要な情報を認識できるようになるためには学習が必要です。その学習に使われるのが教師データです。例えば、画像に車が写っているかどうかをAIが認識するためには、車の画像を用意して「この写真には車が写っています」という情報を画像に付与したデータを教師データとして用意します。データに情報を付与する作業を「アノテーション」と呼びます。

>>関連リンク

教師データとは?AI・機械学習・アノテーションとの関係から作り方まで解説。

2. 教師データの品質の重要性

教師データの品質はAIの精度を決定する非常に重要な要素です。AIは教師データに基づいて学習し、未知のデータに対して予測を行います。教師データの品質がAIの精度を左右します。教師データの品質が悪いためAIが誤認識をしてしまうといった問題を避けるために、教師データ作成の際には品質を確保することが重要です。

2-1. 高品質な教師データがもたらすメリット

高品質の教師データにより学習したAIは、未知のデータに対して高い精度の判断をする事ができます。AIの再学習や教師データの修正の必要がなくなり、AI開発のスピードを落とさずプロジェクトを進める事ができます。

2-2. 高品質な教師データとは

高品質であることはAIの学習にメリットがあると述べてきましたが、高品質とは具体的にはどういったものでしょうか?

 

AI開発での目的を達成するためには、AIがデータを正しく認識するための要件を明確にし、どのような教師データが必要かを定義します。そしてこの定義に基づいてアノテーションのための作業指示書・仕様書を用意し、それに沿った教師データを作成することが必要となります。

 

ここで気をつけておきたいのは、アノテーションの精度と高品質とは異なるということです。バウンディングボックスで車を囲むアノテーションを例に考えてみしましょう。高品質というと、バウンディングボックスを車にピッタリ合わせて囲まなければならないと思うかもしれません。ですが、仕様書にそこまでのアノテーション精度は必要ではないと明記されていれば、ある程度の余白があっても品質は確保できます。大切なのは仕様書に忠実な作業をすることで、むやみに精度を追いかけることではありません。

 

高品質な教師データとは、作業指示書・仕様書に基づいて正しくアノテーションされた教師データを意味します。

2-3. 低品質の教師データがもたらすデメリット

低品質の教師データでAIが学習した場合には、誤認識が発生することは避けられません。その場合には教師データの修正や追加、再学習だけでなく、それにまつわる管理コストもかかります。そのため、アノテーションの外注化などを検討する場合は、作業コスト削減だけではなく、品質や様々な観点での検討が必要です。

 

例えば、仕様書に「車にピッタリ沿うようにバウンディングボックスを作成する」といった記載があるとします。それにも関わらず、大雑把な囲み方のバウンディングボックスを作成してしまうと、バウンディングボックスの中に車以外の背景情報が含まれることになります。そうすると、AI学習モデルは背景情報などのノイズ込みで学習を進めてしまう可能性があります。その結果、誤認識が発生する可能性があります。結果として教師データの再作成からやり直しになり、本来不要であったコストもかかってしまい、開発の遅延などプロジェクトに悪影響を与えてしまいます。

3. 教師データの基本的な作成方法とは

教師データの作成は大きく三つのステップに分かれます。まず、AIの目的の設定を行います。次に必要なデータを収集します。そして収集したデータにアノテーションを行います。

 

3-1. 目的の設定

最初に、AIの目的を設定します。例えば、自動運転をするために走行中の画像認識ができるAIを開発するなどです。漠然と画像認識をするといってもAIは勝手に学習してくれるわけではありませんから、AIに学習させたい対象の物体はどんなものなのかを設定します。

3-2. データを収集する

設定された目的に必要なデータを集めます。上の例で言えば、車載カメラで撮影された画像などになります。

 

3-3. アノテーションを行う

収集したデータにバウンディングボックスなどのアノテーションを行い、AIがデータを正しく認識するための教師データを作成します。


※アノテーションの意味
アノテーションは本来「注釈をつける」という意味があります。
例えば、本に付箋を貼ったり、単語にアスタリスクを付け欄外に注釈を入れたりする、というイメージです。
教師データの作成においては、 AIに認識してもらいたいデータの特定の場所を指定(画像ならばバウンディングボックスやセグメンテーション、テキストならばアンダーラインなど)して、ラベルを紐づける(ラベリングとも言います)ことで、AIがデータを学習できる状態になります

 

4. 教師データの品質を確保するための具体的な実践方法

ここからは、教師データを作成する際の基本的な実践方法について紹介していきます。

 

4-1. 目的を明確にする

目的の設定の項でも触れましたが、目的が漠然としていてはAIに学習をさせることは難しいです。教師データを作る際にも漠然とした指示では、正しいアノテーションが行えません。結果、教師データの品質が定まらずAIの学習もうまく行かないでしょう。目的を明確にすることで、このような問題を避ける事ができます。

4-2. 収集するデータの質と適切な量を確保する

AIが学習するためにはある程度まとまった量の教師データが必要になります。どのぐらいの量かは目的の複雑さなどによって変わってくるので一概には言えませんが、画像で言えば数千から数万枚の画像を必要とする事が多いです。

 

: 自社のデータを利用する

自社で元々蓄積しているデータが大量にあれば、それらを活用することができます。議事録・通話ログ・画像や動画など、AI活用を前提としないで保存されていたデータも、AIを活用することで新たな価値創出の可能性があります。データを新たに収集する手間がないため、開発期間も短縮できるでしょう。動画からの画像切り出しなどもできるツールがありますから、必要な量のデータを用意することができるのであれば、自社のデータを活用することは良い選択でしょう。

 

: アンケートを利用する

アンケートやメールを実施することでデータを収集することも良い方法です。以前は地道な街頭アンケートや郵送や電話など非常に手間と時間やコスト がかかるものでしたが、現在はSNSやクラウドソーシングを活用すれば、AIで分析したいターゲット層の生の声を直接得ることが比較的低コストで簡単に行えます。

 

: データセットを活用する

自社でこのような大量のデータが揃えられない場合には、COCOなどのオープンデータセットを活用するという方法も考えられます。

 

: データの偏りに注意する

様々な種類のデータを用意しましょう。例えば、車載カメラ画像の画像を集める場合、市街地の画像だけでなく高速道路・山間部・夜・雨天・など様々なシーンを含めるようにします。こうすることで特定のシチュエーションの画像に特化してのみ精度が上がり、他の画像に対して精度が下がってしまうAIの過学習を防ぐ事ができます。

 

: ネガティブサンプルも取り込む

認識させたい対象がないデータも含めます。このようなデータはネガティブサンプルと呼ばれ、AIの認識精度を高める際に有効です。

 

4-3.アノテーションの品質を確保する

教師データの品質を確保するためにはアノテーションが正しく行われる必要があります。そのためにはアノテーションの仕様を決定して、その仕様に基づき誰が作業しても同じになるように基準やルールを設計し、それに沿った品質の教師データが作成できるよう様々なマネジメントを行う必要があります。

 

: アノテーションの仕様を決定する

目的の設定において明確にした要件をもとにアノテーションの仕様を決定します。

 

: 作業プロセス、ルールを設計する

アノテーションの仕様に基づき作業指示書・仕様書を作成します。作成の際にはが間違いを起こしづらいように作業方法を工夫しましょう。 アノテータが作業指示書・仕様書を全く同じレベルで理解しているとは限りませんから、ラベルの付け方にバラつきが出ることもあります。こうした作業上起こりうる疑問点やバラつきを抑えるための作業プロセスを設計する必要があります。例えば、アノテーションされたデータをチェックのみならずフィードバックするプロセスを組み込む。などがあります。

 

: 品質を確保するためのマネジメント

アノテーションの品質を確保するためには仕様決定やプロセス設計が大切です。ですが、これらに基づきアノテーションを現場で進めていくためには適切なマネジメントが欠かせません。作業指示書・仕様書との乖離がないか常に目を配り、チェックとフィードバックに加えて、必要に応じてミーティングや個別ヒアリングを行い、品質を確保する運営を心がけましょう。

 

4-4. セキュリティやプライバシー、著作権への配慮

アノテーションで扱うデータは場合によっては、高セキュリティな環境での作業が求められるケースもあります。また、プライバシーを侵害する恐れのあるデータや、著作権保護されたデータを知らずにデータセットとして使ってしまう可能性もあります。扱うデータがどのような条件で使用可能なのかについて、あらかじめ精査しておきましょう。

5. まとめ

AIの認識精度は教師データの品質によって左右されます。目的の設定が明確になり必要な量・種類のデータを収集できたとしても、肝心の教師データが低い品質では望ましい結果は得られません。それを避けるために品質を担保・向上するための実践的な方法を解説してきました。中でも、教師データを作成するアノテーションは人の手作業が必要となるため、人を中心としたマネジメントが欠かせません。これらは当たり前のことではあるのですが、当たり前と見過ごさず確実に抑えていきましょう。

 

これらを実践することで教師データの品質が担保され、AIの精度向上が期待できます。これにより設定した目的が解決できればプロジェクトは成功し、より難易度の高い目的へのチャレンジや製品リリースなど、確実に次のステップへ進むことができるでしょう。

6. ヒューマンサイエンスのアノテーション代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。 AIモデルを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

最新のアノテーションツールを活用

ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP