Some parts of this page may be machine-translated.

 

教師データとは?AI・機械学習・アノテーションとの関係から作り方まで解説。

教師データとは?AI・機械学習・アノテーションとの関係から作り方まで解説。

AIの精度向上のためには機械学習が必要です。そのために利用されるのが教師データです。ここでは効果的な機械学習のための教師データとはどのようなものかについてお話していきます。



目次

1. 教師データとは何か?

1-1. AI、機械学習、教師データ、アノテーションの関係は?

まずAI (人工知能) が働く仕組みについて整理します。AIが仕事を覚える構造そのものは人間と同じです。AIもトレーニングを重ねることで判断能力や処理スピードが向上します。このトレーニングのことを機械学習またはML (Machine Learning) と呼びます。AIが機械学習を行う際に利用するデータが教師データです。よく目にするアノテーションという言葉は、教師データを作る作業のことです。
ここでいったん用語を整理しておきましょう。


AI:人工知能そのものを指します。
機械学習:AIが精度を上げるためのトレーニングです。
教師データ:機械学習に利用するデータです。
アノテーション:教師データを作る作業です。

AI開発の工程でのアノテーションの位置づけはこのようになります。

1-2. AIの学習に欠かせない教師データ

教師データとはその名の通り、AIが学習するときに教師の役割を果たすデータです。

例えば、AIに「富士山」の写真を見せて「これは何?」という質問と、「これは富士山です」という答えの両方を人間が教えます。富士山の写真を大量に何度も見せます。するとAIがどんどん「富士山」を覚えていくので、写真を見せて「これは何?」と聞いたときの「これは富士山です」「これは富士山ではありません」という答えの正解率が上がっていきます。ここでAIに見せる、問題と解答を情報として付加したデータのことを教師データと呼びます。人間と同じでAIも学習すればするほど正解率は上がります。AIの精度をより高めるには、必要十分な量の教師データを使って繰り返し学習させることが必要です。

1-3. 教師データの作り方

アノテーションでは素材となるデータを用意して、そのひとつひとつに情報を付加します。情報はタグやラベルなどのメタデータとして付加します。これは画像、音声、テキストなどデータの形態を問わず必要なプロセスです。アノテーション(annotation)はもともと「注釈」や「注解」を意味する英単語です。アノテーションの作業の役割は、データに意味づけや紐づけを行うことです。作業を担当する人はアノテーターと呼ばれます。


アノテーションの意味や種類については以下の記事も参考にしてください。

>>アノテーションとは?その意味からAI・機械学習との関係まで解説。

1-4. 時間のかかるアノテーション

アノテーションは手作業によって行われるため、作業者には正確な知識と判断力に加えて、相当な根気強さも求められます。AIにできることが増えていく背景には、この地道なプロセスが必ず存在します。
画像データを使ったアノテーションでは、アノテーターが画像内の特定の領域を手作業で指定して情報を付加します。上の富士山のような例では、画像を1枚1枚目視で確認して、富士山が写っている領域だけを正確に選択するという作業が行われます。

1-5. どのくらいの量が必要なのか

必要な教師データの量はどれくらいなのでしょうか。その答えはプロジェクトの目的や目標とする精度によって変化します。手持ちのデータで実際にAIに学習させてみて、その量で課題を解決できるか、それともまだ学習が足りないかを検証します。足りないようであれば教師データを追加して学習を継続します。うまくいかないようであれば教師データの作成ルールから見直すこともあります。 教師データについては量と品質の両面から考える必要があります。

1-6. 高品質な教師データとは

教師データの品質はAIの精度に大きな影響を与えます。高品質な教師データは、偏りのない素材とバラつきのないアノテーションの両方が揃って成立します。上の例のように富士山を学習させるのであれば、同じような写真ばかりではなく、撮影場所や時間帯の違う様々な富士山の写真を偏りなく用意する必要があります。作業面では画像の選択範囲やデータの記録方法について明確なルールを策定して、アノテーター全員が同じ判断基準で作業することが重要です。

1-7.なぜ教師データの品質が重要視されるのか

AI開発の目的に沿った要件定義ができても、教師データの品質が低くてはAIの学習はうまくいきません。もし品質の低い教師データでAIが学習をすると、開発の目的にあった精度を得られないでしょう。そうすると再度アノテーションが必要になります。その際には同じアノテーターをアサインできないことも多く、アノテーターの再教育が必要にもなります。またデータの再作成のみでなく、それにまつわる付帯作業も追加になり、作業コストの増大ばかりでなく、プロジェクトの遅延も発生してしまいます。もし教師データが最初から高品質であれば、目的にあったAIが開発できるとともに、コストを最小限に抑え、開発サイクルを高速で回すことが可能になります。

次に品質の高い教師データを用意することで得られるそれぞれのメリットについて説明します。

1.AIの精度向上に寄与
品質や精度の低い教師データでは、AIの学習も思うように進まず、目的とする認識精度に到達することができません。例えば、画像認識AIのためのバウンディングボックスによる教師データで考えてみましょう。もしターゲットを囲むボックスの精度が悪く、背景情報や、余分なオブジェクトを囲むなどしてしまうと、当然AIの認識精度は上がりません。品質の高い教師データであれば、このような問題を回避でき精度向上に寄与します。

2.さまざまなパターンのデータに対応可能
人がさまざまな経験を通して未知の物・出来事に対して対応できるのと同じように、AIもさまざまな教師データを学習することで、未知のデータに対しても認識精度を高めます。品質の高い教師データは、正しいアノテーションが行われていることも当然ですが、さまざまなパターンのデータ(車の画像を例にとると、色々な向きの車・街中・山道・トンネルの中などバリエーション豊富な画像)であることも重要です。同じパターンのものだけを与え続けると、そのパターンには高い精度を保てても、違うパターンのデータには対応できないといった過学習が起きてしまいます。 品質の高い教師データであれば、さまざまなデータに対応するAI学習を進めることができます。

3.開発の目的に適合
品質の高い教師データとは、開発したいAIの目的に合致したものです。人の正面からの顔を認識するAIを開発目的にしているのに、横顔や後頭部が写っている画像ばかりを集めていては、顔の認識をAIに学習させるのは難しいでしょう。品質の高い教師データであることで、的確な学習を行うことができます。

4. AI開発の効率化
教師データの品質が高ければ、AIの精度も早い段階で高くなるでしょう。計画された人的リソースを効率的に使うことで目的が達成できます。一方で、品質が低いとリソースを余分に使ってしまうため、開発に時間がかかるだけでなく、精度も上がりません。

5. セキュリティ面のリスク回避
セキュリティ要件の高いデータを取り扱う場合などは、作業者や管理者がデータを適切に管理することが非常に重要です。教師データの作成を正しく行うのみならず、作業内容を他者に漏らさない、万全なセキュリティ対策を施した作業環境が用意できる、高いセキュリティ意識を保つための教育を実施している、といった面も行き届いていることが、品質の高い教師データを作成する条件とも言えます。

6.コストの低減
教師データの品質が低い場合、AI学習のコストが増加する可能性があります。教師データ作成のやり直しが必要になりますし、そのためのアノテータの再教育に時間とコストを費やさざるを得ないでしょう。最初から品質の高い教師データを用意することで、こうしたコストを抑えることができます。

このように、教師データの品質を高めることによって得られるメリットは多くあります。AI開発プロジェクトを成功させるためには品質の高い教師データを用意することが重要です。そのためには、アノテーション作業における適切なマネジメントが重要となってきます。

1-8. 高品質な教師データとは

ここでは教師データと学習データの違いについて解説します。

:教師データ
アノテーションによってラベル付されたデータのセットが教師データです。このデータを元にAIが認識するべき対象を学習します。ラベル付されたデータのみを学習しても、ラベルのないデータをうまく認識できるかどうかは教師データだけでは評価できません。

:学習データ
学習データは、AIが学習に使うデータ全体のセットを指します。教師データ以外のラベルのないデータも含みます。教師データで認識するべき対象を学習したAIが、ラベルなしデータを通して認識精度を高めます。また、学習の手法によっては、教師データを持たない学習データセットもあります。

1-9. 機械学習の3つのアプローチ

ここでは機械学習で用いられる学習方法について代表的な3つのアプローチについて解説します。

1. 教師あり学習
教師あり学習とは、正解のラベルを付与した教師データを含んだ学習データを用いる手法です。AI開発で主に使われる手法で、教師データを作成するためのアノテーション作業が必要となります。物体検出には教師あり学習が使われることが一般的です。

2. 教師なし学習
教師データを含まない学習データを用いる手法です。データの中のパターンを見つけ出し、そのパターンに応じてデータを分類する手法で、異常検出などを目的としたAIの学習に多く使われます。

3. 強化学習
強化学習とは、システムが自身で試行錯誤を繰り返し、最適解を見つける学習方法です。ルールが明確に定義された課題で最適解を求められる場合に使われる手法です。ロボット制御やチェスなどのゲームで勝つためのAIが身近な例としてあります。

2. 教師データの生産で重要な3つのポイント

2-1. 作業ルールの統一

教師データの品質がバラバラだとAIは学習できません。人間と同じで、複数の先生からそれぞれ違うことを教えられると誰の言うことを聞けばよいのかわからなくなってしまいます。そうならないために、アノテーションのプロジェクトでは実作業の開始前に具体的な作業ガイドラインを作成してチーム全員で共有することが重要です。難易度の高いプロジェクトでは最初にトライアル期間を設けて、テストにパスできたアノテーターだけでチームを編成することもあります。

2-2. アノテーションに適したマネジメント体制

アノテーションの作業には相当の注意深さや根気強さが必要です。さらにガイドラインの正しい理解やタグ付けを行う対象への知識や洞察力も要求されます。リソース面では作業を担当するアノテーターだけではなく、成果物を確認するチェッカーや教育を行うトレーナー、全体を統括管理するプロジェクトマネージャーの役割が必要です。プロジェクトの特性に合わせて効果的なマネジメント体制を構築することが、品質と生産性の確保につながります。

2-3. セキュリティレベルの確保

アノテーションでは守秘性の高いデータや個人情報が含まれるデータを扱うこともあります。そのためアノテーターへのセキュリティ教育は重要です。同時に作業環境の構築や使用ツールの選定においても十分なセキュリティ対策をとる必要があります。アノテーションのプロジェクトを外部の代行サービスに委託するときは、その外注先のセキュリティ対応のレベルを十分に確認しなくてはなりません。

3. ヒューマンサイエンスのアノテーション代行サービス

3-1. 教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAI開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。 AIを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。

3-2. クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

3-3. 最新のアノテーションツールを活用

ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

3-4. 自社内にセキュリティルームを完備

ヒューマンサイエンスでは新宿オフィス内に ISMSの基準をクリアしたセキュリティルームを完備しています。守秘性の高いプロジェクトであってもオンサイトでご対応します。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP