Some parts of this page may be machine-translated.

 

AIの教師データと学習データの違いとは?わかりやすく解説!

AIの教師データと学習データの違いとは?わかりやすく解説!

AIの技術は近年目覚ましく発展し、これまでは難しいと考えられていた分野でも、その活用が進んでいます。社会に広く浸透しているAIですが、この発展を支える機械学習の技術には膨大な量のデータが必要です。そして、AIが学習を通して的確に目的を達成するために、このデータは人の手作業(アノテーション)によって準備しなければなりません。これらは「学習データ」「教師データ」と呼ばれます。今回は、この「学習データ」「教師データ」についてその違いについて解説していきます。



目次

1. AIの機械学習とは?

 

ここではAIの機械学習における教師データと学習データの違いを理解するために、まずAIと機械学習について解説していきます。

1-1.AIとは?

AIとはArtificial Intelligence (人工知能)の略です。人間の認識・思考・創造する能力を機械において再現し、自律して行えることを目標とする技術で、その始まりは1950年代に遡ります。

1-2.機械学習とは?

機械学習とは、AIの技術の一つです。データの中の対象が持つ特徴を機械が学習(トレーニング)し、認識できるようになることで、対象を自動的に検出できるようになります。近年、この機械学習の分野では、人のニューロンを模したアルゴリズムを用いるディープラーニングという技術が登場し、その認識精度の高さと、応用範囲の広さから、第三次AIブームが到来しています。その一方で、ブーム以前からある、知識処理技術やプランニング技術、マッチング技術といった機械学習以外の技術もあり、こちらも活用されています。

2. 教師データとは?

 

機械学習には「教師あり学習」「教師なし学習」「強化学習」の3つの学習方法があります。すべての学習において膨大な量のデータを必要としますが、それぞれの手法で用意するデータに違いがあります。「教師あり学習」においては教師データと呼ばれるものが必要です。

AIが「教師あり学習」において、学習を通してデータの中から特定の対象を認識するためには、対象をデータ上で示す必要があります。例えば富士山の画像から富士山を認識するためには「この画像は富士山ですよ」とデータに印をつける、ということです。このようにデータに印をつける作業をアノテーションと呼びます。このアノテーションされた画像をAIに与えることで初めてAIは「この画像は富士山なのだ」と学習します。アノテーションされたデータが教師データと呼ばれます。

3. 教師データと学習データの違い

 

教師データ以外に学習データと呼ばれるものが機械学習では使われます。両者は一見似ているように見えますが、違いがあります。

3-1.学習データとは?

学習データとはAIが認識対象を学ぶためのデータセットです。「教師あり学習」においては学習データの中に教師データを含みます。「教師なし学習」「強化学習」においては教師データを含みません。つまり、機械学習において学習するために使うデータ全般が学習データと呼ばれます。

3-2.学習データと教師データとの違い

先に解説した通り、教師データはアノテーションをしたデータです。「教師あり学習」においては必須のデータとなりますが、それ以外の手法では使用しません。このような違いが学習データと教師データにはあります。

4. AI開発の流れ

 

ここではAI開発の流れのなかで、データを学習する部分を中心に見ていきます。

:データ収集
学習のためにデータを集めます。認識させたい対象を含むデータを大量に集めます。可能な限りさまざまな条件のデータを用意することで、特定の条件のみで認識精度が上がってしまう「過学習」の発生を防ぎます。さまざまな条件とは、先の富士山の例で言えば、異なる季節・異なる天候・異なる角度・異なる大きさといったさまざまなバリエーションの画像です。

:アノテーション
収集したデータのうち、教師データ作成にあてるデータを選定したら、仕様書を作成し、それに基づきアノテーション作業を行います。大量のデータを作成する必要があるので、開発スケジュールに遅延が生じたり、品質によってAIの学習に影響が出たりしないように、必要な人数のアノテータをアサインして、品質と生産性をマネジメントして進めます。

:学習
完成した教師データをAIに学習させます。正解のパターンを学習したAIは推論モデル・学習済みモデルと呼ばれます。

:モデル評価
推論モデルに教師データ以外の学習データを与え、モデルが出力した結果が、目的とする精度に到達しているか評価します。

:実装
AIが十分な精度を出せることが確認できたら、各種デバイスやソフトウェアに実装して運用を行います。認識精度が下がらないようにモニターし、必要に応じて追加学習を行い、メンテナンスを行います。

5. まとめ

機械学習における教師データと学習データの違いについて解説しました。機械学習の中でも「教師あり学習」は最も一般的な手法で、画像・動画・テキスト・音声などさまざまな種類のデータで活用されています。AI開発の成功のためには、良い学習データ、中でも教師データが高品質であることが大切です。データ作成のためのアノテーションは、自動化ツールなどもあるとはいえ、手作業で行うことがほとんどです。自社でアノテーションを行っているものの、リソースが不足していたり、マネジメントの経験がなかったりして思うように開発が進まない、という悩みを抱えている企業様も多くあるでしょう。そうした場合に外注化という方法を取るのも良い選択です。

6. ヒューマンサイエンスのアノテーション代行サービス

教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテータ150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。 AIモデルを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。

クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

最新のアノテーションツールを活用
ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP