
AIの開発に欠かせないアノテーションですが、その作業には未だ膨大な時間とリソースが必要です。アノテーション自動化への要望が高まる中、その実用化は現実的なのでしょうか。現状のアノテーションが抱える課題と、自動化の導入を検討するときに必要な視点について考えます。
- 目次
-
- 1. AI開発におけるアノテーションの位置づけとその種類
- 1-1. アノテーションとは
- 1-2. アノテーションできるデータとはどのようなものか
- 1-3. 画像のアノテーション
- 1-4. 動画のアノテーション
- 1-5. 音声のアノテーション
- 1-6. テキストのアノテーション
- 2. アノテーションが抱える課題
- 2-1. とにかく時間がかかる
- 2-2. プロジェクトマネジメントの難しさ
- 3. アノテーションツールを使って作業を自動化することは可能か
- 3-1. 自動化が難しい現状
- 3-2. アノテーション自動化のための3つの視点
- 3-3. アノテーション代行サービスを選ぶ理由
- 4. ヒューマンサイエンスのアノテーション代行サービス
- 4-1. 最新のアノテーションツールを活用
- 4-2. クラウドソーシングを利用しないリソース管理
- 4-3. 自社内にセキュリティルームを完備
- 4-4. 教師データ作成数4,800万件の実績
1. AI開発におけるアノテーションの位置づけとその種類

1-1. アノテーションとは
AIの精度を高めるには、教師データを利用した機械学習が必要です。その教師データを作る作業がアノテーションです。素材となるデータのひとつひとつにタグやラベル、メタデータと呼ばれる情報を注釈として付加します。AIが教師データを取り込み、パターンとして認識することでAIの精度が向上します。
AI開発の工程でのアノテーションの位置づけはこのようになります。

アノテーションの意味については以下の記事も参考にしてください。
>>アノテーションとは?その意味からAI・機械学習との関係まで解説。
1-2. アノテーションできるデータとはどのようなものか
アノテーションはいくつかの種類に分けられます。ここでは現在一般的に行われているアノテーションを紹介します。
1-3. 画像のアノテーション
画像のアノテーションは大まかに3つに分類されます。
・物体検出 (オブジェクト・ディテクション)
画像に写っているものの中から物体を見つけて「人間」「自動車」など、対象に応じて意味のあるタグ付けをします。
・領域抽出 (セマンティック・セグメンテーション)
画像の中の領域を選択して、そこにタグ付けします。「この領域は洋服」「この領域はドア」など選択した領域の意味を特定します。
・画像分類 (クラシフィケーション)
画像に対して、属性をタグ付けします。「水玉かストライプか」「開いているか閉じているか」などの情報を付加します。
1-4. 動画のアノテーション
画像と共通点の多いアノテーションです。動画も1コマ1コマで見れば画像ですから、データの形式の違いであるともいえるでしょう。画像アノテーションとの違いは、動画のシーン(何秒から何秒まで)といったセグメント単位でのタグ付けやラベリングが行われることなどがあげられます。
1-5. 音声のアノテーション
音量や音の種類に対してタグ付けを行う場合と、人間が発声した言葉の意味にタグ付けを行う場合があります。後者では発話をテキストとして書き起こし、それぞれの単語にタグ付けを行うのが一般的な作業手順です。”Hey Siri”や”OK, Google”に代表されるスマートフォンやスマートスピーカーの音声認識やユーザーの意図抽出、カスタマーサービスの音声通話など、さまざまな分野で活用されます。
1-6. テキストのアノテーション
アノテーションによって、大量の文書から特定のテキストを抽出したり、あちこちに散らばったデータから必要なテキストや文言を集約することができます。事前に設定したルールに従ってタグ付けを行い、文書の判別や内容の分析を行うことも可能です。不適切なコンテンツを取り除く目的でも活用されます。ビジネス文書やマニュアル、請求書や契約書などさまざまな場面で活用されます。
2. アノテーションが抱える課題

2-1. とにかく時間がかかる
どの種類のアノテーションでも、データのひとつひとつに作業担当者が手作業で情報を付加する必要があります。相当の注意深さや根気強さと、ルールやその対象データへの深い理解や洞察力も求められる作業です。プロジェクトによっては実作業の前に作業習熟のためのトレーニング期間を設けることもあります。その場合はトレーナー役の人材のアサインも必要になります。膨大な作業時間と、適性に合ったリソースの両方が必要なプロジェクトです。
2-2. プロジェクトマネジメントの難しさ
アノテーションのプロジェクトでは作業担当者が数十名~100名を超えることもあります。教師データの品質を確保する上でプロジェクトマネージャーの役割は非常に重要です。作業ガイドラインの策定、進行中の質問や仕様変更への対応、生産性の管理はもちろん、プロジェクトマネージャー自身が作業に習熟している必要があります。
3. アノテーションツールを使って作業を自動化することは可能か

3-1. 自動化が難しい現状
アノテーションの自動化は以前と比べてかなり精度が向上しています。ただ自動化は教師データを元に学習したAIが行うものがほとんどのため、必然的に実用範囲は、応用範囲の広い汎用的かつ比較的単純なものに限られてしまうのが現状です。
自動化ができても、やはり人間によるチェックは必要になり修正も発生します。そのため、自動化というよりも効率化を図るものとして捉えた方が賢明と言えます。
また手動でアノテーションを行った結果を学習させて、以後のアノテーションの自動化を図るアプローチもあります。それは、かなり大量のアノテーションを行う場合に効率化の有効な手段とはなりますが、それでも、チェックや手修正が発生することは避けられないため、作業量によっては、結果的に全て手動で行うより時間が掛かってしまったなどの場合も多く見受けられます。
昨今の識別系AI開発の傾向では、これまでの汎用的かつ比較的単純なものから、より複雑かつ専門的な分野に移行しています。やはり専門的な分野の自動化はまだまだ難しく、現実的には自動化の適用範囲はまだまだ限られていると言わざるを得ません。
3-2. アノテーション自動化のための3つの視点
今後のアノテーションの自動化を検討する場合は、以下の視点から十分に考慮することが必要です。
・その分野の自動アノテーションは実用に耐える精度を実現できるか。
・自動化によって実際にどの程度の効率化が見込めるのか。
・やり直しや修正が発生した場合のリスクは許容できる範囲か。
現状ではアノテーションの自動化を試みたが、その修正に人の手が必要になることが多く、ケースによっては始めから人の手で作業したほうが効率が良かったという結果になることもあります。そうならないよう、自動化の精度や修正にかかる工数など、様々な要素を多面的に検討して、どの方法を用いるかを決定することが重要です。
3-3. アノテーション代行サービスを選ぶ理由
ここまでお話ししたように、現状では高品質なアノテーションを行うには時間も人手もかかります。作業を担当するアノテーターだけではなく、トレーナーやチェッカー、案件を管理するプロジェクトマネージャーの役割も必要です。そのすべてを社内のリソースで賄いながら目的を達成するのは現実的に難しいかもしれません。そのため多くの企業ではアノテーションのプロジェクトは外部の代行サービスにアウトソーシングされることが一般的です。ただし外注先によってそのプロジェクト管理の体制は大きく異なります。体制の差はそのまま教師データの品質に直結するため、外注先の選定は注意深く行う必要があります。
4. ヒューマンサイエンスのアノテーション代行サービス
4-1. 最新のアノテーションツールを活用
ヒューマンサイエンスでは常に最新のアノテーションツールを導入して、品質と作業効率のさらなる向上を追求しています。導入しているツールの一つ、AnnoFabでは、プロジェクトの進行中に進捗確認や成果物へのレビューが行えます。チェック機能を利用して作業漏れやよくあるミスを機械的に検知することも可能です。 アノテーターとのリアルタイムのやりとりが可能ですので、基準やルールの変更、追加についても即時の周知を行うことができます。3Dアノテーションなどの新しい手法にも柔軟に対応します。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。
4-2. クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスが考える効率化のための取り組みは、作業プロセスの見直しやアノテーションツールの選定だけにはとどまりません。プロジェクトの本質から考え、その特性に合ったリソースに作業をアサインすることもそのひとつです。ヒューマンサイエンスではクラウドソーシングは利用せず、直接契約したリソースでプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
4-3. 自社内にセキュリティルームを完備
ヒューマンサイエンスでは新宿オフィス内に ISMSの基準をクリアしたセキュリティルームを完備しています。守秘性の高いプロジェクトであってもオンサイトでご対応します。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。
4-4. 教師データ作成数4,800万件の実績
AIを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひヒューマンサイエンスにご相談ください。ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAI開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。