Some parts of this page may be machine-translated.

 

アノテーション自動化のための3つの視点。アノテーションツールで作業の自動化は現実的?

アノテーション自動化のための3つの視点。アノテーションツールで作業の自動化は現実的?

AIの開発に欠かせないアノテーションですが、その作業には未だ膨大な時間とリソースが必要です。アノテーション自動化への要望が高まる中、その実用化は現実的なのでしょうか。現状のアノテーションが抱える課題と、自動化の導入を検討するときに必要な視点について考えます。



目次

1. AI開発におけるアノテーションの位置づけとその種類

1-1. アノテーションとは

AIの精度を高めるには、教師データを利用した機械学習が必要です。その教師データを作る作業がアノテーションです。素材となるデータのひとつひとつにタグやラベル、メタデータと呼ばれる情報を注釈として付加します。AIが教師データを取り込み、パターンとして認識することでAIの精度が向上します。
AI開発の工程でのアノテーションの位置づけはこのようになります。

アノテーションの意味については以下の記事も参考にしてください。
>>アノテーションとは?その意味からAI・機械学習との関係まで解説。

1-2. アノテーションできるデータとはどのようなものか

アノテーションはいくつかの種類に分けられます。ここでは現在一般的に行われているアノテーションを紹介します。

1-3. 画像のアノテーション

画像のアノテーションは大まかに3つに分類されます。


・物体検出 (オブジェクト・ディテクション)
画像に写っているものの中から物体を見つけて「人間」「自動車」など、対象に応じて意味のあるタグ付けをします。


・領域抽出 (セマンティック・セグメンテーション)
画像の中の領域を選択して、そこにタグ付けします。「この領域は洋服」「この領域はドア」など選択した領域の意味を特定します。


・画像分類 (クラシフィケーション)
画像に対して、属性をタグ付けします。「水玉かストライプか」「開いているか閉じているか」などの情報を付加します。

1-4. 動画のアノテーション

画像と共通点の多いアノテーションです。動画も1コマ1コマで見れば画像ですから、データの形式の違いであるともいえるでしょう。画像アノテーションとの違いは、動画のシーン(何秒から何秒まで)といったセグメント単位でのタグ付けやラベリングが行われることなどがあげられます。

1-5. 音声のアノテーション

音量や音の種類に対してタグ付けを行う場合と、人間が発声した言葉の意味にタグ付けを行う場合があります。後者では発話をテキストとして書き起こし、それぞれの単語にタグ付けを行うのが一般的な作業手順です。”Hey Siri”や”OK, Google”に代表されるスマートフォンやスマートスピーカーの音声認識やユーザーの意図抽出、カスタマーサービスの音声通話など、さまざまな分野で活用されます。

1-6. テキストのアノテーション

アノテーションによって、大量の文書から特定のテキストを抽出したり、あちこちに散らばったデータから必要なテキストや文言を集約することができます。事前に設定したルールに従ってタグ付けを行い、文書の判別や内容の分析を行うことも可能です。不適切なコンテンツを取り除く目的でも活用されます。ビジネス文書やマニュアル、請求書や契約書などさまざまな場面で活用されます。

2. アノテーションが抱える課題

2-1. とにかく時間がかかる

どの種類のアノテーションでも、データのひとつひとつに作業担当者が手作業で情報を付加する必要があります。相当の注意深さや根気強さと、ルールやその対象データへの深い理解や洞察力も求められる作業です。プロジェクトによっては実作業の前に作業習熟のためのトレーニング期間を設けることもあります。その場合はトレーナー役の人材のアサインも必要になります。膨大な作業時間と、適性に合ったリソースの両方が必要なプロジェクトです。

2-2. プロジェクトマネジメントの難しさ

アノテーションのプロジェクトでは作業担当者が数十名~100名を超えることもあります。教師データの品質を確保する上でプロジェクトマネージャーの役割は非常に重要です。作業ガイドラインの策定、進行中の質問や仕様変更への対応、生産性の管理はもちろん、プロジェクトマネージャー自身が作業に習熟している必要があります。

3. アノテーションツールを使って作業を自動化することは可能か

 

3-1. 自動化が難しい現状

現状のアノテーションにおける進化は、自動化というよりも効率化と呼ぶのがふさわしいものです。従来では手入力する必要のあった作業が、候補からの選択形式になったというようなツール上の進化や工夫はみられます。しかしいずれにしても判断を行うのは作業者です。結論として、現時点ではアノテーションの完全自動化は難しいです。研究が進んではいるものの、人間のアノテーターと同じレベルの作業品質を期待することは現実的ではありません。

3-2. アノテーション自動化のための3つの視点

今後のアノテーションの自動化を検討する場合は、以下の視点から十分に考慮することが必要です。


・その分野の自動アノテーション技術は実用段階に達しているか。
・自動化によって実際にどの程度の効率化が見込めるのか。
・やり直しや修正が発生した場合のリスクは許容できる範囲か。


現状ではアノテーションの自動化を試みた結果うまくいかず、その修正に人の手が必要になることもあります。ケースによっては始めから人の手で作業したほうが効率が良かったという結果になることもあります。そうならないよう、多面的な視点で検討をすることが重要です。

3-3. アノテーション代行サービスを選ぶ理由

ここまでお話ししたように、現状では高品質なアノテーションを行うには時間も人手もかかります。作業を担当するアノテーターだけではなく、トレーナーやチェッカー、案件を管理するプロジェクトマネージャーの役割も必要です。そのすべてを社内のリソースで賄いながら目的を達成するのは現実的に難しいかもしれません。そのため多くの企業ではアノテーションのプロジェクトは外部の代行サービスにアウトソーシングされることが一般的です。ただし外注先によってそのプロジェクト管理の体制は大きく異なります。体制の差はそのまま教師データの品質に直結するため、外注先の選定は注意深く行う必要があります。

4. ヒューマンサイエンスのアノテーション代行サービス

4-1. 最新のアノテーションツールを活用

ヒューマンサイエンスでは常に最新のアノテーションツールを導入して、品質と作業効率のさらなる向上を追求しています。導入しているツールの一つ、AnnoFabでは、プロジェクトの進行中に進捗確認や成果物へのレビューが行えます。チェック機能を利用して作業漏れやよくあるミスを機械的に検知することも可能です。 アノテーターとのリアルタイムのやりとりが可能ですので、基準やルールの変更、追加についても即時の周知を行うことができます。3Dアノテーションなどの新しい手法にも柔軟に対応します。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

4-2. クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスが考える効率化のための取り組みは、作業プロセスの見直しやアノテーションツールの選定だけにはとどまりません。プロジェクトの本質から考え、その特性に合ったリソースに作業をアサインすることもそのひとつです。ヒューマンサイエンスではクラウドソーシングは利用せず、直接契約したリソースでプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

4-3. 自社内にセキュリティルームを完備

ヒューマンサイエンスでは新宿オフィス内に ISMSの基準をクリアしたセキュリティルームを完備しています。守秘性の高いプロジェクトであってもオンサイトでご対応します。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。

4-4. 教師データ作成数4,800万件の実績

AIを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひヒューマンサイエンスにご相談ください。ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAI開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP