
AIの進歩によりAIが活用される領域はますます広がりを見せています。AIが目的に基づいて正しくデータを認識するためには学習が必要です。学習の方法には「教師あり学習」「教師なし学習」「強化学習」といったものがあります。「教師あり学習」では教師データを作成するアノテーション作業を行います。アノテーションは人の手によって大量の教師データを作成する必要があり、AI開発を行う中で時間とコストの面でボトルネックとなります。アノテーション業務を自社で行うのが難しければ、アノテーション代行サービスを活用し効率化を図るのも選択の一つです。今回は、代行サービスの会社を選ぶ際のポイントを解説していきます。
- 目次
-
- 1. アノテーションとは?
- 2. アノテーション需要の高まりの理由
- 3. アノテーションのよくある課題
- 3-1. 時間と人手がかかる
- 3-2. 品質管理や進捗管理は必須
- 3-3. 人材確保や効率化は手間がかかる
- 4. アノテーション代行サービスを利用するメリット
- 4-1. 開発業務に集中できるようになる
- 4-2. 人件費を抑えられる
- 4-3. 教師データの品質を確保できる
- 5. アノテーション代行サービスを選ぶときのポイント
- 5-1. 実績
- 5-2. 品質
- 5-3.得意分野と強み
- 5-4. 進捗の確認と共有
- 5-5. コスト
- 5-6. セキュリティ
- 6. まとめ
- 7. ヒューマンサイエンスのアノテーション代行サービス
1. アノテーションとは?
アノテーションとは、もともと「注釈」や「注解」という意味の英単語です。AI開発ではテキストや音声、画像、動画などのデータの中にある「認識させたい対象」に情報を付け教師データを作成します。この教師データを作成する作業をアノテーションと呼んでいます。教師データはAIの学習に利用されます。
2. アノテーション需要の高まりの理由
ディープラーニングなどAIの学習技術が進歩し、ビッグデータなどさまざまなデータを高精度で学習できる環境が整っています。AI活用の幅が広がり、それに伴って学習のための教師データの必要性もますます高まっています。こうしたことがアノテーション需要の高まりの理由と言えるでしょう。
3. アノテーションのよくある課題
自社でアノテーションを行う際、本来のAI開発業務への負担や、スムーズなAI開発プロジェクトの進捗を妨げる場合があります。ここではその3つの要因を見ていきます。
3-1. 時間と人手がかかる
どんな種類のアノテーションでも、データのひとつひとつにアノテータが手作業で情報を付加(タグづけ)します。数千から数万といった大量のデータにアノテーションする必要があり、全てのデータを終えるのに数週間から数ヶ月かかることもあります。アノテータには、単調で地道な作業を長時間続ける根気強さはもちろん、作業指示書・仕様書などを理解し正確な作業をする理解力も求められます。プログラミングのスキルやAIの知識が必須ではありませんが、どんな人でも簡単にできる作業ではありません。アノテーションの難易度によっては、実作業の前に作業習熟のためのトレーニング期間を設けることもあります。このように、アノテーションには膨大な作業時間と、適性のあるリソースの両方が必要です。
3-2. 品質管理や進捗管理は必須
アノテータによる認識のズレやアノテーションの間違いがあると、教師データの品質が基準に満たずAIの認識精度が落ちてしまいます。作業指示書や仕様書を正しく反映しているかどうか、作業データのチェックを行うなどの品質をマネジメントする必要があります。 アノテーション作業は時間がかかり、場合によっては膨大なデータや人を扱うため、適切な進捗管理が必須です。もし遅延してしまうと、当然AI開発のスケジュールにも影響が出てしまいます。
3-3. 人材確保や効率化は手間がかかる
このように、膨大な時間と人手を必要とするアノテーション作業において品質を落とさず、かつ進捗をマネジメントするのは大変手間がかかります。適切なリソースを集めようとしても思うように採用が進まない場合も多く、自社で人材を抱えるには手間もコストもかかります。また作業の効率化のために、自動アノテーション機能や進捗管理機能を備えたツールを使用できればある程度の効率化は図れますが、やはり依然としてマネジメントやアノテーション作業に多くの時間が割かれることは避けられません。
4. アノテーション代行サービスを利用するメリット
AI開発企業がアノテーションサービスを利用するメリットとしては、膨大なアノテーション作業を外部に委託することで本来のAI開発業務に集中できるようになることや、アノテータの人件費やマネジメントコストを抑えられるメリットがあります。
4-1. 開発業務に集中できるようになる
AIエンジニアがアノテーション業務全般に時間を取られる事がなくなり、本来の開発業務に集中できるようになります。
4-2. 人件費を抑えられる
自社でアノテーション専任の人員を確保すると、その分の人件費に加えて、人事労務費などの人材の管理費用もかかってしまいます。また、確保しても常にアノテーション作業が発生するとは限りません。稼働に空きが出ると、雇用形態によってはムダなコストが掛かります。代行サービスに依頼すれば、必要な期間に応じてアノテータを確保することができるので人件費やムダを抑える事ができます。
4-3. 教師データの品質を確保できる
アノテーションは手作業が中心で作業量も多く、根気のいる作業です。また単純なようで意外に経験が必要な作業でもあります。そうした中で品質を確保するには、アノテータの作業やデータのチェック、人材育成などを適切にマネジメントする必要があり、アノテーション作業特有のノウハウや経験も必要になります。アノテーション実績の豊富な代行サービス会社に作業を依頼することで、より安定した品質の教師データを求めることができます。
5. アノテーション代行サービスを選ぶときのポイント
アノテーション代行サービスを選ぶときには、AI開発の目的、自社の求める様々な要件や仕事の進め方に合った会社を選びましょう。ここでは、アノテーションの実績があるかどうか、求める品質に応えてくれるかなど、会社選びのポイントを解説していきます。
5-1.実績
アノテーションは画像・テキスト・動画・音声などさまざまなデータに対し行われます。代行サービスによっては、画像アノテーションなど特定のアノテーションに特化している場合もありますから、自社の目的に合ったアノテーションの実績の有無を確認しましょう。こうした実績が豊富であれば要望に応じたアノテーションに対応できるでしょう。
5-2. 品質
アノテーションの品質を確保できるかどうかは重要です。作業指示書・仕様書通りにデータを作成できるかどうかで、その後のAI開発プロセスも大きく影響されます。作業を依頼した結果、思うような品質の教師データが納品されなかった。ということを避けるために、品質確認のためのトライアルや分納に対応していれば安心です。また、データのチェック方法や仕様にまつわる情報の展開、徹底方法など、品質を担保するためにどのような仕組みや体制を構築しているか確認しましょう。
5-3. 得意分野と強み
アノテーションといっても、画像・動画・音声・テキストなどさまざまなデータを対象とします。代行サービスの会社によっては、画像アノテーションの実績があってもテキストアノテーションの実績がない、という場合もあるでしょう。
さらに、画像でも分野によって難易度の高い要件のアノテーション実績が必要となる場合があります。例えば医療系などの画像アノテーションなどでは、こうした画像のアノテーション実績の有無が品質・生産性に大きく影響を与えます。代行サービスの得意分野や強みが自社の求めるアノテーション要件とマッチしているか確認することは大切です。
5-4.進捗の確認と共有
作業が始まってから納品までの状況がわからないと心配だ。ということもあるでしょう。進捗状況の確認や共有ができるかどうか?作業途中での分納などに対応しているかどうか?なども選択のポイントです。オンラインで進捗状況を確認できるツールであれば直接アクセスして状況を把握できますから、そうしたツールを使用しているかどうかも確認しましょう。
5-5. コスト
アノテーションサービスの料金は代行サービスの会社によって異なります。自社でアノテーションを実施した場合に比べどのぐらいコストを削減できるのか比較検討するための見積もりを依頼しましょう。 またチェックの方法等の条件を揃えて複数の会社に見積をとり、代行サービス会社間の比較をすることも忘れずに行いましょう。
5-6. セキュリティ
セキュリティレベルの高いデータでも扱えるかどうかを確認しましょう。セキュリティレベルに応じて、リモートだけでなく、セキュリティルームでの作業に対応しているか、客先常駐やオンサイトにも対応しているか、などを確認しましょう。また、情報セキュリティや個人情報の管理体制は整っているか、作業者にどのようなセキュリティ教育を施しているかなど、多角的なセキュリティ対策をしている会社であれば万全です。
6. まとめ
アノテーションはAI開発においては必要なプロセスですが、自社でアノテーションを行う際には、リソースを調達し品質と納期を確保するために、エンジニアが開発以外の業務を行わなければなりません。アノテーション代行サービスを選択することで、本来の業務に集中することができれば、AI開発プロジェクトにおいてより良い結果を得られるでしょう。
7. ヒューマンサイエンスのアノテーション代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。 AIモデルを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
最新のアノテーションツールを活用
ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。
関連ブログ