
今日、さまざまな分野に応用が進み、加速度的に拡がりをみせるAIですが、AIの開発、機械学習に必要となる「教師データ」の作成には、多くの場合アノテーション作業が必要となります。アノテーションでは大量のデータにタグをつける作業が必要になり、場合によっては数週間から数ヶ月といった時間がかかることもあります。こうした作業を自社で行う場合、リソースの手配から品質や進捗のマネジメントも含めて膨大なコストがかかってしまうことがあります。今回の記事ではアノテーション作業を外注化するメリットと、その際に検討するべきポイントを7つ取り上げ解説していきます。
- 目次
-
- 1. 内製アノテーションのメリットとデメリット
- 2. アノテーションを外注するメリット
- 2-1. コスト削減・時間短縮
- 2-2. マネジメント負荷軽減
- 3-3. 品質の向上と安定化
- 3. アノテーションの外注先の選び方7選
- 3-1. 自社の要件に適しているか
- 3-2. 専門性と経験
- 3-3. 品質管理
- 3-4. セキュリティ
- 3-5. スケーラビリティ
- 3-6. コミュニケーション
- 3-7. 価格と価格条件
- 4. ヒューマンサイエンスの実績
- 4-1. プロジェクト概要
- 4-2. 課題とご提案
- 4-3. 導入後の効果・お客様の声
- 5. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービ代行サービス
1. 内製アノテーションのメリットとデメリット
ここではアノテーションを内製化して行う場合のメリットとデメリットを見ていきます。
メリット
内製化する場合、外部へデータが漏れる恐れが少なく、セキュリティやプライバシーの保全の観点からも比較的安全な運用が可能です。また、アノテーションプロセスを柔軟に設計することができ、例えばアノテーションの要件や仕様に変更があったとしても、アノテーターへの周知などに素早く対応することができることに加え、品質や生産性などもリアルタイムで把握することが可能です。アノテーションや人材リソースの管理にリソースを割くことができれば、内製化することで得られるメリットは大きいでしょう。
デメリット
アノテーションをAIエンジニアが自ら行うと、AI開発の遅延を招く原因になるばかりではなく、人件費の高いエンジニアでアノテーションを行うことは、結果的に開発コストの増加を招きます。一方、アノテーション専門の人材リソースを確保できたとしても、アノテーション業務が継続しなければ、稼働に空きが出てムダになってしまいますし、人材リソースを管理、コントロールするためにはかなりのコストがかかります。
また、多くの人材リソースを使ってアノテーションの品質と生産性を担保するためには、開発とは異なるアノテーションマネジメントの経験やスキルが求められます。内製化の場合、こうしたスキルを備えていなければ、品質と生産性を担保することは思ったより難しいのが現実ですし、事実、弊社のお客様からは「アノテーションを内製したものの、上手くいかず、これらのスキルやノウハウを持っていないのが社内的課題となり、御社に相談した。」といった話をよく伺います。
2. アノテーションを外注するメリット
上段で述べたことと少し重複しますが、アノテーションの作業そのものには専門性はあまり必要ありません。しかし、アノテーションを適切に行うためには、アノテーション特有の人材や作業にまつわるマネジメントの専門性が必要となります。これは開発エンジニアのような専門性とは異なるため、自社でエンジニアが本来の業務と並行してアノテーション作業を行うことは、エンジニアの専門性を効率的に活用できず、本来のエンジニア業務の生産性低下を生み出します。
アノテーションは、作業そのものには専門性はあまり必要ありませんが、アノテーションを行うためには、人材や作業にまつわるマネジメントには専門性が必要となります。開発エンジニアのような専門性とは異なるため、自社でエンジニアが本来の業務と並行してアノテーション作業を行うことは、エンジニアの専門性を効率的に活用できないことになり、本来のエンジニア業務の生産性低下を生み出します。
アノテーションは、作業そのものには専門性はあまり必要ありませんが、アノテーションを行うためには、人材や作業にまつわるマネジメントには専門性が必要となります。開発エンジニアのような専門性とは異なるため、自社でエンジニアが本来の業務と並行してアノテーション作業を行うことは、エンジニアの専門性を効率的に活用できないことになり、本来のエンジニア業務の生産性低下を生み出します。
そのため、アノテーション作業を外注化することでエンジニアが本来の業務に専門性を集中的に投下することができ、結果的にコスト削減や生産性の向上が見込めます。
人件費・管理コストがかからない
アノテーションの人材を自社で集めたとしても、大量のアノテーションを行うためには、多くの人材を抱えることが必要となり、品質や進捗管理などのマネジメントで多くのコストや労力がかかります。また、アノテーション業務が常に発生しない限り、余剰リソースとなってしまいます。また、案件ごとにアノテーション要件は異なりますから、そのために人材教育を施す必要もあり、教育コストもかかってしまいます。外注化することで、こうした人件費・管理コストの削減も期待できます。このような外注化のメリットについて詳細に見てまいりましょう。
関連ブログ
>>アノテーションを成功に導くコツ7選
2-1. コスト削減・時間短縮
これまでに述べてきたことに加えて、そもそも開発エンジニアとアノテーターの人件費単価は大きく異なります。そのため、外注ベンダーでの管理費や利益を含めても、自社でアノテーションを行うよりコストを削減できることが多く、依頼する作業量が増えれば増えるほど、コストの削減効果は顕著になります。またアノテーションベンダーの多くは、アノテーション作業に特化した経験を持っているため、人材の増員ばかりに頼ることなく、1人あたりの生産性を向上させるノウハウを持っています。そのため外注化することで、自社内の時間確保だけでなく、コストを抑えながらアノテーション作業全体の納期短縮も期待できます。
2-2. マネジメント負荷軽減
大量のデータを扱うアノテーション作業は、多くの人材を抱え行うことが一般的です。品質を確保しながら、スケジュール通りに作業を行うためには、作業マニュアルの準備や進捗管理など、アノテーションの種類を問わずさまざまなマネジメントが必要になります。特に作業が始まって間もない時期には、アノテーターとの多くの質疑応答が発生します。こうしたマネジメントには想像以上の時間が取られるばかりでなく、効率的に進めるためには経験や専門性も必要となります。経験豊富な外部ベンダーに任せることができれば、これらのマネジメント負荷が軽減されます。
2-3. 品質の向上と安定化
自動化が進んでいるとはいえ、現状ではアノテーションはまだまだ手作業で行われることが多く、アノテーターの経験やスキル、仕様の理解と、アノテーター間でのそれらのバラつきが、教師データ全体の品質に大きく影響を与えます。経験豊富なアノテーターと人材を適切に管理できる外注業者であれば、仕様書・作業指示書に基づいた高い品質のアノテーションを行うことができます。こうしたアノテーターや経験を豊富に持つベンダーに外注することで、安定した高品質の教師データが期待できます。
3. アノテーションの外注先の選び方7選
アノテーションを外注する際には、自社のAI開発の目的、品質やセキュリティなどの要件に合った会社を選びましょう。ここでは外注先を選ぶ際の7つのポイントを解説していきます。
3-1. 自社の要件に適しているか
アノテーションの種類やデータ形式、使用したいツールやプロジェクトの規模など、必要とされる要件は様々です。ある意味当たり前が故、つい確認が漏れてしまう事が多く、外注先が自社の要件に適しているかどうかを忘れずに確認することは大切です。
3-2. 専門性と経験
医療系画像のアノテーションやテキスト、言語アノテーションなどを中心に特殊なアノテーションでは、専門性が必要とされるケースも多くあります。自社の目的にあったアノテーションの実績の有無を確認しましょう。専門性が高く、特殊なアノテーションの経験のある会社であれば要望に応じたアノテーションや、自社にそういったアノテーションのノウハウや経験がない場合でも適切なアドバイスを得ることができます
3-3. 品質管理
品質管理が適切に行われるかは重要です。プロジェクト管理体制、チェック方法やチェック体制のみならず、仕様変更にまつわる変更情報の管理徹底、自社から修正、変更などのフィードバックをした場合、その情報をアノテーターにどう伝え、どう反映し、どう確認されるか。といったプロセスや情報の管理方法を確認することも大切です。
info! 教師データの品質は、収集される元データが重要
ここで一つ注意しておきたいのが、ベンダーに提供するデータの質と量です。データは可能な限り多く揃えましょう。データの量はAIで実現したい目的によって変わってくるので、一概に枚数が決まっているわけではありませんが、画像であれば、数千から数万枚の画像が必要となります。また、データの質という点では、様々な種類・パターンのデータを偏りなく用意することが大切です。
例えば車のアノテーションを依頼するとしましょう。こうした場合、街中の画像だけでデータを用意するのではなく、高速道路上の画像・雨の日の画像など様々なシチュエーションの画像を用意することでAIの学習が深まり、様々なシチュエーションの画像に対して認識精度が高まります。
詳しくは関連ブログもご参照ください。
関連ブログ
>>教師データの品質を担保、向上させるには?実践方法を解説!
3-4. セキュリティ
セキュリティ対策が適切になされているかどうかは重要です。会社によってはクラウドワーカーによるリモート作業のみに対応している場合もあります。リモートによるアノテーションでは十分なセキュリティ対策や自社のセキュリティの要件を確保できないということも考えられます。そうした場合、セキュリティルームや客先常駐といったオンサイト業務にも対応しているかを確認しましょう。また、ハード面のみでなく作業者に対するセキュリティ教育や情報セキュリティ管理体制の整備など、多面的なセキュリティ対策をしている会社を選ぶことが大切です。
3-5. スケーラビリティ
PoCの段階ではあまり重要視されないことも多いですが、次のフェーズに進みアノテーションの規模が拡大する可能性を考慮し、外注先が確保できる人材の数や想定されるアノテーション規模に対する納期を確認しましょう。また急を要する場合などでも対応できるかどうかも確認できれば万全です。
3-6. コミュニケーション
アノテーションにおいては、要件定義や仕様書作成を行った後でも、作業が進むにつれ様々な例外やエッジケースが出現します。外注先との質疑応答やフィードバックなどが頻繁に発生することも多く、円滑なコミュニケーションが行えるかどうかのみでなく、コミュニケーションや情報の管理、更新が効率的に行えるかどうかも重要です。チャットツールの使用や情報の一元管理化など、要望に応じたコミュニケーション手段を通じて情報の共有を適切かつ効率的に行えるかを確認することも大切です。
3-7. 価格と価格条件
外注先によってアノテーションサービスの料金のみならず、ファイル単価やアノテーション単価、時給単価など、料金単価の提示方法が異なります。外注選定時にはデータ数量、納期、チェック方法、ファイルあたりのオブジェクト数のみならず、見積依頼条件を揃えて複数の会社に見積を取ることをお勧めします。またリモート作業、セキュリティルーム等の作業場所の条件でも料金が異なることが多いため、それも合わせて料金の比較を行うことが大切です。
4. ヒューマンサイエンスの実績
ここでは弊社のこれまでの実績の一例をご紹介いたします。外注を検討する際のご参考としていただければ幸いです。
4-1. プロジェクト概要
会話テキストの分類アノテーション
4-2. 課題とご提案
課題
ご相談いただいた際に、お客様の中では下記の課題がありました。
・アノテーションを外注化することが初めてで、価格や品質管理、チェック体制、こちらのフィードバックや要望をキチンと反映してくれるか不安。
・曖昧性が高く、絶対的な正解がないアノテーション。そのため人によるバラつきが多く想定され、正確な教師データを得るためにどのようにアノテーションすべきか、またどうチェックすべきか困っている。
ご提案内容
こうしたお客様の課題感をもとに、下記のご提案をしました。
・品質管理、フィードバックの反映、マネジメント体制の提案。条件や単価等を明確にした見積書の提示とご要望に応じた見積内容の柔軟な変更。
・曖昧性が高く、絶対的な正解がないアノテーションのため、正解かどうかの通常のチェックではなく、アノテーター3名(同種作業の経験者)で同じアノテーションを行うトリプルパス+チェックを提案
・弊社によるアノテーション仕様書の作成とお客様とのすり合わせ
・お客様とのチャット開設による迅速なフィードバック体制の構築
4-3. 導入後の効果・お客様の声
「アノテーションの品質や案件中の御社の対応に非常に満足しています。作業途中でのこちらから要望や修正の依頼等も、レスポンス良く対応いただき大変助かりました。最初に話を持ち掛けた時から、ヒューマンサイエンスは経験のあるプロフェッショナルだと感じたため、ここなら安心だろう。と依頼するに至ったのですが、やはりヒューマンサイエンスに頼んで正解だったと感じています。」
5. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。
関連ブログ