
1. はじめに
生成AIの登場と進化とともに、企業におけるAI導入や開発は、これまでの識別系AIのみならず、生成AIを活用したものまで、多岐に渡るように変化しています。それに伴い、アノテーションサービスベンダーに対するニーズは多様なものに変化し、従来のアノテーションのみでなくAIの学習に使用されるデータ全般に関わる「データソリューション」に様変わりしています。本日はAIの導入・開発領域の拡がりや進化と共に、長く付き合えるアノテーションサービスベンダーを選定する上で必要となる要件がどう変化したか、またどのように長く付き合えるベンダーを選定すればよいのかご説明したいと思います。
▼関連ブログ:
2. アノテーションサービスベンダー選定ミスで起こりがちなトラブル
アノテーションサービスベンダー選定のポイントをご説明する前に、ベンダー選定の失敗でミスマッチが起こった際にどのようなトラブルや問題が発生するのか、典型的なものを見ていきましょう。弊社はベンダーではありますが、社内でこなせる量を超えた場合、お客様に了承を取った上で、協力ベンダーにお願いすることもあります。そのため、アノテーションサービスベンダーを選定することも多く行ってきましたので、ある意味、お客様と同じ立場で話が出来ると思います。
●品質のバラつき、ラベル解釈のズレ
これらは仕様の理解不足、例外やエッジケースへの対応方法の認識ズレによるものですが、その多くは、お客様とベンダー間のコミュニケーション不足や、作業仕様のマニュアル化、作業者への情報共有や徹底不足、つまり、アノテーションにまつわる判断が作業者に依存していることが原因で発生します。特に難度や曖昧性が高くなるにつれ、こういったことが起こる確率が高まります。結果的にお客様での受入チェックで修正が多く発生したり、ベンダーに差し戻しても、修正に時間がかかり、納期に遅れが生じてしまったり等もよく伺う話です。
●仕様変更への非対応(柔軟な対応力の不足)
PoCを経たアノテーションの量産フェーズであればまだしも、AI開発の初期段階からアノテーションの仕様が固まり、その通りに進むものはほとんどありません。AI開発にとってむしろ仕様変更はつきものです。
契約時に合意した以外の作業を行うとなると、状況によっては費用が増加するのはある意味避けられない部分もありますが、作業が進んでいる中で「今から仕様をこう変えたい」→「もう今からでは無理です」と事態が硬直し、結局妥協して当初の仕様のまま進めることになってしまった。というのもよくある話です。
●データのバラつきによる対応
画像などの各ファイルやデータの中にどれくらいアノテーションの対象となるものがあるかで作業工数=費用は大きく左右されます。サンプルからある程度の予測を立てることはできますが、ほとんどの場合、事前に正確に把握することは現実的には不可能です。結果的に契約時の想定より大きく増加してしまうと、追加費用等の話が持ち上がるのもよくある話です。
●スケールできない
PoCフェーズなど少量のアノテーション作業では高い品質であったものの、量産フェーズに入った途端、作業者の増加等により品質のバラつきが多く安定せず、ベンダー内でチェックバック、手戻りが多く発生し、結果的に納期に間に合わない等のトラブルもよく伺う話です。
▼関連ブログ:
アノテーションの属人化を防ぐには?内製現場で起こる特徴的な属人化の要因と対処法
3. AI開発ニーズの変化に伴うベンダーへの要求の変化
これまでに多く見られる起こりがちなミスマッチの事例をご説明しましたが、以下のような昨今の開発環境の変化によって、さらにベンダー選定時の検討不足やそれによって引き起こされるミスマッチが増加する可能性を秘めています。
●専門領域への開発シフト
AI開発環境においては、汎用的な物体認識等の機械学習モデルやデータセットが公開され、その領域はどんどん広がり精度も向上しています。そのため識別系AI開発はここ数年で専門領域や高難度なAI開発によりシフトしています。それに呼応するかの様にアノテーションベンダーに対しても、高難度や専門人材を求めるように変化しています。
●ドメイン特化LLM(使える生成AI)のニーズ高まり
生成AI、LLMの普及に伴い、既成のLLMだけでは実際の業務での使用に耐えられないことが多くあるとわかってきました。汎用的な資料作成等の作業であればまだしも、専門分野や企業特有のノウハウを生かした業務ではその傾向が一層強まります。そのため、RAG等を活用した社内ナレッジシステムの構築や、より専門性を網羅するLLMの開発が多くの企業で広まりつつあります。ただ、やはり自社内だけでデータセットや学習データを準備するのは難しく、アノテーションベンダーに業界知識や専門分野のデータセット作成を依頼する機会が増加しています。
●セキュリティ体制
企業のノウハウを網羅するLLM開発の増加は、言い換えれば企業の知識源泉となる機密データを扱うことが増えることを意味します。また医療、金融業界では個人情報またはそれに準ずる情報が多く、特に高度な情報セキュリティ管理体制が要求されます。ただ、オーバースペックな情報セキュリティ管理体制ではコストばかりが増加します。そのため、アノテーションサービスベンダーに対しては、高い情報セキュリティ管理体制のみでなく、取り扱うデータのセキュリティ要件に応じて、柔軟なセキュリティ管理体制を構築出来ることが求められています。
●AI開発プロセス全域にわたって伴走
開発を行うAIが高度になるにつれ、アノテーションの仕様設定や作業の難度も必然的に高くなります。また作業仕様はアノテーション作業にかかる工数やコストを大きく左右します。そのため単に仕様書通りに作業をこなすのみではなく、仕様策定時からAI開発全域に渡って、アノテーションの経験豊富なベンダーの関与が求められるように変化しています。
▼関連ブログ:
4. 長く付き合えるアノテーションベンダー選定のポイント
これまでさまざまなことを述べてきましたが、ここで長く付き合えるベンダー選定のポイントをまとめたいと思います。
●高難度な作業にも対応できるか?
上段で述べた通り、汎用的で比較的シンプルなAI開発は、性能進化が著しい既存の学習モデルで網羅できる領域が拡大しています。そのためアノテーションが必要となるような開発の中心は必然的により複雑で高度な領域にシフトしています。またそういったアノテーション作業では、仕様書だけでカバーしきれない例外やエッジケースが多く発生するため、マニュアルの整備だけではなく、お客様との質疑応答や対応方針等のコミュニケーションとその情報管理、それを正しく作業者と共有し徹底できる仕組みをベンダーが整えていることが必要となります。
●専門性を作業に反映できるか?専門人材を確保できるか?
高難度なアノテーション作業の中でも、特に専門性が必要とされる作業が増加しています。お客様社内の専門人材で作業を行うことも可能ですが、やはりそれではコストがかかるばかりでなく、状況によっては社内の専門人材が本来の業務で忙しく十分に対応できない場合もあります。
もちろん各企業が持つ専門知識をベンダーに求めるのは難しい部分もありますが、お客様の専門人材からの教育を受け、ベンダーのPMや作業者にノウハウやスキルを引き継いだり、サンプルアノテーション時にお客様と質疑応答を繰り返してノウハウやスキルを習得したり、専門性が必要な部分とそうでない部分をお客様と分業するなど、最適なプロセスを柔軟に提案してくれるベンダーであるか、またそういったことに慣れているかが重要となります。
また医療従事者等の国家資格や学術知識等の専門分野であれば、比較的容易に専門人材を確保できるので、そういったことに対応できるベンダーであるかどうかも確認が必要です。
●要求や状況に応じた柔軟な対応ができるか?
ただ単に仕様書通りにタスクや作業をこなすだけでは、いくら良い品質でも長く付き合えるベンダーとしてはやはり役不足です。お客様の機械学習のチームの一部かのような動きや対応が出来るか?といったことが重要になります。
機械学習はトライアンドエラーでやってみないとわからない部分も多くあります。そのためアノテーションの仕様策定においても助言や提案をしてくれたり、アノテーションの仕様変更に柔軟に対応したり、仕様がまだ固まりきっておらず、変更が生じる可能性を感じたら、少量の作業を行ってみて仕様を再考するフェーズを設けるなど、モデル開発プロセス全域に渡って並走できるベンダーが理想的です。
またデータに関してもファイルあたりのアノテーション対象数のバラつきが大きそうなものであれば、ファイル数単位ではなく、アノテーション対象数単位での契約や、最初に比較的少量の作業を行ったうえで作業量をより正確に見積り、次のフェーズに進むなど、状況に応じた対応方法の提案やそういった経験のあるベンダーであればより安心です。
また柔軟性という意味では、コストと品質バランスもあります。開発のフェーズや要件等によっては、品質ではなく、量やコスト優先といったこともあるでしょう。どんな作業でも「品質は良いが、費用が高い」では、長く付き合えるベンダーであるとは言えません。オフショアと国内の使い分けや、自動アノテーションと人で作業のハイブリッド化など、作業に要求される品質・コスト・納期によって柔軟にプロセスや拠点を使い分けられるベンダーが理想的です。
●情報セキュリティ管理体制
特に専門性の高い分野のデータは、高水準の情報セキュリティ管理体制を求めることが多い傾向にあります。そのため、そういった体制や環境を備えているベンダーが必須となります。ただ、それぞれの企業が開発するAIに用い・取り扱うデータ全てが、高水準の情報セキュリティ管理体制を求めるとは限りません。情報セキュリティ管理はある意味、コストとトレードオフになることも多く、必要とされている以上に管理を求めては費用に影響します。そのため取り扱うデータのセキュリティ要件に応じて、管理体制の選択肢を柔軟に提供できるベンダーが理想的です。
●柔軟なスケール体制
状況によっては短納期で大量に作業を行うことも必要になることがあります。「今忙しいから、すぐに対応できない」では困りますし、また長い納期を求められたのでは困ります。やはりそれなりのキャパをベンダーが備えていることが必要となります。また作業体制が大きくなった途端に品質が安定しない等では困ります。作業人数や体制が大きくなっても品質を安定化させる仕組みや経験が組織に備わっていることが重要です。
▼関連ブログ:
5. まとめ
これまで長く付き合えるアノテーションサービスベンダーを選ぶポイントを解説してきましたが、やはり全てにおいて万能で完璧なベンダーは存在しません。それぞれ得意・不得意や特徴があります。お客様の業界に適した専門人材を多く抱えているか等、用途や状況に応じてベンダーを使い分けることも考慮に入れることも必要です。ただ長く付き合えるアノテーションサービスベンダーを選ぶ上で一番大切なことは、お客様に寄り添った姿勢で要求に応じて柔軟に対応できるか? またAIは進歩の著しい業界です。既存の技術に留まらず、進化するAI業界の動向をキャッチアップし、常にお客様のニーズにあったソリューションを提供できるように企業努力をしているか?これらが一番重要であることは間違いないでしょう。
▼関連ブログ:
6. ヒューマンサイエンスの教師データ作成、LLM RAGデータ構造化代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
生成系AI LLMデータセット作成・構造化、「AIに最適化するマニュアル作成・整備支援」にも対応
データ整理のためのラベリングや識別系AIの教師データ作成のみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、現在では「将来的な生成AI・RAG導入・活用に向けての業務ナレッジ整備やマニュアル化の支援」も行っております。さまざまなドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。
内製支援
弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやデータラベリングに関するお客様の困りごとを支援いたします。

テキストアノテーション
音声アノテーション
画像・動画アノテーション
生成AI、LLM、RAGデータ構造化
AIモデル開発
内製化支援
医療業界向け
自動車業界向け
IT業界向け
製造業向け




























































































