Some parts of this page may be machine-translated.

 

アノテーション作業におけるクラウドソーシング活用のコツ

アノテーション作業におけるクラウドソーシング活用のコツ

アノテーションを行う際に、クラウドソーシングを活用して大量の人材を集め大量のアノテーションを行うことも多く見られます。またそのようなクラウドソーシングを活用したアノテーションベンダーも多く存在します。今回はクラウドソーシングまたはそれらを活用するアノテーションベンダーを利用する際の注意点やメリット、デメリットを抑えながらアノテーション作業においてのクラウドソーシング活用のコツをご説明したいと思います。



目次

1. クラウドソーシングのメリット

1-1. 作業規模と多様性

アノテーションでは大量の教師データが必要になることが多くありますが、特に短期間でデータを準備する必要がある場合、言うまでもなく必然的に大量の人材リソースが必要になります。人材の採用から実際に作業を始めるまでには、やはりそれなりの時間や工数がかかりますが、こういった大量の人材が必要な場合、大量の人材を抱えているクラウドソーシングが有効であることは間違いありません。比較的シンプルで、作業者教育がそれほど長期間に渡り必要となることなく、人材に対するスキル要件が比較的高くないアノテーションや教師データが必要な場合はクラウドソーシングの活用は有効な手段となります。

また多様性のあるデータを収集したい、といった場合も、クラウドソーシングを活用することは有効な手段の一つとなります。抱えている人材リソースの多いクラウドソーシングでは、大量のデータ収集が比較的容易にできるばかりでなく、例えばOCR等のAI開発で、手書きのテキストデータが大量に必要な場合は、多くの人に少しずつの手書きデータを集めた方が、多様性のある教師データとなり、AIの学習や精度向上により有効なものとなります。こういったデータの収集はクラウドソーシングが最も得意とするところで、データ収集のみならず、教師データに多様性を求める際もクラウドソーシングの活用は非常に有効な手段となります。

1-2. 納期とコスト

言うまでもないですが、自前で大量の人材を採用するには、コストと工数が大きく掛かります。また登録制などである程度の人材を常に抱えているアノテーションベンダーでも、特定のアノテーション案件に対して、一度に人材を大量に確保し、作業に投入するまでには、やはりそれなりの時間とコストが掛かり、どうしても料金に付加されることになります。その点ではクラウドソーシングやそれを活用するアノテーションベンダーは元々大量の人材を抱えているため、比較的低コスト、短期間で人材が確保でき、早い段階から作業に取りかかれるため、採用コストのみならず、納期も短くなることが一般的です。

また採用のみならず、大量の人材を投入することで必然的に作業そのものの短納期化も図れます。作業そのものの短納期化が図れるということは、それだけ人材や作業データの管理などのマネジメントを行う期間も短縮されることを意味します。大量のデータや人材のマネジメントを短期間で行うことにはなりますが、その方が一般的にはコスト効率も向上し、トータルの費用も安くなる傾向があります。

2. クラウドソーシングのデメリット

2-1. 品質のバラつき

短期間に大量の人材を活用して、教師データを量産できることは大きなメリットですが、やはり、そういった状況で、作業者間でバラつきのないアノテーションや教師データの品質を確保することは困難を伴います。当たり前ではありますが、作業者が増えると作業を進める中で発生する作業指示や注意点、仕様の変更、エッジケースへの対応方法などの伝達や徹底が隅々まで行き渡らないことも多くなります。加えて作業者がそれら指示の内容を理解しているかどうかを確認することも、アノテーションプロジェクトのマネジメントの中では重要となりますが、人数が増えれば増えるほどそれらは難しくなり、品質がバラつくリスクも増えます。

またクラウドソーシングでは、大抵の場合、案件やプロジェクト都度での契約となることが多く、発注元の企業に対するロイヤリティが希薄となり、いくら対策を講じても作業者の品質にコミットする意識がどうしても低くなる傾向があります。

関連コラム

>仕様書でカバーしきれないエッジケースとのつきあい方

>ヒューマンサイエンスのアノテーション作業のマネジメント

2-2. セキュリティ

クラウドソーシングの作業者は在宅作業を基本としていることが多く、特に個人情報を扱うアノテーションなどで守秘性が高く、ベンダー企業内のセキュリティルームでの作業が必要な場合、対応が難しくなるのが一般的です。セキュリティ教育の面に関しても、クライアント企業とは案件単位での単発契約になることも多いため、継続的な教育などソフト面からセキュリティを担保することが一般的には難しくなります。ハード面のみでのセキュリティ対策にはどうしても限界があり、作業者本人にはセキュリティ違反の意識がなくても、やはり教育が足りていないとセキュリティに対する知識や意識が不足するが故に、知らずのうちにセキュリティ違反を犯していた。なんてこともよくある話です。

関連コラム

>オンサイト(弊社内セキュリティルーム)でのアノテーション作業環境作り

2-3. 特定のドメイン知識と難易度

アノテーションには少なからず、難易度の高いものや特定のドメイン知識、専門性が必要になるものもあります。大量の人材を抱えるクラウドソーシングの人材プールにも、当該分野の専門知識を持った人材はそう多くはいません。専門性やドメイン知識の獲得、難易度の高いアノテーションの品質を担保するためには、作業者をできる限り固定して、集中的に習熟図ることが肝になりますが、クラウドソーシングでは案件やプロジェクトごとの契約となることが多く、比較的長いスパンで作業者を固定して、教育を継続的に行いながら習熟を図っていくことが難しいとも一般的に言われています。

関連コラム

>アノテーションの意外な難易度とは?

2-4. コミュニケーションと教育

上記で述べてきたセキュリティや特定のドメイン知識の教育、作業における指示と徹底には、作業者とのコミュニケーションが不可欠になります、特に曖昧なものを判断していくアノテーション作業にとっては、よりコミュニケーションの重要性が増します。

さらに特定のドメイン知識には暗黙知的な要素も多く、教育の際にはテキストベースの手順書や資料のみでは不足することが多く、実際に画面を見せコミュニケーションを取りながら、実際にやって見せる方が理解も早まります。そのためにはミーティングなどでのリアルタイムでの質疑応答等が必要になりますが、こういったコミュニケーションは人数が増えれば増えるほど、ミーティング時間の調整等に困難が伴い、教育や指示が遅れ、結果、成果物に反映されていない等の事態を引き起こします。

一見、アノテーションは簡単な作業であるが故、作業指示書や手順書を入念に準備していれば、こういった教育やそのためのコミュニケーションはそれほど重要でないのでは?と思われるかもしれませんが、それらはアノテーション仕様や特定のドメイン知識に精通しているためそう思われるだけかも知れません。また作業が進むにつれ、例外やエッジケースが発生することはアノテーション作業において不可避なものでもあり、やはりこういったコミュニケーションは必要不可欠なものになります。

関連コラム

>良い教師データは良い教師作りから

3. まとめ

これまで述べてきたように、クラウドソーシング活用においてのメリット、デメリットをご理解いただけたかとおもいます。これらを把握して活用すれば、アノテーションやデータ収集の際の手段として、クラウドソーシングは大変有効な手段であることは疑いの余地はありません。
ただそのためにはAI開発の目的や開発のフェーズ、アノテーション仕様や求める品質レベル、作業の特性、セキュリティなど、さまざまな状況に応じて適宜使い分けることが重要となります。 これまで述べてきたことは一般的なものであり、すべてに当てはまるものではありません。クラウドソーシングを活用しながらも、工夫や改善を重ねてそのデメリットを克服してメリットを最大限に生かしたサービスを展開しているアノテーションベンダーも多く存在します。

そのためアノテーションやデータ収集の外注化を検討される際は、メールや問い合わせフォームのみで完結することなく、一度打ち合わせを行い、これまで述べてきたようなことをヒアリングして見積を取った上で検討することをお勧めいたします。

4. ヒューマンサイエンスのアノテーション代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテータ150名の長期大型案件まで、業種を問わずさまざまなデータラベリングのプロジェクトにご対応しています。 AIモデルを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

最新のデータラベリングツールを活用

ヒューマンサイエンスが導入しているデータラベリングツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

自社内にセキュリティルームを完備 

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP