
- 目次
1. アノテーション作業の特徴と属人化が与える影響
アノテーション作業とは数多くのデータにラベリング等などを行い、AIに学習させる教師データを作成する作業のことで、その品質がAIの精度に大きく影響を与えます。
これまでの弊社ブログ記事でも多くお伝えしてきたので、ここではアノテーション作業はどんなものであるか等のご説明は割愛しますが、その品質に大きな影響を与える大きな要因の一つが、作業方法やそのノウハウの属人化です。
何もアノテーション作業に限ったことではありませんが、作業方法やノウハウの属人化は、言うまでもなく品質や生産性のバラつきのみでなく、さまざまな面に大きな影響を与えます。アノテーション作業においては、これまでと比べて大きく自動化の技術が進歩はしてはいますが、未だ人手に頼る部分が大きい作業です。そのため、特に属人化する傾向が大きい作業です。また仕様書などにない、または記載しきれないエッジケースや例外も多く発生することが特徴的な作業でもあり、その対処方法等について、情報共有やコンセンサスの統一のための必要な措置を講じないと、ますます属人化が進みます。
アノテーション作業は困ったことに、作業がひとりで完結する場合でも品質のバラつきが発生する可能性が極めて高い作業です。ましてアノテーションをスケールして作業者が複数になったり、他のメンバーに作業を引き継ぐ必要が出てきた場合は尚更です。そのため多少面倒でも属人化に対して必要な措置を講じる必要があります。今回のブログでは、その属人化の原因とその対策について、述べていきたいと思います。
2. アノテーション作業における特徴的な属人化の要因
属人化の原因や要因はさまざま存在しますが、大きな要因としては以下のようなものが挙げられます。
(1)教育がOJTに頼り切りで、作業手順書やマニュアル等のドキュメント類が整備されていない。
(2)管理・マネジメントの方法が管理者やアノテーションのプロジェクトマネージャーに依存している。
(3)品質基準や判断基準が明文化、作業者間で共有されていない。
(エッジースや例外的ケースが出てきた場合の対応方法が記載・メンテされていない)
(1)、(2) については、アノテーション以外の作業やタスクでも同じようなことが言えるので、特に言及はしませんが、アノテーション作業において、個人の暗黙知となり属人化を引き起こしやすく、他の作業やタスクと異なる最も典型的なものが、(3) に記載のある「判断基準」です。この判断基準というものは、どういった場合にどのように判断して該当のラベルを付与するか。といったような判断の拠り所となるようなものです。
これまでの弊社のブログや前段でも述べてきた通り、アノテーション作業は例外やエッジケースが多く発生します。そのため人手に頼る部分が大きい作業でもある所以です。手順書やマニュアルにあらかじめ品質基準や判断基準は記載していても、アノテーションを進めるにつれ、当初は想定していなかった例外的なデータや、基準に当てはまらないものが必ず出現します。ただそれを事前に把握しようとしたところで、データ全てを事前に確認して、例外やエッジケースの有無やそれらの対応について、あらかじめ把握して備えておくなどは現実的な話でありませんし不可能です。
複数人で作業を行う場合は、作業を進めるにつれ作業者から質問が出ることで、その例外やエッジケースに気が付く機会もあるのですが、特にエンジニアひとりでアノテーション作業を行っている場合は特に要注意です。 開発を担当しているエンジニアの多くはAIの開発目的や開発分野のドメイン知識など、さまざまな前提知識が備わっている場合がほとんどです。そのため、それらを元に作業を行っているがゆえに、エッジケースや例外に遭遇したとしても特に大きな疑問を持たず、知らずのうちに、そういった暗黙知を駆使して、ある意味「いいように」処理してしまい、結果、作業仕様と異なる、または矛盾したラベリングを行っていることに気が付かないまま作業が終了してしまった。などよく耳にする話です。
加えて、アノテーションでは同じような作業の繰り返しで、かなりの作業量をこなすことになります。判断基準そのものはブレたり、揺れたりしていないと自身が思っていても、人の感覚はマヒしてくるので、初期に行ったアノテーションと最後に行った結果がかなり異なっていた、などの事例も多く発生します。
その後、作業ボリュームが増えて、他の人に作業を依頼して、作業者から質問が出てきて対応するうちに、これまで行った作業データの中で判断基準が揺れていたり、変わっていたりすることに気が付いて、これまでのデータを見直す羽目になってしまった。と言ったことはよくある話です。
3. 属人化に対する現実的な対処方法
判断基準以外の対象方法は、他の作業やタスクと同様であるため、容易に察しが付くかと思われるので、割愛しますが、これまで述べてきた例外やエッジケースに対する属人化をどのように防いでいけば良いのでしょうか?
これまで要因を述べてきたので、ある程度想像はつくと思われますが、エンジニアひとりで作業を行う場合は、少なくとも作業開始当初に品質基準や判断基準を立案すること、また作業を進める中で、やはり面倒でも例外やエッジケースへの対応を言語化・文書化など、形式知化することが大切です。
また無意識に判断してしまっていることに対しては、一定量の作業を行った後は、少し休憩の意味も含め、品質基準や判断基準立ち返って他の作業者が行う視点で確認することが重要です。 ただエッジケースや例外への対象方法全てを文書化するのは容易ではありませんし、相当時間のかかる作業です。まして、今後複数人で作業を行うことがあるとは限りませんので大きな労力が無駄に終わる可能性もあります。
またアノテーション作業によっては、例外やエッジケースが大量になることがあります。そのため、全ての事例の対応を文書化できたとしても、文章量が膨大になり、他の作業者がそれを全て読んで理解できるかは疑問が残ります。加えて、必要なトピックにたどり着くもの困難になります。そのため、ある程度作業を行うと、エッジケースや例外をパターン化・類型化できるようになってきます。その類型に従った判断の方針や方向性を言語化、文書化など形式知化するだけでも効果的です。
またそういった対応を行っているうちに基準書の矛盾に気が付くこともあるので、その意味でもエッジケースや例外への対応方法等の文書化は大切です。
複数人で作業を行う際は、こういった例外やエッジケースへの対応を書き留めたドキュメントを作業者間で共有します。質問を作業者に記載してもらい、その対処方法や回答を管理者が記載していくようなQ&Aのスプレッドシートを準備する方法も有効です。記載が増えてきたら、検索性を考慮して類型・パターン別にカテゴリ分けして整理することも大切です。 また作業者は自分以外の質問の回答を読まないことも多くあります。そのため全ての質問回答に確認したかどうかの「チェック欄」を設けて、作業者全員が確認するような措置を講じることは、ドキュメントを作る本来の目的=情報共有=品質の安定化にとって非常に重要です。
4. 外注・外部パートナーの活用
多くのアノテーションベンダーは作業の属人化を防ぎなら作業を進めるノウハウを持っていますが、やはり自社内でアノテーションを行おうと考えているお客様にとって、外注や代行を依頼してしまうと、アノテーションに関するノウハウが内部に蓄積されない、という懸念があると思います。
アノテーションがスケールした際に、社内の他の作業者や代行ベンダーに依頼することを考えているお客様が多いですが、やはりPoCフェーズなどで少量、ひとりで作業を行う際にも、やはりこれまで述べてきたような属人化に対応する対処やアノテーションに関するノウハウが必要になります。
特にPoCフェーズなどの初期段階で品質基準や判断基準の策定、メンテナンスをおろそかにして、暗黙知を文書化・形式知化せず、結果、判断基準がバラつき、品質がバラついてしまうと、思ったようなAI精度を期待出来なくなってしまったり、PoCの時点では問題に気が付かなったが、外注・代行をした途端に、ベンダーから質問が多く発生し、基準書の矛盾や、これまで自身が作業したデータの中で矛盾が生じていることに気が付く。そんなことになってしまったお客様も、これまで多く拝見してきました。
アノテーションを自社で行う際は、一度外注ベンダーに属人化を防ぐためのサポートを依頼するのも一つの方法です。それほど予算をかけず、仰々しいコンサルまで依頼することなく、困っていることや相談する内容が多岐、大量でなければ、無料で気軽に相談に乗ってくれるベンダーも存在するので一度声をかけてみてはいかがでしょうか?また依頼するまでもないが、そういった、ちょっとしたことを相談できるベンダーとの付き合いを深めておくのも一つの方法です。 弊社ではこういったアノテーション内製へのお手伝いも手掛けており、一度遠慮なくご相談いただければ幸いです。
関連ブログ:アノテーション作業を外注化するには?コツ7選
アノテーションの意外な難易度とは?〜難易度によるアノテーション代行サービス会社選定のコツ~
ヒューマンサイエンスのアノテーション作業のマネジメント〜品質担保のために急がば回れ。回り道が近道になる〜
5. ヒューマンサイエンスのアノテーションサービスの特徴
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
教師データ作成のみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIの教師データ作成のみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。
内製支援
弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやデータラベリングに関するお客様のお困りごとを支援いたします。