Some parts of this page may be machine-translated.

 

【スピンオフ】アノテーションの意外な難易度とは?〜難易度によるアノテーション代行サービス会社選定のコツ~

【スピンオフ】アノテーションの意外な難易度とは?〜難易度によるアノテーション代行サービス会社選定のコツ~



スピンオフブログ企画
――DX時代のAIを支えるアノテーション。そのアナログな現場のリアル
アノテーションの意外な難易度とは?
〜難易度によるアノテーション代行サービス会社選定のコツ~

これまで弊社ではアノテーションやAIに関する様々なブログを発信してきました。そこでは一般的な知識やノウハウを中心にお伝えしてきました。アノテーション作業はその内容を言葉にしてみれば一見簡単なように思えますが、「曖昧性」を多く含んだ「人で行うことが避けられない作業」のため、どうしても人と人の関わりが多くなります。そのため、ある意味泥臭く、巷に溢れるきれいな理屈では済まないことが多く起こり、品質や生産性を確保するためには、実は様々な経験とノウハウが必要になります。

 

そのため、実際のアノテーションの現場で起こる問題やその対応を具体的に知ることが、アノテーションを成功に導くヒントとして役立つことがあると考えています。

 

弊社の現場では、実際にどんなことが起こって、具体的にどういった対応や対策をしているか。通常のブログとは異なり、スピンオフブログ企画:「DX時代のAIを支えるアノテーション。そのアナログな現場のリアル」と題して、弊社ならではの特徴やこだわりなども含め、リアルな現場の実態をお伝えしたいと思います。

 

>>過去掲載ブログ(一部)

アノテーション作業を外注化するには?コツ7選

仕様書でカバーしきれないエッジケースとのつきあい方

アノテーションを成功に導くコツ7選

教師データは良い教師づくりから

 

目次

1. 意外なアノテーションの難易度とは?

今回は、アノテーションの外注化や代行会社選定の上で考慮することが避けられないアノテーションの難易度についてお伝えしたいと思います。
このブログをご覧になっておられる皆さまも、アノテーション、ラベル付けの際に分野ごとの専門性やドメイン知識が必要な場合は、「難易度の高いアノテーション」と容易に想像がつくと思います。例えば医療分野や製造業界等での特殊な外観不良などは、その分野に精通していないと判断やラベリングができないことが多く、アノテーションの外注や代行を検討されているお客様も、この辺りは懸念を持たれることも多いかと思います。

 

ただ意外に難易度の高いものは他にもあり、アノテーションを代行・外注化する際に、品質の低下や思ったより費用が高くつくことがあるため注意が必要です。そのため、今回は専門性や特有のドメイン知識が必要なものを除き、難易度の高いアノテーションとはどんなものなのか?アノテーションの現場ならではの視点で述べたいと思います。

 

ラベル・クラスの種類が多い

まずアノテーションの作業を始めるにあたって、作業者は作業開始前に、ラベル種類や仕様をある程度、頭に入れることをします。感覚的ではありますが、人間がラベルの種類を記憶にとどめて作業できるのは、せいぜい10種類程度です。日常生活でよく触れている対象物のラベリングであれば、この限りではありませんが、ラベル種類が多く、やはり15~20種を超えてくると、都度、仕様書や作業手順を確認しながら作業することになり、生産性や作業性が低下し、コストアップや作業期間の増大を招くことになります。加えてラベル数が増えると似たようなラベルも当然多くなるので、判断に迷うことが多くなるばかりでなく、ラベルの付け間違いなども発生する可能性が高まります。習熟が進むにつれこの辺りは解消されていきますが、ボリュームの少ない短納期のアノテーションだと、習熟が進んで慣れてきた頃には作業終了となることもあります。

 

例外・エッジケースが多い

特に言語系テキストのアノテーションによく見られますが、仕様書に記載されていない例外やエッジケースが多いと、都度作業が止まり、仕様書やエッジケースの対応方法が蓄積されたQ&Aシートなどを確認し、それでもわからない場合は仕様に精通しているPMやレビュワー/QA担当者に判断を仰ぐことになります。ただPMでも判断がつかないことも多くあるので、そういった場合はPMがお客さまに質問、協議をして方針を決めることになります。

 

品質を確保するためにPMは、これらQ&Aの事例をまとめて作業者全員と共有し、容易に閲覧、確認できる環境を整える必要があります。言語系のアノテーションではこういった例外やエッジケースが増えることは、ある意味仕方のないことですが、やはり例外やエッジケースが増えてくると、作業者に情報が行き渡らない、または作業者はどうしても作業を行うことに注力がいくため、詳細まで確認していないことも多々起こります。そういったことが原因でエラーが発生する確率が増えていくため、PMは作業者全体に影響が及ぶものか、当該作業者だけに対応方法を伝えればよいものかどうか判断しながら、Q&Aシートが更新されたことを随時アナウンスしたり、あまりに末端な情報ばかりを詰め込んでも作業者は覚えきれないので、方針や方向性を抽象化してわかりやすく伝えたり、作業者とのMTGを開いて、口頭でわかりやすく説明を行ったり、品質を確保する上で様々なマネジメントの工夫が必要になります。

 

曖昧性が高い・絶対的な正解がない

こちらもテキストや会話文のアノテーションに多く見られますが、例えば、会話文のテキストに対して人間の感情の種類で分類するラベリング等があります。これら人によって判断が分かれる領域が多いアノテーションは総じて難易度が高くなる傾向があります。感情表現などは作業者その人がそう感じたのなら、ある意味それしか正解がなく、その人がそう感じたラベルしか付けようがありません。

 

こういった人の感覚などに左右されるアノテーションの品質を確保するためには、やはり作業者の人選とアサインが重要になり、加えてそれた実現する人材や人材の適性管理が必要になります。また作業においては、開始当初は仕様書や手順書を確認しながら慎重に作業を行うため、ラベル付けの傾向がアノテーション仕様にマッチしていたのに、作業を重ねるにつれ感覚がマヒすることも手伝って、方向性や異なるラベルの境界が徐々にずれていき、知らぬ間にアノテーション結果も仕様とズレたものになっていた、ということが往々にしてあります。

 

ある意味絶対的な正解がないアノテーションは「コンセンサスチェック」といった、同じ素材を複数名でアノテーションを行い、多数決や一致率で正解例を導き出したりします。こういったアノテーションでは第三者レチェックやレビューをあまり行わないことが通例ですし、また第三者チェックを行っても効果が薄いことが多いため、PMは品質を確保する上で、作業者のラベリングの傾向を都度確認して、方向性など補正するために指示を行うことが重要になります。

 

2. 難易度によるアノテーション外注化のコツ

不用意にラベル・クラス数を増やさない

AI開発の目的や目標もあるので、ある程度仕方ないところもあると思います。ただ「念のためこれもラベル付けしておこう」など考えると、ラベル、クラス数がどんどん増えていくと思います。この辺りは、開発目的・ゴールとのバランスや兼ね合いの話にもなりますが、やはりAI開発のゴールやアノテーション仕様を明確に設定し、不用意にラベル、クラス数を増やさないことが大切です。

 

例外・エッジケースの対応や情報管理に長けているアノテーションベンダーを選ぶ

例外やエッジケースはアノテーションではつきものですし、アノテーション作業のマネジメントに多く時間が割かれるのも、例外やエッジケースへの対応です。アノテーションの現場の感覚では、アノテーションプロジェクトのセットアップや準備もさることながら、アノテーション作業においてのマネジメントは「エッジケースに始まり、エッジケースに終わる。」といっても過言ではありません。

 

エッジケースの情報管理や伝達、情報の徹底が行き届いていないと、作業ミスやエラー発生を招くばかりでなく、QAを担当するレビュワーやチェッカーもエッジケースや例外への対応方法を理解していないと、チェックを行っても意味がありません。そのためPMは情報を適切に管理し、アノテーション作業に関わる人全体に情報を徹底させるノウハウを持っていることが必要になります。特にこういった情報はテキスト情報のみでは作業者に伝わりづらく、時にはMTGを開いて口頭でニュアンスを伝えたり、その場で相手が理解しているかどうか把握することも必要です。その意味では、情報管理や作業の理解促進のみならず、他の要因も含め力業でチェックを重ねてエラーを補足、修正することに重点を置いているベンダーではなく、エラーの発生防止に重点を置いているベンダーに依頼をすることが、結果的にコストを低く抑え、安定した品質を確保することにもつながります。

 

曖昧性の高いアノテーション作業の経験が多いベンダーを選ぶ

前段でも述べましたが、コンセンサスチェックや多数決で決めるアノテーションなどには、特有のノウハウやマネジメントの方法があります。いくら作業者の多数決でチェックがないアノテーションとはいえ、作業のやりっぱなしでは期待する品質を確保できませんし、特に感情ラベリングなどのテキストアノテーションは、やはり人間の感性や感覚が重要な要因となることが多く、適切な人材をアサインするためには、あらかじめ人材の特徴などを把握しておく必要があります。その意味においても、人材の適性管理やきめ細やかなマネジメント、またこういったアノテーションやチェック方法の経験のあるベンダーに依頼することが良い結果を生むことになります。

 

3. まとめ

これまで述べてきたことは、純粋な意味では「アノテーションの難易度が高い」とは言い切れないかもしれません。ただ、これら要因を軽んじると、アノテーションを自社で行う場合も、外注やアノテーション代行会社に依頼する場合のどちらでも、狙いの品質・コスト・納期に多大な影響を及ぼし、思ったような結果が出ないこともあり、その意味で難易度が高いとも言えます。つまるところ、専門性が高いアノテーションも正解が導き出せないから難しい=期待する品質を確保できないから難しい。その意味では専門性が高いアノテーションもこれまで述べてきた要因も同じことになります。

 

アノテーションの仕様を設計されている方は、深く仕様に入り込み検討を重ねているので、これまで述べてきたようなアノテーションの難易度を上げる要因については、それほど難しいことだとは感じないかもしれません。ただ一般知識しか持たない、また初めて仕様書を見るアノテーション作業者にとっては作業のハードルが高くなることはある意味、至極当たり前のことだとも言えます。アノテーション代行会社から見積を取ったら想像以上に費用が高かった。蓋を開けてみれば納品されたデータにエラーが多かった。作業後に費用の見直しを要求された、などにならないようご参考になれば幸いです。

 

 

執筆者:

杦本 和広

アノテーション部 グループマネジャー

 

・前職Teir1自動車部品メーカーにて、製造ラインの品質設計や品質改善指導を中心に、モデルライン構築のプロジェクトマネジャー、業務効率改善 (リーン改善)コンサルティングチーム等、複数の部門横断プロジェクトを経験。
・現職では、ISO等のマネジメントシステム、ナレッジマネジメント推進等を経て、アノテーション事業の立ち上げ~拡大、アノテーションプロジェクトのマネジメントシステムの構築、改善等のディレクションに従事。 QC検定1級 一般社団法人 品質管理学会会員



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP