Some parts of this page may be machine-translated.

 

【スピンオフ】百戦錬磨の弊社PMに聞く「アノテーション業務とその本質とは」~「エッジケースをやっつけろ!」我々PM共通の思い~

【スピンオフ】百戦錬磨の弊社PMに聞く「アノテーション業務とその本質とは」~「エッジケースをやっつけろ!」我々PM共通の思い~

スピンオフブログ企画
――DX時代のAIを支えるアノテーション。そのアナログな現場のリアル
百戦錬磨の弊社PMに聞く「アノテーション業務とその本質とは」
~「エッジケースをやっつけろ!」我々PM共通の思い~

これまで弊社ではアノテーションやAIに関する様々なブログを発信してきました。そこでは一般的な知識やノウハウを中心にお伝えしてきました。アノテーション作業はその内容を言葉にしてみれば一見簡単なように思えますが、「曖昧性」を多く含んだ「人で行うことが避けられない作業」のため、どうしても人と人の関わりが多くなります。そのため、ある意味泥臭く、巷に溢れるきれいな理屈では済まないことが多く起こり、品質や生産性を確保するためには、実は様々な経験とノウハウが必要になります。

 

そのため、実際のアノテーションの現場で起こる問題やその対応を具体的に知ることが、アノテーションを成功に導くヒントとして役立つことがあると考えています。

 

弊社の現場では、実際にどんなことが起こって、具体的にどういった対応や対策をしているか。通常のブログとは異なり、スピンオフブログ企画:「DX時代のAIを支えるアノテーション。そのアナログな現場のリアル」と題して、弊社ならではの特徴やこだわりなども含め、リアルな現場の実態をお伝えしたいと思います。

 

目次

1. アノテーション業務・作業とは?

「アノテーションとは」という記事の多くがいわゆる「教師データをAIに〜」といった解説です。弊社もそのようなブログ記事を掲載しております。ただそれだけでは、一般的な説明に終始してしまい、実際のアノテーション業務を進める上で出くわす難しさや課題があることを伝えきれないのでは、という思いもあります。

 

関連ブログ

アノテーションとは?その意味からAI・機械学習との関係まで解説。

 

そこで、今回のブログでは趣向を変えまして、弊社のPMが日々アノテーション業務を進めていく中で感じているに違いない「アノテーションってこういうことだよね」という面について、私が同僚PMに「アノテーション業務とは?その本質ともいうべき、その心とは?」という無茶振りをして、各々の思いや考えを引き出しました。

 

それでは早速ご紹介しましょう。

 

こちらのPMはアノテーション作業という視点で独特の難しさを言葉にしてくれました。

 

アノテーション業務とは

「顧客が求める品質を満たす大量のデータをチーム全体で作り上げられるように、判断材料の情報を整理し、運用すること。」

 

その心は

大量の生データにラベリングを行うアノテーション作業で頻出する、仕様書・定義書の判断規準にすんなりと収まらない「悩ましいケース」。
顧客との密なコミュニケーションによって個別の判断を確認しつつも、それらの判断基準をより噛み砕いて情報を整理することで、「悩ましいケース」を「判断がつくケース」にして、チーム内で共有していくこと。
仕様が複雑で、ラベリング時の判断において考慮すべきポイントが複数あったり、また曖昧性を多く含むデータへのラベリング作業など難易度の高いアノテーションであったりする場合には、「悩みやすいポイント」を作業者目線で捉え、よりスムーズに仕様を理解できるように情報を整理して、作業者に分かりやすく伝えることが大切。
そのためマネジメントでは、顧客が求める品質を的確に理解するため、可能な限り「悩ましいケース」を事前に想定し、顧客とのQ&Aを積み重ねて仕様書・定義書の判断基準を実際の作業で使えるレベルに高めていくこと、そして、その判断基準を作業者一人ひとりにしっかり伝えていくコミュニケーションが重要。

 

こちらのPMはよりアノテーション作業にフォーカスした視点で表現してくれました。

 

アノテーション作業とは

「(論理+直感)×忍耐の十乗である。」

 

その心は

アノテーション作業とは基本的に仕様書・定義書で定められたルールに従って白か黒かを判定していくもので、しっかり根拠を伴った論理的な判断が求められます。
ただ、データの中には白とも黒とも言える(or 白とも黒とも言えない)ケース、いわゆるエッジケースも多くあります。そうした場合、どう判定すべきか都度確認する必要はあるものの、ある程度の判断基準を理解した上で直感に従って判定する必要もあります。
そうしたアノテーションの判断の一つひとつは一見容易にみえますが、的確な判断基準と安定したスピードで根気強く長時間コンスタントに作業していくことが求められ、まさに忍耐力が求められる作業です。
さらに、長時間の作業を何日・何週間(場合によっては何ヶ月)も継続する必要があり、あたかも乗算をするかのように大変な作業が続くのがアノテーションの特徴です。

 

かくいう私はこんなふうに考えています。

 

アノテーションとは

「作業中の違和感をキャッチすること。」

 

その心は

仕様書・定義書などで大枠は決まっているものの、データはその枠組みに収まらないものを多数含んでいて、それは「エッジケース」と呼ばれるものです。エッジケースは出現して初めてそれとわかるのですが、人によって見過ごしてしまうほど些細な場合もあります。多くのエッジケースは「あれ?なんかこれ気になるぞ?」といった感覚が起点にあります。この感覚が違和感の正体で、それを解決するためにロジックを組み立てる作業があります。このロジックを通して、理解の再構築が図られ、アノテーションの品質が高まっていくと考えられます。

2. エッジケースをどうするか

こうしてみると、各PMに共通のものがあります。それは「エッジケース」「悩ましいケース」をどう扱うかということです。アノテーション業務をこなすためには品質と生産性をマネジメントする必要があり、これらを阻害する要因は様々ですが、中でも重要かつ鍵となるのはエッジケースの扱いだと言えます。

 

エッジケースをおろそかにして、昨日はアノテーション対象としていたけれど、今日は対象外とする、などの日和見的な基準でアノテーション業務を進めては、判断の一貫性が保てず品質にブレがでます。そういった品質のブレが生じた教師データをAIの学習に使用しても、AIの誤認識が発生したり、認識精度が上がらなかったり、ということになってしまいます。

 

また、エッジケースを前に考え込んでしまっては、アノテーションデータの生産性を阻害する大きな要因となりえます。アノテーション業務の中でエッジケースをどう扱うかがPMの腕の見せ所でもあり、弊社のPMはそれぞれがやり方を編み出し情報共有して日々の案件に生かしています。

 

こうしたエッジケースについては、こちらのスピンオフブログもご覧ください。

 

【スピンオフ】仕様書でカバーしきれないエッジケースとのつきあい方 ~アノテーションの迷いを引き起こすエッジケースを乗り越えて~

3. まとめ

弊社はアノテーション、ひいてはAI機械学習を成功に導くためのノウハウを蓄積、共有し、メソッドを確立しています。そして案件の規模・難易度・ドメインに関わらず、そのメソッドを活用しています。それでもなお「思っていたのと違うぞ」ということが起きるのがアノテーション業務です。そこからどうやって挽回してさらに上を目指していくか、チーム全員で知恵を絞って貪欲に取り組んでおります。もしこれをご覧になられた担当者の皆様が、アノテーション業務の難しさについて共感いただけましたら、外注化ご検討の際にはぜひ弊社にご相談ください。

 

執筆者:

北田 学(きただ まなぶ)

アノテーショングループ プロジェクトマネジャー

 

弊社アノテーショングループ設立当初より、自然言語処理中心に、大規模案件のチームビルディングやプロジェクトマネジメント、PoC案件のアノテーション仕様策定、スケール化へ向けたコンサルティングまで幅広く担当。
現在は画像動画系、自然言語系アノテーションのプロジェクトマネジャーと並行して、アノテーションセミナー講師、ブログ等のプロモーション活動に従事。

 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP