Some parts of this page may be machine-translated.

 

【スピンオフ】仕様書でカバーしきれないエッジケースとのつきあい方 ~アノテーションの迷いを引き起こすエッジケースを乗り越えて~

【スピンオフ】仕様書でカバーしきれないエッジケースとのつきあい方 ~アノテーションの迷いを引き起こすエッジケースを乗り越えて~



スピンオフブログ企画
――DX時代のAIを支えるアノテーション。そのアナログな現場のリアル
仕様書でカバーしきれないエッジケースとのつきあい方
~アノテーションの迷いを引き起こすエッジケースを乗り越えて~

これまで弊社ではアノテーションやAIに関する様々なブログを発信してきました。そこでは一般的な知識やノウハウを中心にお伝えしてきました。アノテーション作業はその内容を言葉にしてみれば一見簡単なように思えますが、「曖昧性」を多く含んだ「人で行うことが避けられない作業」のため、どうしても人と人の関わりが多くなります。そのため、ある意味泥臭く、巷に溢れるきれいな理屈では済まないことが多く起こり、品質や生産性を確保するためには、実は様々な経験とノウハウが必要になります。

 

そのため、実際のアノテーションの現場で起こる問題やその対応を具体的に知ることが、アノテーションを成功に導くヒントとして役立つことがあると考えています。

 

弊社の現場では、実際にどんなことが起こって、具体的にどういった対応や対策をしているか。通常のブログとは異なり、スピンオフブログ企画:「DX時代のAIを支えるアノテーション。そのアナログな現場のリアル」と題して、弊社ならではの特徴やこだわりなども含め、リアルな現場の実態をお伝えしたいと思います。

 

目次

1. エッジケースは必ず出現する

アノテーションをされた経験のある方なら、おそらく誰しもが経験するであろう「エッジケース」。エッジケースとは、画像アノテーションならば対象として囲むべきか、囲むとしたら、どのように囲むべきか悩ましいものを指します。こうしたものは仕様書やマニュアルにも判断基準や例外として明確に記載されておらず、だからといって無視できない存在です。

 

私もアノテーターとして作業をしていた頃に日常的に出会いました。一緒に作業しているアノテーターに聞いても「うーん…自分だったらこうするかも。でもわからないです。」「囲まなくて良い気がするなぁ。」と、答えが定まりません。気が付けば1分で1画像のペースで作業すべきところ、既に10分が過ぎている、ということもしばしばあります。

 

アノテーションが曖昧性を多く含む作業である以上、このようなエッジケースは必ず出現します。かなりイージーなアノテーションでも、「ちょっと待てよ?」となることがあります。 このようなエッジケースを直感にまかせてアノテーションしていくと、昨日は白だったものが今日は黒になったり、アノテーターAさんは黒にするけれどアノテーターBさんは白にしていてアノテーターCさんはどっちつかずになったり、ということが起きます。これではAIもどっちつかずの学習をしてしまい、精度に影響が出てしまいます。

 

「エッジケースを制するものはアノテーションを制す」とまでは言いませんが、日々の作業の中で一番手間がかかるものの一つが、エッジケースの扱いであることは間違いありません。

 

2. 質問リストをつくる

アノテーターやPMがマニュアルに照らし合わせても結論が出ないこうしたエッジケースは、都度お客様に相談・協議して、方針を決めていきます。 方針が決まったら、それをアノテータに伝えるのですが、この際に気をつけなければならないことがあります。それは、情報が埋もれてしまわないようにする、ということです。

 

アノテーターがリモートで作業している場合、質問はチャットツールを使うことがほとんどです。ご存じの通り、チャットツールでは、質問などのスレッドは時間が経つにつれて過去の情報として流れ、埋もれて行きます。すると、「あれ?なんかこの前、これと似たやつAさんが質問していたと思うけれど、どこだっけ?」となり、検索をしたり、画面をスクロールしたりと、ムダな時間が取られます。 また、オンサイトでは「北田さーん!これってXXXですか?」「はい!XXXです!」と口頭でやり取りして、どこにも記録が残らない、といったことも起きがちです。(この場合PMの北田が記録しておけば良いのですが…)

 

このようなムダや情報の散逸を避けるためにも、質問と回答はその時だけの一過性の情報になってしまわないように、別途エッジケース集などの補助資料を用意したり、「質問リスト」などの名前でスプレッドシートに蓄積し共有したりすることで、同様の疑問が出た場合でもアクセスしやすく、すばやく参照できるようにします。

3. ツールのコメント機能との違い

アノテーションツールによってはコメント機能が備わっているものがあります。QAチェックで差し戻す際に、ツール上で問題点を具体的に直接アノテーターに伝えられるという点では、非常に便利な機能です。ですが、こうしたコメントは、大抵のツールでは情報集約という点で難があります。それは、アノテータ各自に情報やノウハウが分散してしまう、ということです。

 

コメント機能を備えたツールを弊社でも使うことがあります。そうした中で、情報の分散によって、アノテーター個々で理解に差が出てしまう、ということを経験しました。あるアノテーションのやり方についてAさんに指摘した事項が、実は他のアノテーターにも当てはまるといったことがありました。コメント機能では各アノテーターにしかフィードバックが返せないので、複数のアノテーターに同様のエッジケースが出ても、都度コメントする必要があり、手間がかかってしまうということが起きました。

 

このように、ツールのコメント機能はアノテーター個々とのやり取りに限定されてしまうため、そのままでは、せっかくの大切な情報が全員に周知・共有できません。結局、PMやチェック担当者が情報をピックアップして、資料や質問リストに記載することが必要です。

 

全員に不足なく必要な情報を届ける、という点では、情報を集約することができる質問リストは、アナログで手のかかる作業のように見えますが、シンプルで有能な情報集約と運用のツールと言えます。

4. お客様とも情報を共有できる

質問リストを通じてお客様とやりとりすることで、「開発当初は想定していなかった知見が得られた」とお客様に言われることも多くあります。そうした知見を通じてAI開発をより良い方向に進めることも可能になるでしょう。こうした質問リストはご希望であれば納品時に合わせてご提供することももちろん可能です。

 

>>アノテーション委託で効率化、品質向上、コスト削減を実現 ――分業によりAI開発の作業効率が改善、開発期間の短縮化に貢献

5. まとめ

アノテーションでは、マニュアルにないエッジケースが必ず現れ、これがアノテーターを悩ませます。そして、方針を考えることや質疑を行うことに時間を取られ、生産性の低下を招く要因となります。こうした要因を最小化するために、弊社のPMは、質問リストを活用することはもちろん、作業の早い段階(場合によってはアノテーション作業開始前から)で、エッジケースとなりうるパターンを極力洗い出し解決して、スムーズに作業を進めることができるよう心がけています。そのためには、お客様から支給いただいたデータを一通りチェックすることも欠かせません。手間がかかる作業ではあるのですが、ここで数時間かけることで、実際に作業が始まってからでは、工数面でも品質面でも何倍にも膨れ上がってしまう恐れのあるムダを省くことができます。そうして完成したアノテーションデータが、お客様のAI開発成功の一助となれば、と思っております。

 

執筆者:

北田 学(きただ まなぶ)

アノテーショングループ プロジェクトマネジャー

 

弊社アノテーショングループ設立当初より、自然言語処理中心に、大規模案件のチームビルディングやプロジェクトマネジメント、PoC案件のアノテーション仕様策定、スケール化へ向けたコンサルティングまで幅広く担当。
現在は画像動画系、自然言語系アノテーションのプロジェクトマネジャーと並行して、アノテーションセミナー講師、ブログ等のプロモーション活動に従事。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP