Some parts of this page may be machine-translated.

 

【スピンオフ】教師データは良い教師づくりから〜現場で必要とされるコミュニケーションとは~

【スピンオフ】教師データは良い教師づくりから〜現場で必要とされるコミュニケーションとは~





スピンオフブログ企画
――DX時代のAIを支えるアノテーション。そのアナログな現場のリアル
教師データは良い教師づくりから
〜現場で必要とされるコミュニケーションとは~

これまで弊社ではアノテーションやAIに関する様々なブログを発信してきました。そこでは一般的な知識やノウハウを中心にお伝えしてきました。アノテーション作業はその内容を言葉にしてみれば一見簡単なように思えますが、「曖昧性」を多く含んだ「人で行うことが避けられない作業」のため、どうしても人と人の関わりが多くなります。そのため、ある意味泥臭く、巷に溢れるきれいな理屈では済まないことが多く起こり、品質や生産性を確保するためには、実は様々な経験とノウハウが必要になります。
そのため、実際のアノテーションの現場で起こる問題やその対応を具体的に知ることが、アノテーションを成功に導くヒントとして役立つことがあると考えています。
弊社の現場では、実際にどんなことが起こって、具体的にどういった対応や対策をしているか。通常のブログとは異なり、スピンオフブログ企画:「DX時代のAIを支えるアノテーション。そのアナログな現場のリアル」と題して、弊社ならではの特徴やこだわりなども含め、リアルな現場の実態をお伝えしたいと思います。

 

>>過去掲載ブログ(一部)

アノテーションを成功に導くコツ7選

教師データとは?AI・機械学習・アノテーションとの関係から作り方まで解説。

目次

1. 仕様書や作業説明で全てを伝えられるか?

教師データの品質を左右するのはアノテーターの作業クオリティだと言えます。もちろん、要件定義があってこそのアノテーションですから、まず要件が確定されていることが大切です。ですが、要件も確定して、それに基づいた仕様書が用意でき、きちんとした作業説明を行ったとしても、まだ大きなトラップをくぐり抜けることはできません。

 

アノテーションを行うには知識や資格も必要ありませんし、冒頭で述べたように、言葉にすれば簡単な作業のため、誤解を受けているところがあります。例えば、犬種の区別などは、これまでの経験や感覚で人は無意識に判断しています。「ここがこうなっていたらチワワだ。」と普段から理論的に考え判断している人は少ないと思います。感覚的な判断…。アノテーション作業では、どうしても経験や感覚を元にした人の判断に頼らざるを得ないところがあります。また大量のデータを扱うため、仕様書だけでは判断できない例外も多く発生します。それらに大きなトラップが潜んでいるのです…。 (事前に全てのデータを確認して、例外事例を仕様書に落とし込むことは現実的ではありませんし、また犬種の特徴などを、こと細かく仕様書に落とし込んでは、膨大な記載量になり、とても使えたものになりません。)

 

人の作業はどんなに注意深く作業をしていても、どうしても判断のズレが生じます。私も当初アノテーターとしてさまざまなプロジェクトに参加する中で、判断や認識のズレが起こってしまうことを経験してきました。良い教師データを完成させるためには、作業を行うアノテーター自身が良い教師であることが品質を確保する上で最も重要となり、そのためには人をキチンとマネジメントする必要があります。

 

当たり前ですが、人には色んなタイプの人がいます。どうしてもスピードを優先しがちになってしまったり、逆に慎重になり過ぎてしまったり、あるいは、人によっては質問するといったコミュニケーションが苦手だったり、人それぞれの性格でもアノテーション品質に影響がでてしまいます。 またアノテーションは細かい作業を注意深く行わなければならず、それが延々と続きます。そのため時間や日を追うごとに感覚がマヒしてくることもあり、どうしても判断のブレやケアレスミスなどが起こってしまいます。

 

仕様書の整備やルール等の作業説明をすることに加えて、要点や重要なポイントをPMが伝えることで、判断ミスの多くは防げます。ですが、作業終了まで作業者の様子や品質に目を配り、アノテーターが品質を保って滞りなく作業できるように。つまり良い教師になってもらうための教育やサポートが重要なのです。

2. コミュニケーションを通じた教育とサポート

前段でお話したように、わかりやすい仕様書の作成や、補足資料を作成しメンテを随時行うことなどで、理解力の底上げは可能です。とはいえ、資料の共有だけでは一方向の情報伝達になってしまい、相互理解の確証が得られず、蓋を開けてみたら、実は伝え方が悪く理解してもらえていなかった…。イチから作業をやり直し…。(チーン)となることがしばしばあります。これではコストや時間が膨れ上がります。アノテーションの規模や難易度にもよりますが、これらを踏まえ、弊社では状況に応じて、コミュニケーションに重点を置いた教育とサポートを実施してきました。

 

ただ、コミュニケーションといっても色々あります。グループミーティング?チャットツールでのコンタクト?メール?色々ある中でどうするのが良いのでしょう? 我々の経験上、手間はかかりますが、こうしたコミュニケーションの中で最も効果的なのは1on1のミーティングです。

 

アノテーション作業でコミュニケーションが要求される場面は、アノテーション特有の曖昧さを明確にしたり、作業者の仕様理解度を確認したりすることが多く、そこではやはり1on1のミーティングが有効です。 テキストでは伝わらない複雑なニュアンスも直接話すことで伝えられますし、画面共有なども併用して行えばよりわかりやすく、何より膝を突き合わせて(リモートならばディスプレイを挟んで)コミュケーションができるので一番です。グループミーティングでは難しい個別的な内容も伝えやすいですし、アノテーターも周りを気にせず話すことができるので、アノテーターからの相談や意見も出やすくなります。

3. 1on1の実施

とある自然言語処理のアノテーションプロジェクトでのことです。このプロジェクトは、顧客からアノテーター一人ひとりに対してレビューが入り、成績不良が続くと、その人はプロジェクトを続けられないという、かなり厳しいものでした。

 

アノテーターAさんは、合格点ギリギリで数ヶ月乗り切って来たのですが、ある時とうとう下回ってしまいました。ここでテコ入れをしてリカバーしておかないと、後がなくなってしまう状況になるかもしれません。 合格点ギリギリが続くということは、仕様書の理解を深められていない可能性があります。顧客レビュワーからのフィードバックを確認してみたところ、Aさんは、仕様書で解説されている内容とは異なる傾向でアノテーションしていることが読み取れました。 そこで仕様書を一通り確実に理解してもらう必要があると感じたのですが、やはりこれまで行ってきたチャットの質疑応答ではどれだけ時間があっても足りません。そこで1on1をすることにしました。

 

「点数下回ってしまいましたね。個人授業しましょうか?」とフィードバックをAさんにメールした直後、チャットの個人メッセージが。「やっちゃいました~。お願いします…。」。

 

善は急げ、ということで早速1on1を実施します。フィードバックを一つ一つ確認しながら、なぜ間違いなのかを仕様書と照らし合わせ説明していきます。すると、「えっ!仕様書のここって、そういう解釈なんですね!これまでずっと勘違いしてました…。」「…えっ?」(気を取り直して説明を続けます…。)。また間違えやすい例や、フィードバックを1時間ほど一緒に確認して理解を深めました。

 

「作業中に悩んだらこれまでのフィードバックを参照したり、仕様書を再確認したりしてくださいね。もちろん、どうしても不安だったらチャットで質問してください。文章で説明するのが難しければ直接ミーティングしましょう。」と伝えました。

 

次の日は、アドバイスの効果もあってか、質問が多めでしたが、内容的には考え方に間違いがある様子はありませんでした。数日後、PMの私の元にかえってきたAさんの結果は合格点でした。 フィードバックをAさんに送ります。「よかったですね!間違いの数も激減して良い点数です。僕より理解されてますよ」とメッセージして、一安心。いや、この先も抜かりなく、と自分に言い聞かせ、新たに合格点を下回ってしまった別のアノテーターにメッセージを送ります。「点数下回ってしまいましたね。個人授業しましょうか…。」

4. まとめ

今回は品質担保のためには教師データを作成するアノテーターを教育することが重要だということについて、その方法の一つ、コミュニケーションについて実例を交えてお話ししました。中でも1on1ミーティングは特定のアノテーターに教育・アドバイスや判断の軌道修正を施せるのでとても効果的だと感じます。実際に顔を合わせて話すことで、話し方・仕草などから理解してもらえたかどうかも分かりますし、人となりも掴めるので「この人にはどのようにフィードバックすれば伝わりやすいか?」といったその後のアプローチもやりやすくなります。

 

良い教師データを作るためにアノテーターという教師を育てる。アノテーションは手作業のものづくりです。コミュニケーションはその土台を形作る大切な要素です。 そんなに手間かけなくたって、アノテーションって仕様書通りに作業すれば簡単なのでは?と思われる方もいらっしゃるかとは思いますが、作業する現場ではこのように一筋縄ではいかないことがしばしば起こります。こうした問題・課題を乗り越え、より高い品質の教師データを作成するために、また結果的に修正等で発生する余計なコストを抑えるために、私たちは人にフォーカスしてマネジメントすることにこだわっています。そこには、品質の担保に加えて、働きやすい環境づくりを大切にしたいという私たちの思いもあります。

 

アノテーションの規模や継続性等の状況によって、このやり方が正しいとは限りませんが、慣れないデータやルールを扱うことの多いアノテーションでは、作業期間を通して品質を確保するべく適切な教育やサポートをすることが大切です。そのためにはテキストベースで情報を投げるだけではなく、直接その人に会って(リモートではディスプレイ越しで)話すことでしか達成できない合意形成やノウハウの蓄積があるのだということを、またある意味あたり前のことをこれまでの経験から学びました。

 

こうした作業は泥臭く、仕事のやり方としてはスマートではないのかもしれません。ですが、現場の感覚としてはこれこそがアノテーションだと思っています。弊社ではこうした泥まみれも厭わず、むしろ飛び込んでいく気概でこれからも皆様のお手伝いをしたいと考えております。

 

執筆者:

北田 学(きただ まなぶ)

アノテーショングループ プロジェクトマネジャー

 

弊社アノテーショングループ設立当初より、自然言語処理中心に、
大規模案件のチームビルディングやプロジェクトマネジメント、
PoC案件のアノテーション仕様策定、スケール化へ向けたコンサルティングまで幅広く担当。
現在は画像動画系、自然言語系アノテーションのプロジェクトマネジャーと並行して、
アノテーションセミナー講師、ブログ等のプロモーション活動に従事。


 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP