
- 目次
1. アノテーションの仕事とは
これまでのブログで数度にわたり掲載してきましたが、アノテーションとはAIに学習をさせるためのデータを作る仕事です。具体的にはAIに認識してほしい対象をデータの中から見つけ出しラベルをつけます。例えば画像の中に写っている人を認識して欲しければ、人をそれとわかるように四角形(バウンディングボックス)で囲み、「人」というタグをそのバウンディングボックスにつける、といった作業を行います。AIの認識制度を高めるために必要な教師データの量は、目的にもよりますが数千から数万といった大量の数に上ります。そのため、アノテーションの仕事も数週間から数ヶ月に及ぶことがあります。
アノテーションはデータの中から対象を見つけ出し、ラベルをつける作業の繰り返しです。作業内容も仕様書に基づき、ラベルを付けていていくだけの一見簡単な仕事です。ただ品質や生産性を担保しながらアノテーションを進めることは、案外難しいものであることは理解されていません。
2. アノテーションの仕事の難しさとは
アノテーション作業では多くの場合、数千から数万のファイルを扱い、それぞれのデータをくまなく見渡し、対象を漏らさず見つけ出すことが要求されます。たとえ自動化を行っても最後には人の手が入ることが避けられないため、集中力や根気が必要です。
データの中には仕様書だけでは判断に悩むエッジケースが出てきて、本来数十秒でできる作業が数分かかるといったことも頻繁に発生します。このようなケースが積み重なれば、当然作業ペースが低下します。とはいえ、素早く対処するために、あまりにも感覚に頼ってしまうと、判断の根拠がブレ、アノテーションの一貫性が保てず品質が低下し、結果的にAIの認識精度にも影響を与えます。
こうしてみるとアノテーションの仕事は手際の良い作業と、正確性を維持するために論理的な素早い判断が必要になり、それを数週間〜数ヶ月続けることになるので、継続的に作業を続けるためには心得やコツが必要になります。
今回は具体的なアノテーションの仕事の内容説明や管理する側の視点ではなく、作業者の視点に立って、生産性、品質を担保しつつ、仕事を継続的に進めるために必要な心得やコツ、それをサポートするPMの役割という側面でお話いたします。
3. アノテーションの仕事に必要な心得とコツ
説明できるくらい論理的に判断する
アノテーションにおいては、わからないことを「なんとなく」で済まさないことが大切です。作業仕様書やマニュアルには全てが説明、記載されているわけではありません。全てをマニュアルに記載してしまうと、記載量が膨大になり、検索性や記載にかかる工数等を考慮するとそれは現実的はありません。そのため、マニュアルには主に考え方の基本や、アノテーションの対象となるオブジェクトの代表例の記載に留めておくのが通例です。したがって、記載されている基本や代表例を理解し応用することで、明確に書かれていない様々なケースに対して的確に判断する必要があります。
そのためには、「なぜそのようにアノテーションを行ったのか(行わなかったのか)」をきちんと説明できるくらいの判断の根拠が必要です。「なんとなくそう思ったから」という場合でも、その「なんとなく」を論理的に言語化することで、初めてブレのないアノテーションが可能になります。もしこれが説明できなければ、昨日は「白」だったものが今日は「黒」というアノテーションをしてしまうことにもなりえます。言うまでもなく、こうした判断のブレは教師データの品質に影響を及ぼします。
適度に休憩を挟みリセットする、立ち止まって結果を客観視する
これは誰でも想像がつくと思いますが、画像のアノテーションであれば、画像の隅々を見渡して対象を発見し、その対象にラベリングをする作業を延々と繰り返す必要があります。場合によっては数ピクセル単位の精度を求められることもあります。テキストであれば、一文一文を漏らさず読み通して、必要なところに確実にラベリングをしなければなりません。これを一日数時間継続して行うためには、根詰めることなく適度に休憩を挟み、一度をリセットして立ち止まることが必要です。
作業をずっと続けていると、いくら論理的に判断できる能力があっても、どうしても感覚が麻痺し判断が偏ってくることがあります。そのため適宜休憩を挟むなどでリセットし、一度立ち止まって、自分のアノテーション結果がどちらかに偏っていないか、客観視することが大切です。
適度に休憩を挟みリセットする、立ち止まって結果を客観視する
これは誰でも想像がつくと思いますが、画像のアノテーションであれば、画像の隅々を見渡して対象を発見し、その対象にラベリングをする作業を延々と繰り返す必要があります。場合によっては数ピクセル単位の精度を求められることもあります。テキストであれば、一文一文を漏らさず読み通して、必要なところに確実にラベリングをしなければなりません。これを一日数時間継続して行うためには、根詰めることなく適度に休憩を挟み、一度をリセットして立ち止まることが必要です。
作業をずっと続けていると、いくら論理的に判断できる能力があっても、どうしても感覚が麻痺し判断が偏ってくることがあります。そのため適宜休憩を挟むなどでリセットし、一度立ち止まって、自分のアノテーション結果がどちらかに偏っていないか、客観視することが大切です。
素早く次のアクションを決断する
論理的思考力があったとしても、「素早く決断する」ことがアノテーションには欠かせません。 先に述べたように、アノテーションで接するデータには、エッジケースと呼ばれる、仕様書にも書かれておらず他にも例がなく、判断に迷うことが頻繁に発生します。こうした場面で考え込んでしまうと、あっという間に時間が経ってしまいます。
アノテーションでは大量の作業を行う必要があります。例えば、バウンディングボックスならば、特殊なものを除き、一つのアノテーションは数十秒程度で済まさなければならないことがほとんどです。エッジケースに出くわすたびに数分立ち止まってしまっては、生産性がたちまち下がってしまいます。 エッジケースで悩んだら「悩む」時間を必要最小限にとどめ、次のアクションである「質問する」、「自分なりに考えて結論を出す」といったステップへ素早く進むことが大切です。
状況に応じて柔軟に対応する
何かにこだわり過ぎない柔軟さも大切です。簡単な例ですが、人間はあらゆる場面で直観的、かつ瞬間的に判断していています。例えば、犬か猫かを判断する場合「耳がこういった形状であれば犬、または猫」と判断しているわけではありません。これまでの経験を元に見た情報から、脳内の色んなパラメーターで総合的に判断をしているはずです。このような判断に理論的背景や判断の根拠を求め過ぎたり、自分なりのこだわりを持ってしまうと、考え過ぎて間違った回答を導くこともありますし、答えのない回答を求めて遥か彼方に旅をしてしまいます。
先ほどの論理的判断と矛盾しているように感じられるかもしれませんが、「ここは論理的に判断すべきところ」と「考えても仕方ながなく、上記の例のような経験で判断すべきとこと」を切り分けて考えられるのも、ある意味「論理的」な判断が必要となるのです。
丁寧になり過ぎない(過剰品質にならない)
品質を追い求めることや、自分の成果物に対して責任を持ち丁寧に作業を行うことは、アノテーションに限らずどんな仕事においても大変重要なことです。ただ一方で無意識、意識的に関わらず、丁寧にやり過ぎることは、当たり前ですが、生産性に大きく影響を与えます。例えば、樹木のセマンティックセグメンテーションなどで、塗分け精度のサンプルや指示があるにも関わらず、「知らずのうちに必要以上に葉先を細かく塗り分けてしまっていた。」などはよくあることです。やはりそのようなことになれば、生産性だけでなく他の作業者との品質のバラつきも問題になります。先ほど述べたことにもつながりますが、「どれくらいの精度を求めているか」、「要件に沿っているか」、客観的な視点で立ち止まって確認することが大切です。
作業仕様書やマニュアルをきちんと読む
何もアノテーションに限った話ではないかも知れませんが、作業仕様書やマニュアル、指示の内容をきちんと読み把握し、その通りに作業を進めることは全ての基本となります。弊社はこれまで数百人のアノテーターと共に仕事をしてきましたが、作業仕様書やマニュアル、指示の内容をよく読まずに仕事を進める方も多くいらっしゃいます。特にアノテーションでは頻出するエッジケースや例外の対応方法などの指示が頻繁に発生します。こういった資料をきちんと読んで確認していないと、間違ったアノテーションを行い、当然、品質にも影響が出てきます。
4. PMの果たす役割
アノテーションを行う際にはこれまで述べてきた心得やコツなどが必要となりますが、はじめからそういったことを理解し実践できる人ばかりではありません。多くの場合、「細かい作業や論理的思考力は優れているが、素早く決断できない」、「生産性優先でやってしまいがちで品質にブレがある」といったように、どこかに弱点があります。
ここで重要な役割を果たすのがPMです。他の企業ではPM以外にその役割を担っているポジションがあるかもしれませんが、弊社のPMの役割には、アノテーションの品質、生産性、作業進捗の管理のみならず、作業者の指南役として、これまで述べてきたような理想の方向へ導くことも含まれます。
作業者自身で解決できればそれに越したことはないのですが、本人も悩んでいて解決の糸口が見えないということも往々にしてあります。そうした弱点を日々のマネジメントの中でいち早く発見し、弱みを抱える作業者と1on1ミーティングなどを実施することによって、苦手な部分や不得意な部分を解消することを行います。また優れた作業者が持っているノウハウをアノテーションチーム全体に共有することもPMの役割の一つです。
5. まとめ
これまで述べてきたことをはじめから完璧にできる人なんていません。やはり作業者であるアノテーターとPMが一体となって望ましいレベルに高めることが大切ですし、それをチーム全体で進める必要があります。やはりチームワークを成立させるためには互いを尊重し、アドバイスや提案を互いに素直に受入れるといった謙虚で柔軟な姿勢が必要不可欠になるのは言うまでもありません。
6. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。