Some parts of this page may be machine-translated.

 

アノテーションを成功に導くコツ7選

アノテーションを成功に導くコツ7選

アノテーションを成功に導くコツ7選

アノテーションでは、さまざまな目的のAIモデルのための教師データを作成します。扱うデータは画像・動画、テキスト、音声など多岐に渡り、それぞれ使用するツールやアノテーション作業の要件はさまざまです。教師データはAIモデルの学習の基盤ですから、仕様や要求品質を満たすデータを作成する必要があります。また、スピードが求められるAIモデル開発においては、アノテーションの迅速な遂行が必須です。さらには、コストについても見逃せません。これらの求められる要素を達成することがアノテーションの成功の鍵となります。弊社でも日々試行錯誤を重ねており、その経験の中でこれは押さえておくべき、主に品質面でのコツ7点を取り上げ解説していきます。

>>関連ブログ
アノテーションとは?その意味からAIモデル・機械学習との関係まで解説



目次

1. アノテーションを成功に導く7つのコツ

アノテーションではデータにタグをつける作業が主になります。簡単な作業のように思えますが、実際にやってみると一筋縄ではいかないことも多くあります。それは、アノテーション作業、引いてはAIモデルが、普段私たちが感覚的に認識している脳の働きを模しているからだと言えます。例えば、マグロ尻尾の切り口で身質を判断する仲買人さんを模した「マグロの身質認識AIモデル」のアノテーションをする際は、仲買人さん達が経験に基づいて感覚的に認識している暗黙知(経験という特徴量)をデータに落とし込む作業が必要となります。こうした感覚的な作業を、定量、定性的に捉え、教師データの品質を担保するために、どのようにマネジメントしていくかが、アノテーションの成否の鍵となります。

1-1. さまざまな種類のデータを集める

人が経験によって知識を蓄積しさまざまな課題に対応できるようになるのと同様に、AIモデルも多様なデータを学習することにより認識精度を高めます。そのためには、可能な限りさまざまな種類のデータを集めましょう。車の検出を例にとれば、市街地の交通量が多い画像だけではなく、山間部のような、車両が少なく背景も街並みではなく山や曲がりくねった道路が写っている画像も大切です。また、正面、横、後ろ、斜め上など、さまざまな角度の車両が写っている画像も用意します。こうした車に関するさまざまな特徴をAIモデルに教えることで認識精度が高まります。

 

少量のデータでも、画像の解像度を下げる、画像を左右反転させる、画像の一部を切り出すなど、データオーギュメンテーションを行えばデータの種類を補うことができます。また、データの種類がさまざまでもデータ量が少ないとAIモデルの過学習が起こり、新たに読み込んだ画像を正しく認識できない場合がありますので、できる限りデータの量を多く用意できれば理想的です。弊社でも数千から数万ファイルのご依頼をいただくことが多いです。

1-2. 作業基準書・仕様書を作成する

AIモデルの教師データを作成するためには人手によるアノテーションが必要です。作業を行うアノテーターが作業要件を理解して正しいデータを作成するために、情報が整理されていて、わかりやすい作業基準書・仕様書を用意しましょう。

 

アノテーションのルールを文章だけで説明するだけでなく、作業ツールのスクリーンショットなどを用い視覚的にわかりやすくしましょう。また、作業開始から終了までのフローチャートなどもあると良いでしょう。また、判断に迷うエッジケースなどがあれば記載しておきましょう。

 

可能であればテストアノテーションを実施しましょう。エッジケースの洗い出しや、作業基準書・仕様書の改善、ツール設定の見直し、進捗の予想などが行えます。本番作業をスムーズに進めることができます。ただ、アノテーションツールの選定やセットアップをする時間がない場合もあります。またエッジケースを事前に全て洗い出すことは現実的に不可能であるため、アノテーション作業が始まってからの対応がでてしまうことは避けられません。エッジケースのハンドリングについては、後述するコミュニケーションについての項もご参照ください。

1-3. アノテーション作業の効率的な手順を確立する

アノテーションをする際に、どのような手順で行うと作業を効率的に進められるのかを、事前に考慮することが大切です。例えばアノテーションツールを使って複数の種類のタグを付与していく場合に、出現頻度の高いタグをすぐに選択できるように設定しておくだけでも数秒の工数削減が期待できます。もし一人当たり1万個のバウンディングボックスを作成するプロジェクトならば、1万秒〜3万秒=2.5〜8時間の削減がこれだけでも可能です。

また、タグの種類が多いプロジェクトでは、タグの切り替えだけでも時間がかかります。ツールによってはタグに対してキーボードショートカットの設定が可能なものもあります。ツールを選定する際には、こうした点も押さえておきましょう。

>>関連ブログ
アノテーションツールおすすめ5選を比較~ツールを選ぶ3つのポイントとは~

 

生産性のみならず、品質においても画像アノテーションでは、画面のどの位置から作業を始めるかも重要です。開始位置と進め方一つとっても作業のやりやすさ・ケアレスミスに影響します。また、後述するチェック作業に影響する場合もあります。もちろんアノテーターによってやりやすい作業方法は異なりますから、絶対こうしなければならない、ということではありません。ただ、煩雑な作業方法や、ツール操作はヒューマンエラーを誘発する大きな要因となることは紛れもない事実ですので、可能な限り、手数や動作が少なく、シンプル操作や作業方法にすることをお勧めします。

我々の実際のプロジェクトの経験の中で、「最初にやり始めたやり方で慣れていたから続けていたが、実はもっと楽で早い方法があるんですよね~。」といった声が聞かれることもしばしばありますので、アノテーターの声を拾い上げ、やりやすい方法をチーム全体で共有することも大切です。

1-4. チェックプロセスを確立する

言うまでもないですが、チェックプロセスをアノテーションの中に織り込みましょう。そうすることにより、アノテーションの品質が保証されプロジェクトをより良い結果に導くことができます。

 

チェックフェーズの設置:

アノテーション作業済データをチェックするプロセスによって、ケアレスミスや、アノテーター個々の認識のズレ、理解度などを発見できます。これらをチェックし修正することによって、一貫性のあるデータを揃えることができ、また作業へフィードバックすべき情報を得ることもできます。そのためチェックを後回しにするとエラーを産み続けるため、チェックは早い段階から実施することをお勧めします。

チェックの際には専任のチェック担当者を置くやり方と、アノテーターによる相互のチェックという方法があります。どちらを選択するかはプロジェクトの難易度や規模によります。

 

チェックレート:

フルチェックが可能であればそれに越したことはありませんが、コストがその分かかってしまいます。AIモデルが必要とする精度によっては、スポットチェックなどでも十分な場合もあります。また、アノテーションの難易度が低ければ、作業上のミスも減ると想定されるので、低いレートのスポットチェックも妥当な選択です。また、プロジェクトが進むにつれアノテーターも慣れてくるので、最初はフルチェックにしておき、途中からスポットチェックに切り替える方法も有効です。

 

チェック手順書、チェックシートの作成:

作業基準書・仕様書とは別に、チェック作業の手順書を作成することも良い方法です。チェック作業では、アノテーション済データに対して、要求品質を満たしているかどうかや、ケアレスミスの確認などが主な作業になってきます。そうしたチェックで重点をおくべき要点を明記しておくことで、品質に影響のない部分まで子細にみて指摘してしまうような、いわば重箱の隅を突くような無駄が省け、効率良いチェック作業が行えます。またチェッカーが複数いる場合は、チェッカー同士で手順書やチェックシートを共有することで、チェック項目やチェックの観点のバラつきを抑えることがき、品質の安定化が見込めます。

1-5. 円滑な相互コミュニケーション環境を整備する

アノテーション作業を実際にやっていると感じますが、人は疑問があってもすぐに質問しようとしないものです。理由は「こんな初歩的なこと、恥ずかしくて質問できないな。」、「質問したいけれど、うまく説明できないかも。」、「作業基準書・仕様書をちゃんと理解していないと思われたら嫌だな。」、「質問することで人の時間を取ってしまうのが申し訳ない。」など、人の心理はさまざまです。

こうした躊躇自体がすでにプロジェクトの効率を下げる要因となります。ですので、「コミュニケーションが気軽に行えるのだ。」という感覚をチーム全体が持っていることは極めて重要です。そのためにも、定期的なチームミーティングを実施することや、チャットツールの効果的な活用を促すなどの施策はとても大切です。また、かしこまりすぎている環境というのも、遠慮と躊躇を生み出す要因になりうるので、チームの雰囲気作りを上手く行えれば理想的です。

 

こうした点からも、アノテーターの選び方は大切です。簡単な作業だからと、人を集めてやってみると上手くいかないことが多くあります。アノテーション作業に適した人材とは、作業基準書・仕様書をきちんと読んで理解できることはもちろんのこと、必要なコミュニケーションをレスポンスよく取れること、ツールなどの操作を行えるPCスキルを備えていること、細かい作業を長時間コツコツ継続できること、などを備えている人です。こうした人材を揃えるのは、意外になかなか大変ですので、適切な人材を揃えた外部ベンダーに任せるという選択も良いでしょう。

 

キックオフミーティングの実施:

作業基準書・仕様書をアノテーターに渡して「はいお願いします」という始め方は避けましょう。キックオフミーティングを実施して、伝えられる範囲でプロジェクトの目的を解説したり、実際の作業の流れを、ツールを使用しながら画面で見せたりするだけでも、文書では伝えきれない細かなニュアンスを伝えることができます。また、スタート時にチームが顔を合わせることで、以降のコミュニケーションの足がかりにもなります。

 

エッジケースの扱い:

アノテーション作業では、事前に作業基準書・仕様書で事前に想定していなかったケースや、明確に仕様書に記載されていない、例外のケースが現れることが多くあります。こうしたケースでは、アノテーター間で判断がバラつくことや、どのようにアノテーションするか(しないか)がわからない、といったエッジケースが頻繁に現れます。このようなエッジケースをアノテーター個々に自己判断させてはなりません。開発担当者と認識を合わせることももちろんですが、チーム内でミーティングやチャットツールなどを通しての話し合いで答えを導き出せることも多いです。また、こうしたコミュニケーションを通してアノテーション作業についての理解が深まり、チームとしての結束も高まります。コミュニケーション環境の整備はプロジェクトにポシティブな効果をもたらします。

1-6. フィードバックを実施する

アノテーターへのフィードバックを定期的に実施しましょう。作業を続けていて何もフィードバックがないと、人はだんだん不安になってくるものです。そうするとモチベーションの低下を招き、結果品質も悪くなるといったリスクがあります。アノテーションのミスなどのマイナス要因だけフィードバックするのではなく、ミスの低減や生産性の向上などのポシティブなことも伝えましょう。褒めるのはとても大切です。

 

フィードバックを個人に対して行うか、チーム全体で共有するかどうかについては、時に慎重な判断が求められます。特にマイナス要因などについては、そのことを他の人に知られたくないと思うアノテーターもいますから、個人に対してフィードバックするのが望ましいです。ただ、チーム全体で共有したい情報がこうしたフィードバックに含まれていることもあります。情報展開する際に、名前を伏せるなどの配慮をしましょう。

 

ただ、生産性や品質等の成績がチーム全体でどうしても上がらない場合など、自分の成績を客観的に把握させるために各々の成績を明らかにして、チーム全体で共有することもあるでしょう。荒療治な方法にはなりますが、時にはこうした手段も必要な時があります。そうした際には、1on1ミーティングなどでフォローを入れることでケアをすることも大切です。

1-7. 振返りを実施する

プロジェクトが完了したら、アノテーションプロセスについても振返りを行いましょう。品質が要件を満たしていたか、納期に間に合う進捗状況であったか、想定していた予算に収まっていたか等さまざまな観点から、良かった点はもちろん、上手くいかなかった点、課題を洗い出します。そして情報や経験から得たノウハウをまとめて蓄積しましょう。蓄積した情報、ノウハウを次のプロジェクトで活用することで、より良いプロジェクトの運用が実現できます。

2. まとめ

アノテーションは地道な作業の継続により成り立っています。単調な作業になることも多く、かといって全く同じ作業の連続というわけでもないのがアノテーションです。こうした中で品質を確保するためのコツをご紹介しました。とはいえ、実際にアノテーションを自社で実施するには、品質に注力するだけでなく、AIモデル開発サイクルの妨げとならない作業期間、適切なコストなどをマネジメントする必要があります。どこから手をつけて良いか、あるいはこれらのコツを上手く実行できるか悩ましいこともあるでしょう。そうした場合には、アノテーション経験豊富な外部ベンダーに依頼するという選択肢もあります。アノテーションサービスのノウハウを持つベンダーに依頼することによって、自社でのAIモデル開発により集中することができます。

3. ヒューマンサイエンスのアノテーション代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。 AIモデルを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

最新のアノテーションツールを活用

ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP