AI開発や機械学習用データ作成の現場では、アノテーションのラベル定義(アノテーション仕様)を決めてから作業を進めるのが一般的です。ただし、実際のプロジェクトでは途中で定義が見直されるケースも少なくありません。

問題は、その際に既にアノテーション作業を終えている「既存データ」をどう扱うかです。対応を誤ると、データの不整合によって精度が出なくなり、原因特定にも時間がかかります。

本記事では、ラベル定義変更時に起こりやすい問題と、既存データの適切な扱い方について整理します。

目次

1. ラベル定義が途中で変わるのはなぜか

ラベル定義の変更は、プロジェクトの失敗ではなく、むしろ実務ではよく起こる調整の一つです。特にPoCなどモデル開発初期段階では仮説ベースで定義を作ることも多く、実データに触れながら改善されていくケースが少なくありません。

たとえば、実際にアノテーションを始めてみると、想定よりも曖昧なケースが多く見つかり、アノテーターごとに判断がブレる場面が出てきます。また、想定した定義に当てはまらないデータが多く現れることで、ルール自体の見直しが必要になることもあります。

このように、ラベル定義の変更は、作業の進行に伴ってデータに対する理解が深化することや、初期には想定しきれなかったケースなどによって発生することが多く、ある程度は避けられないものです。

参考ブログ:

【スピンオフ】仕様書でカバーしきれないエッジケースとのつきあい方 ~アノテーションの迷いを引き起こすエッジケースを乗り越えて~

2. ラベル変更が引き起こす問題

ラベル定義が変わると、過去に作成したデータと新しく作るデータの間で基準がずれてしまう可能性があります。これがもっとも大きな問題です。

たとえば、以前は一つのラベルでまとめていた内容を後から二つに分けた場合、過去のデータは新しい基準にそのままでは対応できません。逆に、複数ラベルを一つに統合する場合でも、旧ルールと新ルールが混在したままだと、学習や分析の精度に悪影響が出ます。

結果として、同じ意味を持つはずのデータに異なるラベルが付いたり、データセット全体の一貫性が失われたりします。さらに、どの時点の定義で作成されたデータなのか分からなくなると、評価や改善の前提そのものが崩れてしまいます。

特に注意したいのは、ラベル変更後も旧データをそのまま混ぜて使ってしまうケースです。一見するとデータ量は増えているように見えますが、実際には品質のバラつきが増え、モデルの挙動が不安定になる原因になります。

3. よくある失敗パターン

ラベル定義変更時のアノテーションの現場では、作業スピードを優先するあまり、その場では大丈夫に思えても後で問題になる対応をしてしまうことがあります。

代表的なのが、新しいルールで追加分だけ進め、既存データはそのまま使い続けるケースです。この状態では、同じデータセット内に旧ルールと新ルールが混在し、後から整理することが非常に難しくなります。

また、変更内容を文書化せず、口頭やチャットだけで共有してしまうケースも少なくありません。この場合、担当者が変わった際に経緯が分からなくなり、データの信頼性が大きく損なわれます。

4. 既存データの扱い方

ラベル定義の変更が発生した場合、既存データをどのように扱うかによって、その後の精度や運用効率は大きく変わります。ここでは代表的な3つの対応方法を紹介します。

4-1. すべて新定義に統一する方法

既存データも含めてすべてを新しいラベル定義に統一する方法です。過去データを新基準で見直し、必要に応じて再アノテーションを行います。

コストはかかりますが、データの一貫性を確保できるため、長期的には最も安定した運用が可能です。

4-2. 新旧データを分けて管理する方法

旧定義のデータと新定義のデータを分けて管理する方法です。旧データは精度比較や過去との傾向確認といった参考用途に限定し、新データのみを学習・評価に使用します。

この場合は、どのデータがどの定義に基づいているかを明確に識別できる状態にしておくことが重要です。

4-3. マッピングルールで対応する方法

旧ラベルと新ラベルの対応関係を定義し、変換(マッピング)する方法です。

たとえば、「傷(深め)」と「傷(浅め)」を「傷」に統合するような場合は、テキストエディタなどの一括置換機能を使うことでラベルの単純な置き換えが可能です。

ただし、一つのラベルを複数に分割する(「傷」を「傷(深め)」と「傷(浅め)」に分割する)ような変更では、この方法は使えません。その場合は先にあげた二つの方法のいずれかになります。

5. 実務ではどう判断するべきか

どの方法を選ぶべきかは、ラベル変更の内容とプロジェクトの目的によって異なります。

たとえば、「AとBのラベルを一つに統合する」といった変更であれば、既存データを変換して活用することが可能です。一方で、「Aというラベルの中身を複数に分割する」といった変更の場合は、当然分割作業が必要になり、工数とコストが追加でかかってしまいます。

また、既存データを今後も学習に使い続けるのか、それとも新しいデータに置き換えていくのかといった運用方針によっても、適切な対応は変わります。こうした判断は、目先の工数だけでなく、将来的にどの程度データを活用していくかという観点も踏まえて行う必要があります。

6. おすすめの運用フロー

ラベル定義の変更が発生した場合は、まず変更内容を明文化し、旧定義と新定義の違いや変更理由を整理します。次に、どのデータに影響があるのかを確認し、たとえば過去の学習データや評価データにどの程度影響するのかを把握します。

そのうえで、既存データを再アノテーションして統一するのか、分けて管理するのか、マッピングで対応するのかといった方針を決定します。ここでいう「統一」とは、既存データも含めて新しい定義で作り直すことを指します。

方針が決まったら、いきなり全体に適用するのではなく、一部のデータで再アノテーションや変換を行い、そのデータで実際にモデル学習・評価を試します。この段階で品質や工数を確認しておくことで、大きな手戻りを防ぐことができます。

ラベル定義の変更履歴やバージョン情報を管理し、後からでも経緯を追える状態にしておくことも重要です。

7. ラベル変更を最小限にするための工夫

ラベル変更を完全になくすことは難しいですが、初期段階での設計を丁寧に行うことで、その影響を小さくすることは可能です。

たとえば、少量のサンプルデータで事前にアノテーションを試し、判断が分かれるケースを洗い出しておくことで、大きな仕様変更を防ぐことができます。また、仕様書には具体例やエッジケースを含め、判断に迷いやすいポイントを事前に明確にしておくことが有効です。

8. まとめ

ラベル定義の変更は、アノテーション業務において避けられないものです。重要なのは、変更そのものではなく、その後のデータの扱いをどう設計するかにあります。

変更前後のデータが混在した状態は、データ品質を低下させるだけでなく、AI開発全体の効率を大きく損ないます。ラベル定義の変更が発生した際は、変更内容の整理と運用ルールの設計まで含めて対応することが重要です。

ラベル定義の見直しや既存データの扱いに不安がある場合は、早い段階で整理しておくことで、後の大きな手戻りを防ぐことができます。

また、外注ベンダーにアノテーションを依頼する場合も注意が必要です。ここまで見て来たように、ラベル定義変更は単純に「定義を変えれば良い」だけではありません。変更データの適切な管理や、クライアントへの変更状況の情報共有やアノテーターへの周知といった各方面へのコミュニケーションも欠かせません。このような対応がキチンとできるベンダーでなければ、定義の変更がうまくいかず、せっかくのデータが無駄になってしまいかねません。定義変更に対しても適切に対応できるベンダーを選定することが大切です。

参考ブログ:

アノテーション作業を外注化するには?コツ7選

【スピンオフ】アノテーションの意外な難易度とは?〜難易度によるアノテーション代行サービス会社選定のコツ~

【スピンオフ】安さだけでは測れない「価格以上の見えない価値」~お客様に寄り添ったサービスを提供する想い、現場が守りたいモノづくりの姿勢~

9. ヒューマンサイエンスの教師データ作成、LLM RAGデータ構造化代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やデータラベリング、データの構造化に対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

生成系AI LLMデータセット作成・構造化、「AIに最適化するマニュアル作成・整備支援」にも対応

弊社は創業当初から主な事業・サービスとしてマニュアル制作を行い、現在では「企業ナレッジ活用のための生成AI導入に向けて、AIが認識しやすいドキュメントの制作支援」も行っております。生成AI を用いた企業ナレッジやドキュメントの共有・活用において、現在の技術ではまだツール等で100%の精度を実現できないのが現状です。過去のドキュメント資産をどうしても活かしたい、といったお客さまに対してはドキュメントデータの構造化にも対応します。さまざまなドキュメントを熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。

内製支援

弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやデータラベリングに関するお客様のお困りごとを支援いたします。