バウンディングボックスアノテーションとは

AIを活用した物体検出は自動運転技術や店舗における顧客行動分析など、さまざまな分野で活用されています。AIが画像から人などの指定された物体を検出するためには、あらかじめ学習するためのデータが必要です。そのためには画像の中の物体を示す情報を画像上にタグ付けする必要があります。この情報を作成する作業をアノテーションと呼びます。アノテーションには多くの手法があり、例えば画像そのものを、検出する対象の名前（クラス）で分類させる手法もあります。撮影スタジオの画像などのように、対象が一つ写っているのみで背景がシンプルであれば、この手法でも物体検出はうまくいくかもしれません。ですが、現実の画像には認識させたい対象以外にもさまざまな物体・背景などが写り込んでいることがほとんどです。こうした場合には、画像内の認識させたい物体の位置や形状を特定する手法でアノテーションを行います。この手法には、物体を四角形で囲むバウンディングボックスや物体を形状に沿って塗り分けるセグメンテーションなど、さまざまな方法があります。今回はバウンディングボックスを中心に物体検出と、アノテーション手法の使い分け、使用場面などについて解説していきます。

目次

1. バウンディングボックスを使用する目的と場面
2. 物体検出とは
3. バウンディングボックスのメリットとデメリットは？
4. 物体検出で使われるアノテーション手法の使い分け
5. 物体検出におけるアノテーションの必要性
6. データの重要性（アノテーション品質とデータ量）
7. 物体検出の使用場面
8. まとめ
9. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス

1. バウンディングボックスを使用する目的と場面

バウンディングボックスアノテーションは物体検出のために使われる手法の一つです。画像上にある物体の情報を、物体属性・位置・大きさといったシンプルな値で表現できるので、データセットを作成する際にもさまざまなAIアルゴリズムに合わせてデータ形式をコンバートすることができます。また、作業自体も四角形で対象を囲むだけなので比較的簡単です。対応ツールも多いことから、小規模のプロジェクトや、そこまで高い検出精度を必要としない物体検出のタスクに適しています。

2. 物体検出とは

ところで、以前のブログ「画像認識とは？　画像認識の仕組みとAIにおける活用事例｣でも言及したように、物体検出とは画像や動画などにおける特定の物体をAIが認識することです。例えば、近年開発が進んでいる自動運転の分野では、車載カメラで前方の車・歩行者・信号・標識などを認識する必要があります。これらをAIが画像の中から認識できるように、AI学習のための教師データを作る必要があり、そのための手法の一つとしてバウンディングボックスアノテーションがあります。

>画像認識とは？　画像認識の仕組みとAIにおける活用事例

3. バウンディングボックスのメリットとデメリットは？は

メリット

・コストが抑えられる
第１章でも触れましたが、バウンディングボックスは画像上の対象となるオブジェクトを四角形で囲む比較的簡単な作業です。一つのオブジェクトにかかる時間は後述する他のアノテーションに比べても素早く行うことが可能です。このように、少ない作業工数で必要な教師データを用意できるのでコストが抑えられ、AI開発もスピードを持って進めることができます。

・様々な物体検出に利用できる
バウンディングボックスによるアノテーションデータは、基本的に下記の情報を持っています。

バウンディングボックスの大きさ（縦横サイズ）
バウンディングボックスの画像上の座標
バウンディングボックスで囲んだオブジェクトのクラス（場合によってメタデータも含む）

物体検出のAIモデルはこの情報を使って学習します。それぞれのモデルによって必要とするデータの形式はyoloやcoco準拠のJSONなど様々なものがあります。アノテーションツールで作成した教師データが必要な形式と異なっていたとしても、上記の情報を対応する形式に変換するコンバーターなどを用いればモデルに合わせたデータを用意できます。

デメリット

・複雑な形状の検出には向いていない
バウンディングボックスでは、物体の輪郭をトレースするのではなく長方形で囲むことから、アノテーション対象の物体形状が長方形でない限り、物体の後方の背景もバウンディングボックスで囲んでしまいます。これらは背景ノイズとなり誤検出の一因となります。また、形状が複雑な物体では、輪郭と背景とを混同してAIモデルが誤検出をしてしまう可能性があります。

こうした問題を避けるには、アノテーションの際に物体にバウンディングボックスを極力ピッタリと合わせる方法や、背景を含みすぎずかつ物体の特徴を確実に捉えている部分を定義して囲む、などの方法があります。例えば、車のアンテナなどの細長い突起物は車の特徴を捉える重要な要素と言えないのでバウンディングボックスの中に含めない、といった方法です。

とはいえ、形状がほぼ同じで、テクスチャーなどの微妙な違いで判断しなければならない物体（顔認識）や、輪郭を含めて検出を行いたい場合（内視鏡画像による部位識別）、などではバウンディングボックスアノテーションでは上手くいきません。そうした場合には、次章で解説する他のアノテーション手法として、キーポイントアノテーションやセグメンテーションを採用すると良いでしょう。

4. 物体検出で使われるアノテーション手法の使い分け

前段でご説明した通り、バウンディングボックスアノテーションはその作業のしやすさと汎用性の高さから、様々な物体検出に活用できるのがメリットです。とはいえデメリットもありますから、開発したいAIによってアノテーション手法を使い分けることが大切です。この章ではバウンディングボックス以外のアノテーション手法をご紹介いたします。

キーポイントアノテーション：
オブジェクトの特定の位置や特徴点を指定する方法です。例えば、人体の関節や顔のランドマークなどがキーポイントとしてアノテーションされます。

>キーポイントアノテーションとは？その特徴とアノテーション方法

セグメンテーションアノテーション：
画像内のピクセルごとにオブジェクトの領域を割り当てる方法です。各ピクセルは、対応するオブジェクトクラスに属するか、背景に属するかを示すラベルでアノテーションされます。

>セグメンテーションとは。AIセグメンテーションを活用してできることとは？

このように、アノテーション手法は、AIにどのような物体検出をさせたいかなどの要件と、データの特性に応じて使い分けられます。また、データセットの作成やモデルの学習において、複数のアノテーション手法を組み合わせることもあります。

5. 物体検出におけるアノテーションの必要性

AIの学習を進める際に、教師データを使用しない「教師なし学習」という手法もあります。この手法には、クラスタリングや主成分分析などがあります。ですが、物体検出における「教師なし学習」はまだ研究段階にあり、「教師あり学習」ほどの正確性を実現することは現時点では難しいようです。こうした点から、物体検出におけるアノテーションは、まだ一般的には必須と言えるでしょう。

6. データの重要性（アノテーション品質とデータ量）

アノテーションによって作成された教師データに基づいてAIは学習を進めます。教師データが物体検出する唯一の手がかりとなります。このデータの品質＝AIの品質と言えるでしょう。AIの品質は、「アノテーションの品質」と「データ量」によって決まります。

6-1. アノテーション品質：

もし教師データが不正確であれば、AIも精度の高い検出はできません。アノテーション作業は基本的に人手で行いますから、データの品質=作業を行う人（アノテーター）の作業品質となります。アノテーターが正しいデータを作成するためには、適切なアノテーションガイドラインや基準書、アノテーターへの教育・管理など、さまざまな対応が必要になります。

実際にアノテーション作業すると実感しますが、やはり、ガイドラインや基準書ではカバーしきれない悩ましいケース（エッジケース）などが後から出て来ることもしばしばです。こうした場合には、容易に質疑応答できる環境や体制を構築するなどして、曖昧なまま作業を進めないようにすることが大切です。また、人の感覚は微妙に異なるので、アノテーターAさんとBさんでは、判断の基準が完全に一致することはほぼありません。ある程度の判断のバラつきは良しとして、そのバラつきを求められる精度の中で許容範囲に留めるようにマネジメントすることが大切です。そのためには、アノテーターを教育することは特に大切です。

正しくアノテーションができるようにプロジェクトをマネジメントできれば、必然的に教師データの品質も向上し、AIの検出精度も高まります。

6-2. データ量：

データの量も重要な要素です。どれだけアノテーション品質が良い教師データが得られたとしても、データ量が少なければAIが物体を検出するために必要な学習量が不足してしまいます。データ量が少ない場合に起こる問題には、下記のようなものがあります。

1. 過学習のリスク：
データ量が少ないと、モデルは教師データに対して過度に最適化され、未知のデータに対してはうまく汎化できなくなる可能性があります。つまり、AIモデルは教師データに対しては高い性能を示すが、新しいデータに対しては予測が正確でないことがあります。
2. 不安定な予測結果：
データ量が少ない場合、AIの学習に利用したデータセットの偶然のバイアスやノイズの影響が大きくなります。これにより、AIモデルの予測結果が不安定になる可能性があります。同じAIモデルを異なるデータセットで学習させた場合でも、予測結果が異なることがあります。
3. モデルの一般化能力の制限：
データ量が少ない場合、AIモデルがデータの多様性や変動性を適切に捉え、判別することが難しくなります。データの多様性が不足していると、AIモデルは新しいパターンや特徴を学習する能力が制限されるため、*一般化能力が低下する可能性があります。
*一般化能力：一般化とは、学習したAIモデルが、観測されたことのない入力データに対して正しい出力を生成する能力。

プロジェクトによって必要なデータ量は変わってきますが、たとえば弊社では数万ファイルの画像に対するアノテーションなどをお受けすることもしばしばあります。こうしたボリュームのあるアノテーションプロジェクトには数週間必要なケースもあり、アノテーション品質を担保しながらデータ量を確保するには生産性を上げるためのマネジメントも欠かせません。

7. 物体検出の使用場面

ここでは、物体検出の使用場面を具体的に見ていきます。これらの使用場面では教師データとして、バウンディングボックスアノテーションが多く使われています。

7-1. 自動運転：

自動運転技術では、物体検出が重要な要素となっています。車両は周囲の環境を正確に認識し、障害物や他の車両を検出する必要があります。AIの物体検出モデルは、車載カメラやセンサーデータからリアルタイムで物体を検出し、それらの位置や動きを把握することで、適切な判断や回避行動を支援します。

7-2. 動画監視：

動画監視システムでは、セキュリティや監視の目的でカメラ映像をリアルタイムに分析する必要があります。物体検出を利用することで、不審な行動や侵入者、異常な活動を検知することができます。例えば、人物や車両の検出を行い、その位置や動きを監視することで、セキュリティの向上や事件の早期発見に役立てることができます。

7-3. 画像検索：

画像検索では、ユーザーが特定の物体や要素を含む画像を検索するために、AIの物体検出が利用されます。物体検出アルゴリズムは、大規模な画像データベースを分析し、特定のオブジェクトやパターンを含む画像を特定します。これにより、ユーザーはキーワードやクエリを使用して、関連する画像を効率的に検索することができます。

7-4. 商業分析：

商業分析では、店舗やショッピングセンターに設置されたビデオカメラの映像データを利用して、顧客行動の解析や効果的なマーケティング戦略の策定に活用されます。AIの物体検出は、顧客の動きや行動パターン、商品の人気度などを把握するために使用されます。例えば、人々が特定の商品にどれだけ注目しているか、どのエリアが混雑しているかを検出することで、商品の効果的な陳列や店内配置の最適化に役立てることができます。

8. まとめ

ここまで見てきたように物体検出の応用範囲は幅広く、ビジネス・研究・医療などのさまざまなシーンで今後より一層活用が進むでしょう。そして、物体検出を支えるアノテーションもますますその必要性が高まってきます。アノテーションの作業は時間と根気のいる作業であることが多く、研究開発に資源を集中させる際の足枷になってしまいます。良い物体検出のアイデアがあったとしても、それを実現するためのアノテーションデータ作成は自社では困難だという場合もあるでしょう。そうした場合には、アノテーションを専門とする外部ベンダーを活用することも有効です。

9. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス

教師データ作成数4,800万件の豊富な実績 

ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応

データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。