
2012年にディープラーニングを利用したAIが画像識別コンペティションで優勝して注目を浴びて以来10年以上がたちました。特定のタスクに特化した「識別系」と呼ばれるAIは成熟期を迎えて今なお様々な分野、例えば医療分野での画像識別など、より専門的な領域で導入開発が進んでいます。
識別系はもちろんですが、近年注目のChatGPTなど生成AIの開発においても、AIに学習させるための「教師データ」を多くの場合必要とします。この教師データを作成する作業はアノテーションと呼ばれます。今回は弊社でこれまで発信してきたブログの中からアノーションのやり方についての記事を紹介しながら徹底解説してまいります。
- 目次
1. アノテーションとは
AIがタスクを実行できるようになるためには学習が必要です。学習の方法には先に述べた「教師あり学習」の他に「教師なし学習」「半教師あり学習」があります。識別系AIの多くで教師あり学習が採用されています。ここで教師の役割を担うのが教師データです。例えば、車の識別であれば画像に写っている車を四角形(バウンディングボックス)などで囲み、「車」というタグをつける作業を行なったものが教師データです。この作業をアノテーション(あるいはデータラベリング)と呼びます。作成した教師データをAIに学習させることでAIは車の特徴を学習し、アノテーションされていない新規の画像でも車を識別できるようになります。
アノテーションと教師データについてのブログはこちら
>アノテーションとは
>AIの教師データと学習データの違いとは?わかりやすく解説!
アノテーションは元々「注釈をつける」という意味があり、文章の該当部分にアンダーラインや印をつけて補足やコメントなどをつけることを指します。教師データを作る作業も同様の作業をすることから「アノテーション作業=教師データを作る」という意味でも使われるようになりました。また、商品に値札をつけることを指すラベリングも値段というメタデータを商品に付与する意味では似た作業です。そこで、データラベリングも教師データ作成を意味するようになりました。日本ではアノテーションが一般的ですが、米国ではデータラベリングと呼ばれることも多いです。
2. アノテーションの種類
先に述べたように、画像データであればバウンディングボックスなどを使って識別させたい対象に印をつけます。バウンディングボックスの他にもセグメンテーションやキーポイントなどのアノテーションがあります。車や人など簡単な物体検出ならばバウンディングボックス、体組織の病変部位など、より複雑な形状を精度よく識別させるためにはセグメンテーションといったように、採用するアノテーション方法によってAIで学習できる内容も変わってきます。目的とするタスクをAIで実現するために最適なアノテーション方法を選ぶことが大切です。
アノテーションの種類についてのブログはこちら
>バウンディングボックスアノテーションとは
>キーポイントアノテーションとは
>セグメンテーションとは
3. アノテーションツール
画像アノテーションではphotshopなどの画像編集ソフトを使うことも可能ですが、多くの場合、専用のアノテーションツールを使います。
バウンディングボックスを例に考えてみましょう。アノテーションデータで必要になるのは、画像上の対象を囲んだ四角形の縦横サイズと座標、そしてその四角形のクラス名(例えば車・人など)などです。これらの情報は画像に直接書き込まれるのではなく、画像とは別にアノテーションデータとして作られるファイルに書き込まれます。このようなアノテーションデータにはcoco準拠のJSON形式や形式など様々な形式のものがあります。これらのデータは一般的な画像編集ソフトでは対応していないことがほとんどです。そのため専用のツールが必要となります。ツールによっては、求める出力形式に対応していないという場合もありますが、データ形式を変換するコンバーターを作成することで必要なデータを得られます。
また、アノテーションは大量の画像に対して行うので、生産性を高めるために効率良い作業が行える機能があるかどうかも重要です。例えば、ショートカットが充実している、次々と画像をスムーズに遷移することができる、チェックや修正が行える、といった機能や、作業者のアサイン・進捗状況が把握できる、といったマネジメント機能などです。こうした機能も画像編集ソフトには備わっていないことがほとんどです。もちろんアノテーションツールもフリーのオープンソースから有償のものまで様々なものがあり、機能面で十分ではないものもありますが、生産性や品質の観点から作業の行いやすさを考慮に入れてアノテーションツールを選択することをおすすめいたします。
アノテーションツールについてのブログはこちら
>アノテーションツール Annofabとは?
>アノテーションツールおすすめ5選を比較~ツールを選ぶ3つのポイントとは~
>テキストアノテーションツールおすすめ6選を比較~ツールを選ぶ3つのポイントとは~
4. アノテーションのやり方のコツ
アノテーション作業を進めていくためには、まずAIに学習させるためのデータを集めます。自社にデータがある場合はそれらを活用できますが、そうしたデータがない場合は新たに集めるかもしくはAIの研究開発向けに公開されたデータセットを利用するなどの方法があります。
データセットについてのブログはこちら
>アノテーション済みオープンデータセット 活用のメリットとデメリット
データが準備できたらアノテーション作業に入ります。まず、作業者に正しく作業をしてもらうための作業指示書や仕様書を作成します。アノテーションの基準を明記し、文字だけでなく参考画像なども使いながら作業者の認識にブレが出ないようにしましょう。また、どうしても判断に悩むエッジケースと呼ばれるものも出てきますから、そのような例も盛り込むと良いでしょう。
指示書が準備できて、ツールやデータなどの作業セットアップができたら、作業者にレクチャーを実施していよいよアノテーション作業に入ります。開始後は日々の作業の中で出てくる質疑の対応や、進捗と品質の管理、突発的なトラブルに対する対応など、アノテーション作業周りのさまざまな管理が多岐にわたって必要になります。時にはミーティングで作業者間での品質のすり合わせが必要になることもありますし、AI開発の担当者と質疑などのやり取りをすることもあります。作業者にこうした対応を全て任せるのは、アノテーション作業以外の負担を増やすことになります。PMがフォローすることで、アノテーションプロジェクトを円滑に進めることができるでしょう。
こうしたアノテーションのやり方については、アノテーションを多くこなすことで得られるコツがあります。初めてアノテーションをやってみる、もしくは内製でやってみてもうまくいかない、という場合にはこうしたコツを参考にしてみることがおすすめです。
アノテーションのやり方のコツについてのブログはこちら
>アノテーションの仕事に必要な心得とコツ
>アノテーションを成功に導くコツ7選
>教師データの品質を担保、向上させるには?実践方法を解説!
5. まとめ
ここまで、アノテーションのやり方について、弊社でこれまでに発信してきたブログをご紹介しながらご説明してまいりました。ここに紹介したブログ以外にも、アノテーションやAIに関する解説記事を数多く発信しております。また、実際にアノテーション作業を進めていく上で現場を知るPMだからこそ気づくアノテーションの難しさ、本音、あまり表に出ないここだけの話などをスピンオフグログとして定期的に発信しております。ご興味いただけましたら、ぜひ他のブログもお読みいただけると幸いです。そして、アノテーションの外注化をご検討の際には弊社にぜひ一度ご相談ください。
弊社ブログの一覧についてはこちら
>アノテーションサービスブログ
6. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。