
生成AIの登場により、AI開発プロセスはかつてないスピードで変化しています。AIモデルの学習に多くの場合必要とされるアノテーション作業は従来人の手によって行われてきましたが、大量のデータを作成しなければならずスピードを必要とするAI開発におけるボトルネックとなっていました。ですが、ここに来て生成AIを活用した自動アノテーションの活用範囲が広がって来ており、作業の効率化や省力化が現実のものとなりつつあります。しかし、すべてのアノテーション作業をAIに任せられるわけではありません。アノテーション作業に限った話ではありませんが、AIをどう使い分け人間の判断力とどう共存させるかが重要なテーマとなっています。
今回は、アノテーション作業において「自動化できる領域」と「人の介在が不可欠な領域」を整理し、AI導入を検討する企業にとって最適な方法を考察します。
- 目次
1. アノテーションとは?
アノテーションとは、画像・テキスト・音声などのデータに対し、AIが学習できるようにラベルや属性情報を付ける作業です。たとえば、医療画像の異常部位をポリゴンで囲んでラベルを付けたり、カスタマーサポートの問い合わせ内容をカテゴリ分けするなどの作業です。
参考ブログ:アノテーションとは?その意味からAI・機械学習との関係まで解説。
高精度なAIモデルを構築するには、このアノテーション作業の品質が極めて重要です。品質とは例えば、対象オブジェクトに対して正しいラベルを付与しているか、ポリゴンの精度がアノテーション要件を満たすレベルであるかなどです。従来の手作業中心の方法では、このような品質を担保するためには膨大なコストと時間がかかり、作業者間で判断がバラつくことによる学習への影響も避けられませんでした。
こうした課題に対して生成AIの力を活用することができれば、これまでにない開発スピードの向上とコストの低減が期待できるばかりでなく、より幅広い領域で自動化が実現できることでしょう。
2. 自動化できる領域:AIによる効率化
AIを用いたアノテーションの自動化は、近年大きく進展しています。特に画像認識や自然言語処理(NLP)などの分野では、生成AIが大量のデータに対して自動でラベル付けを行い、従来の手作業に比べて大幅な効率化とコスト削減を実現しています。また、従来の識別AIも、それに呼応するかのように、特に画像認識などの分野において自動化の技術が進歩し続けています。それらの技術を用いることによって、アノテーションにかかる時間を30% 〜80%削減できるケースも報告されています。
●画像アノテーション:AIモデルが画像内の対象物(例:車、人、標識など)を自動検出し、ラベル付与まで自動化。自動運転や監視カメラのデータセット作成で広く利用可能。Meta社のSAM 2では、動画のセグメンテーションも可能。
参考リンク:Segment Anything Model 2(SAM 2)
●テキストアノテーション:AIがテキストデータに対して、感情(ポジティブ/ネガティブ)やエンティティ(人名、地名、組織名など)を自動でタグ付け。チャットボットや検索エンジンの学習データ作成に活用。
●音声アノテーション:音声データを自動でテキスト化し、発話者や感情などをタグ付け。音声認識やコールセンター分析で応用。
参考ブログ:ChatGPTでアノテーションはできるのか?
3. 自動化が難しい領域:求められる人ならではの判断
一方で、AIによるアノテーションの完全自動化が難しい領域も存在します。主な理由は、ツールの検知精度の限界、例外的なケースへの対応困難、業界や製品ごとの特殊要件へのAIの適応性の低さなどです。
●医療画像アノテーション:がん細胞や微細な異常を特定するなど、高度な専門知識が必要な領域。AIの誤検知や見落としリスクが高いため、人の確認が不可欠。
●複雑な感情や文脈を含むテキスト:皮肉や比喩、文化的背景を考慮した人間独特の機微を理解する必要がある感情分析や意味付けなど。汎用的なデータを学習したAIのみでは正確な判定が難しい。
●ニッチな業界や独自フォーマットのデータ:特殊な製品画像や業界特有のラベル付け基準がある場合、既存のAIツールでは対応しきれず、人によるカスタマイズが必要。
4. ハイブリッドアプローチ:AIと人間の協業
AIによって自動化できる領域と難しい領域を見てきました。ほぼ自動化できる場合もあれば難しい場合もあり、どのようなアノテーション作業でも自動化が可能というわけではないのが現状です。現実的には、AIによる自動アノテーションと人による確認・修正を組み合わせた「ハイブリッドアプローチ(Human-in-the-Loop)」が最適な方法でしょう。自動化で効率化しつつ、人の専門知識で品質を担保する手法です。
●自動アノテーション後の人手による検証:AIが大量データにラベル付与した後、人がサンプリングして精度をチェックし、誤りを修正。
●アクティブラーニング:「どのデータにラベルを付けるべきか」をAIが戦略的に選び、人がそのデータだけをラベル付けすることで、最小限の学習データで最大限のモデル性能向上を目指す。
●継続的なフィードバックループ:人がAIのアノテーション結果を訂正し、その修正データを再学習に活用することで、AIのアノテーション精度を段階的に向上。
このように、AIのアノテーション自動化技術は進化していますが、現場では人ならではの判断や専門性を組み合わせることで、より高品質なアノテーションを実現することができるでしょう。
5. まとめ
AIは、アノテーション業務において大きな革新をもたらしていますが、「完全な自動化」は未だ実現できていません。とはいえ、AIを活用することができれば、作業の効率化が期待できるでしょう。そのための一つの方法として、人の判断が求められる領域ではチェックや修正など品質管理を人に任せて、AIを補助的に活用すると言ったハイブリッドアプローチが有効です。
AI開発を推進する企業にとって、アノテーション作業はこれからも避けて通れないプロセスでしょう。作業をエンジニア自身が行う代わりに、AIを活用して負担を減らすことができれば開発業務に集中できます。もし、チェック作業など人手が必要となる部分についても負担を減らしたいということであれば、アノテーション作業全体もしくは一部であっても外注ベンダーに作業を依頼することも選択肢の一つです。
6. ヒューマンサイエンスの教師データ作成、LLM RAGデータ構造化代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
教師データ作成のみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIの教師データ作成のみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。