データラベリングの世界での市場規模

AI開発にはさまざまな手法があります。中でもディープラーニングと呼ばれる手法が登場したことによって、AIの認識精度は飛躍的に進歩しました。AIの活用範囲も製造業・サービス業・医療・教育など、あらゆる分野に広がり、社会にとって必要不可欠な存在となっています。

ディープラーニングでは大量のデータをAIに与えることが必要です。そうすることによって、AIは大量のデータの中から目的に合致するパターンを見つけ出し学習します。AI学習には「教師あり学習」が用いられることが多いですが、この場合、教師データと呼ばれるデータが必要となります。教師データはデータラベリングという作業によって作成されますが、今回はこのデータラベリングについて、その仕組みと世界での市場規模について解説します。

目次

1. データラベリングとは
1-1. データラベリングの定義と特徴
1-2. アノテーションとの違いは？
1-3. 日本と海外での用語の使われ方の違い
2. データラベリングの市場規模
2-1. 現状の市場成長率
2-2. 将来のデータラベリング市場の動向予測
2-3. 次世代技術や業界の発展との関連性
2-4. データラベリングの需要増加がもたらす影響
2-5. データラベリングの活用事例
3. データラベリング業務の外注化のメリットとは
3-1. コスト削減や効率化の可能性
3-2. 専門知識やスキルの活用
3-3. データラベリング業務の外注化を検討するポイント
3-4. データラベリング外注で失敗しないための注意点
4. ヒューマンサイエンスの実績
5. ヒューマンサイエンスのデータラベリング、LLM RAGデータ構造化代行サービス

1. データラベリングとは

「教師あり学習」に必須のデータラベリングとは、その言葉の通り、データにラベルをつける作業を指します。ですが、データにラベルをつける、とはどういうことでしょうか？ここではデータラベリングの仕組みについて説明します。

1-1. データラベリングの定義と特徴

データの中のAIに認識させたい対象に印（ラベル）をつける作業がデータラベリングです。このラベルの付け方にはいろいろな種類があります。例えば画像のラベリングでは、対象を矩形で囲む「バウンディングボックス」、対象の指定された位置にポイントを打つ「キーポイント」、対象の輪郭をなぞるように塗り分ける「セグメンテーション」などがあります。テキストのラベリングであれば、文章中の対象部分（単語、センテンス、段落など）をアンダーラインやハイライトなどで選択する方法や、テキスト全体ひとまとめにラベルをつける方法があります。用途は違いますが、Word文書のコメント機能も、ある種のラベリングと考えて良いでしょう。付けられたラベルには、その対象が何であるかを示す「車」「人」「信号」などの種類・情報（クラスと呼ばれます）を付与します。こうしてラベル付されたデータが教師データとなり、AIの学習に使われます。

1-2. アノテーションとの違いは？

教師データを作成するために「アノテーション」を行う、という解説をご覧になった方も多いのではないでしょうか。弊社でも、「アノテーション」について解説したブログがあります。

>>アノテーションとは？その意味からAI・機械学習との関係まで解説。

一見違う意味があるように思える「データラベリング」と「アノテーション」ですが、教師データ作成という点では、同じと考えて良いでしょう。ですが、英単語としてはそれぞれ異なる意味もあります。ディープラーニングなどAI学習の手法は主に英語圏（特に米国）を中心に発達してきましたので、英語での二つの言葉の扱われ方を次に見ていきましょう。

1-3. 日本と海外での用語の使われ方の違い

英語では「アノテーション (annotation)」は本来、「注釈やコメントを文章に入れる」という意味を持ちます。例えば、文章の該当する部分に「*」などの印やアンダーラインをつけ、注釈を入れることを指します。教師データを作成する際にも、データに対し印をつけクラスを付与する、といった同様の作業をすることから「アノテーション」と呼ばれるようになりました。一方で「データラベリング (data labeling) 」も、商品に値札シールなど、ラベルを貼って商品名・値段などの情報を与える「ラベリング」と同じ作業をすることから、こちらも教師データを作成する際に使われます。

「アノテーション」という単語だけでwebで英文検索すると、「文章に注釈をつける方法について」など、作文や校正などのコンテンツが上位に上がります。「データラベリング」ではAI関連のコンテンツが上位に来るので、どちらかというと「データラベリング」の方が教師データ作成を指して使われることが多いようです。例えば、米国では教師データ作成のツール名が「labelimg」「labelme」などラベリングを想起させるものもあります。またオンラインツールを提供するSuperannotateという会社のブログでも「ラベル付された (be labeled)」という表現が頻繁に現れます。

とはいえ「データラベリング」「アノテーション」どちらも教師データを作成する作業を指す同じ言葉として考えてよいでしょう。ただ、「データラベリング」の方がより具体的な動作を想起させるので、ツールの操作説明や教師データの作業手順書などのレベルでは「データラベリング」の方が使用される頻度が高いようです。また、教師データを作成する作業者のことを「データラベラー (data labeler)」と呼ぶようです。

一方、日本では教師データを作成することを「アノテーションする」と呼ぶことが多いようです。教師データを作成する作業者のことを「アノテーター」と呼ぶのが日本では一般的です。

2. データラベリングの市場規模

データラベリングの市場規模については、さまざまなレポートがリリースされており、それぞれ市場規模の数字が異なっています。ですが、いずれのレポートでも、データラベリング市場は拡大傾向にあると報告されています。ここでは、2023年2月にMarkets and Marketsというマーケットリサーチ会社がリリースしたレポートと、2023年7月にUBSがリリースしたアナリストノートを参照して、データラベリングの市場規模について解説していきます。

2-1. 現状の市場成長率

2022年の時点で、データラベリングの世界全体での市場規模は8億USDです。レポートによれば2027年には36億USDに拡大すると予測され、これは年平均成長率で33.3%となります。

2-2. 将来のデータラベリング市場の動向予測

データラベリングの市場規模は拡大傾向が続くということは、Markets and Markets以外のレポートでも同様の報告がされています。拡大する要因としては、AIの技術発展に伴う、AI活用範囲の広がりが挙げられます。その中でも拡大の主な要因としては、医療系の画像 (medical imaging) での需要増があります。医療従事者を必要としない画像診断や医療ロボットの導入、新薬開発の際に発行されるさまざまなカルテ・論文・書類などのドキュメントサーチ（AI OCRに加え医療専門用語を強化した自然言語処理の技術もここでは必要とされるでしょう。）での活用が想定されています。

2-3. 次世代技術や業界の発展との関連性

スイスの大手銀行UBSの金融サービス部門は、2023年7月25日発表のアナリストノートで、長期的なAIの需要予測を、それまで2020年から5年間で年平均成長率を20％としていたところから、新たに2022年からの5年間での年平均成長率61％に引き上げました。これはChatGPTに代表される生成系AIの急速な活用の広まりを視野に入れた予測と考えられます。AI関連のこうした発展はAIバブルのような一過性の成長ではなく、長期的な動きと認識されています。

>>UBS、2022～2027年のAI需要の年平均成長率を61％と予測

データラベリングは生成系AIの分野でも、これまでのようにAIの学習に重要な役割を担うと考えられます。先に述べたような医療業界での活用の広がりなどと合わせて考えると、今後もデータラベリングを必要とするAIが活用される範囲は拡大し続けると言えるでしょう。

>>AI・機械学習にできること。業種別にみる活用事例12選。

2-4. データラベリングの需要増加がもたらす影響

データラベリングの需要増加は、新しい雇用機会を創出するでしょう。データラベリングは、セキュリティレベルによってはリモートワークで行うことが可能であり、そのため、地域・時間帯を限定せず幅広く人材を確保することが可能です。

一方で、データにプライバシーやセキュリティに関わる情報が含まれている場合、データを適切な環境で取り扱わなければ、流出・漏洩などの懸念があります。特に今後需要増加が見込まれる医療関連のデータラベリングでは、こうしたデータを取り扱うことが多いと考えられます。特にデータラベリングのベンダー企業は、こうしたセキュリティ面での管理体制を万全にするために、セキュアなリモートワーク環境構築に注力するだけでなく、セキュリティルームを用意しオンサイトで対応することや、客先常駐にも対応できることが、これまで以上に求められます。

2-5. データラベリングの活用事例

事例1　鹿島建設株式会社

同社では、生産性向上と就労環境の改善のためのウェブカメラなどを利用した現場管理システムのAI開発・導入を進める中で、膨大な時間とコストがかかる「AIモデルに学習させるラベリングされたデータ」をどう獲得するかが、技術的・時間的なネックとなっていました。本来注力すべきモデルの検討や開発に工数を割けないことが問題となっていたため、データラベリングを外部ベンダーに任せることで、モデル検討の時間を確保し、AI開発をよりスピーディーに進めることができました。

事例2　株式会社オリックス

同社では、請求書に代表されるような文書データの処理を効率化するAIツールの開発に際し、ベンダーに外注することで、海外の請求書や領収書など収集が難しいものに関しても、データ収集からデータラベリング作業までをワンストップで効率的に実現しました。その結果、AIツールの開発および精度向上をスムーズに進めることができました。

事例3　Harvard Medical School

同研究所では、神経メカニズムの研究においてマウス行動解析モデルの開発を行っています。これまでは、マウス動画のラベリング作業を研究者自身が手作業で行っていたため、膨大な時間が費やされていましたが、外注ベンダーの力を借りることで、数週間分のラベリング時間の短縮に成功しました。ラベリングされた大量のデータを短期間で入手できるようになったことで、高性能な機械学習モデルの作成が容易になり、研究推進に寄与する専門的知識が必要な部分に時間を割くことができるようになりました。

弊社のデータラベリング活用事例

SCSK株式会社 — アノテーション委託で効率化、品質向上、コスト削減を実現～分業によりAI開発の作業効率が改善し、開発期間の短縮化に貢献～

住友重機械工業様 — 高速かつ正確なアノテーション作業をアウトソーシング化で実現し、機械学習システムの精度・信頼性を確保

3. データラベリング業務の外注化のメリットとは

データラベリングには現状ではどうしても人手が必要です。しかも数千から数十万の膨大な数量のデータにラベルをつけなければならないため、数週間から数ヶ月単位の時間がかかることもしばしばです。AI開発を行う企業では、こうしたラベリングを開発エンジニアが担うケースがありますが、それでは本来の開発業務を行う時間を圧迫してしまいます。ここではデータラベリング業務の外注化によるメリットについて解説します。

3-1. コスト削減や効率化の可能性

データラベリングはAI開発業務と異なりプログラミングスキルやAIエンジニアリングの専門知識が必須ではありません。さらに、AI開発プロセスにおいて時間を大幅に取られてしまう作業です。これをエンジニアが行っては、本来の開発業務以外のコストがかかってしまいます。また、自社でラベリングのための人材を確保したとしても、ラベリング業務が発生しない場合はムダになってしまいます。そのため、人材確保やデータラベリングに関わるマネジメントの手間を考えると、自社でラベリングを行うのではなく、専門のベンダーに外注化することでコスト削減と業務の効率化を図ることが、最大のメリットと言えるでしょう。

3-2. 専門知識やスキルの活用

データラベリングにはAI開発に求められるエンジニアリング等の専門性は必要としませんが、データの品質を保ち、高い生産性を持って納期に合わせるためには、適切なマネジメントスキルに加え、ラベリングに関する専門性やノウハウが必要です。外部ベンダーに依頼することで、このようなデータラベリングならではの専門性やノウハウを活用することができます。

3-3. データラベリング業務の外注化を検討するポイント

外注化する際には、以上のメリットを念頭に、自社のAI開発の目的に合ったデータラベリングの実績や品質の確保、セキュリティ対策などを含め、複数のベンダーと話をすることをお勧めします。参考となりますが、弊社の以下のブログもご覧ください。

>>アノテーション作業を外注化するには？コツ7選

3-4. データラベリング外注で失敗しないための注意点

外注を進める際に重要なのは、発注後の管理です。見積や仕様書を取り交わして発注した後でも、実際の作業が始まると想定外のケースや判断基準のズレが発生し、データ品質に影響を及ぼすことがあります。こうした認識の齟齬による品質の低下を早期に修正するには、ベンダーとの定期的な打ち合わせや、変更内容を確実に共有できる仕組みが欠かせません。また、プロジェクトが拡大した際に人員やスケジュールを柔軟に調整できる体制を持っているかどうかも重要です。価格や費用だけで選ぶのではなく、対応力・柔軟性・情報共有の仕組みを含めて総合的にベンダーを評価し検討することが大切です。

4. ヒューマンサイエンスの実績

弊社のこれまでの実績の中から、お客様の声をいただいたインタビュー記事をご紹介いたします。ぜひご覧ください。

>>高速かつ正確なアノテーション作業をアウトソーシング化で実現〜機械学習システムの精度・信頼性を確保〜（住友重機械工業様）

5. ヒューマンサイエンスのデータラベリング、LLM RAGデータ構造化代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やデータラベリング、データの構造化に対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

生成系AI LLMデータセット作成・構造化、「AIに最適化するマニュアル作成・整備支援」にも対応

弊社は創業当初から主な事業・サービスとしてマニュアル制作を行い、現在では「企業ナレッジ活用のための生成AI導入に向けて、AIが認識しやすいドキュメントの制作支援」も行っております。生成AIを用いた企業ナレッジやドキュメントの共有・活用においては、現在の技術ではまだツール等だけで100%の精度を実現することは難しいのが現状です。過去のドキュメント資産をどうしても活かしたい、といったお客様に対しては、ドキュメントデータの構造化にも対応します。さまざまなドキュメントを熟知している当社ならではのノウハウを活かし、最適なソリューションをご提供します。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。

内製支援

弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法の設計など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやデータラベリングに関するお客様のお困りごとを幅広く支援いたします。