
AI開発にはさまざまな手法があります。中でもディープラーニングと呼ばれる手法が登場したことによって、AIの認識精度は飛躍的に進歩しました。AIの活用範囲も製造業・サービス業・医療・教育など、あらゆる分野に広がり、社会にとって必要不可欠な存在となっています。
ディープラーニングでは大量のデータをAIに与えることが必要です。そうすることによって、AIは大量のデータの中から目的に合致するパターンを見つけ出し学習します。AI学習には「教師あり学習」が用いられることが多いですが、この場合、教師データと呼ばれるデータが必要となります。教師データはデータラベリングという作業によって作成されますが、今回はこのデータラベリングについて、その仕組みと世界での市場規模について解説します。
- 目次
-
- 1. データラベリングとは
- 1-1. データラベリングの定義と特徴
- 1-2. アノテーションとの違いは?
- 1-3. 日本と海外での用語の使われ方の違い
- 2. データラベリングの市場規模
- 2-1. 現状の市場成長率
- 2-2. 将来のデータラベリング市場の動向予測
- 2-3. 次世代技術や業界の発展との関連性
- 2-4. データラベリングの需要増加がもたらす影響
- 3. データラベリング業務の外注化のメリットとは
- 3-1. コスト削減や効率化の可能性
- 3-2. 専門知識やスキルの活用
- 3-3. データラベリング業務の外注化を検討するポイント
- 4. ヒューマンサイエンスの実績
- 5. ヒューマンサイエンスのデータラベリング代行サービス
1. データラベリングとは
「教師あり学習」に必須のデータラベリングとは、その言葉の通り、データにラベルをつける作業を指します。ですが、データにラベルをつける、とはどういうことでしょうか?ここではデータラベリングの仕組みについて説明します。
1-1. データラベリングの定義と特徴
データの中のAIに認識させたい対象に印(ラベル)をつける作業がデータラベリングです。このラベルの付け方にはいろいろな種類があります。例えば画像のラベリングでは、対象を矩形で囲む「バウンディングボックス」、対象の指定された位置にポイントを打つ「キーポイント」、対象の輪郭をなぞるように塗り分ける「セグメンテーション」などがあります。テキストのラベリングであれば、文章中の対象部分(単語、センテンス、段落など)をアンダーラインやハイライトなどで選択する方法や、テキスト全体ひとまとめにラベルをつける方法があります。用途は違いますが、Word文書のコメント機能も、ある種のラベリングと考えて良いでしょう。 付けられたラベルには、その対象が何であるかを示す「車」「人」「信号」などの種類・情報(クラスと呼ばれます)を付与します。こうしてラベル付されたデータが教師データとなり、AIの学習に使われます。
1-2. アノテーションとの違いは?
教師データを作成するために「アノテーション」を行う、という解説をご覧になった方も多いのではないでしょうか。弊社でも、「アノテーション」について解説したブログがあります。
>>アノテーションとは?その意味からAI・機械学習との関係まで解説。
一見違う意味があるように思える「データラベリング」と「アノテーション」ですが、教師データ作成という点では、同じと考えて良いでしょう。ですが、英単語としてはそれぞれ異なる意味もあります。ディープラーニングなどAI学習の手法は主に英語圏(特に米国)を中心に発達してきましたので、英語での二つの言葉の扱われ方を次に見ていきましょう。
1-3. 日本と海外での用語の使われ方の違い
英語では「アノテーション (annotation)」は本来、「注釈やコメントを文章に入れる」という意味を持ちます。例えば、文章の該当する部分に「*」などの印やアンダーラインをつけ、注釈を入れることを指します。 教師データを作成する際にも、データに対し印をつけクラスを付与する、といった同様の作業をすることから「アノテーション」と呼ばれるようになりました。一方で「データラベリング (data labeling) 」も、商品に値札シールなど、ラベルを貼って商品名・値段などの情報を与える「ラベリング」と同じ作業をすることから、こちらも教師データを作成する際に使われます。
「アノテーション」という単語だけでwebで英文検索すると、「文章に注釈をつける方法について」など、作文や校正などのコンテンツが上位に上がります。「データラベリング」ではAI関連のコンテンツが上位に来るので、どちらかというと「データラベリング」の方が教師データ作成を指して使われることが多いようです。 例えば、米国では教師データ作成のツール名が「labelimg」「labelme」などラベリングを想起させるものもあります。またオンラインツールを提供するSuperannotateという会社のブログでも「ラベル付された(be labeled) 」という表現が頻繁に現れます。
とはいえ「データラベリング」「アノテーション」どちらも教師データを作成する作業を指す同じ言葉として考えてよいでしょう。ただ、「データラベリング」の方がより具体的な動作を想起させるので、ツールの操作説明や教師データの作業手順書などのレベルでは「データラベリング」の方が使用される頻度が高いようです。また、教師データを作成する作業者のことを「データラベラー (data labeler) 」と呼ぶようです。
一方、日本では教師データを作成することを「アノテーションする」と呼ぶことが多いようです。教師データを作成する作業者のことを「アノテーター」と呼ぶのが日本では一般的です。
2. データラベリングの市場規模
データラベリングの市場規模については、さまざまなレポートがリリースされており、それぞれ市場規模の数字が異なっています。ですが、いずれのレポートでも、データラベリング市場は拡大傾向にあると報告されています。ここでは、2023年2月にMarkets and Marketsというマーケットリサーチ会社がリリースしたレポートと、2023年7月にUBSがリリースしたアナリストノートを参照して、データラベリングの市場規模について解説していきます。
2-1. 現状の市場成長率
2022年の時点で、データラベリングの世界全体での市場規模は8億USDです。レポートによれば2027年には36億USDに拡大すると予測され、これは年平均成長率で33.3%となります。
2-2. 将来のデータラベリング市場の動向予測
データラベリングの市場規模は拡大傾向が続くということは、Markets and Markets以外のレポートでも同様の報告がされています。拡大する要因としては、AIの技術発展に伴う、AI活用範囲の広がりが挙げられます。その中でも拡大の主な要因としては、医療系の画像 (medical imaging) での需要増があります。医療従事者を必要としない画像診断や医療ロボットの導入、新薬開発の際に発行されるさまざまなカルテ・論文・書類などのドキュメントサーチ(AI OCRに加え医療専門用語を強化した自然言語処理の技術もここでは必要とされるでしょう。)での活用が想定されています。
2-3. 次世代技術や業界の発展との関連性
スイスの大手銀行 UBSの金融サービス部門は、2023年7月25日発表のアナリストノートで、長期的なAIの需要予測を、それまで2020年から5年間で年平均成長率を20%としていたところから、新たに2022年からの5年間での年平均成長率61%に引き上げました。これはChatGPTに代表される生成系AIの急速な活用の広まりを視野に入れた予測と考えられます。AI関連のこうした発展はAIバブルのような一過性の成長ではなく、長期的な動きと認識されています。
>>UBS、2022~2027年のAI需要の年平均成長率を61%と予測
データラベリングは生成系AIの分野でも、これまでのようにAIの学習に重要な役割を担うと考えられます。先に述べたような医療業界での活用の広がりなどと合わせて考えると、今後もデータラベリングを必要とするAIが活用される範囲は拡大し続けると言えるでしょう。
>>AI・機械学習にできること。業種別にみる活用事例12選。
2-4. データラベリングの需要増加がもたらす影響
データラベリングの需要増加は、新しい雇用機会を創出するでしょう。データラベリングは、セキュリティレベルによってはリモートワークで行うことが可能であり、そのため、地域・時間帯を限定せず幅広く人材を確保することが可能です。
一方で、データにプライバシーやセキュリティに関わる情報が含まれている場合、データを適切な環境で取り扱わなければ、流出・漏洩などの懸念があります。特に今後需要増加が見込まれる医療関連のデータラベリングでは、こうしたデータを取り扱うことが多いと考えられます。特にデータラベリングのベンダー企業は、こうしたセキュリティ面での管理体制を万全にするために、セキュアなリモートワーク環境構築に注力にするだけでなく、セキュリティルームを用意しオンサイトで対応することや、客先常駐にも対応できることが、これまで以上に求められます。
3. データラベリング業務の外注化のメリットとは
データラベリングには現状ではどうしても人手が必要です。しかも数千から数十万の膨大な数量のデータにラベルをつけなければならないため、数週間から数ヶ月単位の時間がかかることもしばしばです。AI開発を行う企業では、こうしたラベリングを開発エンジニアが担うケースがありますが、それでは本来の開発業務を行う時間を圧迫してしまいます。ここではデータラベリング業務の外注化によるメリットについて解説します。
3-1. コスト削減や効率化の可能性
データラベリングはAI開発業務と異なりプログラミングスキルやAIエンジニアリングの専門知識が必須ではありません。さらに、AI開発プロセスにおいて時間を大幅に取られてしまう作業です。これをエンジニアが行っては、本来の開発業務以外のコストがかかってしまいます。また、自社でラベリングのための人材を確保したとしても、ラベリング業務が発生しない場合はムダになってしまいます。そのため、人材確保やデータラベリングに関わるマネジメントの手間を考えると、自社でラベリングを行うのではなく、専門のベンダーに外注化することでコスト削減と業務の効率化を図ることが、最大のメリットと言えるでしょう。
3-2. 専門知識やスキルの活用
データラベリングにはAI開発に求められるエンジニアリング等の専門性は必要としませんが、データの品質を保ち、高い生産性を持って納期に合わせるためには、適切なマネジメントスキルに加え、ラベリングに関する専門性やノウハウが必要です。外部ベンダーに依頼することで、このようなデータラベリングならではの専門性やノウハウを活用することができます。
3-3. データラベリング業務の外注化を検討するポイント
外注化する際には、以上のメリットを念頭に、自社のAI開発の目的にあったデータラベリングの実績や品質の確保、セキュリティ対策などを含め、複数のベンダーと話をすることをお勧めします。参考となりますが、弊社の以下のブログもご覧ください。
4. ヒューマンサイエンスの実績
弊社のこれまでの実績の中から、お客様の声をいただいたインタビュー記事をご紹介いたします。ぜひご覧ください。
>>高速かつ正確なアノテーション作業をアウトソーシング化で実現〜機械学習システムの精度・信頼性を確保〜(住友重機械工業様)
5. ヒューマンサイエンスのデータラベリング代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。 AIモデルを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
最新のアノテーションツールを活用
ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。
関連ブログ