Some parts of this page may be machine-translated.

 

データラベリングとは?データ整理・活用の実例も紹介

データラベリングとは?データ整理・活用の実例も紹介

データを利活用する動きは近年ますます加速しています。AIの技術が発達し、その応用範囲を広めたことで、以前は蓄積される一方でそのままでは活用するのが難しかった、メールやチャットなどのテキストデータや画像、動画などのさまざまなデータも活用できる環境が整い始めています。

とはいえ、AIによってこうしたデータを活用するためには、多くの場合AIの開発を行わなければなりませんし、そのためには開発コストがかかります。手元にあるデータを活用したいけれど、まずはデータの整理、分類から始めてみたい、といった場合に、AI開発にいきなり取り組むのではなく、まずは人の手によって分類、整理を行って、その上で最適なゴールを定めたうえでAI化の検討を行なってみる、という方法もあります。

データを分類するためには、そのデータがどんな種類・内容のものなのかを示すラベルを付与する方法があります。AI開発の中では同様の作業をアノテーションと呼びますが、今回はAIの開発を伴わないラベル付けやデータラベリングについて、その活用事例とともに解説してまいります。



目次

1. AI開発におけるデータラベリングとは?

AI開発にはラベル付けという作業が必要になる場合があります。これはラベリングやデータラベリングと呼ばれます。画像のラベル付けならば、例えば「車が写っている画像で、車をバウンディングボックスで囲み、そのボックスに”車”というラベルを付与する」と言った作業をイメージすれば良いでしょう。この作業自体はラベル付けのための専用ツールや、エクセルなどでラベルを記録するなどさまざまな方法がありますが、全て人の手作業で行われます。一部自動化できるものやツールもありますが、多くの場合ほぼ手作業で行われます。
ラベル付されたデータはAIが「教師あり学習」によってデータから必要な情報を学習するために使われます。
これらは一般的にはアノテーションと呼ばれますが、海外(特に米国)ではデータラベリングという呼び方も広く使われています。

【関連コラム】
データラベリングの世界での市場規模
アノテーションとは?その意味からAI・機械学習との関係まで解説。

2. データ整理のためのデータラベリング、アノテーションとは?

弊社では、AI開発の目的以外でも、データにラベルを付けるデータラベリングやアノテーションが現在でも有効なことが多くあると考えています。特に非構造化データと一般的に呼ばれるデータ(画像や動画、議事録など不定形の文章など)はそのままでは、どういった内容であるのかなどがわからない場合も多く、こうしたデータにルールや方針を決定してラベル付をし、仕分けすることで、旧来の方法で検索・分類が可能になれば、AIを使用せずとも、それまで有効に活用できなかったデータを利活用する道が開けます。

もちろん、AIの導入が叫ばれて久しい昨今ですが、明確なゴールが見えないままAIの導入・検討をする前に、こうした非構造化データの整理から始めることが、無駄な開発費を投じることなく、データ活用の早道であるのかもしれません。AIで非構造化データを学習するためには、やはり同様にラベル付けが必要となります。ですが、AIを使うことを前提とせずとも、非構造化データのデータ整理は可能で、それだけでも従来の方法で情報の整理や活用が実現でき、新しいビジネスや新たな価値の創出を期待できます。

そのようなプロセスを経て、いずれ必要な局面でAIを活用することを選択肢として検討してはいかがでしょう。

3. データ整理・活用のためのラベリング実例

ここでは、上記のようなデータラベリングの実例をご紹介いたします。
あるお客様では、自社に大量の広告画像、動画を保有しており、各担当者が各々発注・管理・ファイルリングを行い、社内で統一されたルールがなく、データも一元管理されていない。またターゲットに訴求するコピーや広告画像など、各担当者の経験や感覚で制作されている。そのため広告のコピーや画像がどのようなターゲットにリーチし、セールスに結び付いているか各担当者の経験や感覚に依存している。
効率的かつデータドリブンなマーケティング、プロモーション活動を行うために、将来的にはAI化も視野に入れるけれども、AIでどこまで何かできるのか?まずはこのような非構造化データの整理やデータベース化を行ったうえで、見極めていきたい、といった依頼でした。

いざ、お仕事をさせていただくと、画像や動画を分類するラベルの種類も大量かつ判断に微妙なものも多くあり、またラベリングを進めるにするにつれ、当初は想定しなかった新しいタイプの画像や動画も発見され、次々にラベルの種類も増加していきました。個人的な感想にはなりますが、いきなりAIの導入ありきで進めても、おそらく良好な結果が出なかっただろうと感じました。そういった意味で、お客様は自社の現状を踏まえた、非常に地に足の着いたご賢明な構想を考えていらっしゃったと感じました。

4. まとめ

このように、自社に眠っている未整理の非構造化データを活用する方法としてのまずは、データ整理・活用の一手段、AI化の前段階としても、データラベリングは有効だということがお分かりいただけたかと思います。
弊社では、AI学習のためのアノテーションを通して、それ以外の非構造化データを活用するためのデータラベリングも積極的にお受けしております。またAI導入、そのためのアノテーションやラベリングにとどまらず、手元にあるデータをどのように活用し、どんな技術を用いれば良いかお悩みであれば、一度弊社にご相談いただければと思います。その際に必要であれば、弊社の開発パートナー企業をご紹介することも可能です。

5. ヒューマンサイエンスのアノテーション・データラベリング代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテータ150名の長期大型案件まで、業種を問わずさまざまなアノテーションやデータラベリングにご対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

ご要望に応じて様々なデータに対応

未整理・未分類のままの動画などの大量のデータに属性をラベルづけしてエクセル・CSVにまとめる、といったことから、画像、テキスト情報にラベル情報を付与、記述するといったことまで、様々な入力データと出力データに対応いたします。 

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP