Some parts of this page may be machine-translated.

 

アノテーション済みオープンデータセット 活用のメリットとデメリット

alt

2024.5.13

アノテーション済みオープンデータセット 活用のメリットとデメリット

近年、AIや機械学習の技術が急速に進歩し、データセットの重要性がますます高まっています。特にアノテーション済みオープンデータセットは、多くの機械学習プロジェクトで重要な役割を果たしています。しかし、その利用にはメリットだけでなくデメリットも存在します。ここでは、アノテーション済みオープンデータセットの代表的なものを3つ紹介するとともに、そのメリットとデメリットについて考察します。

目次

1. オープンデータセットとは

AI学習の主な手法の一つである「教師あり学習」を行うためには、アノテーションを施した教師データが必要となりますが、学習のためには数千~数万といった大量のデータを必要とします。これを自前で用意するとなると、膨大な手間と時間がかかってしまいます。AI研究・開発の重要な要素でありながら、研究開発プロジェクトを進める中で時間・コストという点で、ボトルネックとなるのがデータ収集やアノテーション作業といっても過言ではありません。こうしたデータ収集やアノテーション作業の負担を減らし、AI開発の促進・発展に寄与するために、アノテーション済みのデータセットを一般に無償公開している機関・組織もあります。これらの公開データがオープンデータセットです。

2. オープンデータセット3選

オープンデータセットは様々なものが公開されておりますが、ここでは中でも代表的な3つのデータセットを公開している機関・サイトをご紹介いたします。

UC Irvine Machine Learning Repository

カリフォルニア大学アーバイン校(University of California, Irvine)が提供する、機械学習の研究や実験に利用できるデータセットのオンラインリポジトリです。このリポジトリには、機械学習アルゴリズムの評価や新しい手法の開発に使用できる様々なデータセットが収録されています。



COCO dataset

COCO(Common Objects in Context) データセットは、大規模なオブジェクト検出、セグメンテーション、キャプション付けのデータセットです。様々なカテゴリの研究を奨励するために設計されており、コンピュータビジョンモデルのベンチマークによく使用されます。



Kaggle

データサイエンスや機械学習のコンペティションやプロジェクトをホスティングするプラットフォームです。さまざまなオープンデータセットが公開されています。また、AIモデルのオープンソースも数多く有り、データサイエンスと機械学習のコミュニティを支援する貴重なリソースとして利用されています。

3. メリットとデメリット

無償で公開されているこれらのデータセットですが、利用にあたっては、そのメリットとデメリットを知っておくことが大切です。



メリット

◯開発コストの削減

先に触れたように、教師データを自前で用意するのは非常に大変です。オープンデータセットはこのステップを必要とせず、データを入手すればすぐに学習を始められますので、大幅なコスト削減が可能です。



◯多様なデータの確保

AIの学習にはさまざまな種類のデータを用意することが大切です。同じような種類のデータだけで学習をすると、同様な種類のデータでは認識精度が高まりますが、それ以外のデータに対しての精度が上がらない「過学習」と呼ばれる状態になってしまいます。多様なデータが揃っているオープンデータセットを活用できればAIの識精度の向上も期待できるでしょう。



デメリット

◯品質のバラつき

アノテーションの品質について言えば、オープンデータセットは必ずしも高品質であるとは言えません。ラベルのつけ間違いや精度の低いアノテーションが含まれていることもあるため注意が必要です。



◯目的に適したデータが見つからない

オープンデータセットは、もともとコンペティションなどでAIの性能を競ったり、開発コミュニティで共有したりする目的で公開されているものが多く、その大半が汎用的なデータセットです。画像分類のアノテーションで言えば「大分類」が行われているようなデータセットと言えます。例えば、トマトの品種認識がAI開発の目的である場合、オープンデータセットではナスやトマトなどの種類をラベル付け(大分類)したデータセットは存在するかもしれませんが、トマトに特化して品種まで踏み込んでラベル付け(小分類)したデータセットは手に入らない可能性があります。

4. まとめ

オープンデータセットはPoCなどの検証段階で、適切なデータを入手することができれば、コストを抑え開発期間を短くして効果的に開発サイクルを回すことができるでしょう。ですが、更に開発を進め、AIの認識精度を向上するためには、その目的に合った教師データが必要になります。そのためには必要に応じてデータ収集やアノテーション作業を行わなければなりません。開発を主な業務とする組織や会社にとって、こうしたアノテーションを自社で行うことは、人手不足やコストの面で大きな負担となるばかりでなく、アノテーションに関するノウハウや経験の不足でAIの認識精度が問題となることも多くあります。そうした場合には、クラウドソーシングや専門性を持った外注ベンダーに依頼するという選択も良いでしょう。弊社では画像アノテーションはもちろん、自然言語のアノテーションにも豊富な経験と実績があります。外注について検討されていましたら、弊社に是非一度ご相談ください。

5. ヒューマンサイエンスのアノテーション・データラベリング代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテータ150名の長期大型案件まで、業種を問わずさまざまなアノテーションやデータラベリングにご対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

ご要望に応じて様々なデータに対応

未整理・未分類のままの動画などの大量のデータに属性をラベルづけしてエクセル・CSVにまとめる、といったことから、画像、テキスト情報にラベル情報を付与、記述するといったことまで、様々な入力データと出力データに対応いたします。 

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いプロジェクトであってもオンサイトでご対応することができ、セキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。

 

 

 

関連ブログ

 

 

お問い合わせ・資料請求

TOP