AIの活用が進む昨今、目にする機会の増えた単語のひとつがアノテーションです。ここでは世間で言われているアノテーションが何なのかわからない、という方のために「アノテーションとは何か」ということからお話していきます。
- 目次
-
- 1. アノテーションとは?どんな場面で使われる?
- 1-1. アノテーションとは
- 1-2. アノテーションという言葉を目にする場面 li>
- 1-3. アノテーションがなぜ注目を浴びているのか
- 1-4. 膨大なビッグデータを有効活用する手段
- 1-5. AIの機械学習に必要な教師データを作る
- 2. AI開発におけるアノテーションの位置づけ
- 2-1. 教師データを作るアノテーション
- 2-2. 教師データを使った機械学習の仕組み
- 3. アノテーションの具体的な種類
- 3-1. 画像のアノテーション
- 3-2. 音声のアノテーション
- 3-3. テキストのアノテーション
- 4. AIの発展に連動するアノテーションの需要
- 4-1. AI技術の開発には欠かせないアノテーション
- 4-2. 今後ますます需要の高まるアノテーション
- 5. ヒューマンサイエンスのアノテーション代行サービス
- 5-1. 教師データ作成数4,800万件の実績
- 5-2. クラウドソーシングを利用しないリソース管理
- 5-3. 最新のアノテーションツールを活用
- 5-4. 自社内にセキュリティルームを完備
1. アノテーションとは?どんな場面で使われる?
1-1. アノテーションとは
アノテーション (annotation) とは、「注釈」や「注解」という意味を示す英単語です。ITの分野では、テキストや音声、画像、動画などあらゆる形態のデータの1つ1つに、タグやメタデータと呼ばれる情報を付けていく工程のことをアノテーションと呼んでいます。
1-2. アノテーションという言葉を目にする場面
YouTubeの設定オプションでもこの言葉が使われています。動画の最後に画面に重なって表示されるおすすめ動画や登録ボタンもアノテーションのひとつです。ここでは画面上の領域に対して情報が付け加えられています。
Googleで「アノテーション」と入力すると、「java」という言葉が一緒にサジェストされますが、それはエンジニアがコードを書く際に、そのコードが何に使われるかなどを他の人に共有するために書く注釈のこともアノテーションと呼んでいるためです。
1-3. アノテーションがなぜ注目を浴びているのか
アノテーションやデータへのタグ付けは、近年、ビックデータと呼ばれるビジネスに役立つ膨大なデータの有効活用や管理を行うためにに必要とされています。また、業務の効率性向上に役立つとされるAIの機械学習に必要な教師データの作成においてもアノテーションが欠かせません。
近年、少子高齢化による人口減少を受けて、幅広い業種で人手不足が続いています。そこで注目を浴びているのが、ビックデータやAIの活用です。
1-4. 膨大なビッグデータを有効活用する手段
ビッグデータには明確な定義はなく、人間が把握することが難しい巨大なデータ群のことを指します。これらデータ群には、SNSで書き込まれるソーシャルデータやWebサイトなどで収集される行動ログなどがあります。これらのデータ群をビジネスに活かす場合、詳細なデータ解析が必要となります。アノテーションやデータへのタグ付けにより、データの解析や分類がしやすくなり、効率よくビジネスに活用できるようになります。
1-5. AIの機械学習に必要な教師データを作る
AI(人工知能)はビッグデータから収集したデータをもとに、将来のデータの予測などもを行うことができます。そのためには大量の教師データを用いて使用した機械学習が必要となります。アノテーションでは「これは何のデータである」と情報タグ(メタデータ)を追加することでで、AIが正しく学習するために必要な教師なデータを作ることができます。
2. AI開発におけるアノテーションの位置づけ
2-1. 教師データを作るアノテーション
AI開発のプロセスにおいては、データに情報を付加するプロセスのことをアノテーションと呼んでいます。アノテーションされたデータは教師データと呼ばれ、AIの機械学習に利用されます。AI開発におけるアノテーションとは教師データを作る作業のことを指します。
アノテーションの位置づけを図で示すとこのようになります。
ここでいったん用語を整理しておきましょう。
AI:人工知能そのものを指します。
機械学習:AIが精度を上げるためのトレーニングです。
教師データ:機械学習に利用するデータです。
アノテーション:教師データを作る作業です。
2-2. 教師データを使った機械学習の仕組み
例えば、AIに「おにぎり」の写真を見せて「これは何?」という質問と、「これはおにぎりです」という答えの両方を人間が教えます。同じような写真を大量に何度も見せます。するとAIがどんどん「おにぎり」を覚えていくので、写真を見せて「これは何?」と聞いたときの「これはおにぎりです」「これはおにぎりではありません」という答えの正解率が上がっていきます。
この例では「これは何?」という問題と「これはおにぎりです」という解答の情報を画像データにひとつひとつ付加していく作業がアノテーションです。この作業は手作業で行われます。情報の付加が済んだら、そのデータは機械学習に利用される教師データになります。
人間と同じでAIも学習すればするほど正解率は上がります。AIの精度をより高めるには大量の教師データが必要になります。
教師データの意味や作り方についてはこちらの記事も参考にしてください。
>>教師データとは?AI・機械学習・アノテーションとの関係から作り方まで解説。
3. アノテーションの具体的な種類
アノテーションには用途に応じた種類があります。ここでは「画像」「音声」「テキスト」の3つについて説明します。
3-1. 画像のアノテーション
画像のアノテーションは大まかに3つに分類されます。
・物体検出 (オブジェクト・ディテクション)
画像に写っているものの中から物体を見つけて、「おにぎり」「人間」「自動車」など、対象に応じて意味のあるタグ付けをします。
・領域抽出 (セマンティック・セグメンテーション)
画像の中の領域を選択して、そこにタグ付けします。「この領域は海苔」「この領域は洋服」「この領域はドア」など選択した領域の意味を特定します。
・画像分類 (クラシフィケーション)
画像に対して、属性をタグ付けします。「鮭かタラコか」「水玉かストライプか」「開いているか閉じているか」などの情報を付加します。
3-2. 音声のアノテーション
音量や音の種類に対してタグ付けを行う場合と、人間が発声した言葉の意味にタグ付けを行う場合があります。後者では発話を文章として書き起こし、単語1つ1つにタグ付けを行うのが一般的な作業手順です。主に音声認識や意図抽出の分野で活用されます。
3-3. テキストのアノテーション
アノテーションによって、大量の文書から特定のテキストを抽出したり、欲しい情報に応じて、あちこちに散らばったデータから必要なテキストや文言を集約することができます。事前に設定したルールに従ってタグ付けを行い、文書の判別や内容の分析を行うことも可能です。不適切なコンテンツを取り除く目的でも活用されます。
また、事前に定義付けされたラベルによって、文章を意味的に分類することもできます。テキストアノテーションの中でも、テキスト分類アノテーションと呼ばれることもあり、例えば、ニュースサイトなどの「経済」「政治」といった記事のカテゴリ分けも、こういったアノテーションが活用されることがあります。
4. AIの発展に連動するアノテーションの需要
4-1. AI技術の開発には欠かせないアノテーション
AIに知的な作業を行わせるには、アノテーションされたデータを使ってAIを教育することが必要です。AIにできることが増えていく背景には、アノテーションのプロセスが必ず存在します。
4-2. 今後ますます需要の高まるアノテーション
スマートフォンやAIスピーカーで利用される”Hey Siri”や”OK, Google”などの音声認識や意図抽出、自動運転、eコマースで利用されるサジェスト機能、医療業界や建設業界での活用など、どの分野でもAIの活用が進むにつれ、アノテーションの市場もますます広がりを見せています。
5. ヒューマンサイエンスのアノテーション代行サービス
5-1. 教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAI開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応しています。 AIを導入したいけれど何から取り組んだらよいのかわからないという企業様も、ぜひ当社にご相談ください。
5-2. クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
5-3. 最新のアノテーションツールを活用
ヒューマンサイエンスが導入しているアノテーションツールの一つAnnoFabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。
5-4. 自社内にセキュリティルームを完備
ヒューマンサイエンスでは新宿オフィス内に ISMSの基準をクリアしたセキュリティルームを完備しています。守秘性の高いプロジェクトであってもオンサイトでご対応します。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。