Some parts of this page may be machine-translated.

 

テキストアノテーションツールおすすめ3選を比較~ツールを選ぶ3つのポイントとは~

テキストアノテーションツールおすすめ3選を比較~ツールを選ぶ3つのポイントとは~





テキスト生成AIのChatGPTが話題となっています。テーマを与えれば、それに基づいたテキストを自然な言葉で生成したり、プログラミングをサポートしたりと、非常に進歩したAIの登場といえるでしょう。とはいえ、こうしたAIはインターネット上に既にあるテキストデータやコードをもとに学習するので、特定の分野、たとえば医療カルテなど、高い専門性・秘匿性を必要とする分野においてはAIが学習するための情報が十分あるとはいえません。こうした分野でAIを用いて問題解決を図るには、依然として人の経験・知恵・勘といった、様々な暗黙知をアルゴリズムに落とし込む必要があります。そのためには、人の手によるアノテーション作業がまだ多くの場面において必要といえるでしょう。

 

大量のデータ一つ一つに情報を付与していくアノテーション作業に欠かせないのがアノテーションツールです。しかし、「アノテーションツール」などで検索すると、さまざまな名称のものが表示されます、それぞれ対応しているファイル形式や機能が異なっており、一体どのツールを使用すればよいか迷ってしまいます。そこで今回は、アノテーションの中でもテキストに絞り込んで、アノテーションツールを選ぶ際に検討すべき3つのポイントと、おすすめのアノテーションツールを3つご紹介します。

目次

1. アノテーションツールを選ぶ3つのポイント

1-1. 目的

テキストアノテーションツールは、自社でどのようなAIモデルを構築するかに合わせて選ぶ必要があります。テキストアノテーションの代表的なものは「固有表現抽出」「感情分析」「クラス分類」などですが、最適なアノテーションツールはそれぞれ異なります。例えば「固有表現抽出」であれば、文章内の特定の単語をスパン(span)タグで囲む機能が必要です。対話文などを用いた「感情分析」であれば、センテンスごとのタグ付ができるとよいでしょう。文章全体の種類を分類する「クラス分類」では、文章全体のタグ付け機能が必要になります。ツールによってできるアノテーションの種類は異なるため、目的にあったツールを選びましょう。

1-2. 機能と使いやすさ

膨大なデータを処理するアノテーション作業では、ツールの機能と使いやすさ(操作性)が重要になります。操作性という点では、マニュアルがなくても直感的に操作できるUI(ボタンの並びや画面構成)かどうか、ショートカットキーが充実しているかどうか、データの読み込みなど動作が軽快かどうかは生産性の向上のために重要です。機能面では、spanタグ同士を関連付ける機能など、AIが学習するために必要なデータを作成できるかどうか考慮するとよいでしょう。

 

また、アノテーションツールは大きくクラウド型とローカルインストール型に分かれます。クラウド型はインストール不要でアカウントを作成してログインすればすぐに使い始められます。

 

一方で、ローカル型は社外のクラウドサーバーにデータを持ち出すことなく作業できるため、データのセキュリティ管理という点で安心です。ツールによってはGitHubなどのバージョン管理システムからツールをダウンロードしたり、コマンドを実行してインストールしたりする必要があるなど、導入のハードルが高いものもあります。また、データをツール上で一括管理する機能が備わっていないものが多く、データ管理が煩雑になってしまうため、複数人で作業するにはあまり適していません。

 

さらに、それぞれのツールによって出力できるデータ形式は異なります。求める出力形式をサポートしているかどうかも、ツールを選ぶ際の重要なポイントの一つといえるでしょう。

1-3. 管理

一つのプロジェクトで多くのアノテーターを抱えて作業する場合、アノテーターやタスク(=アノテーション作業の最小単位)の管理機能も見逃せないポイントの一つです。例えば、アノテーターの日々の進捗状況(アノテーションの数、作業済みタスク数、差し戻し回数、など)を確認できたり、タスクごとのステータス(アノテーション済み、レビュー済み、差し戻し中、保留中、など)を確認できたりすると、管理業務がスムーズに行えるほか、品質の担保にも役立ちます。

ローカルツールではこうした管理機能が備わっていないものがほとんどですが、クラウドツールの多くが管理機能を備えており、大量のデータを複数人で長期間実施するプロジェクトでは有効といえます。

2. アノテーションツール比較3選

今回は、テキストアノテーションの分野における代表的なアノテーションツールを3つご紹介いたします。

2-1. FastLabel

FastLabelはクラウド型のアノテーションツールで、画像、動画、テキスト、音声、3次元(3D)、自動アノテーションなどに対応しています。

 

FastLabel

 

FastLabelのテキストアノテーションは、「固有表現抽出」「分類」「ペア分類」に対応しています。
「固有表現抽出」はテキスト中の指定された単語やセンテンスを切り出すアノテーションです。「分類」は、テキスト全体をひとまとまりとして、指定した種類に仕分けることができます。また、「ペア分類」では2つのテキストを並べて、比較分類することができます。

 

また、FastLabelは動作が軽快で、ページを読み込む際や、各メニュー間を移動する際も常にサクサクと表示されます。オートアノテーションにも対応しており、手作業のコストを削減することが可能です。さらに、プロジェクト管理機能も備えており、作業進捗やデータのレビューもツール上で完結します。

 

FastLabelについては、こちら

2-2. brat

bratは、”BRAT Rapid Annotation Tool”の略で、ブラウザで使用する、オープンソースのローカルインストール型ツールです。テキストの固有表現抽出やそれらの関連付けが可能です。固有名詞をwikipediaなどに関連付けることで、名詞の正規化をする事もできます。アノテーションデータに複数の人がアクセスして同時に作業することも可能です。

 

brat

 

使用するにはpython2が必要で、インストールもターミナルなどでコマンドを入力して行います。分類ラベルの設定などは、ツール上では行えず、インストールしたbratディレクトリ内に用意されたラベル設定ファイルに直接書き込む必要があります。また、アノテーションデータを書き出すファイルを事前に作成する必要もあります。こうしたインストールや必要な設定についての情報はホームページでは概要を解説しているのみなので、インストールからアノテーション作業開始までのハードルはやや高いと言えます。また、レビュー機能や進捗・ステータスなどのプロジェクト管理機能はないので、複数人でプロジェクトを進める際には、それを補う適切なマネジメントプランを立てる必要があります。

 

このツールを使用したプロジェクトについての外部フォーラムなどが多数あり、様々なプロジェクトを参照することができます。学術研究としてのアノテーション作業には最適といえるでしょう。

 

bratについては、こちら

2-3. LabelBox

LabelBoxはクラウド型のアノテーションツールです。画像、動画、テキスト、DICOM対応の医療データ、COGなどの地図データなど様々なアノテーションに対応しています。有料版での機能が充実しており、無料版で行えるアノテーションは機能制限のあるお試し版という位置づけです。無料版のテキストアノテーションは、一センテンス単位での分類に対応しています。会話文などの感情分析に使用することができるでしょう。

 

LabelBox

 

有料版では、固有表現抽出やテキスト分類といった様々なテキストアノテーションに対応しています。また、既にアノテーションされたデータを用いれば、オートアノテーションも可能です。レビューや進捗状況などの管理機能も備えており、大規模なプロジェクトや、継続性のあるプロジェクトに活用できるでしょう。

 

LabelBoxについては、こちら

3. まとめ

今回はアノテーションツールを選ぶ際に考えるべき3つのポイントを解説するとともに、3つのおすすめテキストアノテーションツールをご紹介いたしました。

 

昨今アノテーションツールの数も多くなってきているため、自社の目的に合った最適なアノテーションツールを選んで活用することで、時間や手間のかかるアノテーション作業をできるだけ効率化することが大事です。

 

なお、アノテーションツールの導入のコストを抑えたい場合、アノテーション自体の代行・委託を検討することも有効な手段の一つです。当社ではアノテーションツールのご相談からアノテーションの代行まで幅広く対応しておりますので、ぜひお気軽にお声がけください。

4. AI活用のご相談はヒューマンサイエンスへ

4-1. 最新のアノテーションツールを活用

ヒューマンサイエンスが導入しているアノテーションツールの一つAnnofabでは、プロジェクトの進行中にもクラウド上でお客様から進捗確認やフィードバックをいただくことが可能です。作業データはローカルのマシンに保存できない仕様とすることで、セキュリティにも配慮しています。

4-2. 教師データ作成数4,800万件の実績

「AIを導入したいけれど何から取り組んだらよいのかわからない」
「外注するにも何を依頼すればよいのかわからない」
そんなときはぜひヒューマンサイエンスにご相談ください。

ヒューマンサイエンスでは自然言語処理、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAI開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名の長期大型案件まで、業種を問わずさまざまなアノテーションのプロジェクトにご対応します。
>>ヒューマンサイエンスのアノテーションサービス

4-3. クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングを利用せず、当社が直接契約した作業担当者とプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

4-4. 自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。守秘性の高いプロジェクトであっても、オンサイトでご対応します。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。作業担当者にはセキュリティ教育を継続して実施し、リモートのプロジェクトであっても情報やデータの取り扱いには細心の注意を払っています。



 

 

 

関連ブログ

 

 

人気記事ランキング

お問い合わせ・資料請求

TOP