
テキスト生成AIのChatGPTが話題となっています。テーマを与えれば、それに基づいたテキストを自然な言葉で生成したり、プログラミングをサポートしたりと、非常に進歩したAIの登場といえるでしょう。とはいえ、こうしたAIはインターネット上に既にあるテキストデータやコードをもとに学習するので、特定の分野、たとえば医療カルテなど、高い専門性・秘匿性を必要とする分野においてはAIが学習するための情報が十分あるとはいえません。こうした分野でAIを用いて問題解決を図るには、依然として人の経験・知恵・勘といった、様々な暗黙知をアルゴリズムに落とし込む必要があります。そのためには、人の手によるアノテーション作業がまだ多くの場面において必要といえるでしょう。
大量のデータ一つ一つに情報を付与していくアノテーション作業に欠かせないのがアノテーションツールです。しかし、「アノテーションツール」などで検索すると、さまざまな名称のものが表示されます、それぞれ対応しているファイル形式や機能が異なっており、一体どのツールを使用すればよいか迷ってしまいます。そこで今回は、アノテーションの中でもテキストに絞り込んで、アノテーションツールを選ぶ際に検討すべき3つのポイントと、おすすめのアノテーションツールを4つご紹介します。
- 目次
1. アノテーションツールを選ぶ3つのポイント
1-1. 目的
テキストアノテーションツールは、自社でどのようなAIモデルを構築するかに合わせて選ぶ必要があります。テキストアノテーションの代表的なものは「固有表現抽出」「感情分析」「クラス分類」などですが、最適なアノテーションツールはそれぞれ異なります。例えば「固有表現抽出」であれば、文章内の特定の単語をスパン(span)タグで囲む機能が必要です。対話文などを用いた「感情分析」であれば、センテンスごとのタグ付ができるとよいでしょう。文章全体の種類を分類する「クラス分類」では、文章全体のタグ付け機能が必要になります。ツールによってできるアノテーションの種類は異なるため、目的にあったツールを選びましょう。
1-2. 機能と使いやすさ
膨大なデータを処理するアノテーション作業では、ツールの機能と使いやすさ(操作性)が重要になります。操作性という点では、マニュアルがなくても直感的に操作できるUI(ボタンの並びや画面構成)かどうか、ショートカットキーが充実しているかどうか、データの読み込みなど動作が軽快かどうかは生産性の向上のために重要です。機能面では、spanタグ同士を関連付ける機能など、AIが学習するために必要なデータを作成できるかどうか考慮するとよいでしょう。
また、アノテーションツールは大きくクラウド型とローカルインストール型に分かれます。クラウド型はインストール不要でアカウントを作成してログインすればすぐに使い始められます。
一方で、ローカル型は社外のクラウドサーバーにデータを持ち出すことなく作業できるため、データのセキュリティ管理という点で安心です。ツールによってはGitHubなどのバージョン管理システムからツールをダウンロードしたり、コマンドを実行してインストールしたりする必要があるなど、導入のハードルが高いものもあります。また、データをツール上で一括管理する機能が備わっていないものが多く、データ管理が煩雑になってしまうため、複数人で作業するにはあまり適していません。
さらに、それぞれのツールによって出力できるデータ形式は異なります。求める出力形式をサポートしているかどうかも、ツールを選ぶ際の重要なポイントの一つといえるでしょう。
1-3. 管理
一つのプロジェクトで多くのアノテーターを抱えて作業する場合、アノテーターやタスク(=アノテーション作業の最小単位)の管理機能も見逃せないポイントの一つです。例えば、アノテーターの日々の進捗状況(アノテーションの数、作業済みタスク数、差し戻し回数、など)を確認できたり、タスクごとのステータス(アノテーション済み、レビュー済み、差し戻し中、保留中、など)を確認できたりすると、管理業務がスムーズに行えるほか、品質の担保にも役立ちます。
ローカルツールではこうした管理機能が備わっていないものがほとんどですが、クラウドツールの多くが管理機能を備えており、大量のデータを複数人で長期間実施するプロジェクトでは有効といえます。
2. テキストアノテーションツール比較4選
今回は、テキストアノテーションの分野における代表的なアノテーションツールを4つご紹介いたします。
2-1. FastLabel(無料/有料)
FastLabelはクラウド型のアノテーションツールで、画像、動画、テキスト、音声、3次元(3D)、自動アノテーションなどに対応しています。
FastLabelのテキストアノテーションは、「固有表現抽出」「分類」「ペア分類」に対応しています。
「固有表現抽出」はテキスト中の指定された単語やセンテンスを切り出すアノテーションです。「分類」は、テキスト全体をひとまとまりとして、指定した種類に仕分けることができます。また、「ペア分類」では2つのテキストを並べて、比較分類することができます。
また、FastLabelは動作が軽快で、ページを読み込む際や、各メニュー間を移動する際も常にサクサクと表示されます。オートアノテーションにも対応しており、手作業のコストを削減することが可能です。さらに、プロジェクト管理機能も備えており、作業進捗やデータのレビューもツール上で完結します。
FastLabelについては、こちら。
2-2. brat(無料)
bratは、”BRAT Rapid Annotation Tool”の略で、ブラウザで使用する、オープンソースのローカルインストール型ツールです。テキストの固有表現抽出やそれらの関連付けが可能です。固有名詞をwikipediaなどに関連付けることで、名詞の正規化をする事もできます。アノテーションデータに複数の人がアクセスして同時に作業することも可能です。
使用するにはpython2が必要で、インストールもターミナルなどでコマンドを入力して行います。分類ラベルの設定などは、ツール上では行えず、インストールしたbratディレクトリ内に用意されたラベル設定ファイルに直接書き込む必要があります。また、アノテーションデータを書き出すファイルを事前に作成する必要もあります。こうしたインストールや必要な設定についての情報はホームページでは概要を解説しているのみなので、インストールからアノテーション作業開始までのハードルはやや高いと言えます。また、レビュー機能や進捗・ステータスなどのプロジェクト管理機能はないので、複数人でプロジェクトを進める際には、それを補う適切なマネジメントプランを立てる必要があります。
このツールを使用したプロジェクトについての外部フォーラムなどが多数あり、様々なプロジェクトを参照することができます。学術研究としてのアノテーション作業には最適といえるでしょう。
bratについては、こちら。
2-3. LabelBox(無料/有料)
LabelBoxはクラウド型のアノテーションツールです。画像、動画、テキスト、DICOM対応の医療データ、COGなどの地図データなど様々なアノテーションに対応しています。有料版での機能が充実しており、無料版で行えるアノテーションは機能制限のあるお試し版という位置づけです。無料版のテキストアノテーションは、一センテンス単位での分類に対応しています。会話文などの感情分析に使用することができるでしょう。
有料版では、固有表現抽出やテキスト分類といった様々なテキストアノテーションに対応しています。また、既にアノテーションされたデータを用いれば、オートアノテーションも可能です。レビューや進捗状況などの管理機能も備えており、大規模なプロジェクトや、継続性のあるプロジェクトに活用できるでしょう。
LabelBoxについては、こちら。
2-4. Label Studio(無料/有料)
Label Studioは、高い柔軟性を誇るオープンソースのアノテーションツールです。画像・音声・テキストなど、多様なデータ形式に対応しており、独自のラベリングUIを構築することも可能です。ローカル環境やオンプレミスにも容易に導入できるため、機密性の高い医療データや社内データの取り扱いにも適しています。大手企業や研究機関でも利用されることが多く、拡張性やカスタマイズ性を重視するユーザーにおすすめです。
Label Studioについては、こちら。
3. よくある質問(FAQ)
Q. 導入コストはどれくらい?
A. オープンソースや無料ツールを使えば初期費用ゼロで始められますが、商用ツールは月額課金制や従量課金制が一般的です。チームの規模や必要な機能によってコストが大きく変わるため、トライアルや無料プランでの検証をおすすめします。
Q. セキュリティ要件を満たせますか?
A. 契約書・医療カルテ・特許技術ドキュメントなど、機密性が高いデータを扱う場合は、オンプレミスでの運用やデータ暗号化、アクセス制御が可能なツールを選択しましょう。Label Studioなどオープンソース系のツールであれば、ローカルでの環境構築も可能ですので、機密情報の流出を抑えられるでしょう。
Q. 日本語に対応している?
A. Fast Labelは日本の会社が開発しているので、マニュアルなども日本語で確認することができます。それ以外のツールについては、全て英語の情報のみとなっています。データについては全て日本語テキストに対応していますので、日本語テキストファイルの作業が可能です。
4. まとめ
今回はアノテーションツールを選ぶ際に考えるべき3つのポイントを解説するとともに、4つのおすすめテキストアノテーションツールをご紹介いたしました。
昨今アノテーションツールの数も多くなってきているため、自社の目的に合った最適なアノテーションツールを選んで活用することで、時間や手間のかかるアノテーション作業をできるだけ効率化することが大事です。
なお、アノテーションツールの導入のコストを抑えたい場合、アノテーション自体の代行・委託を検討することも有効な手段の一つです。当社ではアノテーションツールのご相談からアノテーションの代行まで幅広く対応しておりますので、ぜひお気軽にお声がけください。
5.ヒューマンサイエンスの教師データ作成、LLM RAGデータ構造化代行サービス
5-1. 教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やデータラベリング、データの構造化に対応しています。
5-2. クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
5-3. 教師データ作成のみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIの教師データ作成のみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
5-4. 自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。
5-5. 内製支援
弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやデータラベリングに関するお客様のお困りごとを支援いたします。