
2022年11月30日にChatGPTが一般利用可能となって以来、ビジネスへの活用が急速に拡大しています。弊社でも公開直後からその可能性に注目し、アノテーション業務への応用にも取り組んできました。その一環として、2023年には「ChatGPTでアノテーションはできるのか?」というブログを公開しています。
当時の結論は、「想像以上に使えるが、タグ付けの抜け漏れがあるため人の手でチェックする必要がある」というものでした。
参考リンク:
ChatGPTでアノテーションはできるのか?
それから約2年半が経過し、ChatGPTも最新の4oへと進化しています。果たして最新版では、どのようなタグ付け(アノテーション)が可能になったのでしょうか。今回のブログでは、2023年に検証したタスクの中から「テキストへのタグ付け」に絞って、改めて検証を行いました。
- 目次
1.ChatGPTとは?
AIにはさまざまな種類があり、特定のタスクに特化した識別AI(例:物体検出)や、チェスで世界チャンピオンに勝利する戦略AI、そしてChatGPTのように人と自然に会話できる生成AIなど、それぞれ得意分野が異なります。
では、ChatGPTとはどのようなAIなのでしょうか?
2023年のブログでは、「ChatGPTってなんですか?」という問いをChatGPT自身に投げかけ、その回答を掲載しました。今回も同様に、2025年5月時点でChatGPTに説明を求めた結果が以下になります。
ChatGPT説明2025
参考:2023年時点でのChatGPT自身の説明
2023年版と比べると、最新バージョンは文体がやわらかく、具体例も交えて説明されており、可読性・親しみやすさともに向上していることがわかります。
2.アノテーション(タグ付け)とは?
こちらもChatGPTに説明してもらいました。最初は箇条書きでの出力でしたが、要点を簡潔にまとめるよう指示したところ、以下のような文章になりました。
2023年のブログでは「タグ付け」という言葉を使っていたため、本記事でも以降は「タグ付け」と表現します。
参考ブログ:
アノテーションとは?その意味からAI・機械学習との関係まで解説。
データラベリングとは?データ整理・活用の実例も紹介
データラベリングの世界での市場規模
3.ChatGPTによるタグ付けタスク実施と比較
2023年の検証では、以下の3つのタスクを試しました。
・文章へのタグ付け
・感情分析
・類似文章の生成
今回はこのうち、タグ付けタスクに再度フォーカスし、検証を行いました。使用したプロンプトとテキストは2023年当時のものを使用しました。対象文は2023年3月時点のWikipedia「大谷翔平」記事からの抜粋です。
出力結果はこちらとなりました。
2023年のブログ執筆時の出力は下記です。
両者を比較してみましょう。この比較にもChatGPTを使用しました。
プロンプト:
※この指示の次に2023年のタグ付け結果を続けて入力しています。
出力結果:
※あなたの例に該当するのが2023年のタグ付けを指します。
筆者自身も二つの文章を確認しましたが、ChatGPTが違いをきちんととらえていることがわかりました。地名や組織名をどのように区切るか、〇〇年オフという概念を時間に含めるかどうか、〇〇年シーズンの表記の場合シーズンまで含めるかどうかといったところに違いが出ています。これらは、どちらの考え方もありうるので実際に人がやる場合にも判断に悩みそうなエッジケースと言えます。
2023年の出力では「イチロー」「2001年」をタグ付けできなかったこと除けば、今回の対象をタグ付けできています。一方で2025年の結果について言えば、特にタグ付け漏れや間違いはありませんでした。
こうした点を踏まえると、ChatGPTでのタグ付けの精度は向上したと考えられます。一方で〜オフなどの扱い方からもわかる通り、言葉の理解に変化が見られます。
4.まとめ~果たしてChatGPTでのタグ付けはありなのか?
今回の検証では、人名と時間の取りこぼしが無い点を含めてタグ付けの精度が2023年に比べ向上していることが確認できました。一般的な情報メインの文章であれば十分に精度の高いタグ付けが可能ではないかと考えられます。
ただし、専門性の高い分野(例:医療系ドキュメント)や、表記揺れのある業界用語を含む文章については、インターネット上に公開されているものが少ないと考えられ、学習データの偏りなどにより精度が落ちる可能性もあります。また、「メジャーリーグベースボール(MLB)」のような複合表現をどうタグ付けするかについては、事前にルールを設けておかないと想定外の出力になることもあります。
そのため、2023年の時と同様、現時点でも「ChatGPTによる一次タグ付け」+「人による確認」のハイブリッドアプローチが実用的と言えます。この手法により、タグ付けに際して大幅な工数削減が期待できます。とはいえ、最終的な品質担保のためには一定の人的リソースも必要です。専門分野などのテキストへのタグ付けなど、目的とするタスクによっては膨大なタグ付け文章をチェックしなければならないというケースも考えられます。
自社内で全て対応するのが難しいという場合には、専門のベンダーに相談をすることをお勧めいたします。弊社では契約書や企業報告書へのタグ付けなどの実績もありますので、もしドキュメントのタグ付けでお困りでしたらChatGPTなどの生成AIの使用の有無も含めてせひご相談ください。
5.ヒューマンサイエンスの教師データ作成、LLM RAGデータ構造化代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やタグ付け、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
教師データ作成のみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのタグ付けや識別系AIの教師データ作成のみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。
内製支援
弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやタグ付けに関するお客様のお困りごとを支援いたします。