
はじめに
生成AI/LLMモデル構築が必要なシーンが増え、そのような業務に関わっている方は「キュレーション」という言葉を耳にする機会が増えているかと思います。しかし、具体的にどのようなことを指し、どんな場面で役立っているのか、イメージしにくいと感じる方も多いのではないでしょうか。
そこで本ブログでは、「キュレーションとは何か」という基本的なところから、どのような分野で活用されているのか、そしてヒューマンサイエンスがこれまでに対応してきた事例を通して、キュレーションの実際の方法や成功させるためのポイントをご紹介します。
生成AI/LLMモデル構築に関するキュレーション委託を検討している方や、具体的な依頼方法に悩まれている方にとって、ヒントとなる内容をお届けできれば幸いです。
- 目次
1. キュレーションとは
キュレーションとは、膨大な情報の中から目的に合ったデータやコンテンツを収集・選別し、分かりやすく整理・提供することを指します。単なる「情報の集約」にとどまらず、信頼性や有用性の観点から取捨選択された情報が、ユーザーにとって価値ある形で提供される点が特徴です。
たとえば、生成AI/LLMモデル構築については、キュレーションを行うことで、信頼性の高い情報を選別し、データの一貫性や正確性を確保することで、AI/LLMの品質向上に貢献できます。
生成AI/LLMモデル構築でのキュレーション業務内容や重要性については、以下のブログ記事でわかりやすく解説していますので、ぜひご覧ください。
生成AI/LLMモデル構築におけるキュレーションとは?業務内容や重要性をわかりやすく解説
2. キュレーションが活用されている主な分野
キュレーションは、AI・機械学習をはじめとするさまざまな先端分野で欠かせないプロセスとなっています。特に大量のデータを扱う開発現場では、不要なノイズの除去や高品質なデータの抽出と整理が成果に直結するため、キュレーションの重要性が高まっています。
ここでは、キュレーションが活用されている代表的な事業分野の例をご紹介します。
2-1. AI画像生成/画像分類モデル開発
画像を用いたAIモデルの開発では、大量の画像データが必要になりますが、その中には品質の低い、あるいは文脈にそぐわない画像が含まれていることもあります。キュレーション作業では、これらのノイズを取り除いたり、正確なラベル情報を付与したりすることで、モデルの信頼性と精度を向上させます。
2-2. AIを使った推薦・検索エンジン
ユーザーに適切なコンテンツを提示するためには、元となる情報の質が極めて重要です。キュレーションによって、ユーザーの意図に合致した情報を選定したり、信頼性の低いコンテンツを除外したりすることで、推薦精度や検索体験の質を高めることができます。
2-3. 音声AI
音声認識や合成のAI開発においても、品質の高い音声データの選定や調整が不可欠です。キュレーションでは、発話内容のバランスを整えたり、ノイズの多い録音や認識ミスを含むサンプルを除去したりすることで、AIモデルの性能を安定させる役割を果たします。
2-4. LLMモデル開発
大規模言語モデル(LLM)の開発では、大量のテキストデータの中から高品質な言語表現を抽出・整備することが求められます。日本語や英語の文書を対象に、誤訳や不自然な表現を修正したり、不要なコンテンツをフィルタリングしたりする作業に、キュレーションが活用されています。
このように、キュレーションは各種AI開発の品質を支える重要な工程として、多くの分野で導入が進んでいます。
3. ヒューマンサイエンスでの代表的な事例紹介
ヒューマンサイエンスでは、さまざまな業界や開発フェーズにおけるキュレーション業務を多数手がけています。ここでは、実際に対応したLLM開発プロジェクトの一例をご紹介します。
【事例】LLM精度向上のための対訳データ評価プロジェクト
あるお客様より、機械的に収集された英文と、LLMが生成した和訳からなる対訳データをご提供いただき、一定の品質レベルに達しているかを判定・整備するキュレーション業務を行いました。
■ 課題・ニーズ
提供された英語の原文は機械的に収集されたもので、日本語訳はLLMによって作成されたものでした。医療、科学、金融といった専門性の高い分野が含まれており、英文の正確性の確認、日本語訳の正確性や自然な表現化の確認に加えて、質疑応答の内容が本文に即しているか整合性の検証が求められたため、専門的な背景や知識も必要でした。
■ 作業内容
・対訳データの評価(使用可/不可の分類)
・訳文の正確さ、自然さ、分かりやすさの評価
・質問と回答のペアが、本文の内容と合っているかどうかの検証
■ 工夫した点
・各分野に精通した英日翻訳者が高い英語・日本語力と専門性が求められる内容にも対応
・短期間で大量データの処理ができる豊富なリソースを確保
・経験豊富なプロジェクトマネージャーが体制構築から作業設計まで柔軟に提案・対応
・社内の技術チームと連携し、効率化のためにツールを開発
このように、ヒューマンサイエンスでは専門性と豊富なリソースを活かし、LLM開発におけるキュレーションニーズに柔軟に対応しています。
4. キュレーション事例から見える共通ポイント
ここまでご紹介したように、キュレーションはAI/LLM開発や大規模データ処理において重要な役割を担っており、その成果はプロジェクトの精度や品質に大きく影響します。ヒューマンサイエンスが多くのプロジェクトで蓄積してきた経験から、データキュレーションを成功させるために特に重要だと考えるポイントを3つご紹介します。
1. 目的に応じた評価基準の設計
キュレーションの目的はプロジェクトごとに異なります。例えば、翻訳品質を重視するのか、QAデータの整合性を重視するのか、どちらも同程度重視するかで評価基準は大きく変わります。作業を開始する前に、目的に合った明確な評価軸を定義することが、効率的かつ効果的なキュレーションにつながります。
2. 専門性のある人材の確保
特に専門性の高い分野(医療、科学、金融など)では、一般的な基準だけでは判断できないケースも多く見られます。そのため、当該分野の知識を持つ専門家がキュレーションに関与することで、より正確で信頼性の高いデータ整備が可能になります。
3. 柔軟なチーム体制と進行管理
大量データを短期間で処理するには、リソースの柔軟な調整や進行管理の工夫が欠かせません。スケジュールや成果物のクオリティを維持するためには、経験豊富なプロジェクトマネージャーの存在と、スムーズに対応できるチーム体制が成功のカギとなります。
ヒューマンサイエンスでは、これらのポイントを踏まえた上で、お客様の課題や目的に応じた最適なキュレーション体制をご提案しています。
今後、AI/LLM開発やデータ整備に関する課題に直面した際には、ぜひ一度ご相談ください。専門性と柔軟な体制で、御社のプロジェクトをしっかりとサポートいたします。
5. まとめ:キュレーションの依頼はヒューマンサイエンスへ
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
キュレーション・アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。