ドメイン特化LLMが“賢くならない”理由― 品質向上を阻む3つのポイント

2026.4.28

ドメイン特化LLMが“賢くならない”理由― 品質向上を阻む3つのポイント

1. なぜ「ドメイン特化したのに精度が上がらない」のか
2. ドメイン特化LLMが賢くならない理由①
ドメイン知識が十分に反映されていない
3. ドメイン特化LLMが賢くならない理由②
ドメインデータが「LLMにとって参照しやすい形」になっていない
4. ドメイン特化LLMが賢くならない理由③
評価設計が曖昧なまま改善を進めている
5. ドメイン特化LLMの品質向上に必要な取り組み
6. まとめ
7. ヒューマンサイエンスの教師データ作成、LLM RAGデータ構造化代行サービス

1. なぜ「ドメイン特化したのに精度が上がらない」のか

「自社の業務データをAIに学習させれば、もっと賢くなるはずだ。」

生成AIの活用を進める企業の多くが、こう考える事でしょう。
そして実際に、社内マニュアルや技術資料、FAQ、過去の問い合わせ履歴などをAIに読み込ませ、業務に特化したLLMの構築に取り組み始めています。

最近では、社内ドキュメントを検索して回答を生成するRAG（Retrieval-Augmented Generation）型のAIシステムも普及し、企業が自社データを活用したLLMを構築する環境は急速に整ってきました。

こうした環境の整備によって、「LLM＋自社データ」を活用する仕組みは多くの企業で検討・導入され始めています。しかし実際に取り組んだ企業からは、次のような声が少なくありません。

「自社データを学習させたのに、期待したほど回答精度が上がらない。」

「RAGを導入したのに、回答が的を得ていないので実務では使いにくい。」

「PoCでは動いていたのに、本番運用になると回答品質が安定しない。」

このような状況に直面したとき、多くの企業は「モデルの性能」に原因を求めがちです。しかし実際には、問題の多くはモデルではなくデータ設計にあると考えられます。

本記事では、ドメイン特化LLMの応答品質が思うように向上しない理由について、その背景を整理していきます。

参考ブログ：ドメイン特化LLMのニーズの高まりとその背景

2. ドメイン特化LLMが賢くならない理由①

ドメイン知識が十分に反映されていない

ドメイン特化LLMの導入を進める企業の多くが直面するのが、「回答はそれらしいが、実務では使いにくい」という問題です。

例えば製造業では、設備トラブルや品質不良が発生した際の対応について、一般的な知識としては正しい内容であっても、実際の現場ではそのまま適用できないケースがあります。

ある製品で品質不良が発生した場合でも、使用している設備の種類、製造ラインの条件、材料ロット、過去のトラブル履歴などによって原因や対応方法が変わることがあります。また、マニュアルには明確に記載されていない調整のポイントや注意点など、ベテラン技術者が経験的に把握している知識が重要になる場合も少なくありません。

LLMの回答がこのような現場の状況を反映できなければ、一般的な内容としては間違っていなくても業務に導入するのは難しいでしょう。企業の専門知識は、社内では「当たり前の知識」として扱われていることが多く、その専門性が十分に意識されないことがあります。しかし、その知識こそが企業の競争力の源泉であり、外部から見れば高度な専門性を持つ情報でもあります。

もしLLMの回答の評価について、専門知識を持たない担当者が行ってしまうと、一見問題がない回答でも、実際の業務では使えない内容を見逃してしまったり、問題ないと評価してしまったりする可能性があります。その結果、AIは「一見正しいが実務では役に立たない回答」を学習・生成し続けることになります。

ドメイン特化LLMを実用レベルに引き上げるためには、データ設計や評価の段階から、当該分野の専門知識を適切に反映させることが不可欠です。

3. ドメイン特化LLMが賢くならない理由②

ドメインデータが「LLMにとって参照しやすい形」になっていない

ドメイン特化LLMの導入を検討する企業から、次のような質問をいただくことがあります。

「社内のPDFやExcel、Wordなどの資料をRAGに取り込めば、AIは業務知識を理解して応答してくれるのでしょうか？」

企業には、長年蓄積された技術文書や業務マニュアル、FAQ、トラブル事例など、多くのドキュメントが存在します。こうした資料をAIに読み込ませれば、業務知識として活用できるのではないかと考えるのは自然なことです。しかし実際には、ドキュメントをそのまま投入するだけで応答品質が大きく改善するケースは多くありません。

企業の文書は、画像を含むPDFや複雑な段組・表組みなど、LLMが参照しやすい構造になっていないことも少なくありません。部署や担当者によって書き方が異なり、古い情報と新しい情報が混在している場合もあります。

RAGは、関連する情報を検索してLLMに提示する仕組みですが、検索対象となるデータがこのような状態であれば、適切な情報を取得できなかったり、断片的な情報をもとに回答が生成されたりすることがあります。

つまり応答品質の問題は文書が豊富に存在するかどうかではなく、その文書に記載されている情報がLLMにとって参照しやすい形になっているかどうかです。

ドメイン特化LLMの精度を高めるためには、単にドキュメントを投入するだけではなく、業務知識をLLMが参照しやすい形に整理・構造化していくことが重要になります。

参考ブログ：RAG導入支援 – AI活用を支えるマニュアル標準化AI開発・RAG導入・AI校正支援特設サイト

4. ドメイン特化LLMが賢くならない理由③

評価設計が曖昧なまま改善を進めている

もう一つ多くの企業が直面する問題が、LLMの評価方法です。

AIの回答を人が確認し、「前より良くなった」「大きな間違いはない」といった曖昧な評価設計で改善を進めようとしている場合もあるかもしれません。一見すると問題ないように思えますが、この方法では改善の方向性を明確にすることが難しくなります。

本来、LLMの品質は複数の観点で評価されるべきものです。回答の正確性や情報の網羅性、業務への適合性など、さまざまな視点で確認する必要があります。しかし評価基準が曖昧なままでは、何を改善すべきかが明確にならず、結果として同じ問題を繰り返してしまう可能性があります。

このような状況では、改善サイクルが回っているように見えても、実際には品質向上につながっていないことも少なくありません。

ドメイン特化LLMの品質を高めるためには、モデルのチューニングだけでなく、評価基準そのものを設計することが重要になります。

参考ブログ：国産LLMにおけるRLHFの役割 ― 日本語LLMの品質を決める「人の判断」はどこで効いてくるのか

5. ドメイン特化LLMの品質向上に必要な取り組み

ここまで見てきたように、ドメイン特化LLMの品質は単一の要素で決まるものではありません。データの整備方法、専門知識の反映、そして評価の仕組みといった複数の要素が組み合わさることで、初めて安定した性能が実現します。

まず重要なのは、AIにどのような役割を担わせるのかを明確にすることです。どのような質問に答えさせるのか、どこまでの範囲を回答対象とするのかといったタスクの定義が曖昧なままでは、AIの品質を適切に評価することができません。

次に必要となるのが、ドメイン知識を反映したデータ設計です。業務知識をAIが理解できる形に整理し、判断基準やエラーの分類などを含めた教師データとして整備することで、LLMの学習効率は大きく変わります。

さらに、AIの性能を継続的に測定するための評価データセットを用意することも重要です。一定の基準で品質を測定しながら改善を進めていくことで、初めて安定した精度向上が可能になります。

6. まとめ

ドメイン特化LLMは、単に自社データを読み込ませれば実現できるものではありません。多くの場合、精度が上がらない原因はモデルの能力ではなく、データの整理方法や評価設計にあります。

企業の中には膨大なナレッジが存在していますが、それをAIが理解できる形に整えなければ、その価値を十分に活かすことはできません。ドメイン特化LLMの成功を左右するのは、モデル選定だけではなく、企業が持つ知識をどのように構造化し、評価し、継続的に改善していくかという取り組みそのものです。

生成AIの活用が広がるこれからの時代において、企業の競争力を決めるのは「どのモデルを使うか」だけではありません。自社の知識をAIが活用できる形で整備できるかどうかが、LLM活用の成否を大きく左右していくことになるでしょう。

7. ヒューマンサイエンスの教師データ作成、LLM RAGデータ構造化代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々な教師データ作成やデータラベリング、データの構造化に対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

生成系AI LLMデータセット作成・構造化、「AIに最適化するマニュアル作成・整備支援」にも対応

弊社は創業当初から主な事業・サービスとしてマニュアル制作を行い、現在では「企業ナレッジ活用のための生成AI導入に向けて、AIが認識しやすいドキュメントの制作支援」も行っております。生成AIを用いた企業ナレッジやドキュメントの共有・活用において、現在の技術ではまだツール等で100%の精度を実現できないのが現状です。過去のドキュメント資産をどうしても活かしたい、といったお客さまに対してはドキュメントデータの構造化にも対応します。さまざまなドキュメントを熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。

内製支援

弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやデータラベリングに関するお客様のお困りごとを支援いたします。