Some parts of this page may be machine-translated.

 

日本語LLMおすすめ3選|国内特化の大規模言語モデルを徹底比較【2025年最新】

alt

2024.8.26

alt

2025.10.14

日本語LLMおすすめ3選|国内特化の大規模言語モデルを徹底比較【2025年最新】

ChatGPTに代表されるLLM(大規模言語モデル)は、その登場以来目覚ましく性能を上げています。LLMはテキストやプログラムコードの生成・情報分析・情報収集などさまざまなタスクを実行することができ、そのためのプロンプト(AIへの指示)も話し言葉(自然言語)でできるのが特徴です。これまでの「識別系」AIモデルがどちらかというと個別のタスクに特化してゼロから開発しなければならなかったのに比較して、活用へのハードルが格段に下がり、ビジネス・研究開発・エンターテインメントなど様々な分野で活用されるようになってきています。特にビジネスの分野ではDXによる業務効率化が必須の課題となっており、LLMの活用への取り組みも活発になっています。

LLMの多くはMeta社やMicrosoft社など米国企業主導で開発が進んでいます。これらのモデルは英語での学習をベースにしており、他言語では追加学習などで対応しています。日本語でも汎用的な使い方ならば、その性能は十分といえますが、より専門特化した分野になると精度に課題があるというのが実情です。それはビジネスにおける活用でも同様です。もし、日本独自の文化や商習慣を反映した日本語特化のLLMであれば国内企業のさらなるDX推進が期待できます。こうしたことから日本語に特化したLLMの開発を行う企業や研究機関などが増えています。そこで今回は日本語に特化したLLMについて紹介していきます。

目次

1. なぜ日本語特化LLMが必要なのか?英語ベースLLMとの違いとは

LLMの能力は、主にインターネット上の膨大なデータを学習することによって実現されます。2024年1月時点で、webコンテンツに使われる言語の割合では英語が50%を超えており、2番目のスペイン語では6%です。日本語はおよそ4%となっています(Statista:Languages most frequently used for web content as of January 2024, by share of websites 24年2月記事より)。LLMはその名の通り膨大な量のデータセットを学習することで性能を高めます。データ量が増えることで幅広く学習することができ、汎用性や生成能力・精度が高まります。現状では開発企業の多くが英語圏であることもあり、LLMの最も得意な言語は英語と言えるでしょう。

もちろん、多くのLLMが日本語にも対応しており、例えばChatGPTなどでその優れた能力を目の当たりにすることができます。とはいえ、インターネット上で利用できる日本語を使ったデータは英語に比べて非常に少ないため、質問の内容によっては、うまく回答を生成できないこともあるでしょう。また、日本語は漢字・ひらがな・カタカナといった複数の文字が複雑に絡み合い、単語の区切りも明確ではありません。英語に比べて前後の文脈を含めて文章を理解する必要があるなど、特有の難しさがあります。さらに、敬語や文章の言い回しなど、日本語特有の文化や表現なども汲み取って違和感なく回答を生成してくれるかどうかについては、既存のLLMの多くに改良の余地があるといえます。ここからは現在開発が進んでいる日本語特化LLMをご紹介していきます。

参考ブログ:主要LLMを徹底比較:ChatGPT、Perplexity、Grok、Geminiの使い分けガイド

2. 日本語特化LLMおすすめ3選|国産モデルを性能・用途で比較

●CyberAgentLM3

株式会社サイバーエージェントの開発した日本語特化のLLMです。2024年7月時点で225億パラメータのモデルで、日本語能力を評価する指標「Nejumi LLM リーダーボード3」では、米MetaのLLM「Meta-Llama-3-70B-Instruct」と同等の性能を記録しています。日本語LLMとしてはトップクラスのモデルの一つです。

参考URL:CyberAgentLM3デモ

●ao-Karasu

株式会社LightblueはSlackなどのチャットツールにAIアシスタント機能を追加するサービスを展開するスタートアップで、国内トップクラスの性能を持つ日本語LLM「Qarasu」を2023年12月にリリースしています。このモデルをリリースした後もさらなる開発を続け、わずか四ヶ月後の2024年3月に発表されたao-Karasuは720億パラメータのLLMで、こちらもGPT3.5を超える性能を誇ります。

参考URL:ao-Karasu:最先端の72B日本語LLM開発

●ELYZA

東京大学松尾研究室から生まれたスタートアップのELYZAが手がける日本語特化LLMです。Meta社の開発した「Llama 3」をベースに、独自の日本語のデータセットを用いて学習を重ねたモデルで、商用利用可能な「Llama-3-ELYZA-JP-8B」では80億パラメータと軽量ながら、日本語の性能を測定するための2つのベンチマーク(ELYZA Tasks 100・Japanese MT-Bench)を用いた自動評価において、「GPT-3.5 Turbo」や「Gemini 1.0 Pro」に匹敵する性能を達成しています。
2024年6月の時点で700億パラメータのモデルも開発されており、こちらはGPT-4を上回る日本語性能を誇っており、デモ版でその能力の一端に触れることができます。

参考URL:ELYZA LLM for JPデモ版

3. 日本語LLMのビジネス活用への取り組み|業界別ユースケース

医療
内閣府のSIPプロジェクトの一環で、ELYZAが「日本語版医療特化LLM基盤」を開発・実証しました。汎用モデル「ELYZA-Med-Base-1.0-Qwen2.5-72B」をベースに、電子カルテ標準化タスクや診療報酬明細書(レセプト)の確認・修正タスクなど、実際の医療現場ユースケースに特化した調整を加えたモデルも構築。電子カルテやレセプトの処理で、OpenAIなどのグローバルモデルに匹敵あるいはそれを上回る性能を確認しており、「国内最高性能」「グローバルトップ水準を超える精度」という評価がされています。
東京大学松尾研 国産の日本語版”医療”特化LLM基盤「ELYZA-LLM-Med」を開発しました

製造
製造業においても、日本語特化LLMの導入が進んでいます。三菱電機は、FA業務で用いられる自社データを使い、製造業ドメインに特化した言語モデルを開発。エッジデバイスでも動作するよう設計し、現場でのリアルタイム応答やオンプレミス利用を可能にしています。また、リコーは日・英・中3言語対応の700億パラメータモデルを導入し、多言語ドキュメントの生成や多国籍拠点とのコミュニケーション効率化を図っています。
三菱電機 エッジデバイスで動作する製造業向け言語モデルを開発
リコー リコー、日英中3言語に対応した700億パラメータの大規模言語モデル(LLM)を開発、お客様のプライベートLLM構築支援を強化

金融
金融分野でも、日本語の制度・用語に強い特化LLMの導入が進んでいます。Preferred Networks(以下PFN)は国産LLM「PLaMo」を日本の金融知識で追加学習した派生モデル「PLaMo-fin-base」を提供開始。営業日報からの提案文案作成、稟議書・議事要約、IR情報に基づく企業分析、規制当局の情報要約など、銀行・証券の幅広い業務の効率化、高度化に活用可能です。オンプレミス運用やRAG連携にも対応し、機密性と最新性を両立できるのが特長です。PFNは金融ドメイン特化のLLM開発を継続的に進めており、金融機関向けLLM活用支援サービスのさらなる高度化が期待できます。
Preferred Networks 国産大規模言語モデルPLaMoの金融機関向けモデルを開発

参考ブログ:医療×LLMの最前線:活用事例6選

4. 日本語LLMの選び方まとめ|ビジネス導入前に知っておくべきこと

ここまで日本語特化LLMを3つ紹介してまいりました。もちろんこれ以外にも優れた性能を誇る日本語特化LLMを開発している企業や研究機関が多数あります。そうしたLLMの中にはChatGPTにも匹敵する性能を持つモデルもあり、これらのLLMによってビジネスでの活用もこれまで以上に進んでいくと考えられます。日本語特化のLLMを活用することができれば、RAGなどの技術と合わせることで社内データを用いた業務効率化・ナレッジマネジメントなどのDX推進も加速できるでしょう。一方、こうした社内データの多くはメール・図表や画像を含む資料・議事録・業務報告書など、そのままの状態では学習データとして利用することが難しい非構造化データとなっています。LLMを導入する際には、これらのデータの構造化などの作業を必要とします。そうした作業は社内で行うことが難しい場合もありますので、データ構造化専門の外部ベンダーを活用することも視野に入れてLLMの導入を進めることをお勧めいたします。

参考ブログ:LLMとは?ビジネスでの活用方法をわかりやすく解説

5. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応

データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。

内製支援

弊社ではお客様の作業や状況にマッチしたアノテーション経験人材やプロジェクトマネージャーの人材派遣にも対応しています。お客様常駐下でチームを編成することも可能です。またお客様の作業者やプロジェクトマネージャーの人材育成支援や、お客様の状況に応じたツールの選定、自動化や作業方法など、品質・生産性を向上させる最適なプロセスの構築など、アノテーションやデータラベリングに関するお客様のお困りごとを支援いたします。

 

 

 

関連ブログ

 

 

お問い合わせ・資料請求

TOP