
ChatGPTに代表されるLLM(大規模言語モデル)は、その登場以来目覚ましく性能を上げています。LLMはテキストやプログラムコードの生成・情報分析・情報収集などさまざまなタスクを実行することができ、そのためのプロンプト(AIへの指示)も話し言葉(自然言語)でできるのが特徴です。これまでの「識別系」AIモデルがどちらかというと個別のタスクに特化してゼロから開発しなければならなかったのに比較して、活用へのハードルが格段に下がり、ビジネス・研究開発・エンターテインメントなど様々な分野で活用されるようになってきています。特にビジネスの分野ではDXによる業務効率化が必須の課題となっており、LLMの活用への取り組みも活発になっています。
LLMの多くはMeta社やMicrosoft社など米国企業主導で開発が進んでいます。これらのモデルは英語での学習をベースにしており、他言語では追加学習などで対応しています。日本語でも汎用的な使い方ならば、その性能は十分といえますが、より専門特化した分野になると精度に課題があるというのが実情です。それはビジネスにおける活用でも同様です。もし、日本独自の文化や商習慣を反映した日本語特化のLLMであれば国内企業のさらなるDX推進が期待できます。こうしたことから日本語に特化したLLMの開発を行う企業や研究機関などが増えています。そこで今回は日本語に特化したLLMについて紹介していきます。
1. なぜ日本語特化LLMなのか
LLMの能力は、主にインターネット上の膨大なデータを学習することによって実現されます。2024年1月時点で、webコンテンツに使われる言語の割合では英語が50%を超えており、2番目のスペイン語では6%です。日本語はおよそ4%となっています(Statista:Languages most frequently used for web content as of January 2024, by share of websites 24年2月記事より)。LLMはその名の通り膨大な量のデータセットを学習することで性能を高めます。データ量が増えることで幅広く学習することができ、汎用性や生成能力・精度が高まります。現状では開発企業の多くが英語圏であることもあり、LLMの最も得意な言語は英語と言えるでしょう。
もちろん、多くのLLMが日本語にも対応しており、例えばChatGPTなどでその優れた能力を目の当たりにすることができます。とはいえ、インターネット上で利用できる日本語を使ったデータは英語に比べて非常に少ないため、質問の内容によっては、うまく回答を生成できないこともあるでしょう。また、日本語は漢字・ひらがな・カタカナといった複数の文字が複雑に絡み合い、単語の区切りも明確ではありません。英語に比べて前後の文脈を含めて文章を理解する必要があるなど、特有の難しさがあります。さらに、敬語や文章の言い回しなど、日本語特有の文化や表現なども汲み取って違和感なく回答を生成してくれるかどうかについては、既存のLLMの多くに改良の余地があるといえます。ここからは現在開発が進んでいる日本語特化LLMをご紹介していきます。
2. 日本語特化LLMおすすめ3選
●CyberAgentLM3
株式会社サイバーエージェントの開発した日本語特化のLLMです。2024年7月時点で225億パラメータのモデルで、日本語能力を評価する指標「Nejumi LLM リーダーボード3」では、米MetaのLLM「Meta-Llama-3-70B-Instruct」と同等の性能を記録しています。日本語LLMとしてはトップクラスのモデルの一つです。
参考URL:CyberAgentLM3デモ
●ao-Karasu
株式会社LightblueはSlackなどのチャットツールにAIアシスタント機能を追加するサービスを展開するスタートアップで、国内トップクラスの性能を持つ日本語LLM「Qarasu」を2023年12月にリリースしています。このモデルをリリースした後もさらなる開発を続け、わずか四ヶ月後の2024年3月に発表されたao-Karasuは720億パラメータのLLMで、こちらもGPT3.5を超える性能を誇ります。
参考URL:ao-Karasu:最先端の72B日本語LLM開発
●ELYZA
東京大学松尾研究室から生まれたスタートアップのELYZAが手がける日本語特化LLMです。Meta社の開発した「Llama 3」をベースに、独自の日本語のデータセットを用いて学習を重ねたモデルで、商用利用可能な「Llama-3-ELYZA-JP-8B」では80億パラメータと軽量ながら、日本語の性能を測定するための2つのベンチマーク(ELYZA Tasks 100・Japanese MT-Bench)を用いた自動評価において、「GPT-3.5 Turbo」や「Gemini 1.0 Pro」に匹敵する性能を達成しています。
2024年6月の時点で700億パラメータのモデルも開発されており、こちらはGPT-4を上回る日本語性能を誇っており、デモ版でその能力の一端に触れることができます。
参考URL:ELYZA LLM for JPデモ版
3. まとめ
ここまで日本語特化LLMを3つ紹介してまいりました。もちろんこれ以外にも優れた性能を誇る日本語特化LLMを開発している企業や研究機関が多数あります。そうしたLLMの中にはChatGPTにも匹敵する性能を持つモデルもあり、これらのLLMによってビジネスでの活用もこれまで以上に進んでいくと考えられます。日本語特化のLLMを活用することができれば、RAGなどの技術と合わせることで社内データを用いた業務効率化・ナレッジマネジメントなどのDX推進も加速できるでしょう。一方、こうした社内データの多くはメール・図表や画像を含む資料・議事録・業務報告書など、そのままの状態では学習データとして利用することが難しい非構造化データとなっています。LLMを導入する際には、これらのデータの構造化などの作業を必要とします。そうした作業は社内で行うことが難しい場合もありますので、データ構造化専門の外部ベンダーを活用することも視野に入れてLLMの導入を進めることをお勧めいたします。
4. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス
教師データ作成数4,800万件の豊富な実績
ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。
クラウドソーシングを利用しないリソース管理
ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。
アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応
データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。
自社内にセキュリティルームを完備
ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。