Some parts of this page may be machine-translated.

 

LLMにおけるファインチューニングとは

alt

2024.7.24

LLMにおけるファインチューニングとは



ChatGPTに代表されるLLM(大規模言語モデル)の登場以来、多くの人が手軽にLLMに触れられるようになり、まるで本当に人間と対話するようにして複雑なプログラミングや文書作成、情報検索・分析などさまざまなタスクを実行できるその能力に驚かされてきました。その能力をビジネスに活用しDXを推進する動きも加速しています。LLMを活用することで、コンテンツ制作・マーケティング・市場分析・ドキュメント検索・ナレッジマネジメントなどビジネスのあらゆる面で劇的な効率化を図ることが期待できます。とはいえ、LLMを導入しても思うような結果が得られない、という課題もあります。今回はこのようなLLMの活用にどのような課題があるか解説するとともに、それを解決する方法についても取り上げます。

目次

1. LLMの活用に際しての課題

LLMが従来の言語モデルに比べて圧倒的に優れている点は、人と会話するような言葉・文章を理解して情報をアウトプットでき、かつその精度が非常に高く、人と同等のレベルもしくはそれ以上であるというところです。モデルによっては医師国家試験の合格水準に達する知能を持ち合わせているものもあります。LLMのこうした能力は、AIの精度を決める三要素「計算量」「データ量」「パラメータ数」の強化によって実現されました。このように万能にも思えるLLMですが、課題もあります。

LLMの学習するデータはインターネット上で収集した膨大な量のテキストデータを元にしています。とはいえ、リアルタイムで次々と生み出される膨大な量のテキストを常に学習しているわけではなく、ある時点まで(例えば無料で使えるChatGPT3.5であれば2021年9月まで)のデータを学習したものになります。また、LLMは幅広い領域に対して汎用的な回答を生成できる点では優れているのですが、専門領域やインターネット上にない企業内データなどについては学習できない(学習できても十分なデータ量とはいえない)ので、正確に回答できません。場合によっては、誤った情報をあたかも本物のように回答する「ハルシネーション」といったことが起きてしまいます。

例えば、製造業においてLLMを活用することを考えてみましょう。企業ごとに設計・開発、生産管理、品質管理、保全・点検などありとあらゆる業務において日々蓄積される膨大な量のドキュメントがあります。一方で、当然その企業独自のドキュメントの多くはインターネット上に公開されませんから、LLMがこれらを学習することはできません。そのため、一般に公開されているLLMをそのままの状態で使っても、回答が得られなかったり、ハルシネーションが起きたりする可能性があり、思うような結果は得られないでしょう。

このような、LLMを特定の目的に活用しようとした際の課題に対して、さまざまな方法が研究・考案されています。中でもファインチューニングとRAGが広く知られています。そこで、今回はファインチューニングを取り上げて解説いたします。

参考ブログ

>LLM・RAGとは生成AIのビジネスへの活用について解説

2. ファインチューニングとは

事前学習済みのLLMモデルにさらに目的に合わせた学習データを与え、追加学習させる方法がファインチューニングです。ファインチューニング自体はLLM以前からニューラルネットワークを用いたディープラーニングで用いられる方法で、ネットワークの末端層に新たな層を追加して新しいデータセットで学習するアプローチです。ファインチューニングは事前学習されたLLMに対して追加の学習を行うため、事前学習に比べて非常に少ない(といっても数千から数万)のデータセットで実行できるというメリットがあります。

OpenAI社などが提供しているLLMは、ファインチューニングのためのAPIなどを用意しており、それらを利用してファインチューニングを行えるようになっています。基本的な流れとしては、データセットを用意し、LLMにデータを追加学習させ結果を評価する、というものです。用意するデータの形式はLLMのプロバイダごとに異なりますが、基本的には<入力,出力>という構造を持つデータを用意します。例えば、OpenAI社では学習データのフォーマットはJson形式で、質問(prompt)と回答(completion)からなります。


{“prompt”:”モデルHS024の特徴は?\n##\n” , ”completion”:” 新機能として、三次元空間を把握できるLiDARセンサーを搭載しています。\n###\n”}

学習データの量は、目的の複雑さ・難易度に応じて変わってきますが、少なくとも数千から数万データを必要とします。それより少ない量でもチューニング可能ですが、事前学習した部分を忘れてしまったり、過学習が起きてしまったりする可能性がありますので、ファインチューニングを実施する際には、十分な量のデータを用意することが大切です。

また、データセットの質も重要です。当然ですが、データには誤った情報が含まれていてはなりません。また、学習させたい情報を細大漏らさず網羅している必要もあります。例えば、自社の製品情報を検索できるようにするためには、その製品のスペック、機能、デザイン、販売開始日など製品に属する情報を網羅して用意する必要があります。

こうしたデータを作成する作業は、ほとんどの場合、人の手によって行わなければならず、必要なデータの量と質を考えると、膨大な工数を取られることになるのは容易に想像できます。自社でファインチューニングを実施する際には、通常業務に加えてさらに学習データを作成する作業が発生しますから、そのためのリソースを割くことが難しい場合もあるでしょう。

3. まとめ

LLMはこれまでのAIとは比べ物にならない汎用性を備えています。とはいえ、それを持ってそのまま専門領域や最新情報に関連するものについても期待通りに活用できるかというと、そうではありません。

ビジネスで活用するためにはLLMを目的に合わせてカスタマイズする必要があり、その手法の一つとしてファインチューニングを今回は取り上げました。ここで見てきた通り、ファインチューニングのための学習データセットは収集・作成する中で、人手が必要になるプロセスがあります。学習データを作る作業にはITエンジニアなどに求められるような専門的な知識は必要ないことも多いです。そうした場合には、学習データ作成を専門とする外注ベンダーに依頼するという方法も良い選択です。

弊社ではLLM以前から、自然言語処理のアノテーションを始めとして「学習データ」作成のアノテーション作業に数多くの経験・実績があります。LLMのファインチューニングの学習データ作成においても、この経験・実績を活かしてお客様のDXのお手伝いをできればと思っております。

4. ヒューマンサイエンスのアノテーション、LLM RAGデータ構造化代行サービス

教師データ作成数4,800万件の豊富な実績

ヒューマンサイエンスでは自然言語処理に始まり、医療支援、自動車、IT、製造や建築など多岐にわたる業界のAIモデル開発プロジェクトに参画しています。これまでGAFAMをはじめとする多くの企業様との直接のお取引により、総数4,800万件以上の高品質な教師データをご提供してきました。数名規模のプロジェクトからアノテーター150名体制の長期大型案件まで、業種を問わず様々なアノテーションやデータラベリング、データの構造化に対応しています。

クラウドソーシングを利用しないリソース管理

ヒューマンサイエンスではクラウドソーシングは利用せず、当社が直接契約した作業担当者でプロジェクトを進行します。各メンバーの実務経験や、これまでの参加プロジェクトでの評価をしっかりと把握した上で、最大限のパフォーマンスを発揮できるチームを編成しています。

アノテーションのみならず生成系AI LLMデータセット作成・構造化にも対応

データ整理ためのラベリングや識別系AIのアノテーションのみでなく、生成系AI・LLM RAG構築のためのドキュメントデータの構造化にも対応します。創業当初から主な事業・サービスとしてマニュアル制作を行い、様々なドキュメントの構造を熟知している当社ならではのノウハウを活かした最適なソリューションを提供いたします。

自社内にセキュリティルームを完備

ヒューマンサイエンスでは、新宿オフィス内にISMSの基準をクリアしたセキュリティルームを完備しています。そのため、守秘性の高いデータを扱うプロジェクトであってもセキュリティを担保することが可能です。当社ではどのプロジェクトでも機密性の確保は非常に重要と捉えています。リモートのプロジェクトであっても、ハード面の対策のみならず、作業担当者にはセキュリティ教育を継続して実施するなど、当社の情報セキュリティ管理体制はお客様より高いご評価をいただいております。

 

 

 

関連ブログ

 

 

お問い合わせ・資料請求

TOP