
今日のグローバルなビジネスシーンにおいて、機械翻訳(MT)は欠かせないツールになっています。海外の顧客とのコミュニケーション、最新情報の収集、多言語でのコンテンツ展開など、その活用範囲は日々広がっています。特に近年、ChatGPTに代表される大規模言語モデル(LLM)の登場により、機械翻訳の品質は飛躍的に向上し、より自然で文脈に沿った翻訳が可能になりました。
しかし、その一方で新たな課題も浮かび上がっています。それは、「進化した機械翻訳の『品質』を、どのように客観的に評価すれば良いのか?」というものです。
かつて機械翻訳の品質評価で主流だった指標(BLEUなど)が、LLMの生成する高度な翻訳文を正確に測れなくなっています。「評価のものさし」自体を見直さなければ、私たちは自社に最適な翻訳ツールを選ぶことも、その投資対効果を正しく把握することも難しくなってしまいます。
本記事では、論文「Are LLMs Breaking MT Metrics? Results of the WMT24 Metrics Shared Task」(LLMは機械翻訳の評価指標を壊しているのか?WMT24メトリクス共有タスクの結果)をもとに、機械翻訳評価の最新動向をご紹介します。
- 目次
1. 機械翻訳の品質を競う国際会議「WMT」とは?
「WMT(Workshop on Machine Translation)」とは、毎年開催される機械翻訳に関する世界最高峰の国際ワークショップです。ここでは、世界中の企業や研究機関が開発した翻訳システムの性能を競い合います。
そのWMTの中で、本記事のテーマである「Metrics Shared Task」という分科会が開かれています。これは、翻訳システムそのものではなく、「翻訳の品質を評価するための評価指標(メトリクス)」の性能を競う、いわば「評価指標のコンテスト」です。2024年の最大の焦点は「LLMによって生成された翻訳を、既存の評価指標は正しく評価できるのか?」という点にありました。
2. なぜ、これまでの「ものさし」では測れないのか?
これまで機械翻訳の評価で広く使われてきた指標に「BLEU(ブルー)」があります。これは、機械が生成した訳文と、人間が作成した正解の訳文を比較し、単語やフレーズがどれだけ一致しているかを点数化するものです。シンプルで分かりやすい反面、「意味を理解せず、単語の表面的な一致しか見ていない」という根本的な課題を抱えていました。このため、BLEUには大きく二つの弱点があります。
一つ目は、意味が合っていても、言葉が違うと不当に低く評価してしまう点です。
例えば、
正解訳:その猫はマットの上に座った
機械翻訳:そのネコは敷物の上に腰掛けた
この機械翻訳は意味的に完璧ですが、正解訳と単語がほとんど一致しないため、BLEUスコアは低くなってしまいます。
そして二つ目は、その逆の現象です。意味が致命的に間違っていても、一部の単語が似ているだけで高く評価してしまう点です。
例えば、
正解訳:大統領は経済政策を協議するため日本を訪問する
機械翻訳(ハルシネーション):大統領は軍事政策を協議するため日本を訪問する
この翻訳は「経済」を「軍事」と誤訳しており、全く異なる意味になっています。しかし、他の大部分の単語が一致するため、BLEUスコアは不当に高く算出されてしまいます。
特に近年のLLMは、非常に流暢な文章を生成するのが得意です。そのため、上記二つ目の例のような間違いを犯しても、人間が見たときに自然な文章に見えてしまいがちです。結果として、BLEUで評価すると意味的な間違いを見逃して高いスコアを与えてしまい、品質の実態を正しく評価できない、という問題がより深刻になっています。
3. AIがAIを評価する?最新の評価指標
BLEUの限界を超えるべく開発されたのが、AI技術を活用した新しい評価指標である「ニューラルメトリクス」です。今回のWMT24でも、これらのニューラルメトリクスが高い性能を示し、「MetaMetrics-MT」「MetricX-24-Hybrid」およびCOMETの進化版である「XCOMET」が最高評価を得ました。
MetricX-24について詳しくは以下の記事をご覧ください。
Google開発AI翻訳評価指標「MetricX-24」とは?機能と特徴を解説
これらの指標は、BLEUのように単語の一致を見るのではありません。文章を「意味」を捉えたベクトル(数値の集まり)に変換し、原文、機械翻訳文、正解訳文の意味的な近さを評価します。これにより、表面的な言葉遣いの違いに左右されず、より深く意味の妥当性を評価することが可能になります。
MetricX-24について詳しくは以下の記事をご覧ください。
BLEUスコアとは?基本的な意味から活用法を分かりやすく解説
さらに、WMT24では、これらの評価指標を評価するための「メタ評価」の手法も進化しました。従来よりも、実際のビジネスシーンでの利用方法(例:複数の翻訳システムのうちどちらが優れているかを判断する)に近い形で評価が行われ、より実践的な指標が選ばれるようになっています。
4. WMT24の結果が示唆する、ビジネス活用のポイント
数々の評価指標が競い合った結果、WMT24は次のような結論を示しました。
「適切に調整・追加学習されたニューラルメトリクスは、LLMベースの翻訳システムを評価する上でも、引き続き高い性能を発揮する」
これは、私たちビジネスユーザーにとって、LLMという新しい技術に対しても、信頼性の高い「ものさし」が存在することを示しています。この結果から、どのような視点を持つべきか2つのポイントをご紹介します。
4-1. 導入を検討する翻訳ツールの「評価指標」を確認する
機械翻訳サービスを比較検討する際には、単に「高精度」という言葉だけでなく、「どのような評価指標で高いスコアを得ているか」を確認してください。「BLEUスコアNo.1」という言葉だけでは、必ずしも品質を保証するものではないかもしれません。最新のニューラルメトリクスでの評価結果を開示しているかどうかは、ベンダーの技術的な信頼性を測る上での一つの参考情報となるでしょう。
4-2. 最終的な判断における「人間」の役割
自動評価指標は万能ではありません。今回の報告でも、特定の専門分野や、意図的に作られた不正確な翻訳文に対しては、評価が難しくなるケースも指摘されています。最終的には、自社の事業領域や利用シーンに照らし合わせて、人間の目で品質を確認するプロセスも重要になります。自動評価指標は客観的な参考情報として有効に活用しつつ、最終判断の補助として位置づけることが、有効な活用法と言えるでしょう。
まとめ
LLMの登場によって、機械翻訳は新たなステージに進みました。それに伴い、その品質を測る「ものさし」もまた、より実態に即した、実践的なものへと進化を続けています。ビジネスの現場では、こうした最新動向をキャッチアップし、適切な評価指標を選択・活用することが、翻訳品質の維持・向上に直結します。AIがAIを評価する時代だからこそ、人間の視点とテクノロジーの両輪で、最適な翻訳環境を構築していくことが求められています。
ヒューマンサイエンスではLLM・機械翻訳を活用したMTrans for Officeを提供しております。14日間の無料トライアルで、品質と使い勝手をお試しください。
MTrans for Officeの特長
- ① 翻訳できるファイル数、用語集に制限はなく定額制
- ② Office製品からワンクリックで翻訳できる!
- ③ API接続でセキュリティ面も安心
・さらに強化したいお客様にはSSO、IP制限などもご提供 - ④ 日本企業による日本語でのサポート
・セキュリティチェックシートへの対応も可能
・銀行振込でのお支払いが利用可能