AutoML Translationを使って機械翻訳精度を向上させる

弊社の機械翻訳ソリューションであるMTrans for MemsourceとMTrans for TradosがGoogle Cloud AutoML Translation（以下、AutoML Translation）に対応しました。翻訳支援ツールのMemsourceまたはTradosと、MTrans for Memsource/Tradosを組み合わせることで、お客様独自の機械翻訳モデルに対して用語集機能とスタイル変換機能が利用できるようになります。

MTrans for Memsource/Tradosの開発にあたり、AutoML Translationの評価を行いました。本記事ではその評価結果とAutoML Translationそのものについて詳しく説明します。

1. AutoML Translationとは？

2. AutoML Translationのメリットは？

3. 1回のモデル学習に必要なデータ、時間、費用

1. AutoML Translationとは？

Googleの汎用機械翻訳モデルに対してお客様独自の原文、訳文のペアを学習（トレーニング）させることで、独自の機械翻訳モデルを作成するGoogle社のサービスです。

2. AutoML Translationのメリットは？

学習することによって特定分野に適した訳文が生成されるようになり、ポストエディットに必要な時間が削減されます。

3. 1回のモデル学習に必要なデータ、時間、費用

・データ：原文と訳文のペア1,000文以上
・学習時間：データ量により2時間～
・費用：学習時間により90ドル～300ドル
https://cloud.google.com/translate/automl/pricing

4. 翻訳にかかる費用

0～50万文字：無料
50万～2億 5,000万文字：100万文字あたり$80
https://cloud.google.com/translate/automl/pricing

5. 評価結果

Googleの汎用モデルと今回作成した独自モデルをBLEU値を用いて比較すると、翻訳精度が向上しています。（BLEU値は、人手による訳文と機械翻訳による訳文を包括的に比較して、どれだけ類似しているかを機械的に評価します。値が高いほど翻訳精度が高いと考えられます）

汎用モデル	39.71
独自モデル	42.89

全体としては翻訳精度が向上していますが、個別の訳文ではどうでしょうか。

6. 訳文例と課題

・課題1：学習データに含まれる文の訳が必ずそのまま使用されるわけではありません。

以下の例では、訳文の前半は学習データが使用されていますが後半は使用されていません。ただ、学習したことによって、学習データに近い訳になっています。

原文	That’s not right, but try it again
学習データの訳文	不正解です。もう一度挑戦してください。
汎用モデルの訳文	そうではありませんが、もう一度試してみてください。
独自モデルの訳文	不正解です。もう一度試してください。

・課題2：学習データに含まれる用語の訳が必ずそのまま使用されるわけではありません。

以下の例では、「Layer 2」を「第2層」と訳したいのですが、その訳語は使用されていません。

原文	The NIC exists on the ‘Data Link Layer’ (Layer 2).
学習データの訳文	NIC は「データリンク層」 (第2層) に位置します。
汎用モデルの訳文	NICは、「データリンク層」（層2）に存在します。
独自モデルの訳文	NICは、「データリンク層」（レイヤー2）に存在します。

・課題3：スタイルルールは無視されます。

以下の例では、全角と半角の文字の間のスペースと、丸括弧は半角を使うというスタイルルールが無視されています。

原文	The NIC exists on the ‘Data Link Layer’ (Layer 2).
学習データの訳文	NIC▲は「データリンク層」▲(第▲2▲層) ▲に位置します。（「▲」は半角スペースを示しています）
汎用モデルの訳文	NICは、「データリンク層」（層2）に存在します。
独自モデルの訳文	NICは、「データリンク層」（レイヤー2）に存在します。

7. 課題の解決方法

独自モデルを作成するだけでは解決できない課題があります。それぞれの解決方法は以下のとおりです。

・課題1：過去に一度訳した訳文をそのまま流用したい場合
翻訳支援ツールの翻訳メモリを利用します。翻訳メモリには文脈情報も含まれるため、より確実に過去の訳文を流用することができます。

・課題2：特定の訳語を使用したい場合
用語集機能を利用します。用語集機能はGoogle社が提供するものとMTrans for Memsource/Tradosに搭載されているものの2つがあります。Google社の用語集機能について詳しくは Google Cloud Translationの「用語集の作成と使用（高度な機能）」を参照してください。リンク先のガイドを見ると分かるように、Google社の用語集機能を使用するには非常に煩雑な手順が必要です。MTrans for Memsource/Tradosの用語集機能は、簡単な手順で利用可能です。

・課題3：特定のスタイルを使用したい場合
MTrans for Memsource/Tradosのスタイル変換機能を利用します。全角と半角の文字の間にスペースを挿入したり、記号の全角半角を指定したりすることができるほか、「である」調に統一するといったこともできます。

8. ベストプラクティス

AutoML Translationは機械翻訳の精度を全体的に引き上げますが、万能ではありません。また、モデルの作成には時間も費用もかかります。AutoML Translationを導入する前に、既存の環境で改善できる点がないか調べることをお勧めします。

特に翻訳メモリの品質は翻訳者の生産性に大きく影響します。翻訳メモリを定期的にメンテナンスして、誤訳、翻訳途中の訳文、極端に古い訳文が含まれないようにすることが重要です。そして、AutoML Translationのモデル学習には、この翻訳メモリを使用します。高品質の翻訳メモリを蓄積することは、翻訳者の生産性を引き上げるだけでなく、AutoML Translationの学習データを準備することでもあるのです。逆に、モデル学習に必要なデータが手元にない場合は、AutoML Translationの導入を検討するには時期尚早とも言えます。

また、既存の機械翻訳サービスに搭載されている機能を確認するようにしてください。用語集、スタイル置換など、使っていない機能があれば試してみてください。MTrans for Memsource/Tradosは、GoogleだけでなくDeepL、Microsoft、NAVER Papagoの各エンジンに用語集機能とスタイル置換機能を追加します。これらの機能を活用するだけで、モデル学習なしで機械翻訳の精度を引き上げることができます。

翻訳メモリと機械翻訳サービスの各種機能が最大限に活用されるようになったら、いよいよAutoML Translationの導入を検討する段階です。

AutoML TranslationおよびMTrans for MemsourceとMTrans for Tradosにご興味のある方はお問い合わせください。お客様の翻訳業務の改善をお手伝いいたします。

MTrans for Memsource

https://www.science.co.jp/nmt/service/memsource.html

MTrans for Trados

https://www.science.co.jp/nmt/service/nmt.html