機械翻訳の精度向上には、「対象ドキュメントの原文の品質も重要である」ということは
これまでのブログでもお話してきました。
この原文の品質についてですが、実は対象ドキュメントだけでなく、
統計ベースのエンジンに読み込ませる「コーパス」でも大変重要になります。
一文が長かったり、複雑な文法構造の文が多く含まれていると、
統計ベースのエンジンをトレーニングしても翻訳精度が向上しなかったり、
トレーニングの処理自体も長くなってしまう問題もあるのです。
今回はその処理時間について、日英翻訳のプロジェクトデータを
使用した検証結果をご紹介します。
●トレーニング時間に関する検証結果
トレーニングには多くの処理があり、なかでも、
各単語の品詞や係り受けを判定する構文解析に一番時間がかかります。
そのため、一文が長く、文法構造の複雑な文章が多いと、
この構文を解析する処理に時間がかかってしまうというわけです。
以下の表は、実際の案件で使用された日英翻訳用コーパスの
構文解析の時間をまとめたものです。
一文が短い文章が多く含まれていた「案件A」のコーパスと、
一文が長い文章が多く含まれていた「案件B」のコーパスの解析結果を比較してみましょう。
案件A(処理時間) | 案件B(処理時間) | |
1文 | 6.72秒 | 6.38秒 |
100文 | 15分 | 41分 |
1000文 | 1分10秒 | 7分53秒 |
3000文 | 6分27秒 | 1時間5分 |
10000文 | 4時間9分 | 5時間46分 |
-検証環境
解析器:Ckylark (すかいらーく) 使用PC:iMac
プロセッサ:Core i5 プロセッサ速度:2.8GHz
メモリ:12GB 1,333Hz DDR3
表を見てわかる通り、同じ文数でもAよりBの方が
圧倒的に時間がかかっていますね。
ちなみに、構文の解析にかかる時間は単純に文の数に比例するわけではありません。
BではAに比べて長い文が多かったため、文数が多くなるほど
処理時間の差が顕著になっています。
このように、日本語文の長さに影響して
トレーニングの処理時間は大きく変わってきます。
今回の検証では10000文ですが、
膨大なコーパスを扱う研究開発などでは
トレーニングに1、2週間かかることも多いです。
●処理時間短縮は一文を短くすることで実現
トレーニングの処理時間を減らすために、
コーパスとして使用する一文を短くすることをおすすめします。
また、日本語文を短くすることにより機械が
より正確にトレーニングを行えるため、品質の良い機械翻訳にもつながります。
●まとめ
統計ベースのエンジンを使用する場合には、
トレーニングに時間がかかってしまいますが、
コーパスの日本語文を簡潔にすることで、処理時間の短縮につながります。
また、日本語文を簡潔にすることで、より良い機械翻訳を実現できます。
ヒューマンサイエンスでは、コーパスや対象ドキュメントの分析サービスや
機械翻訳導入に向けてのアドバイスなども行っておりますので、
ぜひお気軽にお問合せください!
フォームが使用できない場合は、hsweb_inquiry@science.co.jp宛に
お問い合わせ内容をメールにてお送りください。
もしくはお電話TEL:03-5321-3111にてお気軽にご連絡ください。