お問い合わせ

東京本社 03-5321-3111
名古屋 052-269-8016

機械翻訳ブログ

【エンジン】トレーニングにかかる時間

機械翻訳の精度向上には、「対象ドキュメントの原文の品質も重要である」ということは
これまでのブログでもお話してきました。
この原文の品質についてですが、実は対象ドキュメントだけでなく、
統計ベースのエンジンに読み込ませる「コーパス」でも大変重要になります。

一文が長かったり、複雑な文法構造の文が多く含まれていると、
統計ベースのエンジンをトレーニングしても翻訳精度が向上しなかったり、
トレーニングの処理自体も長くなってしまう問題もあるのです。

今回はその処理時間について、日英翻訳のプロジェクトデータを
使用した検証結果をご紹介します。

●トレーニング時間に関する検証結果

 
トレーニングには多くの処理があり、なかでも、
各単語の品詞や係り受けを判定する構文解析に一番時間がかかります。
そのため、一文が長く、文法構造の複雑な文章が多いと、
この構文を解析する処理に時間がかかってしまうというわけです。

以下の表は、実際の案件で使用された日英翻訳用コーパスの
構文解析の時間をまとめたものです。
一文が短い文章が多く含まれていた「案件A」のコーパスと、
一文が長い文章が多く含まれていた「案件B」のコーパスの解析結果を比較してみましょう。

 


 

案件A(処理時間) 案件B(処理時間)
1文 6.72秒 6.38秒
100文 15分 41分
1000文 1分10秒 7分53秒
3000文 6分27秒 1時間5分
10000文 4時間9分 5時間46分

-検証環境
解析器:Ckylark (すかいらーく)         使用PC:iMac
プロセッサ:Core i5          プロセッサ速度:2.8GHz
メモリ:12GB 1,333Hz DDR3


 

表を見てわかる通り、同じ文数でもAよりBの方が
圧倒的に時間がかかっていますね。

ちなみに、構文の解析にかかる時間は単純に文の数に比例するわけではありません。

BではAに比べて長い文が多かったため、文数が多くなるほど
処理時間の差が顕著になっています。
このように、日本語文の長さに影響して
トレーニングの処理時間は大きく変わってきます。

今回の検証では10000文ですが、
膨大なコーパスを扱う研究開発などでは
トレーニングに1、2週間かかることも多いです。

●処理時間短縮は一文を短くすることで実現

 
トレーニングの処理時間を減らすために、
コーパスとして使用する一文を短くすることをおすすめします。

また、日本語文を短くすることにより機械が
より正確にトレーニングを行えるため、品質の良い機械翻訳にもつながります。

●まとめ

 
統計ベースのエンジンを使用する場合には、
トレーニングに時間がかかってしまいますが、
コーパスの日本語文を簡潔にすることで、処理時間の短縮につながります。
また、日本語文を簡潔にすることで、より良い機械翻訳を実現できます。

 
ヒューマンサイエンスでは、コーパスや対象ドキュメントの分析サービスや

機械翻訳導入に向けてのアドバイスなども行っておりますので、
ぜひお気軽にお問合せください!

>>お問い合わせフォーム

フォームが使用できない場合は、hsweb_inquiry@science.co.jp宛に
お問い合わせ内容をメールにてお送りください。

もしくはお電話TEL:03-5321-3111にてお気軽にご連絡ください。
 
 

ブログ執筆担当

 
 
牧野 広起
IMG_3712_アップ用
・大学では情報工学を専攻し、自然言語処理を研究。
・複数のエンジンの品質評価・検証を通して、
 機械翻訳の精度を向上させるためのエンジン分析・調査を実施。
・テクニカルライターとして、機械翻訳しやすい和文の研究、検証。

  • 最新記事

  • カテゴリー

  • 機械翻訳・自動翻訳(MT/Machine Translation)サービス
  • 翻訳会社ヒューマンサイエンスの翻訳サービス
  • AI・アノテーションサービス
  • マニュアル作成
  • eラーニングシステム(LMS)導入・運用支援サービス
  • タグ

    エンジン オンプレミス カンファレンス クラウド コスト コーパス セキュリティ プリエディット ポストエディット ヨーロッパ言語 ルールベース 事例 出展 告知 品質 報告 市場 日本語 日英翻訳 時事 検証 業務改善 機械翻訳 機械翻訳エンジン 機械翻訳セミナー 機械翻訳評価 比較 生産性向上 用語集 納期 統計ベース 翻訳 翻訳支援ツール 自動翻訳 自動翻訳ソフト 英語