【エンジン】トレーニングにかかる時間
機械翻訳の精度向上には、「対象ドキュメントの原文の品質も重要である」ということは
これまでのブログでもお話してきました。
この原文の品質についてですが、実は対象ドキュメントだけでなく、
統計ベースのエンジンに読み込ませる「コーパス」でも大変重要になります。
一文が長かったり、複雑な文法構造の文が多く含まれていると、
統計ベースのエンジンをトレーニングしても翻訳精度が向上しなかったり、
トレーニングの処理自体も長くなってしまう問題もあるのです。
今回はその処理時間について、日英翻訳のプロジェクトデータを
使用した検証結果をご紹介します。
●トレーニング時間に関する検証結果
トレーニングには多くの処理があり、なかでも、
各単語の品詞や係り受けを判定する構文解析に一番時間がかかります。
そのため、一文が長く、文法構造の複雑な文章が多いと、
この構文を解析する処理に時間がかかってしまうというわけです。
以下の表は、実際の案件で使用された日英翻訳用コーパスの
構文解析の時間をまとめたものです。
一文が短い文章が多く含まれていた「案件A」のコーパスと、
一文が長い文章が多く含まれていた「案件B」のコーパスの解析結果を比較してみましょう。
案件A(処理時間) | 案件B(処理時間) | |
1文 | 6.72秒 | 6.38秒 |
100文 | 15分 | 41分 |
1000文 | 1分10秒 | 7分53秒 |
3000文 | 6分27秒 | 1時間5分 |
10000文 | 4時間9分 | 5時間46分 |
-検証環境
解析器:Ckylark (すかいらーく) 使用PC:iMac
プロセッサ:Core i5 プロセッサ速度:2.8GHz
メモリ:12GB 1,333Hz DDR3
表を見てわかる通り、同じ文数でもAよりBの方が
圧倒的に時間がかかっていますね。
ちなみに、構文の解析にかかる時間は単純に文の数に比例するわけではありません。
BではAに比べて長い文が多かったため、文数が多くなるほど
処理時間の差が顕著になっています。
このように、日本語文の長さに影響して
トレーニングの処理時間は大きく変わってきます。
今回の検証では10000文ですが、
膨大なコーパスを扱う研究開発などでは
トレーニングに1、2週間かかることも多いです。
●処理時間短縮は一文を短くすることで実現
トレーニングの処理時間を減らすために、
コーパスとして使用する一文を短くすることをおすすめします。
また、日本語文を短くすることにより機械が
より正確にトレーニングを行えるため、品質の良い機械翻訳にもつながります。
●まとめ
統計ベースのエンジンを使用する場合には、
トレーニングに時間がかかってしまいますが、
コーパスの日本語文を簡潔にすることで、処理時間の短縮につながります。
また、日本語文を簡潔にすることで、より良い機械翻訳を実現できます。
ヒューマンサイエンスでは、コーパスや対象ドキュメントの分析サービスや
機械翻訳導入に向けてのアドバイスなども行っておりますので、
ぜひお気軽にお問合せください!
フォームが使用できない場合は、hsweb_inquiry@science.co.jp宛に
お問い合わせ内容をメールにてお送りください。
もしくはお電話TEL:03-5321-3111にてお気軽にご連絡ください。
ブログ執筆担当
牧野 広起
・大学では情報工学を専攻し、自然言語処理を研究。
・複数のエンジンの品質評価・検証を通して、
機械翻訳の精度を向上させるためのエンジン分析・調査を実施。
・テクニカルライターとして、機械翻訳しやすい和文の研究、検証。
最新記事
- 【報告】「機械翻訳導入に失敗する企業、成功する企業」セミナーを開催しました 2018年5月29日
- 【報告】「機械翻訳導入時のエンジン選定の進め方とポイント」セミナーを開催しました 2018年5月11日
- 【報告】「機械翻訳導入支援セミナー ~パイロットプロジェクトの進め方とポイント~」を開催しました 2018年1月12日
- 【告知】12月13日に「機械翻訳導入支援セミナー ~パイロットプロジェクトの進め方とポイント」を開催します 2017年11月27日
- 【報告】TCシンポジウム2017(京都開催)で発表しました 2017年10月30日
- 【報告】TCシンポジウム2017(東京開催)で発表しました 2017年9月4日
- 【告知】8月24日にTCシンポ東京で発表します 2017年8月10日
- 【ノウハウ】ポストエディットの国際規格(ISO 18587) 2017年7月31日
- 【報告】「働き方改革を実現するための機械翻訳導入支援セミナー」を開催しました 2017年6月30日
- 【事例】機械翻訳導入へのハードル~関係者間での合意形成~ 2017年6月9日
- 【市場動向】機械翻訳導入による業務改善の効果 2017年5月15日
- 【ノウハウ】ポストエディターに求められる能力とは? 2017年4月6日
- 【事例】機械翻訳導入へのハードル ~エンジン導入と用語集作成の課題解決~ 2017年3月3日
- 【報告】「機械翻訳活用事例セミナー」を開催しました 2017年2月20日
- 【報告】JTF翻訳祭でニデック様と共同発表しました 2017年2月8日
- 【検証】ニューラルネットワークのMTエンジンの精度は? 2017年1月28日
- 【告知】1/26に「機械翻訳活用事例セミナー」を開催します 2016年12月22日
- 【市場動向】ニューラルネットワークの機械翻訳への活用 2016年12月19日
- 【機械翻訳エンジン】セキュリティの違い~クラウド vs オンプレミス~ 2016年12月5日
- 【告知】11/29の翻訳祭にて「国内医療機器メーカーによる機械翻訳活用事例」を発表します 2016年11月2日
- 【報告】TCシンポジウム2016(京都開催)で発表しました 2016年11月1日
- 【報告】「機械翻訳エンジン選定セミナー」を開催しました 2016年10月12日
- 【報告】TCシンポジウム2016(東京開催)で発表しました 2016年9月27日
- 【告知】CEATEC JAPAN 2016でセミナーを行います 2016年9月14日
- 【市場動向】コンテンツ・言語により目標品質を変えるのが今のトレンド 2016年8月31日
- 【終了】【告知】8月25日にTCシンポ東京で発表します 2016年8月4日
- 【終了】【告知】9月8日に「エンジン選定セミナー」を開催します 2016年7月29日
- 【ノウハウ】ポストエディットでの修正観点は? 2016年7月15日
- 【報告】「日英機械翻訳セミナー」を開催しました 2016年7月11日
- 【告知】機械翻訳セミナー動画を公開しました 2016年6月29日
- 【エンジン】トレーニングにかかる時間 2016年6月24日
- 【事例】日英機械翻訳でコストと翻訳期間を約40%削減! 2016年5月30日
- 【報告】「翻訳コストを27%削減!機械翻訳導入セミナー」を開催しました 2016年5月29日
- 【終了】【告知】6月16日(木)に「日英機械翻訳セミナー」を開催します 2016年5月16日
- 【ノウハウ】機械翻訳エンジン+翻訳支援ツールでさらなる効率化を 2016年5月10日
- Googleなど無料の機械翻訳と有料の機械翻訳の違い② 2016年4月22日
- 【市場動向】人間を超える?人工知能によるデータ処理 2016年3月25日
- 【報告】「比較のポイントがわかる!機械翻訳エンジン選定セミナー」を開催いたしました 2016年3月14日
- 【終了】【告知】「翻訳コストを27%削減!成功事例に学ぶ ドキュメント翻訳への機械翻訳導入ノウハウ」を開催します 2016年3月7日
- Googleなど無料の機械翻訳と有料の機械翻訳の違い① 2016年2月29日
- 【市場動向】隣の会社はどうしている?~アンケートから見えてくる機械翻訳導入の実際~ 2016年2月1日
- 【事例】国内企業様向け 「翻訳・機械翻訳に適した英文作成セミナー」 2016年1月25日
- 【告知】「比較のポイントがわかる!機械翻訳エンジン選定セミナー」を開催します 2016年1月20日
- 【ノウハウ】訳文の品質向上~例文で見るプリエディットの効果~ 2015年12月24日
- 【事例】最適なエンジン選定によりコスト37%削減、翻訳期間50%短縮を実現 2015年12月1日
- 【報告】TCシンポジウム2015(京都)で発表いたしました ~内容をちょっとご紹介~ 2015年11月10日
- 【報告】TCシンポジウム2015で発表いたしました 2015年9月18日
- 【ノウハウ】コーパスはどれくらいの分量があれば良いの? 2015年8月27日
- 【エンジン】最適な機械翻訳エンジンの選び方 2015年8月18日
- 【告知】隣の会社はMTをこう使っている~機械翻訳活用企業に学ぶ導入と運用のポイント~ 2015年8月3日
- 【報告】第3回機械翻訳セミナーを開催いたしました 2015年7月8日
- 【報告】5月28日に機械翻訳セミナーを開催いたしました 2015年6月4日
- 【検証】機械翻訳の品質って実際どうなの? 2015年4月1日
- 【報告】第2回機械翻訳セミナーを開催いたしました 2015年3月27日
- 【告知】TAUS Executive Forum in Tokyo 2015で発表します 2015年3月13日
- 【事例】コスト15%削減に成功 ~医療機器メーカー取扱説明書~ 2015年3月4日
- 【ノウハウ】品質、どこまで求める?ポストエディットの設計基準 2014年9月22日
- 【ノウハウ】機械翻訳しやすい原文に!プリエディットによる品質向上 2014年8月26日
- 【エンジン】数値化で確実に!機械翻訳エンジンの品質評価 2014年7月24日