【ノウハウ】コーパスはどれくらいの分量があれば良いの?
統計ベースのエンジンでは、過去の翻訳メモリーなどの対訳データ(コーパス)
を読み込んで、機械翻訳の表現や用語をカスタマイズすることができます。
読み込んだコーパスから単語・句に続く確率が最も高い単語・句を統計的に解析し、
訳文を生成するので、エンジンに読み込ませるコーパスが多ければ多いほど、
翻訳の品質が向上すると言われています。
では、エンジンに読み込ませるコーパスの分量は、
どれくらいあれば良いのでしょうか。
使用するエンジンや言語にもよりますが、
一定レベルの翻訳品質を得るためには、一般的には
「20万ワード~100万ワード程度のコーパスが必要」と言われています。
これをお聞きになると、
「20万ワード以上のコーパスを準備するのは、ハードルが高い」
と思われる方もいらっしゃるかもしれませんね。
しかし、実はコーパスの分量が少なくても、
統計ベースのエンジンで十分な品質が得られる場合があります。
その際の鍵となるのが、読み込ませるコーパスの専門性の高さです。
読み込ませるコーパスが、翻訳対象の文書と同シリーズの
製品の文書などを翻訳したもので、
使用されている用語や表現が似通っている場合、
コーパスの分量が10万ワード程度であっても、良い品質が得られる場合もあります。
たとえば、プリンタードライバーの取扱説明書を英日翻訳する場合を考えてみましょう。
正しい翻訳は、
——————————————————————
Remove the data
データを消去する
——————————————————————
となります。
ここで、プリンター全般に関連したコーパスをエンジンに読み込ませていたとします。
すると、本来必要としているドライバーに関する翻訳に加えて、
プリンター本体(ハード)に関連した翻訳もコーパスに含まれてしまいます。
その結果、機械翻訳では、次のような翻訳が出力されてしまう可能性があります。
——————————————————————
Remove the data
データを取り外す
——————————————————————
「消去する」と翻訳されるべき、
「remove」が「取り外す」と翻訳されてしまいました。
これは、コーパスの中にドライバーではなくプリンター本体を
説明する文章の方が多く含まれていたため、
「remove」の訳語としてより出現頻度の高い「取り外す」という訳が
出力されてしまったのが原因です。
この場合、分量は少なくても、「プリンタードライバー」に
特化したコーパスだけを読み込ませた方が、
正確な翻訳ができた可能性があります。
これはわかりやすい例ですが、このようにコーパスの分量がたくさんあるよりも、
少量であっても専門性の高いコーパスの方が品質が良くなる場合も多いのです。
一概に「20万ワード以上コーパスがあれば、
統計ベースのエンジンが使える」というわけでもないのです。
ある分野のコーパスを800万ワード読み込ませたエンジンと、
製品に特化した40万ワードのコーパスを読み込ませたエンジンを比較したところ、
品質に差が出なかったといった例もお聞きしたことがあります。
なので、まずは現状の翻訳メモリーデータなどの対訳データを使って、
機械翻訳エンジンの品質を確認してみることをおすすめします。
現状のデータを使用して機械翻訳の品質評価を行い、
コスト削減率や投資回収率を算出することも可能です。
ぜひお気軽にお問い合わせください。
関連サービス
機械翻訳セミナー開催予定
機械翻訳セミナーは毎月開催しております。
セミナー案内メールご希望の方は下記ボタンから登録ください。
セミナー案内
メール登録
機械翻訳
お問い合わせ
ブログ執筆担当
徳田 愛
・機械翻訳コンサルタントとして、日本企業に向けた
機械翻訳導入やプロセス構築のコンサルティングを行う。
・多言語翻訳を左右する原文品質を重要視し、
和文ライティング工程も担当機械翻訳に適した
マニュアル作成のコンサルティングも実施。
・機械翻訳関連の以下の発表も担当。
- 2013年 第23回JTF(一般社団法人日本翻訳連盟)翻訳祭
「多言語における機械翻訳へのアプローチ
~評価とプロセスの観点から~」講演
- 2014年 AAMT(アジア太平洋機械翻訳協会)機械翻訳フェア
「機械翻訳を使いこなす~品質と生産性の向上のために~」
最新記事
- 【報告】「機械翻訳導入に失敗する企業、成功する企業」セミナーを開催しました 2018年5月29日
- 【報告】「機械翻訳導入時のエンジン選定の進め方とポイント」セミナーを開催しました 2018年5月11日
- 【報告】「機械翻訳導入支援セミナー ~パイロットプロジェクトの進め方とポイント~」を開催しました 2018年1月12日
- 【告知】12月13日に「機械翻訳導入支援セミナー ~パイロットプロジェクトの進め方とポイント」を開催します 2017年11月27日
- 【報告】TCシンポジウム2017(京都開催)で発表しました 2017年10月30日
- 【報告】TCシンポジウム2017(東京開催)で発表しました 2017年9月4日
- 【告知】8月24日にTCシンポ東京で発表します 2017年8月10日
- 【ノウハウ】ポストエディットの国際規格(ISO 18587) 2017年7月31日
- 【報告】「働き方改革を実現するための機械翻訳導入支援セミナー」を開催しました 2017年6月30日
- 【事例】機械翻訳導入へのハードル~関係者間での合意形成~ 2017年6月9日
- 【市場動向】機械翻訳導入による業務改善の効果 2017年5月15日
- 【ノウハウ】ポストエディターに求められる能力とは? 2017年4月6日
- 【事例】機械翻訳導入へのハードル ~エンジン導入と用語集作成の課題解決~ 2017年3月3日
- 【報告】「機械翻訳活用事例セミナー」を開催しました 2017年2月20日
- 【報告】JTF翻訳祭でニデック様と共同発表しました 2017年2月8日
- 【検証】ニューラルネットワークのMTエンジンの精度は? 2017年1月28日
- 【告知】1/26に「機械翻訳活用事例セミナー」を開催します 2016年12月22日
- 【市場動向】ニューラルネットワークの機械翻訳への活用 2016年12月19日
- 【機械翻訳エンジン】セキュリティの違い~クラウド vs オンプレミス~ 2016年12月5日
- 【告知】11/29の翻訳祭にて「国内医療機器メーカーによる機械翻訳活用事例」を発表します 2016年11月2日
- 【報告】TCシンポジウム2016(京都開催)で発表しました 2016年11月1日
- 【報告】「機械翻訳エンジン選定セミナー」を開催しました 2016年10月12日
- 【報告】TCシンポジウム2016(東京開催)で発表しました 2016年9月27日
- 【告知】CEATEC JAPAN 2016でセミナーを行います 2016年9月14日
- 【市場動向】コンテンツ・言語により目標品質を変えるのが今のトレンド 2016年8月31日
- 【終了】【告知】8月25日にTCシンポ東京で発表します 2016年8月4日
- 【終了】【告知】9月8日に「エンジン選定セミナー」を開催します 2016年7月29日
- 【ノウハウ】ポストエディットでの修正観点は? 2016年7月15日
- 【報告】「日英機械翻訳セミナー」を開催しました 2016年7月11日
- 【告知】機械翻訳セミナー動画を公開しました 2016年6月29日
- 【エンジン】トレーニングにかかる時間 2016年6月24日
- 【事例】日英機械翻訳でコストと翻訳期間を約40%削減! 2016年5月30日
- 【報告】「翻訳コストを27%削減!機械翻訳導入セミナー」を開催しました 2016年5月29日
- 【終了】【告知】6月16日(木)に「日英機械翻訳セミナー」を開催します 2016年5月16日
- 【ノウハウ】機械翻訳エンジン+翻訳支援ツールでさらなる効率化を 2016年5月10日
- Googleなど無料の機械翻訳と有料の機械翻訳の違い② 2016年4月22日
- 【市場動向】人間を超える?人工知能によるデータ処理 2016年3月25日
- 【報告】「比較のポイントがわかる!機械翻訳エンジン選定セミナー」を開催いたしました 2016年3月14日
- 【終了】【告知】「翻訳コストを27%削減!成功事例に学ぶ ドキュメント翻訳への機械翻訳導入ノウハウ」を開催します 2016年3月7日
- Googleなど無料の機械翻訳と有料の機械翻訳の違い① 2016年2月29日
- 【市場動向】隣の会社はどうしている?~アンケートから見えてくる機械翻訳導入の実際~ 2016年2月1日
- 【事例】国内企業様向け 「翻訳・機械翻訳に適した英文作成セミナー」 2016年1月25日
- 【告知】「比較のポイントがわかる!機械翻訳エンジン選定セミナー」を開催します 2016年1月20日
- 【ノウハウ】訳文の品質向上~例文で見るプリエディットの効果~ 2015年12月24日
- 【事例】最適なエンジン選定によりコスト37%削減、翻訳期間50%短縮を実現 2015年12月1日
- 【報告】TCシンポジウム2015(京都)で発表いたしました ~内容をちょっとご紹介~ 2015年11月10日
- 【報告】TCシンポジウム2015で発表いたしました 2015年9月18日
- 【ノウハウ】コーパスはどれくらいの分量があれば良いの? 2015年8月27日
- 【エンジン】最適な機械翻訳エンジンの選び方 2015年8月18日
- 【告知】隣の会社はMTをこう使っている~機械翻訳活用企業に学ぶ導入と運用のポイント~ 2015年8月3日
- 【報告】第3回機械翻訳セミナーを開催いたしました 2015年7月8日
- 【報告】5月28日に機械翻訳セミナーを開催いたしました 2015年6月4日
- 【検証】機械翻訳の品質って実際どうなの? 2015年4月1日
- 【報告】第2回機械翻訳セミナーを開催いたしました 2015年3月27日
- 【告知】TAUS Executive Forum in Tokyo 2015で発表します 2015年3月13日
- 【事例】コスト15%削減に成功 ~医療機器メーカー取扱説明書~ 2015年3月4日
- 【ノウハウ】品質、どこまで求める?ポストエディットの設計基準 2014年9月22日
- 【ノウハウ】機械翻訳しやすい原文に!プリエディットによる品質向上 2014年8月26日
- 【エンジン】数値化で確実に!機械翻訳エンジンの品質評価 2014年7月24日