• 東京03-5321-3111
  • 名古屋052-269-8016
  • 言語切り替え
    • English

Some parts of this page may be machine-translated.

 

コーパスはどれくらいの分量があれば良いの?

コーパスはどれくらいの分量があれば良いの?

統計ベースのエンジンでは、過去の翻訳メモリーなどの対訳データ(コーパス)
を読み込んで、機械翻訳の表現や用語をカスタマイズすることができます。

読み込んだコーパスから単語・句に続く確率が最も高い単語・句を統計的に解析し、
訳文を生成するので、エンジンに読み込ませるコーパスが多ければ多いほど、
翻訳の品質が向上すると言われています。

では、エンジンに読み込ませるコーパスの分量は、
どれくらいあれば良いのでしょうか。
使用するエンジンや言語にもよりますが、
一定レベルの翻訳品質を得るためには、一般的には
「20万ワード~100万ワード程度のコーパスが必要」と言われています。

これをお聞きになると、
「20万ワード以上のコーパスを準備するのは、ハードルが高い」
と思われる方もいらっしゃるかもしれませんね。

しかし、実はコーパスの分量が少なくても、
統計ベースのエンジンで十分な品質が得られる場合があります。
その際の鍵となるのが、読み込ませるコーパスの専門性の高さです。
読み込ませるコーパスが、翻訳対象の文書と同シリーズの
製品の文書などを翻訳したもので、
使用されている用語や表現が似通っている場合、
コーパスの分量が10万ワード程度であっても、良い品質が得られる場合もあります。

たとえば、プリンタードライバーの取扱説明書を英日翻訳する場合を考えてみましょう。

正しい翻訳は、
——————————————————————
Remove the data
データを消去する
——————————————————————
となります。

ここで、プリンター全般に関連したコーパスをエンジンに読み込ませていたとします。
すると、本来必要としているドライバーに関する翻訳に加えて、
プリンター本体(ハード)に関連した翻訳もコーパスに含まれてしまいます。
その結果、機械翻訳では、次のような翻訳が出力されてしまう可能性があります。

——————————————————————
Remove the data
データを取り外す
——————————————————————

「消去する」と翻訳されるべき、
「remove」が「取り外す」と翻訳されてしまいました。
これは、コーパスの中にドライバーではなくプリンター本体を
説明する文章の方が多く含まれていたため、
「remove」の訳語としてより出現頻度の高い「取り外す」という訳が
出力されてしまったのが原因です。

この場合、分量は少なくても、「プリンタードライバー」に
特化したコーパスだけを読み込ませた方が、
正確な翻訳ができた可能性があります。

これはわかりやすい例ですが、このようにコーパスの分量がたくさんあるよりも、
少量であっても専門性の高いコーパスの方が品質が良くなる場合も多いのです。
一概に「20万ワード以上コーパスがあれば、
統計ベースのエンジンが使える」というわけでもないのです。

ある分野のコーパスを800万ワード読み込ませたエンジンと、
製品に特化した40万ワードのコーパスを読み込ませたエンジンを比較したところ、
品質に差が出なかったといった例もお聞きしたことがあります。

なので、まずは現状の翻訳メモリーデータなどの対訳データを使って、
機械翻訳エンジンの品質を確認してみることをおすすめします。

現状のデータを使用して機械翻訳の品質評価を行い、
コスト削減率や投資回収率を算出することも可能です。
ぜひお気軽にお問い合わせください。

 

関連サービス

機械翻訳評価サービス

機械翻訳セミナー開催予定
機械翻訳セミナーは毎月開催しております。
セミナー案内メールご希望の方は下記ボタンから登録ください。

 

ブログ執筆担当

機械翻訳セミナー_徳田

徳田 愛

・機械翻訳コンサルタントとして、日本企業に向けた
機械翻訳導入やプロセス構築のコンサルティングを行う。
・多言語翻訳を左右する原文品質を重要視し、
和文ライティング工程も担当機械翻訳に適した
マニュアル作成のコンサルティングも実施。
・機械翻訳関連の以下の発表も担当。
– 2013年 第23回JTF(一般社団法人日本翻訳連盟)翻訳祭
「多言語における機械翻訳へのアプローチ
~評価とプロセスの観点から~」講演
– 2014年 AAMT(アジア太平洋機械翻訳協会)機械翻訳フェア
「機械翻訳を使いこなす~品質と生産性の向上のために~」

人気記事ランキング
アーカイブ
カテゴリ

翻訳について
詳しく知りたい方

東京:03-5321-3111 
名古屋:052-269-8016

受付時間 9:30~17:00

お問い合わせ・資料請求