DeepLの日本語版が2020年3月にリリースされて以来、翻訳精度の高さが話題になっています。
ヒューマンサイエンスでは、IT、ビジネス一般、製造、医療・医薬など様々な分野の検証を進めております。
以前の記事では、ビジネスメール、新薬認証申請書類におけるDeepLとGoogle等エンジンとの比較結果をお伝えしました。
今回は、医療・医薬分野のドキュメントの中から、ホワイトペーパー、マニュアル(医療機器)、CIOMS、ICF、IB、論文の6種類を対象に、これまでの自動評価に加え、人手評価でも検証しました。
目次
1. 評価方法
言語ペア:英語→日本語
対象文書:ホワイトペーパー、マニュアル(医療機器)、CIOMS、ICF、IB、論文の6種類
評価分量:各種1,000ワード前後(各種50センテンス前後)
評価基準:自動評価BLEUスコアおよび人手評価
2. 自動評価BLEUスコアの結果
自動評価BLEUスコアでは、ドキュメントごとに異なる結果となりました。
・ホワイトペーパー、IB、論文:DeepLの方が高いスコア
・マニュアル(医療機器)、CIOMS:Googleの方が高いスコア
・ICF:DeepL、Googleともに同程度
BLEU スコアにおいては、30以上の数値が出れば、理解できる、適度な品質の翻訳とされます。
数値が30を超えているドキュメントについては、人手翻訳ではなく、機械翻訳+ポストエディットでの作業効率向上の可能性があります。
3. 人手評価の結果
人間が評価した場合はどうでしょうか。
ヒューマンサイエンスの医療・医薬翻訳担当レビューアが同じドキュメントを評価し、各ドキュメントのセンテンスごとに1~4までの点数をつけました。
点数の基準については下記の通りです。
4: 翻訳時間を大幅に短縮できる。ほぼ修正不要。句読点や1~2語の修正で済む。
3: 翻訳時間を短縮できる。単語の修正や順序の入れ替えが必要。
2: 翻訳時間を短縮できない。参考にはなるが、イチから翻訳したほうが早い。
1: 翻訳時間を短縮できない。まったく参考にならない。
・ホワイトペーパー、IB、論文、CIOMS:DeepLの方が高い点数
・マニュアル(医療機器)、ICF:Googleの方が品質は高い点数
おおむね自動評価の結果と同様となりましたが、CIOMSの評価は自動評価の結果とは逆転し、ICFについてはわずかにGoogleの品質の方が高いという結果になりました。
ヒューマンサイエンスでは、点数が2.5以上あれば、機械翻訳を活用して翻訳作業を効率化が出来ると考えております。
ホワイトペーパーやマニュアル(医療機器)は機械翻訳+ポストエディットでの作業に向いているドキュメントであると考えます。
4. まとめ
DeepLがGoogleよりも翻訳品質が高くなるケースが多い検証結果となりました。
しかしながら、DeepL、Googleどちらがいいかは一概に判断することはできません。翻訳対象文書によって品質は異なるため、効果検証のうえで機械翻訳エンジンを選ぶことが重要です。