PDFを簡単かつ安全に翻訳する方法は？

目次

1．PDF翻訳
2．PDF翻訳ツールにはどんなものがある？
3．PDF翻訳がうまくできない理由とデメリット
4．PDFの翻訳ツールに求められる条件は？
5．まとめ

1. PDF翻訳

PDFファイルには、文章がテキストデータとして格納されているテキストベースのPDFと、文章が画像データとして格納されている画像ベースのPDFの2種類の形式があります。画像ベースのPDFは、コピー機でスキャンした書類であることが多いため、スキャンPDFとも呼ばれます。

Adobe Acrobat ReaderアプリでテキストベースのPDFを開くと、マウスカーソルを使って文章を選択できます。テキストベースのPDFを自動翻訳したい場合は、文章を選択してコピーして、自動翻訳サービスにペーストできます。

画像ベースのスキャンPDFの場合は、文章を選択できず、ページ全体が選択されてしまいます。スキャンPDFを自動翻訳したい場合は、PDFを見ながら人手で文章を打ち直さなければなりませんが、分量が多いと非常に時間がかかり現実的ではありません。

そこで、文字を認識してテキストデータに変換するOCRと呼ばれる機能が必要になります。最初にOCR機能で文字を認識し、その後、自動翻訳を行います。ただし、文字が正しく認識されないと、翻訳精度がいくら高くても正しく翻訳できません。そのため、スキャンPDFを翻訳する場合は、OCR機能の性能が重要になります。

2. PDF翻訳ツールにはどんなものがある？

代表的な自動翻訳サービスにDeepLやGoogle翻訳があります。いずれもPDFファイルを翻訳できますが、対応の程度は異なります。

DeepL
DeepLは、ニューラルネットワークを活用した高精度の機械翻訳エンジンであり、翻訳業界でも高い評価を受けています。独自の深層学習技術を用いて翻訳を行い、多言語に対応しています。 DeepLの翻訳精度は、従来の機械翻訳に比べて非常に高く、特に自然な翻訳が可能です。これは、ニューラルネットワークを利用することで、文脈や単語の意味をより正確に理解し、より自然な翻訳を行えるようになったためです。また、DeepLは、膨大な量のデータを学習することによって、特定の分野において高い翻訳品質を発揮することができます。

DeepLは、機械翻訳の分野で多くの実績を持っており、翻訳業界でも高い評価を受けています。実際に、2021年に行われた翻訳品質の比較評価では、英語を日本語に翻訳する場合において、DeepLが最も高い翻訳品質を実現していることが報告されています。さらに、多数の言語に対応しているため、多言語翻訳にも非常に優れています。

ただし、DeepLでも完璧な翻訳ができるわけではありません。特に、複雑な分野や専門用語の翻訳には、まだ改善の余地があります。しかし、DeepLは、機械翻訳の分野において高い翻訳品質を実現しており、多くのユーザーから支持されています。

DeepL にはファイル翻訳と呼ばれる機能が搭載されています。PDFファイルをアップロードして翻訳できます。テキストベースのPDFとスキャンPDFの両方に対応しています。レイアウトを保ったまま翻訳され、翻訳済みPDFをダウンロードできます。

使用するDeepLが無料版か有料版かによって翻訳できるファイル数やファイルサイズが異なります。無料版ではファイル数は月に3個まで、ファイルサイズは5MBまでの制限があります。翻訳後のPDFファイルは編集できません。有料版では、ファイル数がプランによって月に5～100個まで、ファイルサイズは10MBまでの制限があります。翻訳後のPDFファイルは編集可能です。

無料版を利用する場合は、入力したデータがDeepL社に利用される可能性があります。詳細については、「DeepL翻訳で機密は保持される？セキュリティは？」（https://www.science.co.jp/nmt/blog/21127/ ）をご覧ください。また、無料版と有料版の違いについては、「DeepLの無料版と有料版（DeepL Pro）の違いとは？　～料金、セキュリティ、文字数～」（https://www.science.co.jp/nmt/blog/29139/）をご覧ください。

Google翻訳
Google翻訳にはドキュメント翻訳と呼ばれる機能が搭載されています。PDFファイルをアップロードして翻訳できます。テキストベースのPDFにのみ対応し、スキャンPDFには対応していません。レイアウトを保ったまま翻訳され、翻訳後のPDFをダウンロードできます。翻訳後のPDFは編集できません。ファイルサイズの上限は10MBです。

Google翻訳は、無料で使えるオンライン上の機械翻訳サービスです。Google翻訳も、ニューラルネットワークをベースとしており、Googleが保有する膨大な量のデータを利用して翻訳を行います。Google翻訳は、多数の言語に対応しており、世界中の人々が利用しています。

翻訳精度は向上してきており、翻訳品質については非常に高い評価を受けています。特に、一般的な文章に対しては高い翻訳品質を発揮します。しかし、専門用語や文脈によっては、正確な翻訳をすることが難しい場合があります。また、機械翻訳の限界として、言語によっては複数の意味を持つ単語が存在し、その場合に正確な翻訳が難しいという問題があります。

人工知能の進化やデータ量の増加などによって翻訳精度が向上しています。また、スマートフォン向けのGoogle翻訳は、機能が充実しており、様々な言語に対応した音声翻訳機能や、スマートフォンのカメラで撮影した画像のテキストを自動翻訳する機能などがあります。

無料で利用できる点がGoogle翻訳の大きな魅力ですが、翻訳品質にばらつきがあることも事実です。そのため、専門的な文書やビジネス文書など、高い翻訳精度が求められる場合には、プロの翻訳者に依頼することが必要です。

なお、GoogleとDeepLの翻訳精度について詳しくは、機械翻訳の最新動向と「DeepL」と「Google翻訳」の比較（ https://www.science.co.jp/nmt/blog/32334/）をご覧ください。

MTrans for Office （エムトランス　フォー　オフィス）
弊社のもう一つの自動翻訳製品のMTrans for OfficeはWindows/Mac/Web版のOutlook、Word、Excel、PowerPointに自動翻訳機能を追加します。このうち、Windows版のMTrans for Office に、DeepLとGoogleを使ったPDF翻訳機能が搭載されており、テキストベースのPDFとスキャンPDFの両方に対応しています。レイアウトを保ったまま翻訳され、編集可能なPDFが保存されます。ファイルサイズの上限は、翻訳エンジンとしてDeepLを使う場合は10MB、Googleを使う場合は20MBです。

翻訳エンジンとしてGoogleを選択した場合、OCRと自動翻訳にGoogle Cloud Translation APIが利用されます。このAPIについては「スキャンしたPDF資料に自動翻訳をかけるには」（https://www.science.co.jp/nmt/blog/29162/）でも紹介しました。GoogleのOCR機能は長年スマートフォンのGoogle翻訳アプリで広く利用されており、技術的なノウハウが蓄積されているため、より高い精度で文字を認識できます。

3. PDF翻訳がうまくできない理由とデメリット

PDFファイルが保護されており、翻訳ができない
パスワード保護されたPDFファイルは直接翻訳できません。パスワードを解除し、パスワード保護されていないPDFファイルを用意する必要があります。パスワードが解除できない場合でも印刷が許可されていれば、Windowsの「Microsoft PDF 印刷」を使って新しいPDFファイルとして保存して、このPDFファイルを翻訳できます。

レイアウトや表の崩れが生じる
PDFを自動翻訳すると、レイアウトや表が崩れてしまう場合があります。DeepLの有料版、MTrans for Officeで翻訳した場合、翻訳後に出力されるPDFをWordアプリに読み込めるため、手作業で修正できます。

意図しない改行で意味の通じない翻訳になってしまう
一文が途中で分割されて複数の文として認識される場合があります。MTrans for Officeで翻訳した場合、翻訳後に出力されるPDFをWordアプリに読み込めるため、原文の複数の文を一文にまとめてから再度、自動翻訳することができます。

自動翻訳の処理容量が小さく、サイズの大きなファイルは一度に翻訳するのが難しい
スキャンPDFのファイルサイズは大きくなることが多いため、自動翻訳サービスのファイルサイズの上限が問題になる場合があります。上限を超える場合は、ファイルを分割するか、またはAdobeが提供しているPDFファイルの圧縮サービス（https://acrobat.adobe.com/link/acrobat/compress-pdf）を利用できます。なお、PDFを圧縮する際には、文字が潰れないように低い圧縮レベル（最高画質）を選択すると、文字の認識精度が下がりにくくなります。

情報漏洩のリスクがある
無料版のDeepLやGoogle翻訳を利用すると、入力したデータが別の目的に流用されるおそれがあります。機密情報を翻訳する場合は、無料の自動翻訳サービスではなく、セキュリティが確保された有料サービスを利用する必要があります。DeepLのセキュリティについて詳しくは、「DeepL翻訳で機密は保持される？セキュリティは？」（https://www.science.co.jp/nmt/blog/21127/ ）をご覧ください。

PDFファイルが保護されている
PDFファイルが保護されている場合、PDF翻訳ができないことがあります。保護されたPDFファイルは、コピー、印刷、編集、または翻訳を防止するために制限されています。このような場合には、まずはPDFファイルの制限を解除する必要があります。

PDFファイルの制限を解除した後、翻訳が必要な場合には、Google翻訳やDeepLなどのオンライン翻訳サービスを使用することができます。これらのサービスは、PDFファイルを直接アップロードすることで翻訳が可能です。

ただし、これらの方法でも翻訳精度が完璧であるとは限りません。PDFファイルのレイアウトや書式などが原因で、翻訳が正しく行われないことがあります。そのため、できるだけPDF変換前の元のファイルを入手することが望ましいです。また、より高度な翻訳品質が必要な場合には、専門の翻訳サービスや翻訳者に依頼することもできます。

サイズの大きなファイルは一度に翻訳するのが難しい
PDF翻訳は、通常、小さなファイルであれば比較的簡単に処理できますが、ファイルサイズが大きくなると処理が困難になることがあります。これは、翻訳エンジンが一度に処理できるデータの量に制限があるためです。大きなファイルを一度に処理すると、翻訳エンジンが動作を停止する可能性があり、処理中にエラーが発生することがあります。

そのため、大きなPDFファイルを翻訳する場合、ファイルを分割して、小さなファイルに分ける必要があります。各ファイルを翻訳し、必要に応じて再結合することができます。
PDFファイルを翻訳する際には、ファイルサイズの大きさに注意する必要があります。可能であれば、元の文書のサイズを小さくすることができる方法を検討することも重要です。たとえば、画像やグラフィックスを圧縮するなどの方法があります。これにより、PDFファイルのサイズを縮小し、翻訳処理をよりスムーズに行うことができます。

4. PDFの翻訳ツールに求められる条件は？

機能面ではテキストベースのPDFとスキャンPDFの両方に対応していることが求められます。スキャンPDFを翻訳する場合は、画像の文字をできる限り正確に認識できる、高性能なOCR機能が求められます。レイアウトが崩れた場合に修正できるように、翻訳後のファイルが編集可能であることが望まれます。原文の一文が複数に分割される場合は、原文編集の機能があると便利です。機密保持の面では、PDFの内容が、他の目的に流用されないことが必須です。

5. まとめ

PDFファイルには、テキストベースのPDFと画像ベースのスキャンPDFがあり、使用する自動翻訳サービスによって対応状況が異なります。当社ではテキストベースのPDFとスキャンPDFの両方に対応し、DeepL、Google、Microsoftの自動翻訳サービスが組み込まれた翻訳製品「MTrans for Office （エムトランス　フォー　オフィス）」を提供しています。14日間の無料トライアルで、品質と使い勝手をご確認ください。