Trados StudioでPDFを翻訳する方法
2019年5月1日
読了目安時間:5分
もしあなたが私と同じ翻訳者なら、翻訳するのは単純なWordドキュメントがいいと思っているはずです。受信トレイにPDFが届いた日は、作業に時間を要し、最終データになってもまだ修正が必要になるかもしれないと覚悟するでしょう。1人の翻訳者として、Trados StudioでのPDFファイル処理をより簡単にするヒントを他の翻訳者の方々にもご紹介したいと思います。
PDFとはどういうもので、スキャンしたファイルと編集可能なファイルの違いは何でしょうか?
PDFはPortable Document Formatの略語であり、デバイスや使用するプログラムに関係なく、開いたときにまったく同じコンテンツとレイアウトが表示されるファイルです。ドキュメントの制作者にとっては好都合ですが、翻訳者にとってはあまり歓迎できるものではありません。
PDFドキュメントは編集可能なものか、スキャンしたもののいずれかになります。編集可能なPDFにはテキストレイヤーがあり、サポートされているすべてのバージョンのTrados Studioで処理できます。スキャンしたPDFはページ全体のイメージにすぎず、電子テキスト文字が使用されていません。このようなPDFは、光学文字認識(OCR)を実行してテキストを抽出するエンジンが組み込まれているTrados Studioで処理できます。
これら2種類のPDFは簡単に見分けることができます。ファイルをPDFリーダーで開きます。編集可能なPDFである場合、単語または段落の選択、コピー、貼り付けのみを実行できます。
言語などの制限事項
PDFファイル向けに使用されるTrados StudioのOCRエンジンは、Solid Documentsテクノロジーを使用しています。OCRテクノロジーは辞書をベースにしているため、デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、イタリア語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スウェーデン語、トルコ語といった特定の言語で使用可能です。
原文のテキストが前述の言語のいずれかに該当する必要があります。変換を適切に行うために、イメージの品質も高くなければなりません。次のような歪んだテキスト、不鮮明な画像、汚れの付着、手書きなどは、いずれも適用できません。
PDFが上図のいずれかのような場合(共に実例)、Wordの音声認識ソフトウェアで原文の口述筆記をしてから、Trados StudioでWordファイルにて翻訳することをお勧めします。
翻訳前に出力結果をプレビュー
下記のようにかなり品質の良いPDFを受け取ったとします。
次のステップは、Trados Studioでのファイルのテストです。[ようこそ]ビューにPDFをドロップするだけです。
次のウィンドウで、[詳細設定]をクリックします。
左側で、[ファイルの種類]>[PDF]>[コンバータ]の順に選択し、[参照]をクリックしてファイルをプレビューします。
これによりファイルの体裁をエディタウィンドウですばやくプレビューできます。同時に、ファイルもdocx形式でPDFのフォルダに保存されます。
翻訳をそのまま続けるか、あるいは書式設定を実行し、原文をWordファイルのレイアウトにしてから、元のPDFファイルではなくWordファイルをTrados Studioで翻訳するかを判断します。
ファイル形式プレビューでは、プロジェクトの翻訳メモリの分節設定ではなく、標準的な分節規則が使用されます。また、ファイル形式プレビューは、ファイルをプロジェクトに追加した場合は使用できません。ようこそビューからファイルを開いた場合にのみ、プロジェクトの設定オプションと通常オプションで使用できます。
PDFファイル形式のOCR変換とWordオプション
Trados Studioのプレビューのメリットは、PDFファイル形式設定(スクリーンショットを参照)でファイルがどう処理されるかを確認できる点です。私は通常[レイアウト]を[フロー]に設定します。出力されるのは基本的なものですが、箇条書きの文字、太字などの書式は正しく設定されます。
私は画像を削除しますが、必要であれば画像を残すことも変換することもできます。ヘッダーとフッターは適切に処理されますが、ここでは削除をしておいて訳文Wordファイルに手動で追加したほうが簡単な場合もあります。
[表の検出]は必要です。
最後に、Trados Studioでのテキスト認識方法のオプションを設定します。
- [文字ごと]は、編集可能なテキストとスキャンしたテキスト両方を含む複合PDF用です。
- [問題のある文字のみ]は、スキャンしたPDF用です([文字ごと]と併用可能です)。
- [なし]は編集可能なPDF用です。
左側のリストに戻ります。[全般設定]([コンバータ]の下)には、訳文文書にコメントを追加するオプションを含め、Wordドキュメントの設定オプションがすべて揃っています。
翻訳時の応用
プロジェクトの設定を終了し、翻訳段階になったら、原文テキストの典型的なOCRエラーを探します。一部のフォントでは「1」と「I」や「0」と「o」が非常に似ています(例:2O December 20I6)。間違いが発生しやすい文字の組み合わせもあります。OCR辞書にない固有名詞は特にそうです(例:「Dr Turner」を「Dr Tumer」と誤る)。
しかし、原文分節のエラーは修正可能であることを忘れないでください。修正により原文テキストが改善するばかりでなく、翻訳メモリを今後もさらに有効活用することができます。アクティブな分節で、Alt+F2キーを押し、原文を変更します。
ときには、PDFの変換時に誤った強制改行(段落記号)が追加され、1文が2つの分節に分割される場合があります。Trados Studio 2019では、このような分節を簡単に結合できます。Alt+Shift+下矢印キーをクリックし、列の数字の部分で右クリックし、[分節の結合]を選択するだけです。このオプションが灰色で表示されている場合は、プロジェクトの設定に移動し、下のスクリーンショットのように[原文の編集]と[分節の結合]をオンにします。
最後に、Shift+F12キーを押し、訳文文書を保存します。PDFとしては保存できませんが心配は無用です。訳文ファイルはWordのdocx形式になります。
編集可能なPDF
編集可能なPDFの翻訳は順調に進みます。前述のように、ほとんどのバージョンのTrados Studioが編集可能なPDFのインポートに対応しています。多くの場合、Trados StudioでWordに変換するほうがWord自体で開くよりもうまくいきます。Trados Studioで行うほうが、ヘッダーとフッターの挿入の信頼性が高く、太字の書式設定が適切で、行の先頭に余分な段落記号が追加されません。
PDFと価格設定
PDFファイル形式の作業は改善していますが、それでもPDFの翻訳にはネイティブファイル形式よりも時間がかかります。原文の単語数を正確に把握することはさらに困難です。可能ならば時間料金を設定するか、または訳文の最終単語数をより高いレートで設定するよう依頼することをお勧めします。
最後のアドバイスとして、扱いにくいPDFを受け取った場合は、クライアントに元のファイルを要求することをお勧めします。Trados Studioでは非常に多くのファイル形式を処理できるため、自分のコンピュータにネイティブプログラムがなくてもTrados Studioで処理することが可能です。