如何使用 Trados Studio 翻译 PDF 文件
2019年5月1日
读完需 5 分钟
我喜欢翻译直观的 Word 文档,如果您也是的话。当收到 PDF 文件时,这意味着您要花费更多时间进行翻译,有时在完成后还要进一步修改。以下是一些译员对在 Trados Studio 中更轻松地处理 PDF 文件的建议。
何为 PDF?扫描文件和可编辑文件之间的区别是什么?
PDF 是“便捷式文件格式”的首字母缩写,意即不论使用何种设备或程序在何处打开文件,文件都会准确显示相同的内容和排版。这让文档创作人员受益匪浅,但对译员就不是那么一回事了。
PDF 文档分为可编辑版本和扫描版本。可编辑版 PDF 具有文本层,可在所有受支持的 Studio 版本中进行编辑。扫描版 PDF 单纯是整页的图像,没有电子文本字符。Studio 可处理这两种 PDF,因为它内置的引擎可进行光学字符识别 (OCR) 来提取文本。
区分两种 PDF 十分容易。在 PDF 阅读器中打开文件。只有在可编辑版 PDF 中,您才能选择、复制和粘贴单词或句段。
语言限制和其他无法完成的任务
Trados Studio 中用于 PDF 文件类型的 OCR 引擎由 Solid 文档技术提供支持。OCR 技术基于词典,因此仅适用于特定语言,包括:丹麦语、荷兰语、英语、芬兰语、法语、德语、意大利语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语和土耳其语。
您的原文文本必须是上述语言之一。此外,OCR 技术还需要清晰的图像才可实现优质转换。歪斜、模糊、暗淡、字迹不清或手写的文本均属于无法完成的任务:
如果您碰到上述任何一种 PDF(均为现实生活中的例子),那么我建议您使用语音识别软件在 Word 中口述源文件,然后再在 Studio 中翻译此 Word 文件。
翻译前预览输出
假设您拿到了一份清晰的扫描版 PDF,如下所示:
接下来就是在 Studio 中试验。您只需将此 PDF 放入“欢迎”视图中。
在接下来的窗口中,点击“高级”。
在左侧选择文件类型 > PDF > 转换器,然后点击“浏览”预览文件。
这样一来,您可在“编辑器”窗口中快速预览文件样式,并同时保存一份 docx 格式的文件到 PDF 所在文件夹。
现在您可以决定是否要进行下一步,并开始翻译,或者您想完善源 Word 文件中的格式和排版,然后在 Studio 中翻译完善过的 Word 文件而非原先的 PDF。
请牢记,文件类型预览使用标准分段规则,而非项目中的 TM 分段设置。而且当您添加文件至项目时,文件类型预览不可用。只有当您在“欢迎”视图、项目设置和一般选项中打开文件时才可用。
PDF 文件格式中的 OCR 转换和 Word 选项
Studio 预览的魅力在于,您可以尝试不同的 PDF 文件类型设置(参见上面的屏幕截图),预先了解这些设置对文件的影响。我经常将“排版”设置为“流畅”。这是最基本的排版,项目符号和加粗等格式都正确。
我删掉了图像,但是您可保留图像,可能的话予以转换。页头和页尾也处理得很好。尽管有些时候在目标 Word 文件中删除和添加它们更为简单。
检测表格十分重要。
最后的几个选项说明了 Studio 是如何识别文本的。
- 每个字符适用于组合 PDF 文档(包括可编辑版 PDF 和扫描版 PDF)。
- 仅限问题字符适用于扫描版 PDF(您也可使用“每个字符”功能)。
- “无”适用于可编辑 PDF 文档。
现在回到左侧的列表。常见功能(在“转换器”下方)拥有 Word 文档中的所有设置选项,包括在目标文档中添加评论的选项。
翻译实例
完成设置项目进入翻译阶段后,您需要注意原文文本中的典型光学字符识别 (OCR) 错误。“1”和“I”以及“0”和“o”在一些字体中看起来十分相似(例如 20I6 年 12 月 2O 日)。特定的字母组合可能会被误判,尤其是 OCR 词典中没有的专有名称,例如“Dr Turner”可能会被当做“Dr Tumer”。
您可以编辑原文句段来更正这些错误。这不仅可以改进原文文本,还可以让您在现在以及将来更好地利用 TM。在活动的句段中点击 Alt + F2 修改原文文本。
有时在 PDF 的转换过程中会出现强行换行(段落标记),将一句话分成两个句段。Studio 2019 简化了合并句段的流程。您只需点击 Alt + Shift + 向下箭头,右击编号列,然后点击“合并句段”。如果此选项呈灰色且不可用,请进入项目设置,按照下方的屏幕截图所示勾选“编辑源文”和“合并句段”选项框:
最后当您通过 Shift + F12 保存目标文档之后,请勿担心,文档不会被保存为 PDF 格式。目标文件将会是 Word docx 格式。
可编辑版 PDF
翻译可编辑 PDF 文档非常轻松。正如我之前提到的,大多数版本的 Studio 都可加载可编辑版 PDF。而且您会发现,Studio 将此类型 PDF 转换成 Word 的效果比在 MS Word 中打开进行转换的效果要好。Studio 插入的页头和页尾效果更好,可更好地保留加粗格式,且不会在首行的段落符号前增加额外的空格。
PDF 和标价
尽管在 PDF 文件类型上取得了许多进步,但翻译 PDF 文件仍然比原生文件格式要耗时不少。获得准确的原文字数也更为困难。如果有可能的话,我建议按照小时收费。如果不行,则根据最终的译文字数收取略高一些的费用。
最后一条建议就是如果您遇到了非常棘手的 PDF 文件,请让客户提供原始文件。Studio 可处理众多不同的文件格式,因此,即使您的电脑中没有安装相应的程序,您也可以在 Studio 中处理这些文件。