为腾飞助力:AI 如何为翻译引擎增加动力

David Pooley 2023年9月27日 读完需 5 分钟
一段时间以来,我们一直在使用翻译引擎为给定文本提供出色翻译。随着人工智能的出现,我们现在可以将这项服务提升到新的水平。

一段时间以来,我们一直在使用翻译引擎为给定文本提供出色翻译。随着人工智能的出现,我们现在可以将这项服务提升到新的水平。尽管生成式 AI 并非机器翻译的理想选择,但借助一些神奇的语言资产,我们可以利用它来生成符合特定项目要求的翻译,包括遵循风格、语气、术语等其他要素。下面我们将通过一堂历史课、一部动画电影以及对未来提供更好翻译的承诺来进一步进行探讨。


翻译引擎的发展简史

早在构建我们全新的云平台时,我们就决定采取一种全新的方式来组织和使用语言资产。传统上,每种语言资产都是独立处理的,而且翻译记忆库术语机器翻译分工明确。我们最初的目标是将这些资产整合在一起,以创建一种协同服务,从而根据所有可用信息提供可能最佳的匹配。过去,我们应用翻译记忆库和机器翻译来处理未翻译的文本,然后在译员编辑翻译文本时为其提供术语。但现在,这样的日子已一去不复返。我们的愿景是充分提高资产的有效性,从而创造出我们可以提供的“可能最佳的匹配”。由此诞生了翻译引擎。 

有些人可能已经看过 Aardman 动画公司制作的电影《小鸡快跑》。这部电影讲述了一台可怕的机器,它能将小鸡变成馅饼。虽然从未展示或讨论过小鸡是如何变成馅饼的,但这台神秘且可怕的机器无疑是工程技术上的胜利。特威迪夫人说了一句名言:“小鸡进去,馅饼出来”。您可能会问,这和翻译有什么关系?嗯,我一直觉得翻译引擎也是一种类似的神秘机器(希望它不要那么可怕或不详)。把小鸡替换成文本,馅饼替换成翻译。“文本进去,翻译出来。”您无需理解其工作原理,但请放心,语言资产会被精简为可供我们使用的有用信息,而输出则是我们能提供的可能最佳的翻译。下图展示了这台“神秘机器”的工作方法。

Generative AI

我们使用的一些“技巧”,正是您从这种做法中所期望得到的。它们包括一些传统的 AI 技术,但不限于: 

  • 片段匹配 
  • 模糊匹配修复 
  • 使用适用的术语提升机器翻译的质量 

您可能会认为一切都很好。想法不错。执行得很好。大家都在握手和拍背。然后 2023 到来,“嘿,你们猜怎么着?AI 来了!”AI 革命的代表是那些便捷的生成式聊天模型,我们可以要求它们写诗、创作新闻稿,或者写一个新的、有吸引力的 LinkedIn 标题。OpenAI 似乎抢占了先机,但随后其他公司也纷纷跟进。Google、AWS、Meta 以及其他公司已经加入到这一行列。可以肯定的是,还有更多的公司会加入进来;因为都已经可以听到马蹄声了。AI 无处不在,我们该如何应对?


是时候升级了

AI 的崛起为我们提供了对翻译引擎进行优化和增强的机会。以前,我们从这些语言资产中榨取的资源几乎已经到了极限,而现在,我们可以做更多的事情。这些聊天机器人大致都使用相同的技术。大量的语言数据经过分析和处理后,会产生一种称为 LLM 的东西。[为语言爱好者准备的附注:LLM 不是缩写词,而是首字母缩略词。缩写词以一个词的形式发音;比如 NATO、SCUBA、TASER 和 YOLO。首字母缩略词以单独的字母发音;比如 DNA、OMG、TBD 和 FAQ。MPEG 和 JPEG 只是例外!]说回 LLM,有些人可能会问“那是什么?”嗯,它的全称是大型语言模型,在我们的行业中,这个词非常非常有趣。这些 LLM 将帮助我们的翻译引擎摆脱束缚,释放出强大的新功能,而且这些功能可以整合到我们的翻译技术产品中。LLM 可以提供的帮助包括: 

  • 根据上下文信息和指导,将文本从一种语言翻译为另一种语言。 
  • 对神经机器翻译创建的翻译进行译后编辑。 
  • 评估翻译文本的质量并提出改进建议。 
  • 重新编写原文文本以遵循公司风格和术语。 

修改机器翻译或人工翻译的功能很快就会推出,但现在,我们的工作重点是这个列表中的第一个要点。我们已经发布了一个可以在 Trados Studio 中使用的 OpenAI Translator 应用程序。它使用 LLM 对文档中的文本进行转换、优化、分析并提出替代翻译建议,而且还支持提示。在此我不作详细介绍,但建议您查阅 RWS Community 的维基百科页面,以了解如何使用提示来获得不同的风格、语气和文本长度。但是,有一点它无法做到,就是获取我们在翻译引擎中拥有的那些实用的语言资产。这就是秘诀所在。

借助 AI,我们的翻译引擎现在可以生成比以往更出色的翻译。要将句子从一种语言翻译为另一种语言,我们可以向 LLM 提供以下信息: 

  • 同一文档中的其他句段是如何翻译的。 
  • 类似句段在过去是如何翻译的(重复使用模糊匹配技术)。 
  • 在原文文本中确定了哪些术语以及应如何翻译这些术语。 
  • 所需的翻译风格(正式、非正式、友好、专业等) 
  • 其他设置,如最大长度或中性语言。

有了所有这些信息,LLM 就能准确为我们提供所需的翻译。此外,考虑到翻译项目的典型工作流,我们还可以对 LLM 进行“训练”以使其更加出色。通过向模型提供经过验证的最终翻译,它将随着时间的推移不断学习并提出更好的建议。真的太棒了。我们将您的内容发送到公开的 LLM,以此获得高质量的翻译。怎么样?不满意?因为“公开”会让您感到紧张?别担心——我相信,我之前提到的任何一家公司中的善良人士都不会把您的知识产权泄露到网上。还是不放心?好吧,那我们在一个安全且私人托管的 LLM 中完成所有这些任务如何?这样,您就可以放心,自己的数据将只属于您所有。下图显示了我们新的翻译引擎。没有鸡会受伤。

Generative AI

开始实施

我们的初步实施采用新任务的形式,对于能够使用我们功能强大的工作流编辑器的 Trados 客户,新任务可以包含在自定义的工作流中。这让用户有机会尽早体验这种新方法带来的可能性。随着工作的推进,我们将把它纳入核心功能中,使每个人都可以使用它。请关注我们的社区社交媒体渠道,以获得更多消息。

David Pooley
创作人员

David Pooley

高级产品经理

David 是 RWS 的高级产品经理,他在语言技术开发和产品管理方面拥有超过 20 年的丰富经验。


David 与 RWS 的缘分始于 1997 年,当时他作为软件开发人员加入了 SDL,参与了最早的一款翻译记忆库工具的开发工作,同时探索了创建新语言技术应用程序的可能性。他在任职期间担任过各种职务,目前负责管理 Language Cloud 产品和 TMS。对于 Trados Enterprise,他专注于成本计算、报价、质量、安全性、开放式 API 以及 AI 的使用。 


David 曾为 TMX 和 SRX 等本地化标准做出贡献,并一直对语言技术充满热情。

全部来自 David Pooley