概念验证:生成式字幕和无障碍字幕
视频和其他媒体形式正日益成为接触广大受众的首选方式。谁还会把指导手册放在身边?如果我需要更换某样东西,上 YouTube 搜索一下就知道如何操作了。他们不仅会告诉我怎么做,还会直接做给我看!
当然,我非常幸运,我的母语就是英语,而且超过一半的 Web 内容用的都是英语。整个世界都在向我招手!
但非英语人士呢?他们的东西也会出故障。当然,大多数现代浏览器都具有内置功能,支持以其他语言显示文本内容,但视频却不行。说回那些指导手册!
为什么内容创建者不对其内容进行本地化呢?当然,这对所有人都有好处:无论是希望获得曝光度并推广个人和专业品牌的人,还是那些如果能获得更多信息就会消费更多内容的人。嗯,答案很简单…视频本地化的成本太高了。
那么,为什么这么贵呢?
- 这是一个非常复杂的流程。因此,人们构建了一些专门的应用程序,例如我们的合作伙伴 CaptionHub 构建了专业的字幕处理工具,帮助专业人员完成这项工作。
- 字幕难以翻译。文本长度有限制,需要确保文本与视频内容相匹配,由于停顿或场景变化,句子可能会被截断……等等。这也是为什么这项工作通常由专业人员来处理的原因。
- 自动翻译无法很好地处理句段片段,而另一方面,字幕必须与视频屏幕上的内容匹配,因此需要将一句话截成多个片段。
- 单靠字幕并不能让有听力障碍的人了解视频内容。您还需要提供无障碍字幕,帮助那些无法收听音频的观众也能了解视频内容。
- 需要花费大量时间在质量保证上。您需要反复查看、收听和阅读…不断循环…每种语言的整个视频。
- 精确到毫秒。如果字幕与实际讲话有偏差,观众马上就会注意到。
无论您走到哪里,都会听到人们在热议 AI 的强大能力。它可以帮您写论文!它可以帮您开车!它可以帮您洗菜——不,等等,目前还是需要我自己洗。那么,它至少能让任何人都可以访问我的视频吧?
答案是,可以!
我们可以拍摄视频并利用 AI 来生成字幕。一些通用的大型语言模型 (LM) 可以很好地完成这样工作。但请注意,这些模型是公开的,因此在向其发送内容时应谨慎行事。具体到我们的用例中呢?如果任何地方的任何人都知道如何更换某样东西,这当然是好的。这不是机密信息。我希望每个人都知道我是谁,以及如何做到这一点。
这些 LLM 和字幕是完美的吗?很可能不是。许多 LLM 都无法正确理解品牌名称和其他专有名词。这重要吗?这取决于具体情况。我当然不希望精心制作的产品营销视频或可能会被人力资源或法律部门使用的其他视频存在缺陷。对此,我会找专业人员处理。那么对于具体的这样东西呢?自动字幕可能会超出您的预期。
很好,我有字幕了。现在该怎么办?我不想使用任何免费提供的机器翻译,因为这不仅可能会弄乱字幕格式,而且可能也无法准确地理解句段片段。原始视频中有戏剧性停顿?它看起来和听起来都不错,但现在我需要翻译两个只有一半的句子,而不是一个完整的句子。
AI 如何做得更好?首先,您要确保 LLM 理解您所说的内容。我看书用的眼镜和我喝酒用的杯子是不一样的东西。虽然您无法指导公共机器翻译理解上下文,但您可以告诉 LLM 您正在说的是什么。我们可以阅读字幕文件,然后总结其内容。
但 AI 会捏造信息!我们都知道这一点。我真的不希望它对我的某样东西进行过于夸张的描述。没有问题。我们做完总结后,告诉 LLM 使用该上下文,并且仅使用该上下文来翻译字幕。
被忘了无障碍性。我们希望每个人都能更换某样东西。正确拧紧时会发出什么咔嗒声?我们要确保有听力障碍的人也能可以理解视频。LLM 可用于提取带有时间戳的噪音。
我知道这听起来可能过于美好,令人难以置信,但如果您想了解我们是如何在实际场景中证明这一点的,我诚挚邀请您观看今年 ELEVATE 的专题演讲录像,而且在字幕设置中有众多语言可供选择:
皇后乐队有一句歌词,非常准确地描述了这种情况。我想要一切,现在就想要!有一种方法可以将所有这些内容整合起来并自动提供,而不需要内容创建者耗费时间和精力去手动操作。这就是我们的目标。我们可以引导您了解这种最佳方法,从而充分利用这些令人惊叹的新可能性。
创建...然后无所不译,甚至是视频!