概念実証:字幕とキャプションの生成

Shirley Coady 2023年9月27日 読了目安時間:5分
動画のローカリゼーションにコストがかかるのは、周知の事実です。字幕は複雑で翻訳しづらく、品質保証には時間がかかり、ミリ秒単位に気を配る必要もあります。このブログでは、AIとLLMが動画の字幕制作プロセスの変革にどのように役立つかをご紹介します。

動画などのメディア形式は、幅広いオーディエンスにアプローチするための最善の方法になりつつあります。マニュアルを身近に保管している人が、どれだけいるでしょうか?私の場合、「何か」を変更したいとき、YouTubeを頼ります。その方法を誰かが教えてくれるだけではなく、見せてくれるからです。

幸い、私は英語のネイティブスピーカーという特権を持っています。そしてウェブコンテンツの半数以上は英語です。世界は私の思いのままです!  

しかし非英語圏の方にとっては?非英語圏の方にも、「何か」は発生します。最新のブラウザのほとんどには、テキストを他の言語に翻訳して表示する機能が組み込まれていますが、動画にはありません。話をマニュアルに戻しましょう! 

コンテンツ制作者が動画コンテンツをローカライズしないのはなぜでしょうか?ローカライズは誰にとってもメリットのはずです。個人ブランドや企業ブランドの普及・促進を狙っている人にとっても、アクセス可能であればもっと多くのコンテンツを利用したいと思っている人にとってもです。その答えは簡単で、動画のローカリゼーションにはコストがかかるのです。

コストが非常にかかる理由

  • ローカライズは非常に複雑です。そのため、この作業のプロのために構築された特殊なアプリケーションがあります。当社のパートナーが手掛けたCaptionHubもその1つです。 
  • 字幕の翻訳は困難です。テキストの長さに制限があり、テキストを動画に合うよう調整する必要があります。間があったり、シーンが変わったりするため、文は分断されます。このような制約が多数あるため、通常、プロが翻訳するのです。 
  • 自動翻訳は分節のフラグメントにうまく対応できないのですが、字幕は動画に表示されるシーンと一致する必要があるため、フラグメントを避けられません。 
  • さらに、字幕だけでは聴覚障害のあるユーザーに対応できません。音声を聴くことができない視聴者に動画を見てもらうには、キャプション(音を説明する字幕)も必要です。 
  • 品質保証には時間がかかります。すべての言語で動画全体の「見る、聴く、読む」を何度も繰り返す必要があります。 
  • ミリ秒単位に気を配る必要があります。視聴者は、字幕が実際の音声と一致していないことに気付きます。 

現在、AIが至るところで誇大に宣伝されています。AIが論文を書いてくれる!車を運転してくれる!お皿を洗ってくれる! - いや、ちょっと待ってください。今も私が洗う必要がありますよ。では、AIが私の動画を誰もが視聴できるものにしてくれる日は来るのでしょうか? 

答えは「はい」です。 

Video subtitling

動画を撮影し、AIを使用して字幕を制作できます。一般的に利用できる大規模言語モデル(LLM)があり、このモデルを使用すると適切に制作できます。ただし、モデルは一般公開されているため、どのコンテンツで使用するのかをよく考える必要があります。当社のユースケースではどうでしょうか。もし「何か」を変更する方法を誰もが知っているなら、それは朗報と言えるでしょう。こういった情報は機密でないからです。私は、私のことも、この方法も、皆さんに知ってもらいたいと思っています。 

ところで、LLMや字幕は完璧なのでしょうか?実は完璧とは言えません。多くのLLMは、ブランド名などの固有名詞に苦戦しています。それは問題なのでしょうか?問題かどうかは、状況によって異なります。洗練された製品マーケティング動画や、人事や法務が使用する動画には不備があってならないので、私なら、これまでどおりプロに依頼します。私の「何か」の動画はどうでしょう?自動字幕制作が、期待を超えてくれるかもしれません。 

素晴らしい。字幕が付いています。だから、どうしたって?私としては、自由に利用できる機械翻訳は使いたくありません。字幕の形式が壊されるだけでなく、分節のフラグメントに適していないためです。原文の動画に、劇的な効果を狙った間がある場合はどうなるでしょう?確かに効果的ではあるのですが、翻訳対象の文が1文ではなく、半分に分かれて2文になってしまいます。 

AIは、この状況への対応をどのように改善するのでしょうか?まず、人間は、話している内容をLLMが理解しているか確認したいと考えます。読むときに使うglasses(メガネ)は、飲むときに使うglasses(グラス)と同じではありません。一般に公開されている機械翻訳を文脈に対応できるようコーチングすることはできませんが、LLMに話の内容を伝えることはできます。つまり、字幕ファイルを取得し、内容を要約することはできます。 

とは言え、AIはハルシネーションを起こします!これは周知のことです。「何か」に暴走してほしくはありません。でも、大丈夫です。要約を取得し、LLMにその文脈のみを使用して字幕を翻訳するように伝えましょう。 

アクセシビリティについても考えてください。私たちは、誰もが「何か」を変更できるようになってほしいと思っています。正しく締めたときに鳴るカチッという音は表現していますか?聴覚障害のある人でも動画を利用できるようにしてください。LLMでは、ノイズをタイムスタンプとともに抽出することもできます。 

信頼できるほど優秀とは言えないかもしれませんが、この機能は実際のシナリオで十分に使用できると確信しています。その理由を知りたい方は、今年のELEVATEのセッション(録画版)をぜひご覧ください。字幕の設定でさまざまな言語を選択できるようになっています。  

Trados for Corporations

Queenが歌っていましたよね。「すべて欲しい。今すぐ欲しい!」と。すべての機能を統合し、利用できるようにする方法があります。コンテンツ制作者がすべてに対処する必要はありません。私たちは、ようやくここまで来ました。この驚くべき新たな可能性を活用するための最善のアプローチを当社がご案内します。 

作成したら、すべてを翻訳しましょう。もちろん動画もです。

Shirley Coady
制作者

Shirley Coady

Director of Product Management

Shirley Coadyは、言語テクノロジーの分野において20年以上の経験があります。ソフトウェア開発者としてキャリアをスタートさせ、スタートアップ企業に移った後は、テクニカルサポートやプロフェッショナルサービスなどのさまざまな職務を担当しました。


会社が成長するにつれ、製品開発に対する情熱が再びよみがえったことで、製品管理の職務に異動しました。数々の合併・買収を通じて、中小企業や大企業の未開発分野と既存製品の両方の管理に携わってきました。 


2022年に、RWSの言語テクノロジー製品管理チームのリーダーシップ職を引き継ぎ、現在は有能なチームを率いる責任者として、業界最大手のテクノロジー企業であるRWSの従来製品と最先端テクノロジーのポートフォリオを管理しています。 

この執筆者の全記事: Shirley Coady