概念実証:字幕とキャプションの生成
動画などのメディア形式は、幅広いオーディエンスにアプローチするための最善の方法になりつつあります。マニュアルを身近に保管している人が、どれだけいるでしょうか?私の場合、「何か」を変更したいとき、YouTubeを頼ります。その方法を誰かが教えてくれるだけではなく、見せてくれるからです。
幸い、私は英語のネイティブスピーカーという特権を持っています。そしてウェブコンテンツの半数以上は英語です。世界は私の思いのままです!
しかし非英語圏の方にとっては?非英語圏の方にも、「何か」は発生します。最新のブラウザのほとんどには、テキストを他の言語に翻訳して表示する機能が組み込まれていますが、動画にはありません。話をマニュアルに戻しましょう!
コンテンツ制作者が動画コンテンツをローカライズしないのはなぜでしょうか?ローカライズは誰にとってもメリットのはずです。個人ブランドや企業ブランドの普及・促進を狙っている人にとっても、アクセス可能であればもっと多くのコンテンツを利用したいと思っている人にとってもです。その答えは簡単で、動画のローカリゼーションにはコストがかかるのです。
コストが非常にかかる理由
- ローカライズは非常に複雑です。そのため、この作業のプロのために構築された特殊なアプリケーションがあります。当社のパートナーが手掛けたCaptionHubもその1つです。
- 字幕の翻訳は困難です。テキストの長さに制限があり、テキストを動画に合うよう調整する必要があります。間があったり、シーンが変わったりするため、文は分断されます。このような制約が多数あるため、通常、プロが翻訳するのです。
- 自動翻訳は分節のフラグメントにうまく対応できないのですが、字幕は動画に表示されるシーンと一致する必要があるため、フラグメントを避けられません。
- さらに、字幕だけでは聴覚障害のあるユーザーに対応できません。音声を聴くことができない視聴者に動画を見てもらうには、キャプション(音を説明する字幕)も必要です。
- 品質保証には時間がかかります。すべての言語で動画全体の「見る、聴く、読む」を何度も繰り返す必要があります。
- ミリ秒単位に気を配る必要があります。視聴者は、字幕が実際の音声と一致していないことに気付きます。
現在、AIが至るところで誇大に宣伝されています。AIが論文を書いてくれる!車を運転してくれる!お皿を洗ってくれる! - いや、ちょっと待ってください。今も私が洗う必要がありますよ。では、AIが私の動画を誰もが視聴できるものにしてくれる日は来るのでしょうか?
答えは「はい」です。
動画を撮影し、AIを使用して字幕を制作できます。一般的に利用できる大規模言語モデル(LLM)があり、このモデルを使用すると適切に制作できます。ただし、モデルは一般公開されているため、どのコンテンツで使用するのかをよく考える必要があります。当社のユースケースではどうでしょうか。もし「何か」を変更する方法を誰もが知っているなら、それは朗報と言えるでしょう。こういった情報は機密でないからです。私は、私のことも、この方法も、皆さんに知ってもらいたいと思っています。
ところで、LLMや字幕は完璧なのでしょうか?実は完璧とは言えません。多くのLLMは、ブランド名などの固有名詞に苦戦しています。それは問題なのでしょうか?問題かどうかは、状況によって異なります。洗練された製品マーケティング動画や、人事や法務が使用する動画には不備があってならないので、私なら、これまでどおりプロに依頼します。私の「何か」の動画はどうでしょう?自動字幕制作が、期待を超えてくれるかもしれません。
素晴らしい。字幕が付いています。だから、どうしたって?私としては、自由に利用できる機械翻訳は使いたくありません。字幕の形式が壊されるだけでなく、分節のフラグメントに適していないためです。原文の動画に、劇的な効果を狙った間がある場合はどうなるでしょう?確かに効果的ではあるのですが、翻訳対象の文が1文ではなく、半分に分かれて2文になってしまいます。
AIは、この状況への対応をどのように改善するのでしょうか?まず、人間は、話している内容をLLMが理解しているか確認したいと考えます。読むときに使うglasses(メガネ)は、飲むときに使うglasses(グラス)と同じではありません。一般に公開されている機械翻訳を文脈に対応できるようコーチングすることはできませんが、LLMに話の内容を伝えることはできます。つまり、字幕ファイルを取得し、内容を要約することはできます。
とは言え、AIはハルシネーションを起こします!これは周知のことです。「何か」に暴走してほしくはありません。でも、大丈夫です。要約を取得し、LLMにその文脈のみを使用して字幕を翻訳するように伝えましょう。
アクセシビリティについても考えてください。私たちは、誰もが「何か」を変更できるようになってほしいと思っています。正しく締めたときに鳴るカチッという音は表現していますか?聴覚障害のある人でも動画を利用できるようにしてください。LLMでは、ノイズをタイムスタンプとともに抽出することもできます。
信頼できるほど優秀とは言えないかもしれませんが、この機能は実際のシナリオで十分に使用できると確信しています。その理由を知りたい方は、今年のELEVATEのセッション(録画版)をぜひご覧ください。字幕の設定でさまざまな言語を選択できるようになっています。
Queenが歌っていましたよね。「すべて欲しい。今すぐ欲しい!」と。すべての機能を統合し、利用できるようにする方法があります。コンテンツ制作者がすべてに対処する必要はありません。私たちは、ようやくここまで来ました。この驚くべき新たな可能性を活用するための最善のアプローチを当社がご案内します。
作成したら、すべてを翻訳しましょう。もちろん動画もです。