生成字幕:音声を認識
2024年9月3日
読了目安時間:8分
昨年、私は動画のローカリゼーションについてブログを書きました。テクノロジーの世界では、1年は非常に長い時間です。1年あれば、驚くほど多くのことが起こります。この1年の間に、サハラ以南の国で初めてカーボベルデが50年間にわたるマラリアフリー国としてWHOに認定されました。デンマークのマルグレーテ女王が退位し、在位中の女性君主は世界からいなくなりました。日本は、宇宙船の月面着陸を成功させた5番目の国となりました。 そしてTikTokは、世界で3番目にダウンロード数の多いソーシャルメディアプラットフォームになりました。
私たちは、ありとあらゆる出来事を動画に記録し続けているのです。Statistaは、メディアコンテンツが2024年に16兆米ドルの収益を生み出し、今後も成長を続けることを予測しています。消費者にとって、短時間の動画で手軽に情報を手に入れたり、好きな映画をすぐに観たりすることは、すでに当たり前の日常になりつつあります。また、会議を録画するようになったせいで、仕事まで24時間休みがなくなってしまいました(人生の達人によるヒント:私は、自分が参加しなくてもよい会議をスキップし、後で1.5倍速で録画を見るという、驚くべき時間節約のコツを発見しました)。
それに加えて、AIテクノロジーが飛躍的な進歩をし続けています。私が心待ちにしているのは、家事が得意なAIテクノロジーです。いつになったら階段を掃除できるルンバが手に入るのでしょうか?そんな掃除機を待つ間も、生産性を向上させ、品質を高め、コストを節約するための新たな方法を開発しようとする流れは止まりません。
多くの単純作業をAIに任せられるようになったおかげで、人間の専門知識の価値は高まる一方です。つまり、そのせいで動画のローカリゼーションは今も大変なコストがかかる専門的な分野のままなのです。なぜでしょう?私は昨年書いたブログで、その理由をこのように説明しました。
- それは非常に複雑な作業です。専門のアプリケーションを構築し、プロにこの作業を任せる必要があります。
- 字幕の翻訳は困難です。テキストの長さに制限があり、テキストを動画に合うよう調整する必要があります。間があったり、シーンが変わったりするため、文は分断されます。このような制約が多数あるため、通常、プロが翻訳するのです。
- 自動翻訳はバラバラになった分節にうまく対応できないのに、字幕は画面のシーンと一致している必要があります。
- 品質保証には時間がかかります。すべての言語で動画全体の「見る、聴く、読む」を何度も繰り返す必要があります。
- ミリ秒単位に気を配る必要があります。視聴者は、字幕が実際の音声と一致していないことに気付きます。
『イカゲーム』の次シーズンは、できるだけ完璧な字幕で観たいものです。Netflixさん、どうかプロのリンギストを参加させてください!私が参加できなかったウェビナーには、息詰まるようなシーンはありませんが、それでもコンテンツを理解する必要があります。残念ながら、動画のローカリゼーションのコストは高いため、これまでこうしたウェビナーに字幕を付けたりローカライズしたりすることは、ほとんどできませんでした。でも、そんな時代はもう終わりです!
新しいTrados生成字幕機能の導入
生成字幕機能を使用すると、動画のクラウド翻訳プロジェクトを(カスタマーポータルや内蔵コネクタを使用して)すばやく作成し、業界のベストプラクティスを尊重した字幕が自動的に生成されます。カスタムプロンプトを追加すれば、聞き取りにくいアクセントで話す司会者が動画で誰かを紹介するときも、正しい綴りで名前が表示されます。
すごいでしょう?これで問題の半分は解決です。ローカリゼーションは間違いなく大変な作業です。あるいは、大変な作業「だった」と言うべきでしょう。
バラバラの分節を翻訳する代わりに、字幕ファイルを手に入れ、LLMを使用して翻訳できるとしたらどうでしょう?そのLLMに動画の要約を送信すれば、そのコンテキストに沿った翻訳が可能だとしたら?さらに、用語集まで使用できるとしたらどうでしょう?
ご想像どおり、字幕のローカリゼーション品質を上げることができます。そのしくみをご覧に入れましょう。
ここで、最後の手順は「ライブプレビューを使用してOnline Editorでレビュー」となっています。これは、とても便利な機能です。そう、ウェビナーやトレーニング動画などでは、多くの場合、完全自動化で十分です。しかし、私の上司は講義の録画でも聞き取りにくい部分があるため、少し手を入れて見やすくする必要があります。では、どのようになるのか見てみましょう。
Online Editorで実行中のコンテキストに合わせたプレビューのスクリーンショット
動画の再生中、サウンド入りでOnline Editorのテキストがスクロールされます。テキストを編集すると、字幕がリアルタイムで変更されます。分節にフラグを立てておけば、後で上司に「あれはどういう意味ですか?」と質問できますし、上司の言いたいことをよく理解できたのであれば、後で彼の深いインサイトを褒め称えることもできます。
本当にそんなことが可能なのでしょうか。あまりにも出来過ぎた話のようです。もしかして、これは夢でしょうか?
私の声が聞こえて、字幕まで見えているなら、あなたは寝ていて夢を見ているのです。もちろん、このソリューションは夢ではありません。では、その他の機能についてご説明しましょう。
- セキュリティとプライバシーは?OK!この素晴らしいソリューションで使用されているLLMは、RWS Language Cloud環境内でホストされています。データが公開されることは決してありません。
- ワークフローの自動化は?OK!これは、プロジェクトテンプレート、ワークフローテンプレート、タスク割り当て機能などを搭載した標準のTradosクラウド環境を使用します。ワークフローを設定して自動化したら、コーヒーでも飲みに行きましょう。
- レポート作成は?OK!これらは他のプロジェクトと同様です。追跡を目的として随時新しいデータは追加されますが、間違いなく生産性は飛躍的に向上するでしょう。
- これは素晴らしいですね!そろそろ、「Tradosさん、あなたにできないことは何ですか?」と質問してみましょう。
残念ながら、『デッドプール&ウルヴァリン』は、Tradosだけで字幕を付けることはできません。マーベルにいる仲間は、タイムスタンプを変更したり、画面の字幕を移動したり、デッドプールの派手なセリフを自然な口語に翻訳したりする際に、Tradosのほかにも、パートナーによるCaptionHubなどの専用ソリューションを使用する必要があるかもしれません。
どのような仕上がりになるのか、見たいと思いませんか?当社の動画『ELEVATE』はこのソリューションを使用して字幕を作成し、ローカライズされています。
実際にこれを見てみたい方は、アカウントマネージャーに連絡して、デモを予約してください。そして、ポップコーンもお忘れなく。マルチメディアは新たにあなたのお気に入りのファイル形式になるでしょう。