Démonstration de faisabilité : transcription et sous-titres génératifs
Les vidéos et autres formes de médias deviennent le meilleur moyen d'atteindre un large public. Qui conserve encore les manuels d'instructions ? Si je dois changer un truc sur mon bidule, YouTube est là pour m'aider. Une personne va non seulement me dire, mais aussi me montrer comment faire !
Bien sûr, j'ai de la chance. Ma langue maternelle est l'anglais, et plus de la moitié du contenu Web est en anglais. Le monde m'appartient !
Mais qu'en est-il des non anglophones ? Ces personnes aussi cassent leurs affaires. Bien sûr, la plupart des navigateurs actuels intègrent une fonction permettant d'afficher du texte dans d'autres langues, mais ils ne proposent pas de vidéos. Il faut donc rouvrir ces satanés manuels d'instructions !
Pourquoi les créateurs de contenu ne localisent-ils pas leur contenu ? Tout le monde en profiterait : les personnes qui cherchent à se faire connaître et à promouvoir leur image de marque personnelle et professionnelle, et celles qui consommeraient beaucoup plus de contenu si elles y avaient accès. Il y a une réponse simple à cela : la localisation de vidéos coûte cher.
Pourquoi cela coûte-t-il si cher ?
- C'est un procédé très complexe, tellement complexe qu'il existe des applications spécialisées, comme notre partenaire CaptionHub, conçues pour laisser la réalisation de cette tâche aux professionnels.
- Les sous-titres sont difficiles à traduire. La longueur du texte est limitée, le texte doit tenir dans la vidéo, les phrases sont coupées en raison de pauses ou de changements de scène, etc. Ce procédé est généralement géré par des professionnels et ce, pour de bonnes raisons.
- La traduction automatique n'est pas adaptée aux fragments de segments, mais les sous-titres doivent correspondre à l'image affichée, d'où la nécessité de fragments.
- Le sous-titrage seul ne suffit pas pour rendre votre vidéo accessible aux personnes malentendantes. Vous avez également besoin d'une transcription qui permet aux utilisateurs qui ne peuvent pas entendre le son de regarder votre vidéo.
- L'assurance qualité prend beaucoup de temps. Vous devez visionner, écouter et lire la vidéo dans son intégralité, encore et encore, dans toutes les langues.
- Chaque milliseconde compte. Les utilisateurs remarqueront si le sous-titre est décalé par rapport à l'audio.
Où que vous soyez, l'IA suscite un véritable engouement. Elle peut rédiger votre thèse ! Elle peut conduire votre voiture ! Elle peut faire la vaisselle à votre place. Non, attendez, ce n'est pas encore le cas. Peut-elle au moins rendre mes vidéos accessibles à tous ?
La réponse est OUI !
Nous pouvons créer une vidéo et utiliser l'IA pour la sous-titrer. Il existe généralement de grands modèles linguistiques (LLM) qui permettent d'y parvenir. Toutefois, n'oubliez pas que ces modèles sont publics. Soyez donc prudent(e) quant au contenu que vous leur envoyez. Dans notre cas ? C'est une bonne solution si une personne, où qu'elle soit, sait comment changer le truc sur son bidule. Il ne s'agit pas d'informations confidentielles. Je veux que tout le monde sache qui je suis et comment je m'y prends.
Ces LLM et sous-titres sont-ils parfaits ? Sans doute pas. De nombreux LLM rencontrent des difficultés avec les noms de marque et autres noms propres. Est-ce important ? Tout dépend de la situation. Je ne voudrais certainement pas que mes vidéos de marketing produit, particulièrement soignées, ou que tout autre support susceptible d'être utilisé par les RH ou le service juridique, présentent des défauts. Je vais continuer à faire appel à des professionnels pour cela. Cela fonctionne avec mon truc ? Le sous-titrage automatisé peut dépasser vos attentes.
Excellent, j'ai mes sous-titres. Et maintenant ? Je ne veux pas utiliser les traductions automatiques disponibles gratuitement, car elles vont ruiner le format de mes sous-titres et ne sont pas adaptées aux fragments de segments. La pause théâtrale dans votre vidéo d'origine rend bien mais, j'ai désormais deux demi-phrases à traduire au lieu d'une phrase complète.
Comment l'IA peut-elle faire mieux ? Tout d'abord, vous devez vous assurer que votre LLM sait de quoi vous parlez. La glace que j'utilise pour me regarder et la glace que je mange sont deux choses totalement différentes. Vous ne pouvez pas adapter votre traduction automatique publique au contexte, mais vous pouvez indiquer à votre LLM de quoi vous parlez. Nous pouvons donc prendre ce fichier de sous-titres et résumer son contenu.
Mais l'IA invente des choses de toute pièce ! Nous le savons tous. Je ne veux vraiment pas que l'on me dise que mon truc vient comme par magie d'une girouette. Aucun problème. Prenons ce résumé et indiquons au LLM d'utiliser ce contexte, et uniquement ce contexte, pour traduire mes sous-titres.
N'oublions pas l'accessibilité. Nous voulons que tout le monde puisse changer le truc sur son bidule. Ce clic que l'on entend lorsqu'il est correctement serré ? Il faut s'assurer qu'une personne malentendante puisse également utiliser la vidéo. Il est possible d'utiliser des LLM pour extraire des bruits avec des horodatages.
Je sais que ce procédé peut sembler trop beau pour être vrai, mais si vous souhaitez voir comment nous avons prouvé son efficacité en conditions réelles, je vous invite à regarder l'une de nos sessions ELEVATE enregistrées cette année et à choisir l'une des langues disponibles dans le paramètre de transcription :
Comme le disait si bien Queen, I want it all, and I want it now (Je veux tout, et je le veux maintenant) ! Il existe un moyen d'intégrer et de mettre à disposition tout cela sans que les créateurs de contenu n'aient besoin de tout faire eux-mêmes. C'est là que nous entrons en jeu. Nous pouvons vous montrer la meilleure approche pour tirer parti de ces nouvelles possibilités incroyables.
Créez... et traduisez tout, même des vidéos !