Prueba de concepto: Subtítulos generativos y subtítulos para personas con discapacidad auditiva
Los vídeos y otros soportes multimedia se están convirtiendo poco a poco en la mejor manera de llegar a un público amplio. ¿Quién utiliza todavía manuales de instrucciones? Si tengo que cambiar un chisme de mi cacharro, para eso está YouTube. No solo me van a decir cómo hacerlo, ¡me lo van a mostrar!
Desde luego, yo tengo la suerte de ser hablante nativa de inglés, ya que más de la mitad del contenido online está en inglés. ¡Tengo el mundo a mis pies!
Pero, ¿y los que no hablan inglés? Sus chismes también se rompen. Es cierto que la mayoría de los navegadores modernos incorporan la capacidad de mostrar texto en otros idiomas, pero no los vídeos. ¡Les toca rescatar los manuales de instrucciones!
¿Por qué los creadores de contenidos no localizan su contenido? Sin duda sería beneficioso para todos: para los que buscan darse a conocer y promocionar sus marcas personales y profesionales, y para los que consumirían mucho más contenido si les resultara accesible. La respuesta es sencilla: la localización de vídeo es cara.
¿A qué se debe su elevado coste?
- Es una tarea muy compleja. Tanto que hay aplicaciones especializadas, como CaptionHub, nuestro socio, diseñadas para que los profesionales puedan desempeñar esta labor.
- Los subtítulos son difíciles de traducir. Hay limitaciones en cuanto a la longitud del texto, el texto tiene que ajustarse al vídeo, las frases se cortan por las pausas o los cambios de escena... y la lista continúa. Existen muchos motivos por los que suelen ser profesionales los que se encargan de esta tarea.
- La traducción automática no funciona bien con los fragmentos de segmentos, pero los subtítulos tienen que coincidir con lo que se ve en pantalla en un vídeo, por lo que es necesario utilizar fragmentos.
- Los subtítulos por sí solos no hacen que el vídeo sea accesible para las personas con discapacidades auditivas. En ocasiones es necesario crear subtítulos descriptivos, que facilitan el acceso al vídeo a los espectadores que no pueden escuchar el audio.
- El control de calidad lleva mucho tiempo. Hay que ver y escuchar el vídeo varias veces, prestando atención a los subtítulos, en todos los idiomas.
- Cada milisegundo cuenta. Los espectadores se darán cuenta si el subtítulo está desfasado con respecto a la voz real.
La inteligencia artificial está en boca de todos. ¡Puede escribirte la tesis! ¡Puede conducir el coche! Puede lavar los platos... Ah, no, espera, eso todavía tienes que hacerlo tú. Bueno, ¿puede al menos hacer que mis vídeos sean accesibles para cualquiera?
La respuesta es: ¡SÍ!
Se puede elegir un vídeo y utilizar la IA para subtitularlo. Existen grandes modelos lingüísticos (LLM) que hacen un buen trabajo en este sentido. Sin embargo, son públicos y debes tener cuidado con el contenido que les envías. ¿Qué pasa con nuestro caso práctico? Sería maravilloso que cualquiera, en cualquier lugar, supiera cómo cambiar el chisme de su cacharro. No se trata de información confidencial. Quiero que todo el mundo sepa quién soy y cómo hacerlo.
¿Son perfectos estos LLM y subtítulos? Probablemente no. Muchos LLM tienen problemas con los nombres de marcas y otros nombres propios. ¿Importa? Bueno, eso depende de la situación. Desde luego, no me gustaría encontrarme con fallos en mis sofisticados vídeos de marketing de productos, o en un vídeo que pudiera ser utilizado por los departamentos de RR. HH. o jurídico. Para eso seguiré contratando a profesionales. ¿Servirá para mi chisme? Es posible que el subtitulado automático supere tus expectativas.
Muy bien, ya tengo mis subtítulos. ¿Y ahora qué? No quiero utilizar ninguna de las traducciones automáticas disponibles de forma gratuita, porque no solo me van a estropear el formato de los subtítulos, sino que además no son adecuadas para los fragmentos de segmentos. ¿Esa pausa dramática en el vídeo original? Seguro que queda muy bien, pero ahora tengo que traducir dos medias frases en lugar de una frase entera.
¿Cómo lo hará mejor la IA? En primer lugar, tienes que asegurarte de que tu LLM sabe de qué estás hablando. Un banco te puede servir tanto para sentarte como para sacar dinero. No puedes orientar a tu traductor automático público sobre el contexto, pero sí que puedes explicarle a tu LLM de qué estás hablando. Así que tomamos ese archivo de subtítulos y resumimos el contenido.
Pero a la IA se le va la cabeza. Eso lo sabemos todos. No quiero que diga que mi chisme sale mágicamente de un cachivache. No hay problema. Vamos a utilizar ese resumen y le diremos al LLM que utilice ese contexto, y solo ese contexto, para traducir los subtítulos.
Y no nos olvidemos de la accesibilidad. Queremos que todo el mundo pueda cambiar el chisme de su cacharro. ¿Ese clic que hace cuando está bien encajado? Vamos a asegurarnos de que alguien con problemas de audición también pueda utilizar el vídeo. Los LLM permiten detectar ruidos con marcas de tiempo.
Sé que puede parecer demasiado bueno para ser verdad, pero, si quieres ver cómo demostramos que este sistema funciona en el mundo real, te invitamos a que eches un vistazo a cualquiera de nuestras sesiones grabadas de ELEVATE de este año y elijas cualquiera de las opciones de idioma disponibles en la configuración de subtítulos:
Queen lo dijo mejor que nadie, ¿no? I want it all, and I want it now! («Lo quiero todo y lo quiero ya») Hay una manera de reunir todo esto, integrarlo y ponerlo a disposición de los creadores de contenidos sin que tengan que arreglárselas ellos mismos. Ahí es donde entramos nosotros. Podemos asesorarte para que aproveches al máximo estas nuevas e increíbles posibilidades.
Crea... y traduce todo, ¡incluso vídeos!