개념 증명: 생성 자막 및 캡션 달기

셜리 코디 2023년 9월 27일 5분 읽기
비디오 로컬라이제이션은 비용이 많이 드는 과정이라는 점은 잘 알려져 있습니다. 자막은 번역하기 어렵고 품질 확인에 시간이 오래 걸리며 심지어 밀리초도 중요하기 때문에 복잡합니다! 이 블로그를 읽고 AI와 대형 언어 모델(LLM)이 비디오 자막 프로세스 혁신에 도움이 되는 방법을 알아보세요.

동영상과 기타 미디어 형식은 대상 고객에게 점점 더 폭넓게 다가가는 최적의 방법이 되고 있습니다. 요즘 지침 설명서를 보관하는 사람이 있나요? 가지고 있는 무언가를 바꿔야 한다면 YouTube를 찾아봅니다. 누군가가 방법을 말해주고 직접 보여주기까지 합니다!

물론 저는 영어가 모국어인 특권을 누리고 있으며 웹 콘텐츠의 절반 이상이 영어로 되어 있습니다. 저는 세상에 못할 게 없습니다!  

하지만 영어를 구사하지 않는 사람은 어떻습니까? 이 사람들의 무언가도 고장 났습니다. 물론 대부분의 최신 브라우저에는 텍스트를 다른 언어로 표시할 수 있는 기능이 내장되어 있지만 비디오는 표시할 수 없습니다. 지침 설명서를 다시 봐야겠죠! 

콘텐츠 제작자가 콘텐츠를 현지화하지 않는 이유는 무엇일까요? 노출하고 싶어하고 개인 및 전문 브랜드를 홍보하는 사람, 그리고 액세스 가능한 경우 훨씬 더 많은 콘텐츠를 소비할 사람 등 모두에게 도움이 되는데도 말입니다. 간단한 답이 있습니다. 비디오 로컬라이제이션은 비용이 많이 듭니다.

그런데 왜 그렇게 비용이 많이 들까요?

  • 매우 복잡합니다. 전문가들이 이 작업을 수행할 수 있도록 제작된 당사의 파트너 CaptionHub와 같은 특수 애플리케이션이 있습니다. 
  • 자막은 번역하기 어렵습니다. 텍스트 길이에는 제약이 있고 텍스트는 비디오에 맞아야 하며 일시 중지나 장면 변경으로 인해 문장이 잘려나가는 등 어려움은 끝이 없습니다. 일반적으로 전문가가 처리하는 데에는 그럴 만한 이유가 있습니다. 
  • 기계 번역은 세그먼트 조각에는 잘 대응하지 않지만 자막은 비디오 화면에 표시되는 내용과 일치해야 하므로 조각이 반드시 필요합니다. 
  • 자막만으로는 청각 장애가 있는 사용자의 비디오 접근성을 개선할 수 없습니다. 소리를 들을 수 없는 사용자에게 비디오의 장면을 설명하는 캡션 기능이 필요합니다. 
  • 품질 확인은 시간이 많이 소요됩니다. 모든 언어로 전체 비디오를 보고, 듣고, 계속해서 읽어야 합니다. 
  • 밀리초도 중요합니다. 시청자는 자막이 실제 음성과 다르면 알아차립니다. 

요즘은 누구나 AI가 만능이라고 말합니다. AI는 논문을 작성할 수 있습니다! 차를 운전할 수 있습니다! 설거지를 할 수도 있습니다. 아뇨, 잠깐만요. 아직 사람이 설거지를 해야 합니다. 그럼, 적어도 내 비디오를 누구나 접근할 수 있게 만들 수 있을까요? 

정답은 '예'입니다! 

Video subtitling

비디오를 촬영하고 AI를 사용하여 자막을 만들 수 있습니다. 일반적으로 이 작업을 잘 수행하는 대형 언어 모델(LLM)이 있습니다. 이 모델은 공개되니, 전송할 콘텐츠를 주의해 선정해야 합니다. 우리 활용 사례에서는요? 어디에 있는 누구든 자기 물건을 활용하는 방법을 안다면 좋은 소식입니다. 이런 정보는 기밀이 아닙니다. 모두에게 나를 알리고, 이 작업을 해내는 방법을 알리고 싶은 사람이 있습니다. 

이 LLM과 자막이 완벽히 도움을 줄까요? 그렇지는 않습니다. 많은 LLM이 브랜드 이름과 기타 고유 명사를 잘 처리하지 못합니다. 고유명사가 중요할까요? 상황에 따라 다릅니다. 저라면 아주 세련된 제품 마케팅 비디오나 인사 또는 법무 부서에서 사용할 비디오에 흠이 있는 것을 원하지 않을 겁니다. 이 경우에는 전문가를 계속 고용할 것입니다. 갖고 있는 물건을 고쳐 쓴다면요? 자동 자막 기능이 기대 이상일 수 있습니다. 

좋아요. 이제 저도 자막이 생겼네요. 그런데 뭐가 문제죠? 자유롭게 사용할 수 있는 기계 번역은 사용하고 싶지 않습니다. 자막 형식이 엉망이 될 뿐만 아니라 세그먼트 조각에 적합하지 않기 때문입니다. 원본 비디오 속 문장이 잠시 끊겼다가 뒤에 반전이 이어진다면요? 확실히 보기에도 좋고 듣기에도 좋지만, 이제 번역해야 할 전체 문장이 아닌 반쪽짜리 문장 두 개가 생겼습니다. 

AI는 어떻게 더 나은 결과를 얻을 수 있을까요? 먼저, LLM에 여러분이 말하는 내용을 알리셔야 합니다. 읽는 데 사용하는 안경(glass)은 마시는 데 사용하는 잔(glass)과 다릅니다. 상황에 따라 공개 기계 번역을 지도할 수는 없지만 LLM에게 말하는 내용을 알릴 수는 있습니다. 따라서 자막 파일을 받고 내용을 요약할 수 있습니다. 

하지만 AI는 환각을 일으키잖아요! 누구나 알고 있죠. 제가 소개하려는 물건이 소용돌이 속에서 마술처럼 자라는 것을 정말로 원하지 않습니다. 걱정하지 마세요. 요약해서 LLM이 해당 컨텍스트만 사용하여 자막을 번역하도록 해 보겠습니다. 

접근성도 잊지 말아야 합니다. 우리는 모든 사람들이 자기 물건을 바꾸는 방법을 알려주려고 합니다. 제대로 조여지면 나는 딸깍 소리가 비디오에서 잘 들릴까요? 청각 장애가 있는 사람도 비디오를 이용하도록 합니다. LLM을 사용하면 타임스탬프가 포함된 노이즈를 추출할 수 있습니다. 

바로 믿기에는 너무 좋아 보이지만, 실제 시나리오에서 활용하는 모습을 알고 싶으시다면 올해 ELEVATE에서 녹화된 세션을 시청하고 캡션 설정에서 사용 가능한 언어를 선택해 보세요.  

Trados for Corporations

그룹 퀸(Queen)이 가장 잘 말했습니다. 그렇지 않나요? 모든 것을 원해요, 지금 갖고 싶어요! 콘텐츠 제작자가 직접 모든 것을 꿰맞출 필요 없이 이 모든 것을 통합하고 사용할 수 있는 방법이 있습니다. 이것이 바로 저희가 하는 일입니다. 이러한 놀라운 새로운 가능성을 활용하는 최선의 접근 방식을 안내해 드립니다. 

모든 것을 만들고 번역하세요. 비디오도 예외가 아닙니다!

셜리 코디
작성자

셜리 코디

제품 관리부 이사

셜리 코디는 언어 기술에서 20년 이상의 경력이 있습니다. 소프트웨어 개발자로서 경력을 쌓기 시작하여 스타트업 기업으로 옮겨서 기술 지원 및 전문 서비스 등의 추가 역할을 맡았습니다.


회사가 성장함에 따라 제품 제작에 대한 열정은 계속되어 제품 관리 역할을 맡게 되었습니다. 다양한 인수합병을 통해 중소기업 및 대기업의 신규 제품과 기존 제품을 모두 관리해 왔습니다. 


2022년에는 RWS의 언어 기술 제품 관리 팀의 리더십을 맡아 매우 유능한 팀과 함께 업계 최대의 기술 회사의 첨단 기술 및 기존 기술 포트폴리오를 담당하고 있습니다. 

작성자 셜리 코디