생성형 자막: 음성 이해
2024년 9월 3일
8분 분량
작년에 저는 비디오 로컬라이제이션에 관한 블로그 게시물을 작성했습니다. 기술 분야에서 1년은 아주 긴 시간입니다. 사실 어떤 분야든 그렇죠. 지난 12개월 동안 일어난 일을 돌이켜보면, WHO는 50년 만에 카보베르데에서 사하라 사막 이남 국가로는 처음으로 말라리아가 퇴치되었음을 선포했습니다. 덴마크에서는 마르그레테 여왕이 왕위에서 물러나면서 전 세계에 여성 통치자가 한 명도 남지 않게 되었고요. 일본은 우주선 달 착륙에 성공한 5번째 국가가 되었습니다. 그리고 틱톡(TikTok)은 전 세계 다운로드 수가 3번째로 많은 소셜 미디어 플랫폼이 되었죠.
사람들은 이제 무슨 일이든 비디오로 남기는 것 같습니다. 스태티스타(Statista)는 미디어 콘텐츠가 2024년 1조 6천억 달러의 수익을 거두고, 이후에도 계속 성장할 것이라 예상합니다. 소비자들은 짧은 비디오로 정보를 얻거나, 보고 싶은 영화를 손안에서 편히 보는 것에 점점 더 익숙해지고 있습니다. 또한, 일하는 동안 회의는 녹화해 두고요(경험에서 우러난 팁을 드리자면, 저는 제가 주도하지 않는 회의는 건너뛴 다음 녹화본을 1.5배속으로 보는 것으로 시간을 크게 절약하고 있습니다).
동시에 AI 기술은 비약적으로 발전하고 있습니다. 저는 집안일을 대신 해 줄 AI 기술을 기다리고 있는데요. 계단 청소까지 가능한 로봇청소기는 과연 언제 나올까요? 하지만 기술이 발전하는 동안 우리는 생산성을 높이고 품질을 개선하며 비용을 절감하는 새로운 방법을 계속 고안해 낼 수 있습니다.
AI가 점점 더 많은 단순 업무를 대신할 수 있게 되면서, 인적 전문성의 가치는 점점 더 높아지고 있습니다. 다시 말해, 비디오 로컬라이제이션이 앞으로도 매우 고가의 전문 분야로 남을 것이라는 뜻이기도 하죠. 왜일까요? 작년 블로그 게시물을 인용해 보겠습니다.
- 대단히 복잡한 작업입니다. 전문가의 작업을 돕기 위해 디자인된 전문 애플리케이션이 있을 정도로요.
- 자막은 번역하기 어렵습니다. 텍스트 길이에는 제약이 있고 텍스트는 비디오에 맞아야 하며 일시 중지나 장면 변경으로 인해 문장이 잘려나가는 등 어려움은 끝이 없습니다. 일반적으로 전문가가 처리하는 데에는 그럴 만한 이유가 있습니다.
- 자동 번역은 조각난 세그먼트를 잘 이해하지 못하는데, 자막은 비디오에 나오는 내용과 맞아떨어져야 하죠.
- 품질 확인은 시간이 많이 소요됩니다. 모든 언어로 전체 비디오를 보고, 듣고, 계속해서 읽어야 합니다.
- 밀리초도 중요합니다. 시청자는 자막이 실제 음성과 다르면 알아차립니다.
오징어 게임 새 시즌이 공개되면 최대한 완벽한 자막으로 보고 싶으니, 넷플릭스(Netflix)는 제발 전문 링귀스트를 참여시키세요! 하지만 참석하지 않은 웨비나를 번역하려면 숨 막히는 '무궁화꽃이 피었습니다’ 장면은 보지 못한 채 내용을 이해해야 합니다. 안타깝게도 비디오 로컬라이제이션은 비용이 많이 들고 웨비나의 예산은 그리 넉넉하지 않기 때문에 보통 웨비나에 대한 자막 생성이나 로컬라이제이션은 이루어지지 않았습니다. 지금까지는 말이죠!
새로운 트라도스 생성형 자막 기능을 소개합니다
생성형 자막을 활용하면 (고객 포털이나 기본 제공 커넥터를 이용해) 비디오 클라우드 번역 프로젝트를 빠르게 생성한 다음, 업계 모범 사례를 준수해 자동으로 생성되는 자막을 보고 감탄하기만 하면 됩니다. MC가 비디오에서 매력적인 억양으로 소개하는 여러분의 이름을 정확히 적게 하려면 맞춤형 프롬프트에 추가하면 됩니다.
멋지지 않나요? 벌써 절반이 해결되었습니다. 하지만 어려운 로컬라이제이션이 남았습니다. 아니, ‘어려웠던’이라고 해야겠군요!
조각난 세그먼트들을 번역하는 대신, 자막 파일을 기반으로 LLM을 이용해 번역하면 어떨까요? 그리고 이 LLM에 비디오 요약을 전송해 작업에 필요한 문맥을 제공할 수 있다면 어떨까요? 동시에 용어집도 전송할 수 있다면요?
짐작하신 대로 자막이 고품질로 로컬라이제이션됩니다! 작동 원리는 다음과 같습니다.
잠시만요. 마지막 단계 '온라인 에디터에서 실시간 미리 보기를 활용해 검토'는 절대 빠뜨리면 안 되죠. 웨비나와 교육 비디오 등에 대해서는 완전 자동 로컬라이제이션만으로 충분한 경우가 많습니다. 하지만 저는 제 상사가 지시 사항을 웅얼거리더라도 멋져 보이게 해야 하죠. 어떻게 가능한지 알려드릴게요.
온라인 에디터에서 실제로 작동 중인 문맥 내에서 미리보기의 스크린샷
비디오가 재생되는 동안 온라인 에디터 텍스트가 소리와 함께 스크롤되는 마법 같은 모습을 보세요. 텍스트를 편집하면서 자막이 실시간으로 바뀌는 것도 확인할 수 있습니다. 세그먼트에 플래그를 지정해 두었다가 상사에게 ‘대체 무슨 생각이었죠?’라고 물어볼 수도 있습니다. 제 상사인 매트가 이 글을 읽고 있을지 모르니, 플래그 지정을 해 두었다가 깊이 있는 인사이트에 박수를 보낼 수 있다는 의미입니다.
지금 여러분은 이렇게 생각할지도 모릅니다. ‘너무 좋은데?’ ‘꿈인가?’
이게 제 목소리로 들리고 자막이 제 얼굴 아래로 나오고 있다면, 꿈이 맞을 겁니다! 아니라면 보통의 것들을 살펴보죠.
- 보안과 개인정보 보호? 문제없습니다! 이 멋진 솔루션에 쓰이는 LLM은 RWS 랭귀지 클라우드 자산 내에서만 호스팅됩니다. 사용자의 개인정보는 절대로 공개되지 않습니다.
- 워크플로우 자동화? 문제없습니다! 워크플로우 자동화에는 프로젝트 템플릿, 워크플로우 템플릿, 작업 할당 등을 이용할 수 있는 표준 트라도스 클라우드 환경이 사용됩니다. 비디오를 추가하고 커피 한 잔을 즐기고 오세요.
- 보고? 문제없습니다! 여느 프로젝트와 동일합니다. 추적을 위해 새로운 데이터를 계속 추가되겠지만, 안심하세요. 생산성이 하늘을 찌를 것입니다.
- 아주 놀랍죠! 이런 생각이 들지도 모릅니다. ‘트라도스, 못 하는 게 뭐지?’
데드풀과 울버린의 자막은 사실 트라도스만으로 생성되지 않습니다. 마블(Marvel)에서는 전용 솔루션을 함께 사용하죠. 대표적인 예시는 파트너사의 솔루션 중 하나인 캡션허브(CaptionHub)로, 타임스탬프 변경과 화면 내 자막 위치 조정, 데드풀의 현란한 말솜씨를 알아듣기 쉽게 번역하는 것이 가능합니다.
결과가 궁금하세요? Elevate 비디오가 이 솔루션을 이용해 자막을 생성하고 로컬라이제이션한 것입니다.
눈앞에서 보고 싶으세요? 어카운트 매니저에게 문의해 데모 일정을 예약하세요. 멀티미디어가 여러분이 가장 좋아하는 파일 유형이 될 테니 팝콘을 꼭 챙겨 오시고요.