도약을 위한 준비: AI로 번역 엔진을 보강하는 방법
꽤 오랜 기간 동안 RWS는 번역 엔진을 사용하여 개별 텍스트에 가장 적합한 번역을 제공해 왔습니다. 인공 지능의 출현으로 이제 이 서비스를 한 단계 더 발전시킬 수 있습니다. 생성 AI는 기계 번역에 매우 적합하지는 않지만 마법과 같은 언어 자산을 사용하여 필요한 스타일, 어조, 용어, 특정 프로젝트에 필요한 모든 사항을 고려한 번역을 생성할 수 있습니다. 보다 자세한 내용은 역사 설명과 애니메이션 영화, 그리고 더 나은 번역에 대한약속과 함께 살펴보겠습니다.
번역 엔진의 간략한 역사
저희 새로운 클라우드 플랫폼이 탄생했을 당시 언어 자산을 구성하고 사용하는 방식에 새로운 접근 방식을 취하기로 결정했습니다. 예전에는 각 언어 자산은 따로 처리되었고 번역 메모리, 용어집, 기계 번역 업무가 명확하게 구분되었습니다. 당시 목표는 이러한 자산을 함께 가져와 모든 정보를 토대로 가능한 최상의 일치를 제공하는 시너지 서비스를 만드는 것이었습니다. 번역 메모리를 적용하고 기계 번역으로 번역되지 않은 텍스트를 모두 처리한 다음 번역가가 번역된 텍스트를 편집할 때 용어집을 제공하던 시대는 이제 지나갔습니다. 그 대신, 우리의 비전은 자산의 효율성을 극대화하여 “가능한 최상의 일치”를 만드는 것이었습니다. 이것이 번역 엔진의 탄생이었습니다.
여러분 중 일부는 치킨 런(Chicken Run)이라는 아드먼 애니메이션(Aardman Animations) 사의 영화를 보셨을 것입니다. 이 영화에는 닭을 파이로 만드는 다소 섬뜩한 기계가 나옵니다. 닭이 어떻게 파이가 되었는지에 대해 전혀 보여주거나 이야기하지 않았습니다. 수수께끼의 불길한 기계였지만 분명 엔지니어링의 승리였습니다. 트위디 부인은 “닭이 들어가고 파이가 나와요”라는 경구를 만들었습니다. 이게 번역과 어떤 관련이 있나요? 저는 언제나 번역 엔진이 비슷하게 신비한 기계라고 생각했습니다(그리고 그렇게 섬뜩하거나 불길하지는 않기를 바랍니다). 닭 대신에 텍스트를 입력했습니다. 파이 대신 번역이 나왔습니다. “텍스트가 들어가고 번역이 나옵니다.” 어떻게 작동하는지는 알 필요가 없지만, 우리가 사용할 수 있는 모든 정보에 대해 언어적 자산을 얻어내고 산출물이 우리가 할 수 있는 최고의 번역이라는 점은 확신할 수 있습니다. 아래 다이어그램에서 이 “신비한 상자” 접근 방식을 보실 수 있습니다.
우리가 사용하는 “요령” 중 일부는 이러한 접근 방식으로 기대할 수 있는 것과 정확히 같습니다. 여기에는 기존 AI 기술이 포함되지만 다음과 같은 경우에는 이에 국한되지 않습니다.
- 조각 매치
- 퍼지 매치 수정
- 적용 가능한 용어로 기계 번역 프롬프트
모든 것이 좋고 괜찮다고 생각하실 수도 있습니다. 멋진 생각입니다. 잘 됐군요. 여기저기서 찬사가 나옵니다. 그러다가 2023년이 다가오며 “이보세요? AI를 만나보세요!”라고 합니다. AI 혁명을 로봇처럼 대변하는 사람들의 말에 따르면, 이 유능한 생성형 채팅 모델에게 부탁만 하면 시도 써 주고, 보도 자료도 작성해 주고, 눈길을 끄는 새로운 LinkedIn 헤드라인도 만들어 준다고 합니다. OpenAI는 모두를 앞질러 행동한 것처럼 보였지만 다른 기업들도 따라왔습니다. 구글(Google), AWS, 메타(Meta) 등이 이미 출사표를 던졌습니다. 또한 저 너머 훨씬 더 많은 것이 오고 있다는 것을 확신할 수 있습니다. 다가오는 소리가 벌써 들립니다. AI가 나타나 함께할 텐데 여기서 어떻게 해야 할까요?
업그레이드할 때입니다
AI의 급부상으로 우리는 번역 엔진을 조정하고 강화할 수 있는 기회를 얻게 되었습니다. 이전에는 언어 자산을 최대한 활용할 수 있는 한계에 도달했지만 이제는 훨씬 더 많은 일을 할 수 있습니다. 이러한 챗봇은 대체로 모두 동일한 기술을 사용하고 있습니다. 많은 양의 언어 데이터를 분석 및 처리하여 LLM이라는 것을 만듭니다. [언어 전문가들을 위한 참고 사항. LLM은 약어가 아니라 이니셜입니다. 약어는 단일 단어로 발음합니다. 나토(NATO), 스쿠버(SCUBA), 테이저(TASER), 욜로(YOLO)를 생각해 보세요. 이니셜은 개별 문자로 말합니다. DNA, OMG, TBD, FAQ를 생각해 보세요. MPEG와 JPEG는 예외일 뿐입니다!] LLM으로 돌아가서, “그게 뭐지?”라고 말하는 사람도 있습니다. 이는 대형 언어 모델(Large Language Model)의 약자이며, 우리 업계에서는 가운데 있는 단어가 매우 흥미롭습니다. 이 LLM을 통해 번역 엔진이 족쇄를 풀고 번역 기술 제품 안에 바로 포함할 수 있는 강력한 새 기능을 활용할 수 있습니다. LLM이 도움이 될 수 있는 사항은 다음과 같습니다.
- 컨텍스트 정보와 지침을 받아서 한 언어에서 다른 언어로 텍스트를 번역합니다.
- 인공신경망 기계 번역으로 생성된 번역에 포스트에디팅을 더합니다.
- 번역된 텍스트의 품질을 평가하고 개선 사항을 제안합니다.
- 회사 스타일과 용어를 따르도록 소스 텍스트를 다시 작성합니다.
기계 번역이나 전문가 번역을 수정하는 작업이 곧 진행될 예정이지만, 지금 우리는 이 목록의 첫 번째 중요 항목에 노력을 집중하고 있습니다. 트라도스 스튜디오에서 사용할 수 있는 OpenAI Translator 앱이 이미 출시되었습니다. 이 앱은 LLM을 사용하여 문서의 텍스트에 대한 대체 번역을 변환, 최적화, 분석, 제안하며 프롬프트를 지원합니다. 여기에서 너무 자세히 설명하지는 않겠지만 RWS 커뮤니티의 Wiki 페이지를 보고 다양한 스타일, 어조, 길이를 얻는 데 사용되는 프롬프트를 조작하는 방법을 이해하는 것이 좋습니다. 그러나 번역 엔진에 있는 모든 멋진 언어 자산에 액세스할 수는 없습니다. 바로 비밀 소스죠.
AI를 통해 번역 엔진이 그 어느 때보다 더 나은 번역을 제공할 수 있게 되었습니다. 한 언어로부터 다른 언어로 문장을 번역하려면 LLM에 다음 정보를 제공할 수 있습니다.
- 같은 문서의 다른 세그먼트가 번역된 방식.
- 과거에 유사한 세그먼트를 번역한 방식(퍼지 매치 재사용 기술).
- 소스 텍스트에서 식별한 용어와 해당 용어를 번역하는 방식.
- 필요한 번역 스타일(공식, 비공식, 친근함, 전문적 등)
- 최대 길이 또는 성 중립 언어 등의 기타 설정.
LLM은 이 모든 정보를 통해 필요한 것을 정확하게 제공할 수 있습니다. 또한 번역 프로젝트의 일반적인 워크플로우를 고려하면 LLM을 “학습시켜” 더 나은 결과를 얻을 수 있습니다. 이 모델은 검증된 최종 번역을 다시 제공하여 시간이 지남에 따라 학습하고 더 나은 제안을 제시할 것입니다. 훌륭합니다. 귀하의 콘텐츠를 공개적으로 사용 가능한 LLM으로 전달하고 고품질 번역을 돌려받고 있습니다. 만족하십니까? 아닌가요? “공개적으로 사용 가능”하다는 사실로 불안해지나요? 두려워하지 마세요. 분명 제가 방금 말씀드린 모든 회사에서 일하는 좋은 사람들이 웹을 통해 귀사의 지적 재산을 모두 유출하지는 않을 겁니다. 아직 확신이 들지 않습니까? 그럼 이 모든 작업을 안전하고 비공개로 호스팅된 LLM에서 수행하는 것은 어떻습니까? 이렇게 하면 데이터가 귀사에게만 속해 있다고 확신을 가질 수 있습니다. 아래 다이어그램에서 새로운 번역 엔진을 볼 수 있습니다. 닭은 전혀 다치지 않을 것입니다.
배포
초기 구현은 강력한 워크플로 편집기에 액세스할 수 있는 트라도스 고객을 위한 사용자 지정 워크플로에 포함될 수 있는 새로운 작업의 형태를 취합니다. 이를 통해 사용자는 새로운 접근 방식이 제공하는 가능성을 조기에 경험할 수 있습니다. 앞으로 진행하면서 모든 사람이 액세스할 수 있도록 핵심 기능에 포함시킬 것입니다. 계속 주목하여 커뮤니티와 소셜 미디어 채널을 통해 더 많은 뉴스를 받아보세요.