트라도스 스튜디오에서 PDF 번역 방법
2019년 5월 1일
5분 읽기
여러분이 저와 같다면 간단한 Word 문서를 번역하는 것을 선호할 것입니다. 받은 편지함에 도착한 PDF를 보면, 시간을 오래 쏟은 뒤에도 결과물을 수정하느라 괴롭겠다는 생각이 먼저 듭니다. 트라도스 스튜디오에서 PDF 파일을 처리하고 작업을 조금 쉽게 만드는, 번역가끼리 입에서 입으로 전해 내려오는 몇 가지 팁을 소개합니다.
PDF란 무엇이며 스캔 가능한 파일과 편집 가능한 파일의 차이점은 무엇인가요?
PDF는 휴대 가능한 문서 형식을 뜻하는 Portable Document Format의 약자이며, 사용하는 장치와 프로그램에 관계없이 파일을 열 때마다 정확히 동일한 내용과 레이아웃이 표시된다는 의미입니다. 문서 작성자에게는 좋지만 번역가에게 좋지는 않습니다.
PDF 문서는 편집 가능한 형식일 수도 있고 스캔한 PDF일 수도 있습니다. 편집 가능한 PDF에는 텍스트 레이어가 있으며 지원되는 모든 스튜디오 버전에서 처리할 수 있습니다. 스캔된 PDF는 전자 텍스트 문자가 없고 페이지 전체가 단순한 이미지입니다. 스튜디오에는 텍스트를 추출하는 광학 문자 인식(OCR) 엔진이 통합되어 스튜디오에서 처리할 수 있습니다.
두 가지 PDF 유형의 차이점을 쉽게 알 수 있습니다. PDF 리더에서 파일을 엽니다. 편집 가능한 PDF일 경우 단어나 단락을 선택하거나 복사하여 붙여 넣을 수 있습니다.
언어 제한과 기타 당초부터 부적합한 사례
트라도스 스튜디오에서 PDF 파일 형식에 사용되는 OCR 엔진은 Solid Documents 기술 기반입니다. OCR 기술은 사전 기반이므로 덴마크어, 네덜란드어, 영어, 핀란드어, 프랑스어, 독일어, 이탈리아어, 노르웨이어, 폴란드어, 포르투갈어, 러시아어, 스페인어, 스웨덴어, 터키어에만 적용 가능합니다.
소스 텍스트는 위 언어 중 하나여야 합니다. 이미지 품질이 좋아야 우수한 변환 결과가 나옵니다. 기울어지거나 흐릿하거나 희미하거나 번지거나 손으로 쓴 텍스트는 모두 당초부터 부적합합니다.
위와 유사한 PDF(모두 실제 사례)를 맞닥뜨리게 된다면 Word에서 음성 인식 소프트웨어를 사용하여 소스를 받아쓰기한 다음 스튜디오에서 Word 파일을 번역하는 것이 낫습니다.
번역 전 결과물 미리 보기
아래 PDF처럼 상당히 우수한 품질의 스캔 PDF가 있다고 가정해 보겠습니다.
다음 단계는 스튜디오에서 테스트하는 것입니다. PDF를 시작 화면 보기로 끌어다 놓기만 하면 됩니다.
다음 창에서 고급을 클릭합니다.
왼쪽에서 파일 형식 > PDF > 변환기를 선택한 다음 찾아보기를 클릭하여 파일을 미리 봅니다.
이렇게 하면 파일이 편집기 창에서 어떻게 표시되는지 빠르게 미리 볼 수 있고 PDF가 있는 폴더에 docx 형식으로 파일이 저장됩니다.
이제 그대로 번역할지, 아니면 소스 Word 파일의 서식 및 레이아웃 작업을 한 다음 스튜디오에서 원본 PDF 대신 개선된 Word 파일을 번역할지 결정할 수 있습니다.
파일 형식 미리 보기는 프로젝트의 TM 세그먼트 분할 설정이 아닌 표준 세그먼트 분할 규칙을 사용한다는 점에 유의하세요. 또한 파일을 프로젝트에 추가할 때 파일 형식 미리 보기는 사용할 수 없으며, 시작 화면 보기, 프로젝트 설정, 일반 옵션에서 파일을 열 때만 사용할 수 있습니다.
PDF 파일 형식 OCR 변환 및 Word 옵션
스튜디오 미리 보기의 장점은 PDF 파일 형식 설정(위 스크린샷 참조)을 사용해 해당 설정으로 파일이 처리되는 방식을 확인할 수 있다는 것입니다. 일반적으로 레이아웃은 방향으로 설정합니다. 가장 기본적인 결과물이 나오지만, 글머리 기호, 굵은 글꼴 등의 서식은 올바릅니다.
이미지는 제거하지만 가능한 경우 이미지를 유지하고 변환해야 할 수도 있습니다. 머리글 및 바닥글은 이 방법으로 처리하는 것이 가장 좋지만, 머리글 및 바닥글을 여기서 제거하고 타겟 Word 파일에 직접 추가하는 방법이 더 쉬울 수도 있습니다.
테이블 추출은 필수입니다.
마지막 옵션 세트는 스튜디오에서 텍스트를 인식하는 방법을 정의합니다.
- 모든 문자는 복합 PDF(편집 가능한 텍스트와 스캔한 텍스트 모두 포함)에 사용됩니다.
- 문제가 있는 문자만 옵션은 스캔된 PDF에 대해서만 사용할 수 있습니다(모든 문자를 사용할 수도 있습니다).
- 없음은 편집 가능한 PDF에 적용됩니다.
이제 왼쪽 목록으로 돌아갑니다. 공통(변환기 아래)에서 타겟 문서에 코멘트 추가 옵션을 포함하여 Word 문서 설정의 모든 옵션을 사용할 수 있습니다.
실전 번역 중 유용한 정보
프로젝트 설정을 마치고 번역 단계에서 소스 텍스트에 일반적인 OCR 오류가 있는지 확인합니다. 숫자 “1”과 로마자 “I”, 숫자 “0”과 로마자 “o”는 일부 글꼴에서 매우 유사합니다(예: 20I6년 12월 2O일). OCR 사전에 없는 고유명사의 경우 특정 문자 조합을 잘못 해석할 수도 있습니다(예: “Dr Turner”가 아닌 “Dr Tumer”).
소스 세그먼트를 편집하여 오류를 수정할 수 있다는 점을 기억하세요. 이렇게 하면 소스 텍스트가 개선될 뿐만 아니라 현재는 물론 향후에도 TM 활용도를 높일 수 있습니다. 활성 세그먼트에서 Alt+F2를 눌러 소스를 수정합니다.
경우에 따라 PDF 변환 시 문장이 두 세그먼트로 분할되는 가성 하드 리턴(단락 표시)이 추가되기도 합니다. 스튜디오 2019에서는 이러한 세그먼트를 쉽게 병합할 수 있습니다. Alt+Shift+아래쪽 화살표를 클릭하고 숫자 열을 마우스 오른쪽 단추로 클릭한 다음 세그먼트 병합을 클릭합니다. 이 옵션이 회색으로 표시되는 경우 프로젝트 설정으로 이동하여 소스 편집 및 세그먼트 병합 옵션이 아래 스크린샷과 같이 설정되어 있는지 확인합니다.
마지막으로 Shift+F12로 타겟 문서를 PDF로 저장할 수 없다는 점은 걱정하지 마세요. 타겟 파일은 Word docx 형식입니다.
편집 가능한 PDF
편집 가능한 PDF 번역은 쉽습니다. 앞서 언급한 것처럼, 편집 가능한 PDF를 대부분의 스튜디오 버전에서 가져올 수 있으며 MS Word에서 직접 여는 것보다 스튜디오에서 PDF를 Word로 변환하는 것이 더 나은 경우가 많습니다. 스튜디오는 머리글 및 바닥글을 보다 안정적으로 삽입하고 굵은 글꼴 서식을 더 잘 보존하며 줄 시작 부분의 단락 표시 앞에 공백을 추가하지 않습니다.
PDF와 가격 책정
PDF 파일 형식이 발전하기는 하였으나 PDF 번역은 원본 파일 형식으로 작업하는 것보다 시간이 더 많이 걸립니다. 정확한 소스 단어 수도 알기 어렵습니다. 가능한 경우 시간당 요금을 책정하고, 그렇지 않은 경우 최종 타겟 단어 수를 기준으로 더 높은 요율을 책정하는 것이 좋습니다.
특히 까다로운 PDF를 접하게 되었다면 고객에게 원본 파일을 요청하세요. 스튜디오는 다양한 파일 형식을 처리하므로 컴퓨터에 네이티브 프로그램이 없어도 스튜디오에서 처리할 수 있습니다.