Trados Studioによる全角・半角文字の自動認識
2023年10月20日
読了目安時間:4分


Trados Studioによる全角・半角文字の自動認識
Trados Studio 2017以降で利用可能な「文字幅の違いについて一致を取得(アジアの原文言語)」というオプションをご存知でしょうか。
ご存知のように、日本語環境においてはカタカナや英数字に対して「全角」と「半角」の違いが存在します。たとえば「アメリカ」と「アメリカ」は同じ文字であるにもかからず、コンピューター上では違う文字として認識されます。これはTrados Studioの既定の設定でも同様です。
しかし、上記のオプションを活用することによって、Trados Studioは半角・全角の違いがある場合でも同じ文字として識別できるようになります。つまり、翻訳メモリ(TM)に登録済みの原文と翻訳対象の原文を比較する際に、半角・全角が違う文字(たとえば「アメリカ」と「アメリカ」)を同一のものとして認識できるようになります。
これは、日本語の原文に対して特別に実装されている機能です。
半角カタカナと全角カタカナの違い
まず、半角カタカナと全角カタカナの例でご説明します。

TM内には「彼はアメリカ生まれです。」という原文が登録されており、翻訳対象の原文は「彼はアメリカ生まれです。」というものだったとします。両者の違いは「アメリカ」というカタカナの単語が全角か半角かという点だけです。
ここで、[プロジェクトの設定]を開いてみましょう。[言語ペア]>[全ての言語ペア]>[ペナルティ]の画面に、[文字幅の違いについて一致を取得(アジアの原文言語)]という項目があります。

こちらは既定では有効であり、ペナルティの値は「1」に設定されています。こちらの項目が無効になっている時と、既定の状態で有効(ペナルティ:1)になっている時を比較してみましょう。

オプションの無効時は、「アメリカ」と「アメリカ」が完全に違う文字として認識され、73%との一致率となってしまいました。

それに対してオプションを有効にした場合、両者は同じ文字として判断されます。文字幅のみの差異についてペナルティとして一致率が1%下げられ、結果として「99%の一致」として表示されています。
「ドライバ」と「ドライバ」、あるいは「パートナーシップ」と「パートナーシップ」といったような、濁点・半濁点が混じったカタカナ単語であっても、このオプションは問題なく機能します。
半角アルファベットと全角アルファベットの違い
次は、半角アルファベットと全角アルファベットの例を見てみましょう。
TM内には「Trados Studio 2022を使っています。」という原文が登録されており、翻訳対象の原文は「Trados Studio 2022を使っています。」というものだったとします。
TMの原文に含まれている半角アルファベット、半角数字、半角スペースが、翻訳対象の原文においてはすべて全角で入力されています。
こちらについても、オプションの無効時と有効時でTMの一致を比較してみましょう。
オプション無効時
オプションの無効時は、「Trados Studio」と「Trados Studio」が完全に違う文字として認識されたために、一致率が70%を下回ってしまい、「TMからの一致なし」と判断されてしまいました。
オプション有効時(ペナルティ:1)
それに対してオプションの有効時は両者が同じ文字列として認識され、同様に文字幅の際に対して1%のペナルティがかかった状態で「99%の一致」として判定されました。
ここで「2022」および「2022」という文字幅違いの数字に関しては、また別の説明が必要になります。
それぞれは認識済みトークン(固定要素)となるため、オプションの有無に関らず自動置換の対象となります。日本語の原文に「2022」という全角数字が含まれていた、訳文言語が英語などのヨーロッパ言語であれば、自動的にローカライズされて「2022」という半角数字に置き換わります。
もちろん、TMの設定で数字を認識済みトークン(固定要素)の対象外とした場合、「2022」と「2022」の差異はこれまで見てきたカタカナやアルファベットの全角・半角と同様に取り扱われます。
認識済みトークン(固定要素)の種類を変更するには、翻訳メモリの[設定]より[言語リソース]の画面を開いて、[次を認識する] フィールドの設定を適宜変更します。
ペナルティを0にした場合
「文字幅の違いについて一致を取得(アジアの原文言語)」のオプションはデフォルトで有効であり、その際に追加されるペナルティは1%と設定されています。
それでは、この値を0にしてみたらどうなるでしょう。

一致率が差し引かれることはありませんので、99%とはならず、100%一致あるいはコンテキスト一致(CM)が適用されることになります。
このように、日本語が原文のケースに関しても、Trados Studioの機能は柔軟に強化されています。