Excelにテキストで入力されたタグを抽出する
2023年10月20日
読了目安時間:3分


Excelにテキストで入力されたタグを抽出する
今回はExcelのセル内に<b></b>などのタグがテキストとして入力されていた場合に、Trados Studio上でインラインタグとして抽出する方法をご説明します。
こちらはTrados StudioのExcel用ファイルタイプに以前から備わっていた機能なのですが、あまり知られていないように思いますので、あらためておさらいしましょう。
1. セル内にタグがテキストとして入力されていた場合
例えば以下のようなExcelファイルがあるとします。セル内のテキストには、<b></b>といったタグペアや<br>といったセルフクロージングタグが存在しています。

タグ入りのテキストをxlsx形式やcsv形式などでエクスポートするシステムの場合、このような原文ファイルが翻訳対象となることがあります。
こちらを既定の設定でTrados Studioに読み込ませますと、このようにタグはすべてそのままのテキストで抽出されてしまいます。

2. 埋め込みコンテンツの処理
ここで、Excel用のファイルタイプ設定を変更しましょう。
1. [ファイル]>[オプション]>[ファイルの種類]より、[Microsoft Excel 2007-2019]>[埋め込みコンテンツ]を選択します。
2. [埋め込みコンテンツの処理を許可する]にチェックを入れ、[タグ定義規則]より[追加]をクリックします。
3. ここから先は正規表現が必要になるのですが、例えば<a><b><u><i>の各HTMLタグペアをインラインタグとして抽出する場合、以下のように追加します。
規則の種類:タグ ペア
開始:<[a-z][a-z0-9]*[^<>]*>
終了:</[a-z][a-z0-9]*[^<>]*>
4. また、<br>(または<br />および<br/>)および<hr>(または<hr />および<hr/>)というセルフクロージングタグをインラインタグとして抽出する場合は以下のように設定します。
規則の種類:プレースホルダ
開始: <[a-z][a-z0-9]*\s?\/?>
5. こちらの設定で先ほどのExcelファイルを読み込ませます。
6. セル内にテキスト入力されていたタグがインラインタグとして処理されました。

今回はごく一部のHTMLタグを対象にしましたが、正規表現の組み方によっては、その他のHTMLタグやXMLタグにも対応可能です。また正規表現でパターン化せずに、それぞれのタグを個別に設定することも可能です。
この「Excel内の埋め込みコンテンツの処理」は、どこかで役に立つのではないかと思います。