So übersetzen Sie eine PDF-Datei in Trados Studio

Emma Goldsmith Medizinübersetzerin, Goldsmith Translations 01. Mai 2019

Lesezeit 5 Min.

In diesem Blogbeitrag geht es um das Übersetzen einer PDF-Datei in Trados Studio

Wahrscheinlich geht es Ihnen wie mir und Sie arbeiten bei der Übersetzung am liebsten mit einfachen Word-Dokumenten. Wenn Sie eine PDF-Datei bekommen, ahnen Sie bereits, dass es länger dauern könnte und zudem das Endergebnis noch nachbearbeitet werden muss. Hier einige Tipps – unter Übersetzer:innen – zur Verarbeitung von PDF-Dateien in Trados Studio und wie Sie sich die Arbeit etwas vereinfachen können.

Was ist eine PDF-Datei und worin besteht der Unterschied zwischen eingescannten und editierbaren Dateien?

PDF steht für Portable Document Format, d. h., es werden stets dieselben Inhalte und dasselbe Layout angezeigt – unabhängig davon, auf welchem Gerät und mit welcher Anwendung ein Dokument geöffnet wird. Das ist zwar schön für denjenigen, der das Dokument erstellt hat, aber nicht ganz so hilfreich für uns Übersetzer:innen.

PDF-Dokumente sind entweder editierbar oder wurden eingescannt. Editierbare PDFs bestehen aus Textebenen und können in allen unterstützten Versionen von Studio verarbeitet werden. Bei eingescannten PDF-Dateien handelt es sich um ganzseitige Bilder ohne elektronische Textzeichen. Sie können in Studio verarbeitet werden, da Studio über eine OCR-Engine (Optical Character Recognition) verfügt, die den Text extrahiert.

Der Unterschied zwischen diesen beiden Arten von PDF-Dokumenten lässt sich ganz einfach feststellen. Öffnen Sie einmal eine Datei in einem PDF-Reader. Nur bei einer editierbaren PDF-Datei sind Sie in der Lage, ein Wort oder einen Absatz auszuwählen, zu kopieren oder einzufügen.

Einschränkungen bei den Sprachen und andere Hindernisse

Die für PDF-Dateien in Trados Studio verwendete OCR-Engine basiert auf Solid Documents Technology. Da die OCR-Technologie mit Wörterbüchern arbeitet, ist sie nur in bestimmten Sprachen verfügbar: Deutsch, Dänisch, Englisch, Finnisch, Französisch, Italienisch, Niederländisch, Norwegisch, Polnisch, Portugiesisch, Russisch, Schwedisch, Spanisch und Türkisch.

Der Ausgangstext muss in einer dieser Sprachen verfasst sein. Darüber hinaus muss die Bildqualität ausreichend sein, damit eine gute Umwandlung möglich ist. Bei verzerrten, verschwommenen, undeutlichen oder handgeschriebenen Texten wird es meistens eng:

Wenn Sie eine PDF-Datei erhalten, die so ähnlich aussieht wie eines der Dokumente oben (beides Beispiele aus dem Berufsalltag), dann empfehle ich, den Text mithilfe einer Spracherkennungssoftware in Word zu diktieren und dann die Word-Datei in Studio zu übersetzen.

Vorschau der Ausgabe vor der Übersetzung

Nehmen wir an, Sie haben einen PDF-Scan mit ziemlich guter Qualität, so wie das Dokument unten:

Als Nächstes empfiehlt es sich, die PDF-Datei in Studio zu testen. Legen Sie die PDF-Datei einfach in der Ansicht „Willkommen“ ab.

Klicken Sie im nächsten Fenster auf „Erweitert“.

Wählen Sie auf der linken Seite Dateitypen > PDF > Konvertierung aus und klicken sie dann auf „Durchsuchen“, um eine Vorschau der Datei aufzurufen.

Auf diese Weise sehen Sie schnell und problemlos, wie die Datei im Editor-Fenster aussehen wird. Gleichzeitig wird die Datei im docx-Format in demselben Verzeichnis gespeichert, in dem sich auch die PDF-Datei befindet.

Jetzt können Sie sich entscheiden, ob Sie mit der Übersetzung des vorliegenden Dokuments fortfahren oder vorher noch an der Formatierung und dem Layout in der Word-Ausgangsdatei arbeiten und diese dann anstatt der ursprünglichen PDF in Studio übersetzen möchten.

Bedenken Sie, dass für die Dateitypvorschau die Standardsegmentierungsregeln gelten und nicht die projektspezifischen TM-Segmentierungsregeln. Außerdem steht die Dateitypvorschau nicht zur Verfügung, wenn Sie eine Datei zu einem Projekt hinzufügen, sondern nur, wenn Sie eine Datei über die Ansicht „Willkommen“ öffnen, außerdem in den Projekteinstellungen und in den allgemeinen Optionen.

OCR-Umwandlung und Word-Optionen im PDF-Dateityp

Das Schöne an der Vorschaufunktion von Studio ist, dass Sie mit den Einstellungen für den PDF-Dateityp experimentieren (siehe Screenshot oben) und sich ansehen können, wie die Datei mit den vorliegenden Einstellungen verarbeitet wird. Ich stelle das Layout normalerweise auf „Fließend“. Dies ist der einfachste Output, den es gibt, aber Sie erhalten trotzdem fehlerfrei formatierte Aufzählungspunkte, Fett-Formatierungen etc.

Ich entferne die Bilder, in einigen Fällen ist es aber möglicherweise erforderlich, sie beizubehalten und ggf. umzuwandeln. Kopf- und Fußzeilen werden am besten als solche umgewandelt, obwohl es manchmal einfacher ist, sie hier zu entfernen und später manuell wieder in die zielsprachliche Word-Datei einzufügen.

Tabellen identifizieren sollte unbedingt aktiviert werden.

Über die letzte Optionsgruppe wird festgelegt, wie Studio bei der Texterkennung vorgeht.

Jedes Zeichen ist für kombinierte PDFs gedacht, die editierbaren und gescannten Text enthalten.
„Nur problematische Zeichen“ ist für gescannte PDFs (obwohl Sie auch „Alle Zeichen“ verwenden können).
Die Option „Keine“ ist für editierbare PDFs geeignet.

Kehren wir nun zurück zu der Liste auf linken Seite. Unter der Option „Allgemein“ (unter „Konvertierung“) finden Sie alle Optionen für Einstellungen in Word-Dokumenten, einschließlich der Optionen zum Hinzufügen von Kommentaren in zielsprachlichen Dokumenten.

Praktische Überlegung während der Übersetzung

Wenn Sie mit der Konfiguration des Projekts fertig sind und sich an die Übersetzung machen, achten Sie auf typische OCR-Erkennungsfehler im Ausgangstext. „1“ und „I“ und „0“ und „o“ sehen bei manchen Schriftarten sehr ähnlich aus (z. B. 2O. Dezember 20I6). Bestimmte Buchstabenfolgen werden ebenfalls oft falsch interpretiert, insbesondere im Fall von Eigennamen, die nicht im OCR-Wörterbuch vorhanden sind (z. B. „Dr. Tumer“ anstatt „Dr. Turner“).

Vergessen Sie nicht, dass es möglich ist, Fehler in ausgangssprachlichen Segmenten zu korrigieren. Hierdurch wird nicht nur der Ausgangstext verbessert, es ergibt sich auch eine effektivere Wiederverwendung aus Ihren TMs, sowohl für das aktuelle Projekt als auch in Zukunft. Drücken Sie im aktiven Segment auf Alt+F2 und ändern Sie den Ausgangstext.

Manchmal werden bei der PDF-Umwandlung fälschlicherweise Zeilenumbrüche (Absatzmarken) eingefügt, durch die ein Satz in zwei Segmente aufgeteilt wird. In Studio 2019 können Sie diese Segmente einfach zusammenführen. Drücken Sie Alt+Umschalt+Abwärtspfeil, klicken Sie mit der rechten Maustaste in die Spalte mit der Segmentzahl und wählen Sie dann „Segmente zusammenführen“ aus. Sollte diese Option ausgegraut sein, überprüfen Sie in den Projekteinstellungen, ob die Optionen „Bearbeitung des Ausgangstextes“ und „Segmente zusammenführen“ wie in folgendem Screenshot gezeigt eingestellt sind:

Dass Sie kein PDF-Dokument erhalten, wenn Sie Ihre Datei zum Schluss mit Umschalt+F12 speichern, ist kein Grund zur Besorgnis. Die zielsprachliche Datei wird im docx-Format von Word ausgegeben.

Editierbare PDFs

Die Übersetzung editierbarer PDFs ist im Grunde unproblematisch. Wie bereits erwähnt, lassen sich editierbare PDFs in den meisten Studio-Versionen importieren und Sie werden feststellen, dass Studio diese oft besser in Word konvertiert, als wenn Sie sie in MS Word selbst öffnen. Studio fügt Kopf- und Fußzeilen zuverlässiger ein, behält die Fett-Formatierung einheitlicher bei und fügt kein zusätzliches Leerzeichen vor einem Absatzzeichen am Zeilenanfang ein.

PDFs und Preisgestaltung

Trotz all der Fortschritte, die mit PDF-Dateitypen gemacht wurden, ist das Übersetzen von PDFs immer noch zeitaufwendiger, als wenn native Dateiformate zur Verfügung stehen. Auch den genauen Wordcount für den Ausgangstext zu ermitteln, ist schwieriger. Ich empfehle daher, nach Möglichkeit auf Stundenbasis abzurechnen. Sollte dies nicht in Frage kommen, sollten Sie auf Grundlage des Wordcounts für den fertigen Zieltext einen höheren Wortsatz abrechnen.

Und noch ein abschließender Rat, falls Sie es mit einer besonders kniffligem PDF-Datei zu tun bekommen: Fragen Sie Ihren Kunden nach der Originaldatei. Studio ist mit einer großen Vielzahl unterschiedlicher Dateiformate kompatibel, d. h., selbst wenn Sie die zugehörige Anwendung nicht auf Ihrem Computer installiert haben, können Sie es trotzdem noch in Studio verarbeiten.

Emma Goldsmith

Medizinübersetzerin, Goldsmith Translations

Emma Goldsmith ist eine freiberufliche Übersetzerin, die sich auf die Übersetzung medizinischer Texte vom Spanischen ins Englische spezialisiert hat. Sie gab ihren Beruf als Krankenpflegerin vor über 25 Jahren auf, um sich dem Übersetzen zu widmen. Neben ihrer Übersetzungsarbeit ist Emma Goldsmith derzeit als Webmaster für MET (Mediterranean Editors and Translators) und als Bloggerin bei „Signs & Symptoms of Translation“ tätig, wo sie über medizinische Übersetzungen, spanisch-englische Terminologie und Trados Studio schreibt.

Alle von Emma Goldsmith

So übersetzen Sie eine PDF-Datei in Trados Studio

Emma Goldsmith

Zugehörige Artikel