extrahieren

OCR-Erkennung: Texte aus Fotos und schreibgeschützten PDF-Dateien auslesen

Immer wieder kommt es vor, dass man mit einer Kamera oder dem Handy Texte fotografiert, die man später in das Word-Format umwandeln möchte. Das gleiche gilt für schreibgeschützte PDF-Dateien, wenn man mal wieder das Passwort vergessen hat. In der Vergangenheit stellten wir auch schon Software und Webdienste vor, die per OCR-Technik Texte aus Bildern extrahiert kann. Diesmal möchten wir eine schlanke Software vorstellen, mit der man unkompliziert den Text aus PDF-Dateien herauskopiert, ohne das PDF in eine Bilddatei umzuformatieren.

Das betreffende Tool nennt sich GT Text und ist kostenlos im Web, z. B. bei Softonic herunterladbar.

gt-text-ocr-erkennung-word-bild-foto-pdf-kopieren-extrahieren

Nach Download und Installation des Programms, musst du für die (deutsche) Texterkennung noch das entsprechende Sprachenpaket herunterladen. Dazu startest du GT Text per Doppelklick auf das Desktop-Icon. Es öffnet sich zuerst der Windows-Explorer, den du direkt wieder beendest.

Dann erst öffnet sich das GT-Text-Programmfenster. Hier klickst du in der Menüleiste auf File | Preferences

sprachpaket-gt-text-ocr-erkennung-foto-extrahieren-preferences

…im nächsten Dialogfenster dann auf Add language

gt-text-tool-ocr-software-pdf-add-language-sprache-texterkennung

…und wählst dann die erforderliche Sprache, zum Beispiel Download and install German language data, aus. Bestätige deine Auswahl mit der Schaltfläche Install.

gt-text-sprachpaket-aussuchen-installieren-hochladen-auswahl

Nach erfolgreicher Installation des Sprachpaketes wählst du es in dem Programmfenster Preferences aus und bestätigst die Auswahl mit OK. Nun ist GT Text für die ausgewählte Sprache einsatzbereit.

TEXT AUS BILDDATEIEN HERAUSKOPIEREN

Um einen Text aus einer Bild-Datei zu extrahieren, starte GT Text per Doppelklick und wähle über den Windows Explorer das betreffende Foto aus. Alternativ kannst du es natürlich auch in der Menüleiste über das Ordner-Symbol hochladen.

gt-text-markieren-extrahieren-teil-bereich-ganzes-dokument-symbol-leiste-button-560x530

Mit dem Dokumenten-Icon in der Menüleiste kannst du den Text der kompletten Datei auf einen Schlag extrahieren. Wird aber nur ein Teil des Textes benötigt, dann markiere ihn mit gedrückter linker Maustaste. Der erkannte Text wird in einem Dialogfenster angezeigt. Ist das Ergebnis nicht ganz zufriedenstellend, dann klicke auf Wiederholen bis das Optimum erreicht ist.

Die Schaltfläche Weiter kopiert den extrahierten Text in die Zwischenablage, der dann in Word, Notepad oder in eine E-Mail eingefügt werden kann.

TEXT AUS PDF´S EXTRAHIEREN

Die Textextraktion aus (geschützten) PDF-Dateien funktioniert ähnlich. Im Gegensatz zu den Bilddateien muss du zuerst das PDF-Dokument mit einem geeigneten PDF-Viewer (z. B. Adobe Reader) öffnen. Danach startest du GT Text und fertigst mit demScreenshot-Icon ein Foto der PDF-Anzeige an.

gt-text-ocr-software-tool-gratis-pdf-kopieren-herausziehen

Die Textextraktion funktioniert dann genauso wie bei den Foto-Dateien.

Trick 17: Inhalte aus Word-Dateien extrahieren

Ach, du liebes Suffix! Es reicht tatsächlich ein Handgriff, um aus einer Word-Datei alle Medien herauszuklauben.

Kennen Sie das? Jemand schickt Ihnen Bilder / Grafiken / Diagramme, die zuvor in eine Word-Datei gepackt wurden. Nichts gegen Word, aber in diesem Fall kommt das sehr ungelegen – vielleicht deshalb, weil die Medien in einem ganz anderen Programm weiterverarbeitet werden sollen.

Die Abhilfe: Duplizieren Sie das Word-Dokument, falls Sie den Urzustand erhalten möchten. Klicken Sie auf das Word-Dokument und ändern Sie das Suffix von «.docx» in «.zip».

Bestätigen Sie die unvermeidliche Warnung, dass die Datei mit dieser Aktion unbrauchbar werden könnte. Jetzt sieht das Word-Dokument aus wie eine Zip-Datei. Doppelklicken Sie diese und navigieren Sie zum Verzeichnis «Word/Media». Hier finden Sie alle Medien-Dateien, die sie nun an einen beliebigen Ort kopieren können. Dieser Trick funktioniert unter OS X übrigens genauso gut.

Wo ist das Suffix?!?

Kleiner Stolperstein: Das Suffix wird von Windows ab Werk ausgeblendet. Um es einzublenden öffnen Sie im Explorer ein Fenster und wählen Sie im Menü «Organisieren» den Befehl «Ordner- und Suchoptionen».

Klicken Sie danach auf den Bereich «Ansicht» und deaktivieren Sie die Option «Erweiterungen bei bekannten Dateitypen ausblenden».

Jetzt steht der Umwandlung ins Zip-Format nichts mehr im Weg.

Texte aus gesperrten PDF-Dateien mit Google Chrome extrahieren

Wenn Textpassagen aus Word- oder Excel-Dokumenten herauskopiert werden sollen, wird das häufig mit Rechtsklick und den Befehlen “Kopieren” und “Einfügen” gemacht. Diese Vorgehensweise funktioniert auch bei PDF-Dokumenten, meistens jedenfalls. Die Ausnahme: Bei gesperrten PDF-Dateien ist das Herauskopieren von Texten nicht möglich. Damit es doch klappt, können Sie zu einem Trick greifen. Dieser funktioniert am besten mit Google-Chrome ab Version 21.

Gesperrte PDF? Kein Problem für Chrome

Um auch bei gesperrten PDF-Dokumenten Textpassagen zu kopieren, gehen Sie folgendermaßen vor:

1. Starten Sie Google Chrome, und ziehen Sie mit gedrückt gehaltener Maustaste das gesperrte PDF-Dokument in ein aktives Tab.

2. Als nächstes drücken Sie die Tastenkombination [Strg][P]. Im Druckmenü wählen Sie im Bereich “Ziel” die Option “Als PDF speichern”.

3. Mit der Schaltfläche “Speichern” legen Sie nun eine Kopie des bereits vorhandenen PDF-Dokuments an, die keine Sperre mehr enthält.

3. Nun können Sie wie gewohnt mit den üblichen Arbeitsschritten den Text aus dem ehemals gesperrten PDF herauskopieren.

Wichtig: Denken Sie an eventuelle Urheberrechte, wenn Sie den herauskopierten Text weiter verwenden möchten.