Thomas Siems: Aus Bildern bestehende PDF-Dateien nach Text durchsuchbar machen mit OCRmyPDF für Linux

Das Shell-Script OCRmyPDF erkennt Text in Bildern einer PDF-Datei und schreibt diesen in die neue PDF-Datei. So können Programme die Dateiinhalte indizieren, obwohl augenscheinlich nur Bilder enthalten sind. Das Programm verfügt über keine grafische Oberfläche, sondern muss im Terminal ausgeführt werden.
Zunächst sollte man OCRmyPDF von der Homepage laden.
Die Datei OCRmyPDF-1.0-stable.tar.gz wird in den Unterordner OCRmyPDF-1.0-stable entpackt mit tar -xvf OCRmyPDF-1.0-stable.tar.gz
Dort kann man das Shell-Script sh ./OCRmyPDF.sh -h aufrufen, um sich Hilfe zu den Schaltern anzeigen zu lassen. Grundsätzlich reicht es sh ./OCRmyPDF.sh Ursprungs.PDF Ausgangs.PDF zu tippen.
Es werden weitere Linux-Programme benötigt, z. B. pdftk und tesseract. Wenn die nicht installiert sind, dann kann das in der Konsole mit sudo apt-get install pdftk und sudo apt-get install tesseract-ocr nachgeholt werden.

Ladeliste
OCRmyPDF
https://github.com/fritz-hh/OCRmyPDF

Seiten

Aus Bildern bestehende PDF-Dateien nach Text durchsuchbar machen mit OCRmyPDF für Linux