Jump to content

Erkennung ob ein PDF native oder Bitmap-PDF ist


Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Recommended Posts

Moin,

wir archivieren eine größere Anzahl von Dokumenten in ein Archivsystem. Die Dokumente werden als PDF bzw. PDF/a archiviert.

Das Archivsystem unterstützt eine Volltextsuche bei PDF. Dafür müssen die PDF jedoch bei der Archivierung als searchable PDF vorhanden sein. 

 

Mein Problem ist nun, dass ich diverse PDF bekomme, bei denen eine Bitmap-Datei (z.B. jpg, tif) in das PDF integriert wurde (z.B. gescannte PDF). Diese PDF müssten vor der Archivierung noch eine OCR-Erkennung durchlaufen. Das mit der OCR ist auch kein Problem. Leider habe ich bisher keine Möglichkeit gefunden (sicher) zu erkennen, ob ein PDF native ist oder ob es sich um ein PDF mit Bitmap-Dateien handelt.

 

Kennt Jemand von Euch eine Möglichkeit (Tool), mit dem sich sicher erkennen lässt, ob es sich um eine native PDF oder ein PDF bestehend aus Bitmap-Daten handelt? Am Besten in Form eines Kommandozeilen-Tools. Also PDF wird an das Tool übergeben und das Tool gibt zurück, ob es ein native PDF oder ein gescanntes PDF ist.

 

Gruß

Dirk

Link to comment

Hmmmm, woran sollte denn dieses Tool festmachen, dass es ein gescanntes PDF ist? Ein 'natives' PDF kann ja auch eingebettete Bilder enthalten.

Ja, das ist richtig!  :D

Im umgekehrten Fall kann ein gescanntes PDF ja auch eingebettete Schriftarten enthalten. Trotzdem wäre es kein natives PDF.

 

Daher ja meine Frage, ob Jemand für das Problem eine Lösung hat bzw. kennt.

Link to comment

Hallo monstermania,

 

also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist. Eine anderweitige Validierung wird schwierig. Du kannst dir JHOVE ansehen und dir eine Kommandozeile zusammen basteln, in etwa so: extrahieren Bitmap und vergleichen, Anzahl Seiten gleich Anzahl Bitmap könnte ein Bitmap PDF sein. Und Anzahl Seiten ungleich Bitmap ist "natives" PDF.

Link to comment

also die OCR Software erkennt am besten, ob es ein Bitmap PDF oder nicht ist.

Nee,

dem ist eben leider nicht so.

Die OCR-Software ist ziemlich dumm. Es wird schlichtweg jedes Dokument gerendert und durch die OCR gejagt. Auch native PDF. Ich denke, dass es der Engine prinzipiell egal ist, ob das PDF native oder ein Bitmap PDF ist.

Der Vorteil dieser Lösung ist natürlich, dass man bei nativen PDF die Bilder enthalten nachher sogar eine Volltextsuche über den Text in den Bildern machen kann ;). Nur das wollen wir gar nicht!

Wir wollen vermeiden, dass wir jedes PDF nochmals durch die OCR jagen. Frist pro Seite rund 5-6 Sekunden Zeit.

 

Kann man irgendwie herausfinden, ob ein PDF einen Textlayer enthält?

Edited by monstermania
Link to comment
Der letzte Beitrag zu diesem Thema ist mehr als 180 Tage alt. Bitte erstelle einen neuen Beitrag zu Deiner Anfrage!

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Create New...