PDF-Arten: Verschiedene Varianten

Inhaltsverzeichnis

Arten von PDFs
"Echte" oder digital erzeugte PDFs
PDF-Texterkennung
"Nur-Bild" oder gescannte PDFs
Durchsuchbare PDFs
Text in PDF-Dateien durchsuchen

PDFs gibt es seit mehr als 20 Jahren und sie sind überall zu finden. Nahezu jede Art von Unternehmen verwendet PDFs zur Unterstützung ihrer Dokumente. Tatsächlich füllen Sie wahrscheinlich mehrmals pro Woche, wenn nicht sogar täglich, ein PDF-Formular aus - es kann zum Beispiel ein Angebot von Caterern für eine Büroparty oder ein Vertrag sein, der auf seine Unterzeichnung wartet. Unternehmen verwenden PDFs, um Rechtsdokumente zu prüfen und Seitenlayouts für Rückmeldungen weiterzuleiten. Obwohl PDFs als feststehende Dokumente fungieren, ermöglicht das Dateiformat den Empfängern Bearbeitungen, die von den durch die Absender festgelegten Einschränkungen abhängig sind. Lesen Sie unseren Leitfaden zur Bearbeitung von PDFs, um zu erfahren, wie dieser Prozess funktioniert.

PDF-Dokumente können in drei verschiedene Typen kategorisiert werden, je nachdem, wie die Datei entstanden ist. Die Art und Weise, wie die Datei ursprünglich erstellt wurde, definiert auch, ob auf den Inhalt der PDF-Datei (Text, Bilder, Tabellen) zugegriffen werden kann oder ob sie in einem Bild der Seite "gesperrt" ist.

"Echte" oder digital erzeugte PDFs

Digital erstellte PDFs, auch als "echte" PDFs bezeichnet, werden mit Software wie Microsoft® Word, Excel® oder über die "Druck"-Funktion innerhalb einer Softwareanwendung (virtueller Drucker) erstellt. Sie bestehen aus Text und Bildern.

Sowohl die Zeichen im Text als auch die Meta-Informationen haben eine elektronische Zeichenbezeichnung. Mit ABBYY FineReader 15 können Sie diese PDFs einfach durchsuchen und Text auswählen, bearbeiten oder löschen, ähnlich wie Sie es in anderen bearbeitbaren Formaten, wie z.B. Microsoft® Word, tun würden. Die Bilder in digital erstellten Dokumenten können in der Größe verändert, verschoben oder gelöscht werden.

PDF-Texterkennung

"Nur-Bild" oder gescannte PDFs

Beim Scannen von Papierdokumenten auf MFPs und Büroscannern oder bei der Konvertierung eines Kamerabildes, jpg, tiff oder Screenshot in ein PDF wird der Inhalt in einem schnappschussähnlichen Bild "gesperrt".

Solche Nur-Bild-PDF-Dokumente enthalten nur die gescannten/fotografierten Bilder von Seiten, ohne eine darunter liegende Textebene. Folglich sind reine Bild-PDF-Dateien nicht durchsuchbar, und ihr Text kann in der Regel nicht geändert oder markiert werden. Eine Nur-Bild-PDF-Datei kann durch die Anwendung von OCR durchsuchbar gemacht werden, bei der eine Textebene hinzugefügt wird, die sich normalerweise unter dem Seitenbild befindet.

Durchsuchbare PDFs

Durchsuchbare PDFs entstehen in der Regel durch die Anwendung von OCR (Optical Character Recognition) auf gescannte PDFs oder andere bildbasierte Dokumente. Während des Texterkennungsprozesses werden Zeichen und die Dokumentstruktur analysiert und "gelesen". Der Bildebene wird eine Textebene hinzugefügt, die normalerweise darunter platziert wird. Solche PDF-Dateien sind von den Originaldokumenten fast nicht zu unterscheiden und können vollständig durchsucht werden. Text in durchsuchbaren PDF-Dokumenten kann ausgewählt, kopiert und markiert werden.

Text in PDF-Dateien durchsuchen

Die Texterkennungstechnologie kann auf unterschiedliche Weise während des Dokumentkonvertierungsprozesses angewendet werden, wobei jede dieser Methoden ein unterschiedliches Maß an Beteiligung des Benutzers erfordert. Das ist möglich:

in das Scangerät integriert: die Konvertierung erfolgt mehr oder weniger unbemerkt vom Benutzer
Mit Hilfe von www.sodapdf.com/de/
Über Desktop-OCR-Software, eine mobile Anwendung oder einen webbasierten Dienst
Innerhalb eines PDF-Werkzeugs, beim Scannen oder Öffnen eines PDF-Dokuments: Der OCR-Prozess startet automatisch oder kann durch den Benutzer ausgelöst werden
Verwendung einer serverbasierten OCR-Lösung wie ABBYY FineReader Server: automatisierte Konvertierung höherer Volumina in großen Organisationen oder digitalen Archivierungsprojekten
Oder als "Dienst" in der Cloud