Zurück zu allen Artikeln

Scan zu Word & durchsuchbares PDF: So wird Text aus einem Foto bearbeitbar (OCR erklärt)

Melis Doğan · scancam.content.published: Jun 03, 2026 • 9 Min. Lesezeit

Kurz gesagt: Um ein gescanntes PDF in Word umzuwandeln, braucht die Datei zuerst eine echte Textebene - und ein Foto einer Seite hat die nicht, bis die optische Zeichenerkennung (OCR) die Pixel liest und Zeichen dahinterlegt. OCR ausführen, als .docx exportieren, anschließend Korrektur lesen. Der wichtigste Faktor dafür, wie sauber der Text herauskommt, ist nicht die OCR-Engine. Es ist die Art, wie du die Seite aufgenommen hast.

Genau hier stolpern die meisten. Du fotografierst einen Vertrag, speicherst ihn als PDF und suchst danach in der Datei nach einem Namen - ohne Treffer. Die Datei sieht aus wie ein Dokument, verhält sich aber wie ein Bild. Das liegt daran, dass ein Scanner - oder eine Smartphone-Kamera - ein Bild erzeugt, und ein Bild enthält keine Wörter, die ein Computer markieren, kopieren oder bearbeiten kann. OCR ist der Schritt, der das ändert. Die Aufnahmequalität entscheidet, ob OCR sauber arbeitet oder dir Zeichensalat liefert.

Warum dein gescanntes PDF überhaupt nicht durchsuchbar ist

Ein PDF kann zwei sehr unterschiedliche Dinge enthalten. Die Spezifikation ISO 32000, die das PDF-Format definiert, beschreibt Seiten aus Textobjekten, Vektorgrafiken und Bildern. Ein PDF kann also ein echtes Dokument mit auswählbaren Zeichen sein - oder ein einziges flachgerechnetes Foto einer Seite ohne Zeichen. Wenn du einen Beleg fotografierst und als PDF speicherst, bekommst du fast immer die zweite Variante: ein reines Bild-PDF.

Diese Unterscheidung ist wichtiger, als die Dateiendung vermuten lässt. Ein reines Bild-PDF lässt sich nicht durchsuchen, nicht kopieren und nicht als bearbeitbare Absätze in Word umfließen. Es ist ein Foto im Gewand eines Dokuments. Damit es sich wie Text verhält, muss etwas auf das Bild schauen und entscheiden: Diese dunklen Formen sind die Buchstaben T-H-E. Danach werden diese Buchstaben als versteckte, auswählbare Ebene über dem Bild gespeichert. Dieses Etwas ist OCR.

Aussage: Ein gescanntes PDF ist erst durchsuchbar, wenn eine OCR-Textebene hinzugefügt wurde.
Beleg: Die PDF-Spezifikation ISO 32000 behandelt Bildinhalte und Textinhalte als getrennte Objekttypen; eine Seite, die nur aus Bilddaten besteht, enthält keine Zeichenobjekte, nach denen gesucht werden kann.
Grenze: Das erklärt, warum die Suche scheitert; es sagt nicht, wie genau der wiedergewonnene Text sein wird.
Aktion: Bevor du ein durchsuchbares PDF weitergibst, versuche, darin ein Wort zu markieren. Wenn nichts hervorgehoben wird, hat es noch keine Textebene.

Was OCR wirklich macht - und warum die Engine nicht die Hauptrolle spielt

OCR arbeitet in mehreren Stufen. Sie findet die Seite, trennt Zeilen vom Hintergrund, isoliert einzelne Glyphen und gleicht diese Glyphen mit gelernten Zeichenformen ab. Die Open-Source-Dokumentation von Tesseract OCR beschreibt genau so eine Pipeline - Seitenlayoutanalyse, Zeilen- und Worterkennung, danach die eigentliche Erkennung - und stellt klar, dass die Qualität des Eingabebilds das Ergebnis stark prägt. Microsofts eigene Dokumentation zu Word und OneDrive beschreibt die Umwandlung von PDFs in bearbeitbare Dokumente und weist darauf hin, dass gescannte oder bildbasierte Inhalte auf Erkennung angewiesen sind, nicht auf bereits vorhandenen Text. Anderes Toolkit, gleiche Abhängigkeit.

Die Engines sind also gut. Microsofts PDF-zu-Word-Konvertierung, die Erkennung in modernen Scanner-Apps und Tesseract haben alle dieselbe Schwäche: Sie können nur erkennen, was das Bild sichtbar macht. Gib ihnen eine scharfe, gleichmäßig ausgeleuchtete, gerade Aufnahme, und sie liefern gute Ergebnisse. Gib ihnen ein dunkles, schräges, kontrastarmes Foto, und selbst die beste Engine am Markt muss raten. Der Hebel, den du kontrollierst, ist das Foto - nicht der Algorithmus.

Zur Einordnung der Belege: Für diesen Artikel habe ich keinen kontrollierten Benchmark durchgeführt, deshalb veröffentliche ich auch keinen Prozentsatz zur Zeichengenauigkeit. Konkrete Werte wie 98 % gegen 82 %, die man in diesem Umfeld sieht, sind meist nicht belegt. Der Effekt ist real und qualitativ in der Tesseract-Dokumentation und anderswo gut beschrieben: bessere Aufnahme, bessere Erkennung. Betrachte die Größe dieses Unterschieds als Richtung, nicht als Messwert.

Die 4 Schritte bei der Aufnahme, die über OCR-Qualität entscheiden

Diesen Teil solltest du dir merken. Wenn die Aufnahme stimmt, erledigt sich die Konvertierung weitgehend von selbst. Jeder Schritt zielt auf eine konkrete Art, wie Erkennung scheitert.

Leuchte die Seite gleichmäßig aus und beseitige Schatten. Der häufigste OCR-Killer ist deine eigene Hand oder dein Telefon, das einen Schatten über den Text wirft. Weiches, gleichmäßiges Licht von der Seite oder aus einem Fenster schlägt eine einzelne harte Deckenlampe. Ein Schattenverlauf kann dazu führen, dass die Engine einen Teil der Zeile als Hintergrund liest und Zeichen fallen lässt.
Fotografiere frontal zur Seite, nicht schräg. Eine gekippte Aufnahme macht aus Rechtecken Trapeze und verzerrt die Glyphen, die der Kamera am nächsten sind. Erkennung ist auf aufrechte Zeichen mit gleichmäßigen Proportionen trainiert. Halte die Kamera parallel zum Papier oder lass die automatische Perspektivkorrektur der App den Keystone-Effekt korrigieren, bevor du die Aufnahme akzeptierst.
Maximiere den Kontrast zwischen Tinte und Papier. OCR trennt dunklen Text von hellem Hintergrund über Schwellenwerte. Blasser Bleistift, vergilbtes Papier oder eine farbige Markierung lassen diese Trennung verschwimmen. Ein kontrastreicher Schwarz-Weiß-Dokumentfilter erkennt oft besser als ein Farbfoto, weil er genau die Kante schärft, auf die die Engine angewiesen ist.
Fülle den Bildausschnitt und halte den Fokus. Kleine Schrift weit weg von der Kamera liefert der Engine zu wenige Pixel pro Zeichen, um sicher zu sein. Geh näher heran, sodass die Seite den Rahmen füllt, tippe zum Fixieren des Fokus und warte, bis die Unschärfe weg ist. Bewegungsunschärfe verschmiert Glyphenkanten miteinander - dort wird aus 'rn' ein 'm' und aus einem Datum Unsinn.

Achte darauf, was alle vier Schritte gemeinsam haben. Keiner davon berührt die OCR-Software. Es geht darum, der Erkennung ein sauberes, unverzerrtes, kontrastreiches Bild zu geben - genau das, was die Tesseract-Dokumentation als Voraussetzung für gute Ergebnisse nennt. Ein dedizierter Phone-Scanner wie Scan Cam automatisiert vieles davon: Er erkennt Seitenränder, korrigiert die Perspektive und wendet einen Dokumentfilter an, bevor Text erkannt und als durchsuchbares PDF oder Word exportiert wird.

Die eigentliche Konvertierung: scannen, erkennen, exportieren, Korrektur lesen

Sobald die Aufnahme sauber ist, ist der Weg zu bearbeitbarem Text kurz. Seite scannen. Die App OCR ausführen lassen, damit hinter dem Bild eine Textebene geschrieben wird - genau dadurch wird das entstehende PDF durchsuchbar. Danach exportieren. Microsofts Dokumentation beschreibt, dass man ein PDF direkt in Word öffnen kann, wo Word es in ein bearbeitbares Dokument umwandelt. Bei gescannten Inhalten hängt diese Umwandlung von Erkennung ab, weshalb sich die saubere Aufnahme auch hier wieder auszahlt.

Überspringe das Korrekturlesen nicht. OCR ist Erkennung, kein Verständnis, deshalb wird sie gelegentlich ein ähnliches Zeichen vertauschen oder zwei Wörter zusammenziehen. Bei einer sauberen Aufnahme ist die Fehlerrate deutlich niedriger, aber niedriger heißt nicht null. Prüfe besonders Zahlen, Namen und Summen - dort verändert ein einziges falsch gelesenes Zeichen tatsächlich die Bedeutung. Wenn das Dokument in einen Vertrag oder eine Steuererklärung geht, ist ein menschlicher Durchgang unverzichtbar.

FAQ

Wie wandle ich ein fotografiertes Dokument in bearbeitbaren Word-Text um?

Nimm die Seite sauber auf, führe OCR aus, damit die App die Zeichen erkennt, und exportiere anschließend als .docx. Du kannst auch ein erkanntes PDF direkt in Microsoft Word öffnen; Word wandelt es in ein bearbeitbares Dokument um. Plane danach Korrekturlesen ein - auf einer scharfen Aufnahme ist Erkennung genau, aber nie perfekt, besonders bei Zahlen, Namen und Kleingedrucktem.

Warum ist mein gescanntes PDF nicht durchsuchbar?

Weil es ein reines Bild-PDF ist. Die PDF-Spezifikation ISO 32000 erlaubt, dass eine Seite nur ein flachgerechnetes Bild ohne Zeichenobjekte ist - genau das entsteht meistens, wenn ein Foto als PDF gespeichert wird. Es gibt keine Wörter, die der Computer finden könnte. OCR fügt über dem Bild eine versteckte Textebene hinzu, und erst dann kannst du den Text suchen, markieren und kopieren.

Kommt es bei OCR stärker auf die Engine an als auf das Foto?

Nein. Moderne Engines - darunter Tesseract und die Erkennung in Scanner-Apps - sind leistungsfähig, aber sie können nur lesen, was das Bild zeigt. Eine dunkle, schräge, kontrastarme Aufnahme verschlechtert das Ergebnis jeder Engine. Eine saubere, gerade, gut beleuchtete, fokussierte Aufnahme verbessert sie alle. Die Aufnahmetechnik ist der Hebel, den du kontrollierst; die Engine ist weitgehend festgelegt.

Kann ich ein gescanntes PDF kostenlos in Word umwandeln?

Oft ja. Microsoft Word kann PDFs öffnen und in bearbeitbare Dokumente umwandeln, und OneDrive bietet ebenfalls PDF-Funktionen - prüfe die aktuellen Bedingungen in Microsofts offizieller Dokumentation, weil sich Funktionen und Grenzen ändern. Viele Phone-Scanner-Apps enthalten OCR sowie Word- oder durchsuchbare-PDF-Exporte. Die Qualitätsgrenze setzt trotzdem deine ursprüngliche Aufnahme, nicht der Preis.

Bleiben mein ursprüngliches Layout, Tabellen und Spalten erhalten?

Teilweise. Erkennung kommt mit einfachen Absätzen gut zurecht, aber komplexe Layouts - mehrspaltige Seiten, dichte Tabellen, gemischte Schriften - werden weniger zuverlässig rekonstruiert und müssen in Word oft nachbearbeitet werden. Betrachte die konvertierte Datei als starken Textentwurf und korrigiere die Struktur danach manuell. Eine sauberere Aufnahme hilft auch der Layoutanalyse, denn die Engine muss die Zeilen finden, bevor sie sie platzieren kann.

Was ich zuerst tun würde

Bevor du der Software die Schuld gibst, korrigiere das Foto. Die meisten Beschwerden über eine schlechte Konvertierung gehen auf Schatten, Schräglage oder Unschärfe zurück - nicht auf die OCR-Engine. Leuchte die Seite gleichmäßig aus, richte die Kamera gerade aus, erhöhe den Kontrast, fülle den Rahmen und konvertiere erst dann. Wenn dein eigentliches Ziel nur eine durchsuchbare, teilbare Datei ist und keine umfangreiche Bearbeitung, erkenne die Seite und behalte sie als durchsuchbares PDF. Wenn du den Text wirklich umschreiben musst, exportiere nach Word und prüfe die Zahlen. Scan Cam wird von CodeBaker entwickelt, einem Anbieter einer kleinen Familie phone-first Dokumenttools - einschließlich Fax Scan für die Tage, an denen jemand die Seite immer noch an eine Faxnummer geschickt haben möchte.

Teilen Sie diesen Artikel

Twitter LinkedIn