Texterkennung mit Microsoft Office:

    Manchmal hat man Texte oder auch nur Textteile, die man gerne digitalisieren möchte, die aber als Foto vorliegen. Dabei könnte der Text per Scanner eingescannt worden sein oder auch schlichtweg mit der Digicam einfach irgendwo abfotografiert worden sein. Solche Texte liegen als Bilder/Fotos vor und darin kann man den Text nicht bearbeiten. Es ist also in solch einem Fall nötig, diesen Text dann zu digitalisieren, also von einer Software als Text erkennen zu lassen und dann diesen Text in eine Textverarbeitung z. B. Word zu übernehmen. Dort kann er dann, wie ein normaler Text, bearbeitet werden. Für solche Fälle gibt es spezielle Software, die außerordentlich gute Leistungen vollbringt und auch mit Layouten, Tabellen und Bildern (z. B. bei gescannten Zeitschriftenseiten) umgehen kann. „AbbyyFineReader“ oder „OmniPage“ sind da wohl die bekanntesten Vertreter. Diese Programme sind nicht billig aber deren Arbeit ist bemerkenswert gut und die können auch viele verschiedene Sprachen erkennen. Manchmal kann man die etwas älteren Versionen dieser Software preiswerte erhalten, dann sollte man durchaus zugreifen. Bei Pearl oder anderen kann man da fündig werden.
    Wenn man nicht die aller höchsten Anforderungen stellt, dann kann man allerdings auch ganz gut mit der Texterkennung, die dem Softwarepaket „Microsoft Office“ beigelegt ist, klarkommen, denn dort ist eine nicht schlechte Texterkennung enthalten. Insbesondere, wenn es sich um reinen Text dreht, also keine Tabellen, Bilder usw., dann funktioniert das ganz gut damit. Notfalls muss man dann den Gesamttext in kleine „Häppchen“ aufteilen und die dann nacheinander aufarbeiten. Die Schrift sollte möglichst auf weißem Papier sein und sich kontrastreich vom Untergrund abheben. Ggf. sollte man den gescannten oder fotografierten Text vorher mit einer Bildbearbeitung auf diesen Stand bringen. Scannt man einen Text extra für die Texterkennung ein, dann kann man diese Texterkennungsverbesserung gleich im Scannertreiber einstellen. Allerdings sollten Sie vorher einige Versuche starten, ob Sie mit dem Scanner besser eine Tontrennung in reines schwarz-weiß vornehmen oder besser doch in Graustufen das Dokument einscannen. Das sollten Sie vorher ausprobieren. Im Übrigen müssen Sie dieses Programm ohnehin erst sich einmessen lassen. Es kalibriert sich dabei auf Ihren Scanner ein, was dann auch bedeutet, dass die Texterkennung mit ihm besser funktioniert, als mit einem Fotoapparat. Aber nach einer automatischen Texterkennung müssen Sie Ihr Dokument ohnehin durchlesen, denn auch die beste Texterkennung kann sich irren und Fehler machen.
    Sollten Sie mit Ihrer Digicam Texte abfotografiert haben, dann werden die in der Regel als sog. JPG-Dateien abgelegt. Das dem Officepaket beigelegte Texterkennungsprogramm kann damit nichts anfangen. In dem Fall müssen Sie das Bild als sog. Tif-Datei neu abspeichern:
    Ich beschreibe hier, wie Sie mit „IrfanView“ oder mit dem auf jedem Windows-PC standardmäßig vorhandenem „Paint“ eine JPG-Datei (Bild) als eine Tif-Datei (Bild) abspeichern (konvertieren).

    Konvertierung vom JPG-Bild zum Tif-Bild mit IrfanView:

    Öffnen Sie das betroffene Bild mit IrfanView. Klicken Sie mit links oben links im Hauptfenster auf „Datei“ und im aufspringenden Menü mit links auf „Speichern unter…“: 00a texterkng_alstifspeichern_irfan_- Es öffnet sich der Win-Explorer: 00b texterkng_irfan_explorer_- Sie haben ja ein JPG-Bild geöffnet, daher ist hier (vermutlich) der JPG-Dialog eingestellt (roter Pfeil). Navigieren Sie zu dem Ordner, in den hinein Sie die neue Tif-Datei (Bild) speichern möchten. Lassen Sie alle Einstellungen, wie sie sind. Klicken Sie mit links auf das kleine schwarze Dreieck (roter Pfeil) und es öffnet sich ein Auswahlmenü: 00c texterkng_dateityp_waehlen_- Klicken Sie mit links ganz unten auf die Option „TIF-Tagged Image File Format“ und das Explorerfenster ändert sich in seinem rechten Anhängsel: 00d texterkng_irfan_tif_- Nehmen Sie dort am besten keine Einstellung vor, sondern klicken im linken Fenster auf „Speichern“. In dem zuvor ausgewählten Ordner liegt jetzt das Bild als „Tif-Datei“ und kann vom Texterkennungsprogramm gelesen werden.


    Konvertierung vom JPG-Bild zum Tif-Bild mit Paint:


    Öffnen Sie das JPG-Bild mit Paint. Machen Sie dazu einen Rechtsklick auf das Bild und es erscheint das Kontextmenü:

     00e texterkng_paunt_starten_-

    Führen Sie den Mauszeiger über „öffnen mit“ nach „Paint“ und klicken darauf mit links und das Bild wird mit dem Programm „Paint“ geöffnet: 00f texterkng_paint_- Klicken Sie mit links ganz oben links in der Befehlszeile auf das hier blau unterlegte Symbol eines Dokuments und es öffnet sich ein Menü: 00g texterkng_paint_speichern Machen Sie einen Linksklick auf „Speichern unter“ und es öffnet sich der Win-Explorer:

    00h texterkng_paint_dateiformat_-

    Navigieren Sie zunächst zu dem Ordner, in den hinein Sie das ins „Tif-Format“ konvertierte Bild speichern möchten. Klicken Sie auf das kleine schwarze Dreieck ganz hinten in der Zeile „Dateityp“ (roter Pfeil) und es öffnet sich ein Auswahlmenü: 00i texterkng_paint_auswahlmenu_- Klicken Sie dort mit links auf „Tiff (*tif;*tiff)“ und dann unten im Fenster auf „Speichern“. Das Bild liegt jetzt im zuvor ausgewählten Ordner als „Tif-Bild“ vor.
    Die eingescannten oder fotografierten Dokumente müssen von hoher Qualität sein, notfalls müssen sie mit einer Bildbearbeitung nachbearbeitet werden.


    Texte mit „Microsoft Office Document Scanning“ einscannen:


    Die dem Microsoft Office Paket beiliegende Texterkennung wird bei der Installation mit installiert. Sollten Sie sie dennoch nicht auf Ihrem PC finden, dann wurde sie explizit während des Installationsprozesses ausgeschlossen. Legen Sie dann die Installations-CD/DVD in das entsprechende Laufwerk Ihres PCs und installieren Sie diese Teile nach.
    Die Texterkennung über das Einscannen von Dokumenten nennt sich „Microsoft Office Document Scanning“ und wenn man bereits Bilder mit Texten, die eingelesen werden sollen, besitzt, dann braucht man das Programm: „Microsoft Office Document Imaging”. Starten Sie zunächst aber Ihren Scanner. Klicken Sie danach unten links auf den Startknopf von Windows und in der kleinen Leiste unmittelbar über dem Startknopf im aufspringenden Fenster, in der „Programme/Dateien durchsuchen“ steht, klicken Sie mit links einmal hinein. Tippen Sie dann dort per Tastatur „scanning“ bzw. „imaging“ ein 00k texterkng_suchfeld_- und Windows sucht nach diesen beiden Programmen. Sie erscheinen in der Suchliste (vermutlich) ganz oben. 00l texterkng_scanningsuche_- Klicken Sie mit links auf den Eintrag „Microsoft Office Document Scanning) und es öffnet sich das Programm. 01 texterkng_startfenster_- Klicken Sie zunächst rechts unten im Fenster auf die Schaltfläche „Scanner“, damit Sie sicher sein können, dass das Programm Ihren Scanner gefunden hat. Wenn das Programm einen Scanner gefunden hat, dann kann das etwa so aussehen: 02 texterkng_scanner_erkannt_- Unter „1“ finden Sie Ihren angeschalteten Scanner. Vor „2“ sollten Sie durch einen Linksklick in das weiße Viereck davor (dann erscheint in dem Viereck ein Häkchen) diese Option aktivieren. Dann startet der Scan zunächst mit dem Scannertreiber und Sie können dort noch bestimmte Einstellungen vornehmen, sodass Ihr Scanner die Vorlage optimal scannt. Klicken Sie dann auf „OK“.
    Wenn Sie die Standardeinstellungen behalten möchten, dann können Sie eigentlich gleich loslegen, ansonsten gehen Sie in die sog. Voreinstellungen: Klicken Sie dann auf die Schaltfläche „Voreinstellungsoptionen“ unter dem großen weißen Fenster links oben und es öffnet sich folgendes Menü: 03 texterkng_voreinstelg_- Klicken Sie mit links auf den oberen Eintrag „Neue Voreinstellung erstellen“ und es öffnet sich ein kleines Fenster, in das Sie per Tastatur einen beliebigen Namen für die Voreinstellung geben, z. B. „Zeitungsscan“. Darauf können Sie dann später einfach durch einen Linksklick darauf zurückkommen. 04 texterkng_voreinstelgsname_- Klicken Sie mit links auf „OK“ und es öffnet sich ein neues Fenster: 05 texterkng_voreinstlngsoptionen_- Lassen Sie hier die Einstellungen, wie sie sind. Sollten sich später aber Probleme bei der Texterkennung ergeben, dann versuchen Sie diese Voreinstellung erneut durchzuführen, klicken dann aber hinter „Art des Scannens“ und hinter „Schwarzweiß“ auf das kleine nach unten zeigende Dreieck und es öffnet sich da ein Auswahlmenü: 06 texterkeng_graustufen_- Versuchen Sie es dann dort genauso, wie es gleich beschrieben wird, aber dann mit der Voreinstellung „Schwarzweiß auf farbiger Seite“ oder mit „Graustufe“, in dem Sie mit links darauf klicken. Sie sollten hier also die Art Ihrer Vorlage einstellen.
    Anschließend klicken Sie auf den Reiter „Zielordner“ mit links und das Fenster verändert sich in: 07 texterkng_zielordner_- Das gescannte Objekt wird standardmäßig im Ordner (hier) G:\Eigene Dateien\Dokumente\ gespeichert. Möchten Sie einen anderen Speicherort, dann klicken Sie rechts auf „Ändern“, navigieren im sich öffnenden Win-Explorer zu dem gewünschten Ordner, markieren den und klicken dann mit links auf „OK“. Die anderen Einstellungen sind eigentlich ganz gut, aber bei Bedarf können Sie sie durch einen Linksklick in den weißen Kreis davor aktivieren. Die restlichen verbleibenden Einstellungen unter den Reitern „Seite“ und „Verarbeitung“ können so bleiben. Klicken Sie dann in dem Fenster unten auf „OK“, die linke Schaltfläche der drei Schaltflächen ganz unten.

    Es könnte sein, dass beim ersten Start, das Programm sich auf den Scanner einmessen möchte. Der Vorgang ist einfach und es wird immer angezeigt, was Sie als Nächstes machen müssen. Befolgen Sie dann genau den Anweisungen, bis der Kalibriervorgang abgeschlossen ist. Haben Sie vorher ein Häkchen bei „Vor dem Scannen den Scannertreiberdialog anzeigen“ gesetzt, dann erscheint folgendes Fenster: 08b texterkng_scanner_erkannt_- (sonst vier Bilder tiefer weiter lesen). Die Hinweise sind eindeutig, klicken Sie mit links auf „OK“. Es erscheint dann folgendes Fenster: 8c texterkng_frage_nach_vorlage_- Setzen Sie hier die richtige Option durch einen Linksklick in den kleinen weißen Kreis. Sie können die Qualität des Scans verbessern, klicken Sie dafür auf den unterstrichenen Schriftzug „Qualität des gescannten Bildes verbessern“ unten links und es öffnet sich folgendes Fenster: 8d texterkng_scan_verbessern_- Sie können die Schieber bei „Helligkeit“ und „Kontrast“ verschieben. Führen Sie dazu die Maus genau auf einen der Schieber, klicken mit links und halten die Maustaste gedrückt. Schieben Sie dann die Maus nach rechts oder nach links. Im Vorschaubild links daneben wird gezeigt, was Sie mit dem Schieber bewirken. Markieren Sie ggf. die „300“ bei „1“ (linker Mausklick dahinter, Taste gedrückt halten und vor die „3“ ziehen, dann ist die Zahl markiert, dh. blau hinterlegt) und verändern Sie durch mehrere Linksklicks auf die kleinen schwarzen Dreiecke bei „2“ oder durch Eingabe per Tastatur eine andere Zahl. (Wenn sich die Texterkennung schwer tut, versuchen Sie es hier mit einer höheren Zahl – aber je höher die Zahl, desto länger dauert der Scan). Klicken Sie auf das kleine schwarze Dreieck bei „3“ und es öffnet sich ein Menü: 8e texterkng_bildtyp_- Wählen Sie dort den Bildtyp durch einen Linksklick darauf. Beenden Sie diesen Dialog durch einen Linksklick auf „OK“. Sie werden dann im Fenster eine Markierung vor „Benutzerdefinierte Einstellungen“ (drei Bilder höher) finden. Klicken Sie dann auf „Scannen“, es geht dann mit dem übernächsten Bild weiter.
    Wenn Sie vorher kein Häkchen bei „Vor dem Scannen den Scannertreiberdialog anzeigen“ gesetzt haben, dann beginnen Sie den Einscanvorgang durch einen Linksklick zunächst auf den Eintrag „Schwazweiß“ im linken großen weißen Fenster, sodass er markiert ist, also blau hinterlegt ist (sollte das Ergebnis mit „Schwarzweiß“ nicht zufriedenstellend sein, versuchen Sie es erneut mit „Graustufe“ oder einer anderen Einstellung.) Hier müssen Sie also die Art der Vorlage einstellen. Klicken Sie danach mit links auf die große Schaltfläche oben rechts mit dem symbolisierten Scanner und den drei symbolisierten Textdokumenten: 8f texterkng_scannen_beginnen_- Es erscheint ein Fenster: 09 texterkng_start_- Es zeigt an, dass der Scanner vorbereitet wird. Sobald die Lampe darin warm genug ist und der Scanner zu scannen beginnt erscheint folgendes Fenster: 10 texterkng_scanvorgang_- Wenn der Scanvorgang beendet ist, übergibt das Scanprogramm automatisch die gescannte Seite an das Texterkennungsprogramm weiter.


    Texte im Bildformat mit Microsoft Office Document Imaging als Text erkennen:


    Wenn Sie ein Bild mit zu erkennendem Text bereits als „Tif-Datei“ vorliegen haben, dann brauchen Sie diesen oben beschriebenen Scanvorgang nicht durchzuführen. Klicken Sie dann mit links ganz unten links im Windows-Hauptfenster auf Start und geben dann in das Suchfenster „Iamaging“ ein und klicken dann mit links auf den (vermutlich) obersten Eintrag „Microsoft Office Document Imaging“: 10b texterkng_imaging_starten Es startet dann das gleiche Programm, was nach dem Scanprogramm automatisch startet:

    11 texterkng_texterkngsprogramm_startet_-

    1. Vorschaufenster der gescannten Seiten (hier ist nur eine Seite gescannt, bei mehreren gescannten Seiten ist deren Anzahl hier angezeigt – um sie alle zu sehen, erscheint dann u. U. rechts in diesem Fensterteil eine Scrollleiste, mit Hilfe welcher Sie dann an alle Seiten kommen können.). Die Seite, die dann im Arbeitsfenster rechts „2“ erscheinen soll, müssen Sie dann dort aktivieren, indem Sie auf das entsprechende Vorschaufenster mit links klicken. Das erscheint dann rechts im Hauptfenster. Wenn Sie das Bild mit dem Text darauf noch öffnen müssen, dann klicken Sie oben links in der Symbolleiste (dritte Zeile) auf das geöffnete Ordnersymbol 11b texterkng_bild_oeffnen_- und es öffnet sich der Win-Explorer. Navigieren Sie in den Ordner, in dem das Bild liegt, markieren Sie es, sodass es blau hinterlegt ist, und klicken unten mit links auf „Öffnen“ oder klicken Sie mit links einfach auf die zu öffnende Datei (Bild).
    2. Hauptfenster mit dem geöffneten Dokument. Es liegt hier noch als Bild vor, es kann also noch nicht drin geschrieben werden.
    3. Wenn Sie ein weiteres Dokument scannen möchten und anschließend dessen Text erkennen möchten, dann müssen Sie nicht den Scandialog von vorher aufrufen, sondern können einfach auf diese Schaltfläche mit links klicken.
    4. Klicken Sie mit links auf „Extras“ und es öffnet sich ein Menü. Darauf werde ich gleich nach dieser Aufzählung unter *) eingehen.
    5. Mit einem Klick auf diese Schaltfläche setzen Sie den Texterkennungsvorgang in Gang.
    6. Mit einem Klick auf diese Schaltfläche wird der erkannte Text nach Word übergeben.

    *) Hiermit (4) kommen Sie zu Grundeinstellungen des Programms. Klicken Sie mit links auf „Extras“, dann öffnet sich folgendes Menü: 12 texterkng_extras_- Klicken Sie mit links auf „Optionen“ und es öffnet sich folgendes Fenster: 13 texterkng_optionen_- Sie können mit einem Linksklick auf die Schaltfläche „Schriftart“ eine andere als die voreingestellte Schrift „Tahoma“ in der Größe „9pt“ : 14 texterkng_schrift_- Durch Scrollen in den oberen drei Fenstern können Sie die Schrift genau formatieren, durch einen Linksklick in einen der beiden Kreise vor den beiden angebotenen Effekten (links unten) aktivieren Sie die und durch einen Linksklick auf das kleine schwarze Dreieck hinter „schwarz“ können Sie durch einen Linksklick auf eine dort angebotene Farbe, die Schriftfarbe auswählen.
    Unter den anderen Reitern lassen Sie am besten alles so, wie es eingestellt ist. Klicken Sie dann auf „OK“.
    Den reinen Texterkennungsvorgang starten Sie mit einem Linksklick auf „5“, also dem Schaltknopf auf dem ein Auge und ein Textblatt symbolisiert ist. (Dieser Vorgang ist bei der Übernahme vom Scannermodul in der Regel bereits automatisch durchgeführt). Klicken Sie darauf und es erscheint ein Fortschrittsbalken 15 texterkng_erkennungsfortschritt_- Die Prozedur beenden Sie, indem Sie den erkannten Text an Word weiter reichen. Klicken Sie dazu mit links auf die Schaltfläche „6“, also der Schaltfläche mit einem symbolisierten leeren Blatt und unten rechts einem „W“ daran. Es erscheint ein neues Fenster: 16 texterkng_text_an_word_- Sie können eigentlich die Einstellungen so lassen. Lediglich den Speicherort sollten Sie selbst festlegen. Klicken Sie auf „Durchsuchen“ (unten rechts) und es öffnet sich der Win-Explorer. Navigieren Sie zu dem Ordner, in den hinein Sie das an Word übergebene Dokument speichern möchten, markieren ihn und klicken unten auf „OK“. Klicken Sie zum Erkennungsprozess weiter auf „OK“ unten links. Das Programm übergibt jetzt den erkannten Text an Word, was einige Zeit dauern kann (Sie sehen dann eine Eieruhr). Das Word-Dokument ist dann also in den vorher ausgewählten Ordner hinein geschrieben und wird auch sofort geöffnet.
    Lesen Sie den Text aufmerksam durch und aktivieren am besten die Word eigene Rechtschreibekorrektur. Korrigieren Sie eventuelle Fehler und passen Sie Ihr Layout und die Formatierung entsprechend an. Bedenken Sie unbedingt, dass die Word eigene Rechtschreibekorrektur vielleicht 65 % aller Fehler nur findet. Machen Sie so etwas häufiger, lohnt sich evtl. die Anschaffung des sog. DudenKorrektors. Aber auch der erkennt nicht sicher alle Fehler, aber seine Erkennungsrate liegt weit über 90%.
    Wenn viele Fehler auftreten, damit sind weniger Rechtschreibefehler als falsch gesetzte Worte, ausgelassene Worte oder einfach Wortsalat im Dokument gemeint, dann sollten Sie das Scanprogramm anders einstellen: Dazu gehören Versuche mit Graustufen oder vielleicht doch farbig scannen. Stellen Sie ein, dass der Scannertreiber sich öffnet. Dann können Sie dort die Scanqualität einstellen. Scannen Sie in einer höheren Auflösung – standardmäßig sind 300 DPI eingestellt, erhöhen Sie die Zahl stufenweise. Bearbeiten Sie das eingescannte Bild mit einer Bildbearbeitung und erhöhen Sie dort den Kontrast. Die am Programm vorgenommenen Einstellungen können Sie, wie oben beschrieben, in den Voreinstellungen als ein eigenes Profil abspeichern. Wenn Sie einmal den optimalen Weg gefunden haben, wird es leichter sein, folgende Texte zu erkennen, weil Sie genau wissen, was Sie machen müssen. Sie können dann auch ganz einfach auf Ihr Profil zurückgreifen, indem Sie es einfach anklicken.
    Sollten Sie solch eine Texterkennung öfter machen müssen, dann sollten Sie sich über ein anderes Texterkennungsprogramm Gedanken machen, denn z. B. die beiden oben genannten Programme können sehr viel besser Texte erkennen, dafür ist dieses Programm eine kostenlose Beigabe zum Office-Programm.

     

     

    zurück nach oben, zum Anfang dieser Seite.