Erkennen Sie schon oder tippen Sie noch?

with 3 Comments

Es steht zwar nicht täglich auf dem Progamm, aber wenn es dann plötzlich ins Haus “flattert”, ist man ohne geeignete Hilfsmittel ein wenig aufgeschmissen: zu übersetzende Texte als Fax, Scans oder per Post.

Derartige Textvorlagen verkomplizieren den Übersetzungsprozess maßgeblich – die Zeichen für die Preiskalkulation können nicht gezählt werden, die Lieferzeit kann somit nur grob abgeschätzt werden, die Übersetzung kann nicht sofort mit einem Übersetzungsprogramm gestartet werden.

Natürlich kann man sich nun hinsetzen und den Quelltext abtippen – das wäre allerdings der absolute Wahnsinn, ganz zu schweigen von den Kosten, die dem Kunden dadurch entstehen.
Die wesentlich angenehmere und kostengünstigere Lösung heißt OCR (Optical Character Recognition) Software, welche Texte in Bildern automatisch erkennt.

Jetzt aber nicht gleich loslaufen und ein OCR-Programm kaufen oder nach Freeware suchen! Die meisten PCs, auf denen Microsoft Office installiert ist, haben bereits ein wirklich passables und benutzerfreundliches OCR-Programm an Bord. Jahrelang nicht gewusst, habe ich es selbst erst vor kurzer Zeit per Zufall herausgefunden, nachdem ich leider feststellen musste, dass ich die damals mit meinem Scanner gelieferte OCR-Software nicht wieder installieren kann.

Um festzustellen, ob dieses Programm (Microsoft Office Document Imaging) im Office Paket enthalten ist, geht man einfach auf Start > Alle Programme > Microsoft Office > Microsoft Office Tools

MODI1

Und so funktioniert’s:

Das von Microsoft Office Document Imaging (MODI) unterstütze Bildformat ist TIFF. Das bedeutet, dass per Post oder Fax erhaltene Texte eingescannt und in diesem Format abgespeichert werden müssen. Das Format der vom Kunden gelieferten Scans muss evtl. in TIFF/TIF geändert werden.

Danach wird die .tif-Datei in MODI geöffnet.
Bevor der Texterkennungsvorgang gestartet wird, sollte die Sprache des geöffneten Textes angegeben werden (meine Version unterstützt Deutsch, Englisch, Französisch und Italienisch). Unter Extras > Optionen… öffnet sich ein Fenster, dort den Tab “OCR” auswählen:

MODI2

Dann kann es auch schon losgehen: einfach den Button mit dem Auge anklicken und die Erkennung wird gestartet.

MODI3

Sobald der Prozess beendet ist, kann der Button rechts daneben angeklickt werden, um den erkannten Text an Word zu senden, wo er dann weiterverarbeitet und abgespeichert werden kann.
Hinweis: Schriftformatierungen und Textlayout (z.B. Leerzeilen) gehen “verloren”.
In diesem Beispiel sieht das Ergebnis folgendermaßen aus:

Original

MODI5

An Word übermittelter Text


Abgesehen von ein paar Schwierigkeiten mit den Kontaktdetails (unten) hat MODI den Text fast fehlerfrei erkannt.

Fazit: gut funktionierendes, leicht zu bedienendes und obendrein kostenloses OCR-Tool, das sofort verfügbar ist. Leider ist .tif das einzige Bildformat, das unterstützt wird, und leider geht das Layout des Textes verloren. Aber damit kann man leben – besser als Abtippen!!

English version

Ready for recognition?

(English version with German screenshots)

They do not necessarily belong to daily routine but when turning up they can easily upset you: texts arriving via fax, snail mail or as scan. These types of source text complicate the translation process – characters cannot be counted for price and delivery time calculations and you cannot start your translation right away. One option of course would be to type the text up – sheer lunacy! Not to mention the costs that the client would have to expect… The far more convenient and cheaper is OCR (Optical Character Recognition) software that automatically recognises texts in images.

But stop! Before you run off to buy OCR software or search for freeware: most PCs with Microsoft Office already have a quite acceptable and user-friendly OCR tool installed. To check whether you have it on your computer or not go to Start > All Programs > Microsoft Office > Microsoft Office Tools

MODI1

And this is how the programme works:
First of all you’ll have to scan the texts received via fax or snail mail and save them as TIFF-file (or change the format of existing scans to TIFF) as this is the only image format Microsoft Office Document Imaging (MODI) supports.
Then open the .tif file in MODI.

Before starting the recognition process, it is advisable to specify the language of the text (my version supports English, German, French and Italian).  On the Tools menu , click Options and then the OCR tab.

MODI2

Now you are all set: simply click the button with the small eye to start the recognition.

MODI3

As soon as this process is finished just click the button with the ‘W’ and the recognised text is sent to Word where you can edit and save it.

Note: font and formatting details will be lost.

This is the result of my sample recognition:

Original

MODI5

Text transferred to Word

Except for the contact details (bottom) MODI recognised the text almost without mistakes.

Conclusion: well-functioning, easy-to-handle OCR tool. The best: it’s already there and it’s free! Unfortunately, TIFF is the only supported image format and all formatting details are lost. I can live with that – much better than typing…

3 Responses

  1. […] wish this blog post (warning: it’s in German) had been written before the conference so I could have told […]

  2. textlation
    |

    Additional information on OCR tools: http://www.slideshare.net/bonnjill/making-pdfs-work-for-you-2430370
    Thanks, Jill, for making this available!

Leave a Reply

16 − four =