Texterkennung Frakturschrift
Verfasst: 29 Mai 2018 20:23
Ich möchte von google gescannte Bücher in alter deutscher Schrift (Fraktur) in moderne Textdateien umwandeln, damit ich sie schneller lesen bzw darin auch zuverlässig nach Stichwörtern suchen kann.
Dazu suche ich ein OCR Programm, das Fraktur erkennen kann ab Scans (png, pdf etc.), und zwar in einer Qualität wo ich nicht jedes 2. Wort von Hand nachkorrigieren muss.
Abbyy Finereader XIX soll sehr gut sein (<3% Fehler, selbst bei schwierigen Scans), wird aber nicht mehr verkauft. Dafür verlangen die jetzt 200 Euro pro 5000 Seiten, was bei alten Büchern, die selten weniger als 600 Seiten haben, im nu aufgebraucht ist. macht mi zimlich hässig.
Es gibt auch Freeware Produkte wie Tesseract OCR, aber das kommt qualitativ nicht annähernd ran. Mit GUI addons wie SunnyPage kann man tesseract trainieren. Hätte ja nichts dagegen etwas Arbeit zu investieren. Aber meine Tests damit haben ergeben, dass die Resultate schlechter sind als ohne Training.
Hat zufällig jemand Erfahrung damit und kann mir einen Tip geben?
Dazu suche ich ein OCR Programm, das Fraktur erkennen kann ab Scans (png, pdf etc.), und zwar in einer Qualität wo ich nicht jedes 2. Wort von Hand nachkorrigieren muss.
Abbyy Finereader XIX soll sehr gut sein (<3% Fehler, selbst bei schwierigen Scans), wird aber nicht mehr verkauft. Dafür verlangen die jetzt 200 Euro pro 5000 Seiten, was bei alten Büchern, die selten weniger als 600 Seiten haben, im nu aufgebraucht ist. macht mi zimlich hässig.
Es gibt auch Freeware Produkte wie Tesseract OCR, aber das kommt qualitativ nicht annähernd ran. Mit GUI addons wie SunnyPage kann man tesseract trainieren. Hätte ja nichts dagegen etwas Arbeit zu investieren. Aber meine Tests damit haben ergeben, dass die Resultate schlechter sind als ohne Training.
Hat zufällig jemand Erfahrung damit und kann mir einen Tip geben?