Segmentierung von Scans alter Drucke

Segmentierung einer Buchseite (aus dem „Narrenschiff“) in Regionen

Bei der automatischen Transkription alter Drucke ist vor der eigentlichen OCR (Optical Character Recognition) die Trennung von Text und Bild und die Feinunterteilung von Text in verschiedene Regionen wie Haupttext ggf. in mehreren Spalten, Marginalien, Kopf- und Fusszeilen usw. notwendig. Aufgrund des sehr unterschiedlichen Layouts verschiedener Druckseiten gibt es noch keine generische Lösung. Wir verbessern durch eine Kombination unterschiedlicher Bildverarbeitungstechniken mit neuronalen Netzen (Pixel-Classifier auf Basis einer Encoder-Decoder-Architektur mit Skip-Connection, Kontur-basierte Ansätze, die jede Kontur als Buchstabe oder nicht-Buchstabe klassifiziert, Baseline-Ansätze, die virtuelle Linien in den Zeilen eines Textes erkennt) den Stand der Forschung und integrieren die Segmentierungsverfahren in eine OCR-Pipeline wie z.B. OCR4all.

Hubland Süd, Geb. M2

Bildnachweise