Datenextraktion aus Tabellen in Dokumenten

Tabellen in Dokumenten wie z.B. Datenblätter oder Publikationen enthalten oft wertvolle Informationen, die allerdings nur im Kontext interpretierbar ist. Das gilt gleichermaßen für digitale wie für analoge Dokumente (d.h. Scans). Bei analogen Dokumenten werden zunächst mittels Segmentierung (link auf Segmentierung s.o) die Tabellen und deren Legende extrahiert und der Text bzw. die Zahlen in der Tabelle transkribiert. Im nächsten Schritt werden bei einfachen Tabellen die Zeilen und Spalten erkannt, auf eine domänenspezifische Terminologie abgebildet und jede Tabellenzelle als Tupel mit Zeile, Spalte, Inhalt dargestellt. Abschließend werden die Daten in eine Zielstruktur, z.B. eine Graphdatenbank übertragen, die auch Abfragen ermöglicht.

Hubland Süd, Geb. M2

Picture credits