Natural Language Processing
Digital Humanities and the appliciation and develoment of Natural Language Processing methods is an active reasearch field in the Data Science Chair. In projects like Kallimachos or CLiGS we collaborate with literary scholars and work on literary and NLP research questions. Current research topics involve for example the detection of direct speech, the classification of text types or sentiment analysis in a literary context.
The following staff member have open topics for practica, bachelor and master theses:
Natural Language Processing (for Novels), Digital Humanities | Albin Zehe |
knowledge graphs, unstructured knowledge representations | Janna Omeliyanenko |
NLP, Aspect-based Sentiment Analysis, Pointer Networks | Jan Pfister |
Deep Metric Learning, Representation Learning | Konstantin Kobs |
In the case of excellent performance there is also the chance to submit the thesis as an article to a computer science conference and to be co-author on a scientific publication early in your studies!
Open Topics:
Erkennung von Sprechern und Angesprochenen in direkten Reden
Ein wesentlicher Teil von Romantexten sind die Dialoge zwischen Figuren. Diese können auch in den der computergestützten Literaturanalyse für verschiedene Ziele verwendet werden, beispielsweise für die Erkennung der Beziehung zwischen zwei Figuren anhand der Häufigkeit der Gespräche und der vorkommenden Emotionen.
Das Ziel dieser Arbeit ist es, bei bereits extrahierten direkten Reden mittels Machine Learning den Sprecher und den Angesprochenen zu erkennen.
Die Arbeit soll dazu sowohl bereits existierende Ansätze anwenden als auch neue erforschen.
Betreuer: Albin Zehe
Brose: Semantisches Matching für Produktspezifikationen
Spezifikationen für Produkte und Komponenten wie beispielsweise Autositze werden meist nicht in einem einzigen Durchgang finalisiert, sondern werden im Laufe des Entwicklungsprozesses mehrfach in Absprache mit dem Systementwickler überarbeitet und modifiziert. Dabei entstehen manchmal auch unabsichtlich inkonsistente Anforderungen aus verschiedenen Planungsstadien. Da die gesamten Spezifikationsdokumente tausende von Seiten lang sein können, ist eine manuelle Überprüfung auf diese Inkonsistenzen sehr langwierig und ebenfalls fehleranfällig.
Im Rahmen einer Kooperation zwischen der DMIR Gruppe und Brose soll in dieser Abschlussarbeit ein System zur automatischen Extraktion von Spezifikationen aus solchen Dokumenten entwickelt werden.
Dazu sollen zunächst Abschnitte in verschiedenen Stadien der Spezifikation automatisch identifiziert werden, die die gleiche Komponente beschreiben.
Diese Abschnitte werden dann miteinander verglichen, um Abweichungen in den Spezifikationen zu erkennen. Dabei kommen Techniken aus dem Natural Language Processing wie Named Entity Recognition, Coreference Resolution und die Erkennung von ähnlichen Textabschnitten beispielsweise über Wort- oder Dokumentenembeddings in Kombination mit Deep Learning zum Einsatz.
Das Ziel der Masterarbeit ist es, aus den Dokumenten automatisch strukturierte Spezifikationen zu extrahieren.
Betreuer/Ansprechpartner: Albin Zehe
Extraktion von Wissen aus Finanzdokumenten
Dokumente im Finanzwesen sind vielfältig und meist stark strukturiert, beispielsweise enthalten Deckseiten oder Präsentationen oft Informationen die nur durch die visuelle Struktur der aktuellen Seite (Tabellen, Anordnung in Blöcken, ...) erkennbar werden. Zudem sind sie mit häufig hunderten Seiten sehr umfangreich. In diesen Dokumenten sind Kennzahlen von Firmen, wichtige Ereignisse, oder die Struktur von Finanzprodukten festgehalten, und somit sind sie von großer Bedeutung und ein zentraler Bestandteil vieler Abläufe.
Aus diesen Dokumenten werden die zentralen Informationen mit viel manuellem Aufwand in strukturiertes Wissen (Daten- und Wissensbanken) überführt. Eine Automatisierung würde den Informationsfluss beschleunigen, und zudem mehr Informationen für schnelle Entscheidungen bereitstellen. Ziel dieser Arbeit ist die Erforschung von automatisierten Methoden zur Extraktion von strukturiertem Wissen, angepasst an die speziellen Eigenschaften von Finanzdokumenten, mit Fokus auf einen konkreten Anwendungsfall.
Betreuer: Albin Zehe/Andreas Hotho
Knowledge Graph Representation
As one of their predominant research areas, the semantic web community builds knowledge graphs, which are machine-readable graphs that contain knowledge from all over the world wide web. Recently, researchers have shown great interest in improving AIs by letting them access this explicit knowledge. As such, how to best represent these knowledge graphs in a vectorized format that is usable by common AIs is an ongoing research question. This work aims to create improved knowledge graph representations for graphs where additional textual descriptions of the contained knowledge are available.
Supervisor: Janna Omeliyanenko