piwik-script

Deutsch Intern
    Data Science Chair

    Natural Language Processing

    Digital Humanities and the appliciation and develoment of Natural Language Processing methods is an active reasearch field in the Data Science Chair. In projects like Kallimachos or CLiGS we collaborate with literary scholars and work on literary and NLP research questions. Current research topics involve for example the detection of direct speech, the classification of text types or sentiment analysis in a literary context.

    The following staff member have open topics for practica, bachelor and master theses:

    Natural Language Processing (for Novels), Digital Humanities Albin Zehe
    knowledge graphs, unstructured knowledge representations  Janna Omeliyanenko
    NLP,  Aspect-based Sentiment Analysis, Pointer Networks Jan Pfister
    Deep Metric Learning, Representation Learning Konstantin Kobs

     

    In the case of excellent performance there is also the chance to submit the thesis as an article to a computer science conference and to be co-author on a scientific publication early in your studies!

    Open Topics:

    Erkennung von Sprechern und Angesprochenen in direkten Reden

    Ein wesentlicher Teil von Romantexten sind die Dialoge zwischen Figuren. Diese können auch in den der computergestützten Literaturanalyse für verschiedene Ziele verwendet werden, beispielsweise für die Erkennung der Beziehung zwischen zwei Figuren anhand der Häufigkeit der Gespräche und der vorkommenden Emotionen.

    Das Ziel dieser Arbeit ist es, bei bereits extrahierten direkten Reden mittels Machine Learning den Sprecher und den Angesprochenen zu erkennen.
    Die Arbeit soll dazu sowohl bereits existierende Ansätze anwenden als auch neue erforschen.

    Betreuer: Albin Zehe

    Brose: Semantisches Matching für Produktspezifikationen

    Spezifikationen für Produkte und Komponenten wie beispielsweise Autositze werden meist nicht in einem einzigen Durchgang finalisiert, sondern werden im Laufe des Entwicklungsprozesses mehrfach in Absprache mit dem Systementwickler überarbeitet und modifiziert. Dabei entstehen manchmal auch unabsichtlich inkonsistente Anforderungen aus verschiedenen Planungsstadien. Da die gesamten Spezifikationsdokumente tausende von Seiten lang sein können, ist eine manuelle Überprüfung auf diese Inkonsistenzen sehr langwierig und ebenfalls fehleranfällig.

    Im Rahmen einer Kooperation zwischen der DMIR Gruppe und Brose soll in dieser Abschlussarbeit ein System zur automatischen Extraktion von Spezifikationen aus solchen Dokumenten entwickelt werden.
    Dazu sollen zunächst Abschnitte in verschiedenen Stadien der Spezifikation automatisch identifiziert werden, die die gleiche Komponente beschreiben.

    Diese Abschnitte werden dann miteinander verglichen, um Abweichungen in den Spezifikationen zu erkennen.  Dabei kommen Techniken aus dem Natural Language Processing wie Named Entity Recognition, Coreference Resolution und die Erkennung von ähnlichen Textabschnitten beispielsweise über Wort- oder Dokumentenembeddings in Kombination mit Deep Learning zum Einsatz.

    Das Ziel der Masterarbeit ist es, aus den Dokumenten automatisch strukturierte Spezifikationen zu extrahieren.

    Betreuer/Ansprechpartner: Albin Zehe

    Extraktion von Wissen aus Finanzdokumenten

    Dokumente im Finanzwesen sind vielfältig und meist stark strukturiert, beispielsweise enthalten Deckseiten oder Präsentationen oft Informationen die nur durch die visuelle Struktur der aktuellen Seite (Tabellen, Anordnung in Blöcken, ...) erkennbar werden. Zudem sind sie mit häufig hunderten Seiten sehr umfangreich. In diesen Dokumenten sind Kennzahlen von Firmen, wichtige Ereignisse, oder die Struktur von Finanzprodukten festgehalten, und somit sind sie von großer Bedeutung und ein zentraler Bestandteil vieler Abläufe.

    Aus diesen Dokumenten werden die zentralen Informationen mit viel manuellem Aufwand in strukturiertes Wissen (Daten- und Wissensbanken) überführt. Eine Automatisierung würde den Informationsfluss beschleunigen, und zudem mehr Informationen für schnelle Entscheidungen bereitstellen. Ziel dieser Arbeit ist die Erforschung von automatisierten Methoden zur Extraktion von strukturiertem Wissen, angepasst an die speziellen Eigenschaften von Finanzdokumenten, mit Fokus auf einen konkreten Anwendungsfall.