piwik-script

Intern
    Data Science Chair

    Natural Language Processing

    Digital Humanities and the appliciation and develoment of Natural Language Processing methods is an active reasearch field in the Data Science Chair. In projects like Kallimachos or CLiGS we collaborate with literary scholars and work on literary and NLP research questions. Current research topics involve for example the detection of direct speech, the classification of text types or sentiment analysis in a literary context.

    The following staff member have open topics for practica, bachelor and master theses:

    Natural Language Processing (for Novels), Digital Humanities Albin Zehe
    knowledge graphs, unstructured knowledge representations  Janna Omeliyanenko
    NLP, Text Representation Learning, Aspect-Extraction/-Sentiment Jan Pfister
     NLP, Digital Humanities, semantic relation classification Lena Hettinger
    Deep Metric Learning, Representation Learning Konstantin Kobs

     

    In the case of excellent performance there is also the chance to submit the thesis as an article to a computer science conference and to be co-author on a scientific publication early in your studies!

    Open Topics:

    Figurenspezifische Sentimentanalyse in Romanen

    Das grundsätzliche Ziel von Sentiment- oder Emotionsanalyse ist es, aus Texten automatisiert die Stimmungslage und Gefühle zu extrahieren, die durch den Text vermittelt werden.

    In Romanen können dadurch beispielsweise Emotionsverläufe generiert werden, die die "Stimmung" über den Verlauf der Geschichte hinweg beschreiben und damit Happy Ends oder ähnliches erkannt werden. 
    Darüber hinaus ist es auch interessant, die Emotionen im Bezug auf spezifische Figuren zu analysieren, um etwa zu erkennen, ob besonders glückliche Situationen für eine Figur für eine andere Tiefpunkte darstellen.

    Diese Arbeit soll sich mit der Anwendung und Erweiterung bestehender Techniken zur Sentimentanalyse zur Generierung solcher figurenspezifischer Gefühlsverläufe beschäftigen.

    Betreuer: Albin Zehe

    Vergleich von Word Embeddings für NLP Tasks

    Word Embeddings stellen eine Möglichkeit dar, natürliche Sprache in einen hochdimensionalen Vektorraum einzubetten und damit für Maschinen besser verwertbar zu machen. In dieser Arbeit soll untersucht werden, wie sich verschiedene vortrainierte Einbettungen für zwei Tasks aus dem Bereich des Natural Language Processing (NLP) verhalten: relation classification und word similarity. 

    Erfahrung mit Python ist sicherlich hilfreich. Zudem sind Kenntnisse im Bereich Text Mining und Machine Learning von Vorteil. Im Fall einer Masterarbeit werden Kenntnisse über neuronale Netze vorausgesetzt, da hier auch word embeddings selbst trainiert werden sollen.

    BetreuerinLena Hettinger

    Brose: Semantisches Matching für Produktspezifikationen

    Spezifikationen für Produkte und Komponenten wie beispielsweise Autositze werden meist nicht in einem einzigen Durchgang finalisiert, sondern werden im Laufe des Entwicklungsprozesses mehrfach in Absprache mit dem Systementwickler überarbeitet und modifiziert. Dabei entstehen manchmal auch unabsichtlich inkonsistente Anforderungen aus verschiedenen Planungsstadien. Da die gesamten Spezifikationsdokumente tausende von Seiten lang sein können, ist eine manuelle Überprüfung auf diese Inkonsistenzen sehr langwierig und ebenfalls fehleranfällig.

    Im Rahmen einer Kooperation zwischen der DMIR Gruppe und Brose soll in dieser Abschlussarbeit ein System zur automatischen Extraktion von Spezifikationen aus solchen Dokumenten entwickelt werden.
    Dazu sollen zunächst Abschnitte in verschiedenen Stadien der Spezifikation automatisch identifiziert werden, die die gleiche Komponente beschreiben.

    Diese Abschnitte werden dann miteinander verglichen, um Abweichungen in den Spezifikationen zu erkennen.  Dabei kommen Techniken aus dem Natural Language Processing wie Named Entity Recognition, Coreference Resolution und die Erkennung von ähnlichen Textabschnitten beispielsweise über Wort- oder Dokumentenembeddings in Kombination mit Deep Learning zum Einsatz.

    Das Ziel der Masterarbeit ist es, aus den Dokumenten automatisch strukturierte Spezifikationen zu extrahieren.

    Betreuer/Ansprechpartner: Albin Zehe

    Extraktion von Wissen aus Finanzdokumenten

    Dokumente im Finanzwesen sind vielfältig und meist stark strukturiert, beispielsweise enthalten Deckseiten oder Präsentationen oft Informationen die nur durch die visuelle Struktur der aktuellen Seite (Tabellen, Anordnung in Blöcken, ...) erkennbar werden. Zudem sind sie mit häufig hunderten Seiten sehr umfangreich. In diesen Dokumenten sind Kennzahlen von Firmen, wichtige Ereignisse, oder die Struktur von Finanzprodukten festgehalten, und somit sind sie von großer Bedeutung und ein zentraler Bestandteil vieler Abläufe.

    Aus diesen Dokumenten werden die zentralen Informationen mit viel manuellem Aufwand in strukturiertes Wissen (Daten- und Wissensbanken) überführt. Eine Automatisierung würde den Informationsfluss beschleunigen, und zudem mehr Informationen für schnelle Entscheidungen bereitstellen. Ziel dieser Arbeit ist die Erforschung von automatisierten Methoden zur Extraktion von strukturiertem Wissen, angepasst an die speziellen Eigenschaften von Finanzdokumenten, mit Fokus auf einen konkreten Anwendungsfall.