piwik-script

Intern
    Data Science Chair

    Knowledge Enriched Natural Language Processing

    Digital Humanities and the appliciation and develoment of Natural Language Processing methods is an active reasearch field in the Data Science Chair. In projects like Kallimachos or CLiGS we collaborate with literary scholars and work on literary and NLP research questions. Current research topics involve for example the detection of direct speech, the classification of text types or sentiment analysis in a literary context.

    The following staff member have open topics for practica, bachelor and master theses:

    Natural Language Processing (for Novels), Digital Humanities Albin Zehe
    knowledge graphs, unstructured knowledge representations  Janna Omeliyanenko
    NLP,  Aspect-based Sentiment Analysis, Pointer Networks Jan Pfister

     

    In the case of excellent performance there is also the chance to submit the thesis as an article to a computer science conference and to be co-author on a scientific publication early in your studies!

    Open Topics:

    Repräsentation von Romanen als Abfolge von Graphen

    Romane gehören zu den Textarten, die trotz riesiger Fortschritte in den letzten Jahren die NLP immer noch vor Herausforderungen stellen: Selbst die neuesten Modelle sind nicht in der Lage, komplette Romantexte am Stück einzulesen und zu verarbeiten.

    In dieser Arbeit (Umfang für BA oder MA anpassbar) soll eine mögliche Lösung hierfür erforscht werden: Die Aufteilung der Texte in Bausteine (Szenen) und Repräsentation jeder dieser Bausteine anhand eines Graphen, der die Figurenkonstellation und weitere Informationen repräsentiert.

    Betreuer: Albin Zehe

    Knowledge Graph Representation

    As one of their predominant research areas, the semantic web community builds knowledge graphs, which are machine-readable graphs that contain knowledge from all over the world wide web. Recently, researchers have shown great interest in improving AIs by letting them access this explicit knowledge. As such, how to best represent these knowledge graphs in a vectorized format that is usable by common AIs is an ongoing research question. This work aims to create improved knowledge graph representations for graphs where additional textual descriptions of the contained knowledge are available.

    Supervisor: Janna Omeliyanenko

    Teaching LLMs to do our (related) work / ChatGPT und Co für die Publikationsverwaltung

    Mit dem Aufkommen großer Sprachmodelle wie GPT-3 und GPT-4 und deren Anwendung in Systemen wie ChatGPT, stellt sich die Frage, bis zu welchem Grad sie Aufgaben übernehmen können, die bisher von Menschen ausgeführt werden und wie man sie verbessern kann um auch Aufgaben zu erfüllen, bei denen Sie bisher nicht die nötige Qualität und Sorgfalt aufweisen. Dafür ist es wichtig zu erkennen, dass diese Modelle nur so gut sind wie die Daten, auf denen sie trainiert werden. Leider sind viele der verwendeten Daten von nicht validierter Qualität, und es gibt keine universelle Definition davon, was "korrekte" Informationen sind. Als Ergebnis können große Sprachmodelle manchmal Fehler machen oder sogar Falschinformationen erzeugen, wenn sie mit Wissenslücken konfrontiert werden.

    Um das Problem zu lösen gibt es erste Ansätze, die externe Wissensquellen integrieren, Vorwissen und die Aufgabe geeignet strukturieren und andere technische Lösungsansätze. In dieser Arbeit sollen verschiedene dieser Methoden kombiniert werden und am Beispiel der Publikationsverwaltung, also dem erfassen und strukturieren von verwandten wissenschaftlichen Arbeiten, evaluiert werden.

    Die Arbeit kann wahlweise mit Schwerpunkt auf technische Umsetzung, oder Forschungsschwerpunkten im Bereich LLMs, Augmented Language Models und Prompt Engineering ausgestaltet werden.