piwik-script

Intern
    Data Science Chair

    Theses & Practica

    Diese Liste enthält einige unserer thematisch sortierten Praktika, Bachelor- und Masterarbeiten, auf Anfrage informieren wir gerne über weitere offene Themen. Die Themenstellung erfolgt in Absprache mit dem Studierenden; der Umfang der Arbeit richtet sich nach dem jeweils angestrebten Anschluss. Die Ansprechpartner für die jeweiligen Themenbereiche sind:

    DeepScan / Security / Fraud Daniel Schlör
    EveryAware / p2map Florian Lautenschlager
    REGIO Tobias Koopmann
    BibSonomy Daniel Zoller
    Text Mining und Natural Language Processing Albin Zehe / Lena Hettinger
    Neural Networks Alexander Dallmann
    Weitere Themen  

    Bei hervorragender Leistung besteht außerdem bei allen der genannten Themen die Chance am Ende der Arbeit einen Artikel auf einer Informatikkonferenz einzureichen und so früh im Studium Co-Author auf einer wissenschaftlichen Veröffentlichung zu sein!

    Active Learning Dashboard for Fraud Detection

    Durch die Nutzung von Active Learning kann durch eine geeignete Auswahl an Instanzen die Qualität von Machine Learning Modellen trotz einer geringen Menge von Annotationen erheblich verbessert werden. Für die effiziente Annotation dieser Queries müssen dem Experten die Daten jedoch in einer geeigneten Darstellung präsentiert werden. Im Rahmen dieser Arbeit soll ein Active Learning System entwickelt werden, das durch eine Visualisierung verschiedener Datenaspekte als Dashboard Widgets dem Annotator eine übersichtliche Darstellung der Daten bietet. Das Thema kann in verschiedene Richtungen vertieft werden, beispielsweise hinsichtlich Active Learning Methoden für Outlier Detection, Deep Learning Modelle, Visualisierungsmethoden und Integration von Expertenwissen.

    Betreuer: Daniel Schlör

    Agent-based Simulation of Business Processes

    Für viele Anwendungen, wie Fraud Detection oder Process Monitoring werden Log-Daten von Geschäftsprozessen benötigt, um Modelle zu trainieren. Obwohl diese in modernen ERP Systemen automatisch aufgezeichnet und ausgewertet werden, und damit leicht zugänglich wären, gibt es kaum frei verfügbare Datensätze. Ausgehend von stark aggregierten Daten soll im Rahmen dieser Arbeit ein Simulationssystem entwickelt werden, das Geschäftsprozesse und deren Dokumentation simuliert und dadurch synthetische Daten generiert, die einer Abbildung realer Prozesse möglichst nahe kommen.

    Betreuer: Daniel Schlör

    Anomaly Detection and the modelling of normality

    Unter Anomaly Detection verstehen sich Data-Mining Methoden um seltene Ereignisse (Anomalien) zu finden, die sich vom Großteil der Daten unterscheiden.
    Mögliche Anwendungsgebiete sind:

    • (Network) Security
    • Fraud Detection
    • Fault Diagnosis
    • Novelty Detecting im Bereich Text-Mining

    Neben dem Finden von Anomalien ist die Modellierung des Normalzustands eine wichtige Teilaufgabe. Im Rahmen dieser Arbeit sollen verschiedene Verfahren zur Anomaly Detection und der Modellierung des Normalzustands in Bezug auf ein oder mehrere Anwendungsgebiete verglichen werden.

    Betreuer: Daniel Schlör

    Privacy in Neural Network Models

    Zum Training von Neuronalen Netzen werden häufig Datensätze verwendet, die aus Datenschutzgründen nicht veröffentlicht werden können. Trotzdem ist es wichtig die Modelle beispielsweise zur Reproduktion von Forschungsergebnissen oder im Kontext einer Anwendung verfügbar zu machen. In dieser Arbeit soll untersucht werden, in wieweit bei beispielsweise generativen Modellen aus dem trainierten Modell Informationen über die Trainingsdaten rückgewonnen werden können.

    Betreuer: Daniel Schlör

    Feature Learning für Orte im Kontext von Luftschadstoffmodellierung

    Effiziente Feature- oder Informationsrepräsentationen sind wichtig für Machine Learning Modelle, unter anderem weil sie sonst schnell dazu neigen nicht zu generalisieren, sondern Trainingsbeispiele auswendig zu lernen. Der klassische Ansatz um gute Features für Machine Learning Modelle zu finden ist manuelles Feature Engineering. Alternativ gibt es eine Reihe von Verfahren zur automatischen Featuregenerierung, die unter den Begriff Feature Learning oder Representation Learning fallen.

    In dieser Arbeit sollen verschiedene Feature Learning/Representation Learning Ansätze für die Vorhersage von Schadstoffkonzentrationen angewendet, verglichen und analysiert werden. Dabei sollen Rohinformationen über Orte wie z. B. Landnutzung (Industriegebiet, Wohngebiet, Straßen, etc.) oder geographische Eigenschaften effizient repräsentiert werden, sodass ein sog. Land-Use Regression Modell möglichst gut Schadstoffkonzentrationen für die Orte vorhersagen kann.

    Betreuer: Michael Steininger

    Luftschadstoff-Modellierung mit Graphen

    Typische Luftschadstoff-Modelle sagen die Konzentration von Schadstoffen (z. B. NO2, PM10) auf Basis von Landnutzung (Industriegebiet, Wohngebiet, Straßen, etc.) vorher, wobei die Landnutzungsfeatures als einfache Skalare dargestellt werden (z. B. Abstand von einem Ort zur nächsten Autobahn in Meter). Die zugrundeliegenden räumlichen Vektordaten (z. B. von OpenStreetMap) lassen sich allerdings viel sinnvoller als Graphen repräsentieren.  Bestehende Arbeiten haben erfolgreich gezeigt, dass solche Graph-Repräsentation für andere Aufgaben verwendet werden konnten (z. B. Klassifikation von Gebäudegruppen).

    Ziel der Arbeit ist es, mit Graphen aus OpenStreetMap ein Luftschadstoffmodell zu bauen.

    Betreuer: Michael Steininger

    Semi-supervised regression using GANs

    In vielen Anwendungsfällen von maschinellem Lernen ist es kostenintensiv und aufwendig Labels für große Mengen von Daten zu generieren. So müssen zum Beispiel bei Bodenmessungen tiefe Bohrungen durchgeführt werden, um die Zusammensetzung der Erde festzustellen. In solchen Fällen können Algorythmen verwendet werden, die aus einer relativ kleiner Anzahl an Beispielen mit Labels sowie einer großen Menge an ungelabelten Daten lernen (semi-supervised learning). Bei Klassifikationsaufgaben können dafür die sog. Generative Adversial Networks (GANs) benutzt werden, indem zwei neuronale Netze darauf trainiert werden neue Beispiele zu generieren. Dieser Ansatz wurde jedoch für Regressionaufgaben erst wenig untersucht.

    Ziel der Arbeit ist es verschiedene GAN Modelle für die Vorhersage von Bodeneigenschaften anzuwenden und anhand dieser Aufgabe zu evaluieren und analysieren.

    Betreuer: Andrzej Dulny

    Lernen geeigneter Standorte für Bienenstöcke

    Innerhalb des we4bee Projekts wurden Bienenstöcke mit Sensoren ausgestattet und an vornehmlich Bildungseinrichtungen verteilt. Ziel des Projekts ist es das Leben und Verhalten von Bienen zu analysieren.

    Ziel dieser Arbeit ist es, mit Hilfe von Satellitendaten und Landnutzungsdaten (z.B: OpenStreetMap), die Eignung des Standorts für Bienenstöcke zu bestimmen. Dazu soll mit Hilfe von Machine Learning das Wachstum eines Bienenvolkes mit den Umgebungsdaten analysiert werden und damit geeignete Indikatoren für die Nutzung als Bienenstandort herausgearbeitet werden.

    Betreuer/Ansprechpartner: Padraig Davidson

    (Deep)Clustering von Bienendaten

    Innerhalb des we4bee Projekts wurden Bienenstöcke mit Sensoren ausgestattet und an vornehmlich Bildungseinrichtungen verteilt. Ziel des Projekts ist es das Leben und Verhalten von Bienen zu analysieren.

    Ziel dieser Arbeit ist es, unsupervised Clusteringverfahren im Hinblick auf ihre Qualität zur Gruppierung von Daten aus Bienenstöcken zu analysieren. Diese Cluster können dann als Vorsortierung zur Erstellung eines annotierten Datensatzes in Zusammenarbeit mit der Biologie genutzt werden.

    Betreuer/Ansprechpartner: Padraig Davidson

    Korrektur wechselseitiger Abhängigkeiten von Features

    Innerhalb des we4bee Projekts wurden Bienenstöcke mit Sensoren ausgestattet und an vornehmlich Bildungseinrichtungen verteilt. Ziel des Projekts ist es das Leben und Verhalten von Bienen zu analysieren.

    Einige dieser Sensoren weisen gegenseitige Abhängigkeiten auf und beeinflussen so die Messgrößen von anderen Sensoren. Prominentes Beispiel ist die Temperaturabhängigkeit der Waage in den Bienenstöcken. Ziel dieser Arbeit ist es, Modelle zu entwickeln und gegeneinander zu evaluieren und diese wechselseitigen Abhängigkeiten zu korrigieren.

    Betreuer/Ansprechpartner: Padraig Davidson

    Temporal Topic Modelling in the Research Domain "AI"

    In the recent time NLP methods had major breakthroughs and allow to model topics in various ways. One possible way was proposed by Gong et al.[1], which allows to extract so-called hidden topics from texts of varying length. The idea is to find matching documents to their summaries.

    The aim of this MP/MT is to apply it on bibliographic texts. Doing so, we can extract topics for each author and for each work. Are we able to define and cluster research domains? Can we extract temporal trends or authors, who are changing their research domain within the AI. 

    [1] Gong, H., Sakakini, T., Bhat, S. & Xiong, J. (2018). Document Similarity for Texts of Varying Lengths via Hidden Topics. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (p./pp. 2341--2351), July, Melbourne, Australia: Association for Computational Linguistics.

    Betreuer: Tobias Koopmann

    Recommendation of Co-Authorship using GNNs

    Recently a lot of work based on Graph Neural Networks has been published. Recent work by Xu et al [1] offers a general framework how to create powerful graph neural networks. The idea of this task is to use different forms of graph representational learning (which can be extracted from Xu et al[1]) and apply them on co-authorship graphs. The downstream task is to predict co-authorships, compare different graph approaches and ideally, add further information as thematic representations in these graph frameworks. 

    Betreuer: Tobias Koopmann

    Xu, K., Hu, W., Leskovec, J. & Jegelka, S. (2018). How Powerful are Graph Neural Networks?. CoRR, abs/1810.00826. 
     

    Author Disambiguation using Machine Learning

    In dieser Arbeit geht es darum, verschiedene Machine Learning Methoden auszuprobieren um eine Namens Disambiguation durchzuführen. Hierzu kann einerseits die AMINER Challenge genutzt werden, andererseits kann aus dem DBLP ein Datensatz erstellt werden. Mögliche Ansätze hierfür wären Graphnetzwerke oder Transformer/Bert Modelle. 

    Reference: AMINER Challenge

    Betreuer: Tobias Koopmann

    Publikationsrelevanzvorhersagesystem

    Immer mehr Wissenschaftler veröffentlichen ihre Forschungsergebnisse auf Preprint-Servern wie ArXiv bevor sie ihre Arbeiten auf konventionelle Wege (Konferenzbeitrag, Journal, …) publizieren. Die dabei entstehende Flut an Artikeln macht es für einen Wissenschaftler unmöglich, relevante Arbeiten auf seinem Forschungsgebiet frühzeitig zu erkennen.

    Deshalb ist das Ziel dieser Arbeit ein Publikationsreputationssystem zu entwickeln, was in der Lage ist, den späteren Impact eines Forschungsartikels vorherzusagen. Die Vorhersage soll mittels verschiedener Daten (Publikationsgraph, Altmetrics) erfolgen. Dabei sollen konventionelle Machine Learning Verfahren als auch Deep Learning untersucht werden.

    Betreuer: Daniel Zoller

    Performanceanalyse von MariaDB für BibSonomy

    BibSonomy setzt zur Zeit auf MySQL als persistentes Backend. In den letzten Jahren hat sich die offene Alternative MariaDB immer weiter verbreitet. Ziel dieser Arbeit ist es die nötigen Anpassungen an BibSonomy vorzunehmen und Performanceanalysen mit dem neuen Backend durchzuführen. Weiter soll die Clusterfähigkeit von MariaDB (MariaDB Galera Cluster) für den Produktiveinsatz getestet werden.

    Betreuer: Daniel Zoller

    Figurenspezifische Sentimentanalyse in Romanen

    Das grundsätzliche Ziel von Sentiment- oder Emotionsanalyse ist es, aus Texten automatisiert die Stimmungslage und Gefühle zu extrahieren, die durch den Text vermittelt werden.

    In Romanen können dadurch beispielsweise Emotionsverläufe generiert werden, die die "Stimmung" über den Verlauf der Geschichte hinweg beschreiben und damit Happy Ends oder ähnliches erkannt werden. 
    Darüber hinaus ist es auch interessant, die Emotionen im Bezug auf spezifische Figuren zu analysieren, um etwa zu erkennen, ob besonders glückliche Situationen für eine Figur für eine andere Tiefpunkte darstellen.

    Diese Arbeit soll sich mit der Anwendung und Erweiterung bestehender Techniken zur Sentimentanalyse zur Generierung solcher figurenspezifischer Gefühlsverläufe beschäftigen.

    Betreuer: Albin Zehe

    Vergleich von Word Embeddings für NLP Tasks

    Word Embeddings stellen eine Möglichkeit dar, natürliche Sprache in einen hochdimensionalen Vektorraum einzubetten und damit für Maschinen besser verwertbar zu machen. In dieser Arbeit soll untersucht werden, wie sich verschiedene vortrainierte Einbettungen für zwei Tasks aus dem Bereich des Natural Language Processing (NLP) verhalten: relation classification und word similarity. 

    Erfahrung mit Python ist sicherlich hilfreich. Zudem sind Kenntnisse im Bereich Text Mining und Machine Learning von Vorteil. Im Fall einer Masterarbeit werden Kenntnisse über neuronale Netze vorausgesetzt, da hier auch word embeddings selbst trainiert werden sollen.

    BetreuerinLena Hettinger

    Brose: Semantisches Matching für Produktspezifikationen

    Spezifikationen für Produkte und Komponenten wie beispielsweise Autositze werden meist nicht in einem einzigen Durchgang finalisiert, sondern werden im Laufe des Entwicklungsprozesses mehrfach in Absprache mit dem Systementwickler überarbeitet und modifiziert. Dabei entstehen manchmal auch unabsichtlich inkonsistente Anforderungen aus verschiedenen Planungsstadien. Da die gesamten Spezifikationsdokumente tausende von Seiten lang sein können, ist eine manuelle Überprüfung auf diese Inkonsistenzen sehr langwierig und ebenfalls fehleranfällig.

    Im Rahmen einer Kooperation zwischen der DMIR Gruppe und Brose soll in dieser Abschlussarbeit ein System zur automatischen Extraktion von Spezifikationen aus solchen Dokumenten entwickelt werden.
    Dazu sollen zunächst Abschnitte in verschiedenen Stadien der Spezifikation automatisch identifiziert werden, die die gleiche Komponente beschreiben.

    Diese Abschnitte werden dann miteinander verglichen, um Abweichungen in den Spezifikationen zu erkennen.  Dabei kommen Techniken aus dem Natural Language Processing wie Named Entity Recognition, Coreference Resolution und die Erkennung von ähnlichen Textabschnitten beispielsweise über Wort- oder Dokumentenembeddings in Kombination mit Deep Learning zum Einsatz.

    Das Ziel der Masterarbeit ist es, aus den Dokumenten automatisch strukturierte Spezifikationen zu extrahieren.

    Betreuer/Ansprechpartner: Albin Zehe

    Extraktion von Wissen aus Finanzdokumenten

    Dokumente im Finanzwesen sind vielfältig und meist stark strukturiert, beispielsweise enthalten Deckseiten oder Präsentationen oft Informationen die nur durch die visuelle Struktur der aktuellen Seite (Tabellen, Anordnung in Blöcken, ...) erkennbar werden. Zudem sind sie mit häufig hunderten Seiten sehr umfangreich. In diesen Dokumenten sind Kennzahlen von Firmen, wichtige Ereignisse, oder die Struktur von Finanzprodukten festgehalten, und somit sind sie von großer Bedeutung und ein zentraler Bestandteil vieler Abläufe.

    Aus diesen Dokumenten werden die zentralen Informationen mit viel manuellem Aufwand in strukturiertes Wissen (Daten- und Wissensbanken) überführt. Eine Automatisierung würde den Informationsfluss beschleunigen, und zudem mehr Informationen für schnelle Entscheidungen bereitstellen. Ziel dieser Arbeit ist die Erforschung von automatisierten Methoden zur Extraktion von strukturiertem Wissen, angepasst an die speziellen Eigenschaften von Finanzdokumenten, mit Fokus auf einen konkreten Anwendungsfall.

     

    Neural Networks

    Predicting Pollution from Map Features using Neural Networks

    Environmental pollution, e.g. black carbon or noise is a big problem for both developing and industrial countries. With the availability of comparatively cheap sensors and open-source electronics platforms like Arduino it is now possible for citizens to collect and share environmental data with the goal to analyze it in cooperation with researchers.

    In this thesis your goal will be to build models that can predict pollution levels from map features. Exploiting data that has been collected as part of studies on our open-source citizen science platform EveryAware you will develop different neural network architectures and evaluate their usefulness in predicting pollution levels from map features, e.g. streets, buildings, forests ...

    Betreuer: Alexander Dallmann, Florian Lautenschlager

    Neural Security Thread Detection on Netflow Data

    Early detection of a potential network intrusion is crucial to limiting the severity of a security breach. Malicious behaviour inside a network is reflected by certain communication patterns between hosts. Netflow data contains all communication between hosts, that happens on the network. Capturing the netflow data on a network, allows us to use machine learning models to identify potential malicious communication patterns and thus help human administrators to focus on the most suspicious events.

    In this thesis you will develop a neural network based model to detect malicious behaviour using annotated netflow data. You will develop the model using the PyTorch library for neural networks. You will also get access to our state-of-the-art cluster to train and evalute your models.

    Betreuer: Alexander Dallmann, Markus Ring

    GloIPVe - Global IP Vectors

    Neural machine learning models have the potential to help detect network security threads early. However, large annotated copora are needed for training these models. Creating these corpora is time consuming and expensive. To mitigate the necessary amount of training data, unsupervised techniques can be used to pre-train parts of the classifier. For example, IP2Vec can be used to train representations for IP addresses based on netflow data without the need for labels. 

    In this thesis you will develop GloIPVe for learning representations for IP addresses from netflow data. While IP2Vec is based on the idea of word2vec, a word embedding technique, you will adapt GloVe (Global word Vectors) to IP addresses which has been shown to outperform word2vec in some NLP settings.

    Betreuer: Alexander Dallmann, Markus Ring

    Vergleich von Samplingstrategien schief verteilter Klassen

    Im Bereich der Klassifikation von Daten, im speziellen Sensordaten, sind die Häufigkeiten der Labels sehr schief verteilt. Labels einer Klasse, die häufig mit Normalverhalten assoziiert wird, können teilweise 98% der Daten ausmachen. Dieser Umstand hat zur Folge, dass das einfache Vorhersagen dieser Klasse in 98% Accuracy resultiert und es Algorithmen sehr schwierig macht mit den wenigen Labels der verbleibenden Klassen sinnvolle Mappings lernen zu können.

    Ziel dieser Arbeit (MA/MAP) ist es, verschiedene Strategien zur Auflösung dieser Umstände bezüglich ihrer Eigenschaften zu analysieren und in Experimenten zu belegen. Besonderes Augenmerk soll dabei auf semi-supervised und semi-unsupervised Verfahren gelegt werden.

    Betreuer/Ansprechpartner: Padraig Davidson

    Semi-(un)supervised Learning mit vortrainierten Netzen

    In der Bildklassifikation und im Bereich des NLP gibt es eine Vielzahl vortrainierter Netze. Bei Bildern zählen VGG und ResNET in ihren verschiedenen Ausprägungen zu den Bekanntesten.

    Ziel dieser Arbeit (BA/MAP) ist es, vortrainierte Netze im Bereich des semi-supervised und semi-unsupervised learnings zu analysieren. Das bedeutet, dass innerhalb der Klassifikation nur sehr wenige Labels für jede Klasse (semi-supervised) oder für manche Klassen gar keine (semi-unsupervised) zur Verfügung stehen. Es sollen dabei einige bekannte Netze untereinander verglichen werden, mit besonderem Augenmerk auf die erzielte Genauigkeit bei reduzierter Labelanzahl und Anzahl der Operationen, die für das Nachtraining nötig sind.

    Betreuer/Ansprechpartner: Padraig Davidson

    Recommendation

    Tag Recommendation mittels Deep Learning

    Für die Aufgabe Tags/Hashtags z. B. auf Instagram, Facebook oder Twitter vorzuschlagen wurden Vergessensmodelle des menschliche Gedächnis aus der Kognitionspsychologie, wie das Base-Level Learning, adaptiert. Recurrent Neural Networks oder auch Recurrent Highway Networks können auch diese Anhängigkeiten abbilden.

    Ziel dieser Arbeit ist die Entwicklung und Evaluation von neuronale Netzwerken, die diese Vergessensmodelle für unterschiedliche Benutzer automatisiert lernen sollen.

    Betreuer/Ansprechpartner: Daniel Zoller

    Language Modelle für Recommender Systeme

    Das Verständnis von Text ist auch ein wichtiger Bestandteil von Recommender Systemen, wenn sie auf Grundlage von textuellen Informationen Vorschläge generieren. Es hat sich gezeigt, dass Sprachmodelle/Language Modelle, die auf einem großen Korpus von Text trainiert wurden, leicht für andere Aufgaben umtrainiert werden können.

    In dieser Arbeit soll ein System geschrieben werden, dass es erlaubt beliebige Webseiten aus den Netz zu crawlen und auf den extrahierten Textdaten ein Language Modell zu lernen, das dann für verschiedene Recommender Systeme verwendet werden kann.

    Betreuer/Ansprechpartner: Daniel Zoller

    Translation Language Modells for Recommender Systems

    Empfehlungen für (Hash-)Tags auf sozialen Platformen wie Twitter helfen Benutzern relevante Beiträge schnell zu finden. Den Benutzer bei der Eingabe der richtigen Hashtags zu unterstützen ist Ziel eines Empfehlungssystem.

    Das Empfehlen von Hashtags gegeben z. B. den textuellen Metadaten der Resource, für die die Empfehlung gemacht werden soll, kann auch als Übersetzung von der Metadatensprache in die Tagsprache des jeweiligen Benutzers gesehen werden. Deshalb sollen in dieser Arbeit Sprachmodelle implementiert und testet werden, die versuchen das Problem der Hashtagempfelung als Übersetzungsanwendung anzusehen.

    Betreuer/Ansprechpartner: Daniel Zoller

    Weitere Themen

    AutoML for NIRS calibration models

    Near-infrared spectroscopy (NIRS) is used in several research areas to estimate, quantify or analyse relevant properties of materials. A spectrum shows the relation between the wavelengths and an optical quantity, like transmittance or absorbance. Given a target value, a regression model can be tuned to estimate this target by using the spectral data as input variables. These methods are also called multivariate calibration models and are analysed in the "Chemometrics" field of research.

    Instead of manually fine-tuning and evaluating different regression models, your goal will be to use modern AutoML methods to search for suitable machine learning pipelines. You will evaluate different approaches and compare the found algorithms against previously proposed models for a given dataset of ~21k spectras.

    Betreuer: Florian Buckermann