piwik-script

Intern
    Data Science Chair

    Environmental Science

    The Data Science Chair works with environmental data to contribute to the ongoing climate research. Based on low-cost sensors, map and geographical data, we develop novel approaches to environmental questions. These questions include "What is the air pollution at a given spot on earth?" and "What type of wine should I grow on my land given the development in climate in the next few decades?". While answering such questions is one concern of our research, the other objective is to raise awareness for the environment in the society.

    The following staff member have open topics for practica, bachelor and master theses:

    EEG Classification, NIR Calibration, Neural Architecture Search Florian Buckermann
    Dynamical Systems, Fluid Simulation, Semi-supervised learning
       Andrzej Dulny
    Imbalanced Regression, ML for climate science, Air pollution modelling Michael Steininger
    Semi-unsupervised Learning, Bee-Behavior Padraig Davidson

     

    In the case of excellent performance there is also the chance to submit the thesis as an article to a computer science conference and to be co-author on a scientific publication early in your studies!

    Open Topics:

    Feature Learning für Orte im Kontext von Luftschadstoffmodellierung

    Effiziente Feature- oder Informationsrepräsentationen sind wichtig für Machine Learning Modelle, unter anderem weil sie sonst schnell dazu neigen nicht zu generalisieren, sondern Trainingsbeispiele auswendig zu lernen. Der klassische Ansatz um gute Features für Machine Learning Modelle zu finden ist manuelles Feature Engineering. Alternativ gibt es eine Reihe von Verfahren zur automatischen Featuregenerierung, die unter den Begriff Feature Learning oder Representation Learning fallen.

    In dieser Arbeit sollen verschiedene Feature Learning/Representation Learning Ansätze für die Vorhersage von Schadstoffkonzentrationen angewendet, verglichen und analysiert werden. Dabei sollen Rohinformationen über Orte wie z. B. Landnutzung (Industriegebiet, Wohngebiet, Straßen, etc.) oder geographische Eigenschaften effizient repräsentiert werden, sodass ein sog. Land-Use Regression Modell möglichst gut Schadstoffkonzentrationen für die Orte vorhersagen kann.

    Betreuer: Michael Steininger

    Luftschadstoff-Modellierung mit Graphen

    Typische Luftschadstoff-Modelle sagen die Konzentration von Schadstoffen (z. B. NO2, PM10) auf Basis von Landnutzung (Industriegebiet, Wohngebiet, Straßen, etc.) vorher, wobei die Landnutzungsfeatures als einfache Skalare dargestellt werden (z. B. Abstand von einem Ort zur nächsten Autobahn in Meter). Die zugrundeliegenden räumlichen Vektordaten (z. B. von OpenStreetMap) lassen sich allerdings viel sinnvoller als Graphen repräsentieren.  Bestehende Arbeiten haben erfolgreich gezeigt, dass solche Graph-Repräsentation für andere Aufgaben verwendet werden konnten (z. B. Klassifikation von Gebäudegruppen).

    Ziel der Arbeit ist es, mit Graphen aus OpenStreetMap ein Luftschadstoffmodell zu bauen.

    Betreuer: Michael Steininger

    Vorhersage von Bodeneigenschaften mit Generative Adversarial Networks

    Semi-supervised regression using GANs

    In vielen Anwendungsfällen von maschinellem Lernen ist es kostenintensiv und aufwendig Labels für große Mengen von Daten zu generieren. So müssen zum Beispiel bei Bodenmessungen tiefe Bohrungen durchgeführt werden, um die Zusammensetzung der Erde festzustellen. In solchen Fällen können Algorythmen verwendet werden, die aus einer relativ kleiner Anzahl an Beispielen mit Labels sowie einer großen Menge an ungelabelten Daten lernen (semi-supervised learning). Bei Klassifikationsaufgaben können dafür die sog. Generative Adversial Networks (GANs) benutzt werden, indem zwei neuronale Netze darauf trainiert werden neue Beispiele zu generieren. Dieser Ansatz wurde jedoch für Regressionaufgaben erst wenig untersucht.

    Ziel der Arbeit ist es verschiedene GAN Modelle für die Vorhersage von Bodeneigenschaften anzuwenden und anhand dieser Aufgabe zu evaluieren und analysieren.

    Betreuer: Andrzej Dulny

    Performanceevaluation von neuronalen Netzen in Klimamodellen mit GPU-Beschleunigung

    Im Bereich der Klimawissenschaften finden Methoden des Machine Learnings immer mehr Anwendung. Unter anderem arbeiten wir in diesen Zusammenhang an den Betrieb von Klimamodellen zusammen mit neuronalen Netzen, um die Klimavorhersagen weiter zu verbessern. In diesen Zuge müssen Daten aus dem Klimamodell in ein fertig trainiertes Netz gegeben werden und die Ergebnisse wieder zurück in das Klimamodell geladen werden. In diesem Kontext stellt sich die Frage inwiefern für diesen Betriebsmodus Grafikkartenbeschleunigung die Performance verbessert im Vergleich zur reinen Berechnung auf CPUs. In diesem Zusammenhang muss in den bestehenden Code für CPU Berechnung des Netzes GPU Beschleunigung eingebaut werden und die Performance der Ansätze verglichen und analysiert werden.

    Betreuer: Michael Steininger

    Korrektur wechselseitiger Abhängigkeiten von Features

    Innerhalb des we4bee Projekts wurden Bienenstöcke mit Sensoren ausgestattet und an vornehmlich Bildungseinrichtungen verteilt. Ziel des Projekts ist es das Leben und Verhalten von Bienen zu analysieren.

    Einige dieser Sensoren weisen gegenseitige Abhängigkeiten auf und beeinflussen so die Messgrößen von anderen Sensoren. Prominentes Beispiel ist die Temperaturabhängigkeit der Waage in den Bienenstöcken. Ziel dieser Arbeit ist es, Modelle zu entwickeln und gegeneinander zu evaluieren und diese wechselseitigen Abhängigkeiten zu korrigieren.

    Betreuer/Ansprechpartner: Padraig Davidson

    (Deep)Clustering von Bienendaten

    Innerhalb des we4bee Projekts wurden Bienenstöcke mit Sensoren ausgestattet und an vornehmlich Bildungseinrichtungen verteilt. Ziel des Projekts ist es das Leben und Verhalten von Bienen zu analysieren.

    Ziel dieser Arbeit ist es, unsupervised Clusteringverfahren im Hinblick auf ihre Qualität zur Gruppierung von Daten aus Bienenstöcken zu analysieren. Diese Cluster können dann als Vorsortierung zur Erstellung eines annotierten Datensatzes in Zusammenarbeit mit der Biologie genutzt werden.

    Betreuer/Ansprechpartner: Padraig Davidson

    Vergleich von Samplingstrategien schief verteilter Klassen

    Im Bereich der Klassifikation von Daten, im speziellen Sensordaten, sind die Häufigkeiten der Labels sehr schief verteilt. Labels einer Klasse, die häufig mit Normalverhalten assoziiert wird, können teilweise 98% der Daten ausmachen. Dieser Umstand hat zur Folge, dass das einfache Vorhersagen dieser Klasse in 98% Accuracy resultiert und es Algorithmen sehr schwierig macht mit den wenigen Labels der verbleibenden Klassen sinnvolle Mappings lernen zu können.

    Ziel dieser Arbeit (MA/MAP) ist es, verschiedene Strategien zur Auflösung dieser Umstände bezüglich ihrer Eigenschaften zu analysieren und in Experimenten zu belegen. Besonderes Augenmerk soll dabei auf semi-supervised und semi-unsupervised Verfahren gelegt werden.

    Betreuer/Ansprechpartner: Padraig Davidson

    Semi-(un)supervised Learning mit vortrainierten Netzen

    In der Bildklassifikation und im Bereich des NLP gibt es eine Vielzahl vortrainierter Netze. Bei Bildern zählen VGG und ResNET in ihren verschiedenen Ausprägungen zu den Bekanntesten.

    Ziel dieser Arbeit (BA/MAP) ist es, vortrainierte Netze im Bereich des semi-supervised und semi-unsupervised learnings zu analysieren. Das bedeutet, dass innerhalb der Klassifikation nur sehr wenige Labels für jede Klasse (semi-supervised) oder für manche Klassen gar keine (semi-unsupervised) zur Verfügung stehen. Es sollen dabei einige bekannte Netze untereinander verglichen werden, mit besonderem Augenmerk auf die erzielte Genauigkeit bei reduzierter Labelanzahl und Anzahl der Operationen, die für das Nachtraining nötig sind.

    Betreuer/Ansprechpartner: Padraig Davidson