piwik-script

Intern
    Data Science Chair

    Security & Fraud

    The application and development of machine learning methods in the field of (network) security and fraud is an active field of research in the Data Science Chair. In the DeepScan project, we are developing methods to detect anomalies, ICT security incidents and fraudulent behaviour in business software. Other research projects are currently working on the detection of security incidents in corporate networks or on application layer.

    The following staff member have open topics for practica, bachelor and master theses:

    Fraud-Detection, Machine Learning for Computer-Security Daniel Schlör
    Explainable AI, Fraud-Detection Julian Tritscher

     

    In the case of excellent performance there is also the chance to submit the thesis as an article to a computer science conference and to be co-author on a scientific publication early in your studies!

    Open Topics:

    Explainable Fraud Detection

    Bei der Prüfung von Firmendaten auf Auffälligkeiten und Betrüge können Entscheidungen weitgehende finanzielle und rechtliche Konsequenzen haben. Für KI-basierte Anomalieerkennung ist deswegen die Nachvollziehbarkeit der Entscheidungsfindung wichtig. Im Rahmen dieser Arbeit soll ein existierendes Framework zur Erkennung von Betrügen in Unternehmensdaten um inhärent erklärbare KI Verfahren erweitert werden, und eine ausführliche Analyse der Performance und des Verhaltens der Ansätze druchgeführt werden. 

    Betreuer: Julian Tritscher

    Active Learning Dashboard for Fraud Detection

    Durch die Nutzung von Active Learning kann durch eine geeignete Auswahl an Instanzen die Qualität von Machine Learning Modellen trotz einer geringen Menge von Annotationen erheblich verbessert werden. Für die effiziente Annotation dieser Queries müssen dem Experten die Daten jedoch in einer geeigneten Darstellung präsentiert werden. Im Rahmen dieser Arbeit soll ein Active Learning System entwickelt werden, das durch eine Visualisierung verschiedener Datenaspekte als Dashboard Widgets dem Annotator eine übersichtliche Darstellung der Daten bietet. Das Thema kann in verschiedene Richtungen vertieft werden, beispielsweise hinsichtlich Active Learning Methoden für Outlier Detection, Deep Learning Modelle, Visualisierungsmethoden und Integration von Expertenwissen.

    Betreuer: Daniel Schlör

    Agent-based Simulation of Business Processes

    Für viele Anwendungen, wie Fraud Detection oder Process Monitoring werden Log-Daten von Geschäftsprozessen benötigt, um Modelle zu trainieren. Obwohl diese in modernen ERP Systemen automatisch aufgezeichnet und ausgewertet werden, und damit leicht zugänglich wären, gibt es kaum frei verfügbare Datensätze. Ausgehend von stark aggregierten Daten soll im Rahmen dieser Arbeit ein Simulationssystem entwickelt werden, das Geschäftsprozesse und deren Dokumentation simuliert und dadurch synthetische Daten generiert, die einer Abbildung realer Prozesse möglichst nahe kommen.

    Betreuer: Daniel Schlör

    Anomaly Detection and the modelling of normality

    Unter Anomaly Detection verstehen sich Data-Mining Methoden um seltene Ereignisse (Anomalien) zu finden, die sich vom Großteil der Daten unterscheiden.
    Mögliche Anwendungsgebiete sind:

    • (Network) Security
    • Fraud Detection
    • Fault Diagnosis
    • Novelty Detecting im Bereich Text-Mining

    Neben dem Finden von Anomalien ist die Modellierung des Normalzustands eine wichtige Teilaufgabe. Im Rahmen dieser Arbeit sollen verschiedene Verfahren zur Anomaly Detection und der Modellierung des Normalzustands in Bezug auf ein oder mehrere Anwendungsgebiete verglichen werden.

    Betreuer: Daniel Schlör

    Privacy in Neural Network Models

    Zum Training von Neuronalen Netzen werden häufig Datensätze verwendet, die aus Datenschutzgründen nicht veröffentlicht werden können. Trotzdem ist es wichtig die Modelle beispielsweise zur Reproduktion von Forschungsergebnissen oder im Kontext einer Anwendung verfügbar zu machen. In dieser Arbeit soll untersucht werden, in wieweit bei beispielsweise generativen Modellen aus dem trainierten Modell Informationen über die Trainingsdaten rückgewonnen werden können.

    Betreuer: Daniel Schlör