Data Science and Artificial Intelligence
Data Science (DS) und Künstliche Intelligenz (KI; eng.: AI) sind bereits seit über 20 Jahren integraler Bestandteil der Forschung am Institut für Informatik der JMU Würzburg. In den nächsten Jahren wird mit dem in Gründung befindlichen Zentrum CAIDAS dieser Bereich massiv ausgebaut werden. Es ist zu erwarten, dass alle wesentlichen Themen von KI und DS in Zukunft intensiv beforscht werden und sich somit für die gesamte Universität einen zentralen Schwerpunkt bilden.
Die stetige Weiterentwicklung von Computerhardware und die daraus resultierende gestiegene Leistungsfähigkeit kombiniert mit neuen Methoden hat zu wesentlichen Durchbrüchen im Bereich des Maschinellen Lernens, einem Teilgebiet der KI, geführt. Diese erlauben den Umgang mit sehr großen häufig verrauschten Daten ganz unterschiedlichen Typs. Mittels Deep Learning werden nicht nur typische Anwendungsaufgaben besser gelöst, sondern auch neue Repräsentationen aus Daten als Basis für weitere ML und Statistik-Methoden extrahiert. Unter dem Druck der stetig wachsenden Datenmenge hat sich die neue Wissenschaft rund um Daten, genannt Data Science, aus dem eher industriegetriebenen Gebiet Data Mining an der Schnittstelle zu ML entwickelt, und ist dabei eng mit KI und Statistik verbunden. Dabei spielt nicht nur die Bewältigung der Datenmengen eine Rolle, sondern auch der Umgang mit verschiedenen Datentypen, die in vielen Bereichen in Wissenschaft und Wirtschaft auftauchen.
Zentrale Forschungsfragen und Ziele rund um Data Science und Künstliche Intelligenz:
- Wie kann ich mit großen Datenmengen effektiv umgehen, diese automatisiert analysieren und neue Muster erkennen?
- Wie kann menschliches Wissen digital repräsentiert, ergänzt und konsolidiert werden?
- Wie gelingt das Zusammenspiel verschiedener Datentypen, insbesondere Zeit?
- Lernen von interpretierbaren, semantischen Repräsentationen, z.B. für Bilddaten?
- Vorhersagen von unbekannte Ereignisse in komplexen Anwendungssystemen?
- Welche Herausforderungen gibt es beim Transfer in neue Anwendungsfelder?
- Wie erschließt man neuen Anwendungsfelder, beispielsweise im medizinischen Bereich?
- Wie interagieren Maschine und Mensch miteinander?
- Welche gesellschaftlichen Auswirkungen haben die entwickelten neuen Methoden unter der Nutzung aktuellster Technik?
Eine Herausforderung in den nächsten Jahren ist das Schließen der Lücke zwischen symbolischen und subsymbolischen Daten. Dazu wird beispielsweise mehr Information und Wissen durch Knowledge Graphen in mittels Deep Learning gelernter Repräsentationen integriert bzw. mit diesen kombiniert werden. Auf der anderen Seite nutzt man Machine Learning Ansätze, um Wissensgraphen zu erweitern. Auf der Basis solcher verbesserten Modelle werden dann typische Downstream-Task z.B. in den Bereichen NLP, Bild und Video-Verarbeitung aber auch bei Modellbildung aus strukturierten Daten besser gelöst und so der Forschungsfortschritt gezeigt.
Das Institut für Informatik hat aktuell Schwerpunkte rund um DS und KI im Bereich des Text Mining, Natural Language Processing und der digitalen Erschließung (OCR, OMR) mittels Deep Learning u.a. auch unter Nutzung von formalem Wissen. Es bestehen auch eine Reihe von Industriekooperationen im Bereich Wissensverarbeitung, Recommender, Process-Maintenance, aber auch mit anderen Wissenschaften in den Bereichen Geographie, Digital Humanities, Biologie und Medizin.
Die wissenschaftlichen Bereiche von Data Science und KI gliedern sich am Institut aktuell in die Bereiche Text, Wissen & Informationsextration, Bild & Nutzeranalyse und Anwendung (vgl. Abb. B.1) und umfassen:
- Modelle, Algorithmen und Methoden für DS, ML und KI
- ML und DS für Text, Bild und Videoverarbeitung sowie Kognitionsforschung
- Analyse von strukturierten Daten aus Datenbanken
- Wissensrepräsentation von Unternehmensdaten bis zum Semantic Web
- DS und KI für Anwendungen und Wissenschaftsbereiche
Hierbei eingesetzt Methoden beinhalten insbesondere Deep Learning für NLP, Bayesian Methods, Time Series Analysis, Genetische Algorithmen zur Kalibrierung von Simulationsmo- dellen, ML und Statistik Methoden wie Clustering, Klassifikation (z.B. SVM), Exceptional Pat- tern Mining und deklarative Konzepte (Anfragesprachen, Programmierung).