Deutsch Intern
    Data Science Chair

    Data Mining

    Die Vorlesung gibt einen Überblick über die Wissensgewinnung aus (strukturierten) Daten. Dazu gehören unter anderem:

    • Vorverabeitungstechniken
    • OLAP-Analyse & Data-Warehousing
    • Clustering (k-means, k-medoids, DBSCAN, OPTICS)
    • Klassifikation (k-Nearest-Neighbor, Bayes, Entscheidungsbaum, Support Vector Machine; Bagging, Boosting, z. B. Random Forest, AdaBoost)
    • Regressionsanalyse (Linear Regression, Logistic Regression)
    • Assoziationsregellernen (Aprioiri, FP-Growth)
    • Einführung in Deep Learning

    Organisatorisches

    Bitte Beachten:

    Aufgrund der aktuellen Umstände wird die Vorlesung Data Mining auf Online-Lehre umgestellt. 
    Sie finden alle aktuellen Informationen der Veranstaltung auf WueCampus2.
    Bitte schreiben Sie sich über den obigen Link frühzeitig in WueCampus2 ein, um Zugriff auf den Kurs, aber auch E-Mails mit wichtigen Ankündigungen erhalten zu können. 

    • Vorlesung
      Die Vorlesung wird Mo, 10:15 - 11:45 über ZOOM gehalten. 
      Links zur Teilnahme an jedem Vorlesungstermin werden rechtzeitig in WueCampus2 bereitgestellt. Bitte stellen Sie sicher dass ZOOM auf Ihrem System funktioniert (siehe unten), damit Sie ohne Probleme an der Erstveranstaltung am 20.04. teilnehmen können.
      In der Erstveranstaltung werden wir einige Zeit damit verbringen die Technik des Systems zu testen, um einen korrekten Ablauf der kommenden Vorlesungen sicherzustellen, sowie alle wichtigen organisatorischen Informationen für den Ablauf des Semesters teilen.
    • Übungen
      Do, 14:15 - 15:45
      Do, 16:15 - 17:45
      Fr 14:15 - 15:45
      Der Übungsbetrieb wird auch über ZOOM stattfinden. Bitte stellen Sie für eine bessere Betreuung sicher, dass Sie eine Kamera zur Verfügung haben (ggf über Handy). Das genaue Übungsformat wird wie gehabt während der Erstveranstaltung bekanntgegeben.
    • Prüfung
      Es wird am Ende des Semesters eine Prüfung stattfinden. Form, Ablauf und genauer Zeitpunkt müssen allerdings noch erarbeitet werden, und werden baldmöglichst über WueCampus2 bekannt gegeben.
    • ZOOM
      ZOOM benötigt einen vorinstallierten Client. Ein Account wird zur Teilnahme allerdings nicht benötigt. ZOOM ist außerdem auch auf Android und IOS verfügbar. 
      (ZOOM funktioniert auch im Browser. Diese Variante können wir aber aufgrund der schlechteren Performance nicht empfehlen.)
    • Aktuelle Details werden im Ankündigungsforum des WueCampus2 Kurses geteilt.
      Bleiben Sie gesund!

    Literatur

    • Knowledge Discovery in Databases: Techniken und Anwendungen. Ester, Martin; Sander, Jörg. 1st ed. Springer Berlin Heidelberg, 2000.
    • CRISP-DM 1.0 Step-by-step data mining guide. Chapman, Pete; Clinton, Julian; Kerber, Randy; Khabaza, Thomas; Reinartz, Thomas; Shearer, Colin; Wirth, Rudiger. The CRISP-DM consortium, 2000.
    • Advances in Knowledge Discovery and Data Mining. Fayyad, Usama M.; Piatetsky-Shapiro, Gregory; Smyth, Padhraic; Uthurusamy, Ramasamy. AAAI/MIT Press, 1996.

    Weitere Literatur zur Vorlesung

    • Sequential minimal optimization: A fast algorithm for training support vector machines. Platt, J. 1998.
    • OPTICS: Ordering Points To Identify the Clustering Structure. Ankerst, Mihael; Breunig, Markus M.; peter Kriegel, Hans; Sander, Jörg. bll 49–60. ACM Press, 1999.
    • On End-to-End Program Generation from User Intention by Deep Neural Networks. Mou, Lili; Men, Rui; Li, Ge; Zhang, Lu; Jin, Zhi. In CoRR, abs/1510.07211. 2015.
    • Mining Frequent Patterns without Candidate Generation. Han, Jiawei; Pei, Jian; Yin, Yiwen. In SIGMOD Conference, W. Chen, J. F. Naughton, P. A. Bernstein (reds.), bll 1–12. ACM, 2000.
    • Maximum likelihood from incomplete data via the {EM} algorithm. Dempster, A. P.; Laird, N. M.; Rubin, D. B. In Journal of the Royal Statistical Society: Series B, 39, bll 1–38. 1977.
    • Experiments with a New Boosting Algorithm. Freund, Yoav; Schapire, Robert E. In International Conference on Machine Learning, bll 148–156. 1996.
    • Experimental evidence of massive-scale emotional contagion through social networks. Kramer, Adam D. I.; Guillory, Jamie E.; Hancock, Jeffrey T. In Proceedings of the National Academy of Sciences, 111(24), bll 8788–8790. 2014.
    • Data Science and Prediction. Dhar, Vasant. In Commun. ACM, 56(12), bll 64–73. ACM, New York, NY, USA, 2013.
    • Data Science and its Relationship to Big Data and Data-Driven Decision Making. Provost, Foster; Fawcett, Tom. In Big Data, 1(1), bll 51–59. Mary Ann Liebert Inc, 2013.
    • Clustering by means of medoids. Kaufman, Leonard; Rousseeuw, Peter J. I. D. Y; editor (reds.), bll 405–416. North Holland / Elsevier, Amsterdam:, 1987.
    • Bagging, Boosting, and C4.5. Quinlan, J. Ross. In AAAI/IAAI, Vol. 1, W. J. Clancey, D. S. Weld (reds.), bll 725–730. AAAI Press / The MIT Press, 1996.
    • Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications. Agrawal, Rakesh; Gehrke, Johannes; Gunopulos, Dimitrios; Raghavan, Prabhakar. In Proceedings of the ACM SIGMOD Int’l Conference on Management of Data, Seattle, Washington, bll 94–105. ACM Press, 1998.
    • A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei. In Proc. of 2nd International Conference on Knowledge Discovery and, bll 226–231. 1996.