Deutsch Intern
    Data Science Chair

    Data Mining

    Die Vorlesung gibt einen Überblick über die Wissensgewinnung aus (strukturierten) Daten. Dazu gehören unter anderem:

    • Vorverabeitungstechniken
    • OLAP-Analyse & Data-Warehousing
    • Clustering (k-means, k-medoids, DBSCAN, OPTICS)
    • Klassifikation (k-Nearest-Neighbor, Bayes, Entscheidungsbaum, Support Vector Machine; Bagging, Boosting, z. B. Random Forest, AdaBoost)
    • Regressionsanalyse (Linear Regression, Logisitic Regression)
    • Assoziationsregellernen (Aprioiri, FP-Growth)
    • Einführung in Deep Learning

    Organisatorisches

    • Vorlesung:
      Di, 12:15 - 13:45
      Zuse
      Erster Veranstaltungstag: 25.04.2017
    • Übung:
      Do, 14:15 - 15:45
      Informatik - Übungsraum II
      Do, 16:15 - 17:45
      Informatik - Seminarraum 3
      Erster Veranstaltungstag: 04.05.2017
    • WueCampus-Kurs: Link zum Kurs
    • Anmeldung: Eine Anmeldung vor der ersten Vorlesung ist nicht nötig! Die genauen Einschreibemodalitäten werden in der ersten Vorlesungssitzung bekannt gegeben.
    • Prüfung SS 2017: 01.08.2017 um 12:30, Zuse (Studierende, die nicht Master Informatik studieren)
      07.08.-11.08.2017 mündliche Prüfungen (Master Studierende Informatik). Genaue Termin(e) TBA
      Anmeldung über sb@home
      Hinweis: Ab diesem Semester werden unterschiedliche Prüfungen für Bachelor- und Masterstudierende der Informatik angeboten.

    Literatur

    • Knowledge Discovery in Databases: Techniken und Anwendungen. Ester, Martin; Sander, Jörg. 1st ed. Springer Berlin Heidelberg, 2000.
    • CRISP-DM 1.0 Step-by-step data mining guide. Chapman, Pete; Clinton, Julian; Kerber, Randy; Khabaza, Thomas; Reinartz, Thomas; Shearer, Colin; Wirth, Rudiger. The CRISP-DM consortium, 2000.
    • Advances in Knowledge Discovery and Data Mining. Fayyad, Usama M.; Piatetsky-Shapiro, Gregory; Smyth, Padhraic; Uthurusamy, Ramasamy. AAAI/MIT Press, 1996.

    Weitere Literatur zur Vorlesung

    • Sequential minimal optimization: A fast algorithm for training support vector machines. Platt, J. 1998.
    • OPTICS: Ordering Points To Identify the Clustering Structure. Ankerst, Mihael; Breunig, Markus M.; peter Kriegel, Hans; Sander, Jörg. bll 49–60. ACM Press, 1999.
    • On End-to-End Program Generation from User Intention by Deep Neural Networks. Mou, Lili; Men, Rui; Li, Ge; Zhang, Lu; Jin, Zhi. In CoRR, abs/1510.07211. 2015.
    • Mining Frequent Patterns without Candidate Generation. Han, Jiawei; Pei, Jian; Yin, Yiwen. In SIGMOD Conference, W. Chen, J. F. Naughton, P. A. Bernstein (reds.), bll 1–12. ACM, 2000.
    • Maximum likelihood from incomplete data via the {EM} algorithm. Dempster, A. P.; Laird, N. M.; Rubin, D. B. In Journal of the Royal Statistical Society: Series B, 39, bll 1–38. 1977.
    • Experiments with a New Boosting Algorithm. Freund, Yoav; Schapire, Robert E. In International Conference on Machine Learning, bll 148–156. 1996.
    • Experimental evidence of massive-scale emotional contagion through social networks. Kramer, Adam D. I.; Guillory, Jamie E.; Hancock, Jeffrey T. In Proceedings of the National Academy of Sciences, 111(24), bll 8788–8790. 2014.
    • Data Science and Prediction. Dhar, Vasant. In Commun. ACM, 56(12), bll 64–73. ACM, New York, NY, USA, 2013.
    • Data Science and its Relationship to Big Data and Data-Driven Decision Making. Provost, Foster; Fawcett, Tom. In Big Data, 1(1), bll 51–59. Mary Ann Liebert Inc, 2013.
    • Clustering by means of medoids. Kaufman, Leonard; Rousseeuw, Peter J. I. D. Y; editor (reds.), bll 405–416. North Holland / Elsevier, Amsterdam:, 1987.
    • Bagging, Boosting, and C4.5. Quinlan, J. Ross. In AAAI/IAAI, Vol. 1, W. J. Clancey, D. S. Weld (reds.), bll 725–730. AAAI Press / The MIT Press, 1996.
    • Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications. Agrawal, Rakesh; Gehrke, Johannes; Gunopulos, Dimitrios; Raghavan, Prabhakar. In Proceedings of the ACM SIGMOD Int’l Conference on Management of Data, Seattle, Washington, bll 94–105. ACM Press, 1998.
    • A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei. In Proc. of 2nd International Conference on Knowledge Discovery and, bll 226–231. 1996.