Vorlesung Data Mining in Datenbanken
Alexander Hinneburg
- Die Vorlesung beginnt am Mo. 17.10.2005, die erste Übung findet am Do. 20.10.2005 statt.
- Zeiten: Vorlesung Mo. 14:15-15:45, 3.04, Übung Do. 16:15-17:45, 3.31
Angesichts stark wachsender Datenmengen werden automatische Analyseverfahren immer wichtiger. Beispielsweise generieren kommerzielle Geräte wie Scannerkassen oder wissenschaftliche Instrumente wie Erdbeobachtungssatelliten immer größere Mengen von immer komplexeren Daten. Diese Daten enthalten potentiell wichtiges Wissen. Eine manuelle Analyse all dieser Daten übersteigt jedoch bei weitem die menschlichen Kapazitäten. Diese Vorlesung gibt einen Überblick über das vergleichsweise junge Forschungsgebiet 'Knowledge Discovery in Databases (KDD)' - deutsch: 'Wissensentdeckung in Datenbanken'. Das Gebiet befindet sich an der Schnittstelle von Statistik, maschinellem Lernen, sowie Datenbanksystemen und behandelt Methoden zur (semi-)automatischen Extraktion von gültigem, neuem und potentiell nützlichem Wissen aus großen Datenbanken. Es werden verschiedene Verfahren zur Analyse von relationalen Daten als auch von Daten mit räumlichem Bezug dargestellt. Insbesondere: Klassifikation, Regression, Assozationsregeln, Clusteranalyse, Erkennen von Abweichungen/Ausreissern und Trenderkennung.
Die Vorlesung wird sich stark an die neue Auflage des Buches Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) Ian H. Witten, Eibe Frank, Morgan Kaufmann, June 2005, 525 pages, ISBN 0-12-088407-0 anlehnen. In den Übungen wird die WEKA Data Mining Suite in Verbindung mit dem DBMS Oracle verwendet werden.
Um den Schein der Vorlesung zu erwerben, müssen 50% der Punkte in den Übungen erreicht werden und die Klausur am Ende der Vorlesung bestehen. Sie können als Gruppe bis max. 3 Personen abgeben.
Wenn Sie sich über die Veranstaltung prüfen lassen wollen, wird der Stoff aus Vorlesung und Übung relevant sein, d.h. wenn Sie nur die Vorlesung können, haben Sie nur die Hälfte des Wissens. Wirtschaftinformatiker können 6 Leistungspunkte erwerben.
- 17.10. Einleitung, Folien 1:1, 4:1, Übungsblatt 1 (Abgabe am 20.10.05)
- 24.10. Ein- und Ausgabe, Folien 1:1, 4:1, Übungsblatt 2 (Abgabe am 27.10.05), Iris-Daten für Oracle, Musterloesung, GNU Plot Anweisungen, Musterlösung 2
- Übungsblatt 3 (Abgabe am 3.11.05), genes-leukemia.csv, Beschreibung, Musterlösung 3
- 31.10. Reformationstag
- 7.11. Einfache Regeln, Naïve Bayes, Entscheidungsbäume, Folien: Teil a 1:1,4:1, Teil b 1:1, 4:1, Übungsblatt 4 (Abgabe am 17.11.05), Musterlösung 4, ALL_AML_original_data.zip, Todd Golub et. al: Molecular Classification of Cancer: Class Discovery and Class Prediction by Gene Expression Monitoring., Musterlösung 4
- 14.11. Entscheidungsregeln, Assoziationsregeln, Folien: 1:1, 4:1, Übungsblatt 5 (Abgabe am 24.11.05), Musterlösung 5
- 21.11. Lineare Modelle, Instanzbasiertes Lernen, Folien: 1:1, 4:1, Übungsblatt 6 (Abgabe am 1.12.05), Musterlösung 6
- 28.11. Clustering, Folien: 1:1, 4:1, Übungsblatt 7 (Abgabe am 8.12.05), vorlesung_id.txt, vorlesung_interesse.txt, Musterlösung 7, Lösung Hübenthal, Ante, Zeidler
- 5.12. Evaluation, Folien Teil a: 1:1, 4:1, Folien Teil b: 1:1, 4:1,Übungsblatt 8 (Abgabe am 15.12.05), Musterlösung 8
- 12.12. Lineare Algebra für Data Mining
- 19.12. Lineare Algebra für Data Mining
- Übungsblatt 9 (Abgabe am 12.1.06), ALL_AML_grow.train.norm.csv, Hinrich Schütze zu Single-Link, Complete-Link & Average-Link Clustering, Probabilistic Analysis of the RNN-CLINK Clustering Algorithm
- 9.1. Statistik für Data Mining
- 16.1. Lineare Modelle, Support Vector Machines, Folien: 1:1, 4:1
- 19.1. Vorlesung statt Übung: Bayes-Netze, Folien: 1:1, 4:1
- 23.1. Clustering, EM Algorithmus, Folien: 1:1, 4:1
- 26.1. Vorlesung statt Übung: Clustering II, EM Algorithmus fuer Texte, Spectral Clustering, Folien: 1:1, 4:1
- 30.1.Finden von häufigen Teilstrukturen, Folien: 1:1, 4:1
- 2.2. Klausur