Vorlesung Web Data Mining
Alexander Hinneburg
- Die Vorlesung Web Data Mining findet ab Do. 10.5. um 10:15-11:45 wahrscheinlich in Raum 1.26. statt. Die Uebungen werden in der vorlesungsfreien Zeit als Block gehalten. Termin nach Absprache.
- Uebungsblock soll vom 20.8. bis 24.8. von 9-17 sein.
Web Mining dient zum Finden von nützlichen Informationen und Wissen aus Web-Hyperlink Stukturen, Inhalten von Web-Seiten sowie den Nutzungsdaten von Web-Seitenbesuchern. Es werden grundlegende Data Mining Techniken vorgestellt, aber auch viele spezielle Algorithmen, welche auf die semi- und unstrukturierte Natur von Web-Daten eingehen.
Vorlesungsthemen
- Data Mining Grundlagen
- Information Retrieval und Web-Suche
- Link Analyse
- Web Crawling
- Datenextraktion
- Information Integration
- Mining von Meinungen
- Mining von Web-Nutzung
Die Vorlesung wird sich stark an das Buches Web Data Mining, Exploring Hyperlinks, Contents and Usage Data Bing Liu, Springer, December, 2006, ISBN-10: 3-540-37881-2 anlehnen.
Um den Schein der Vorlesung zu erwerben, müssen beide Klausuren (Mitte und Ende) der Vorlesung bestehen.
Wenn Sie sich über die Veranstaltung prüfen lassen wollen, wird der Stoff aus Vorlesung und Übung relevant sein, d.h. wenn Sie nur die Vorlesung können, haben Sie nur die Hälfte des Wissens. Wirtschaftinformatiker können 6 Leistungspunkte erwerben.
- Einführung, Association Rules
- Association Rules 2
Übungsblatt 1, Apriory-Algorithmus,Wetterdaten,
Textdaten aus einer Newsgroup über Autosmit 1019 Dokumenten,Rohdaten zu den Texten mit Skripten, wenn Sie das Lemur-Paket installieren und die Pfade in webkdd.sh anpassen, koennen Sie andere Versionen der Dokumentdaten erzeugen
- Association Rules 3, Klassifikation Grundlagen, Entscheidungsbäume, Eval, Rule
Induktion
- Naive Bayes, Text Klassifikation, SVM, Ensembels
- Teilweise überwachtes Lernen, Labeled und unlabeled, Positive und unlabeled
- Information Retrieval, Boolean und Vektorspace Models, Inverted
Files, Duplikate finden mit LSH
- Link Analyse, PageRank und HITS,
Communities entdecken
- Wrapper Generation
- Opinion Mining
- Web Usage Mining