Die Termine 23.01. und 30.01. finden im Seminargebäude Raum 3-05 um 13 Uhr statt.
Die ersten beiden Termine (9. und 16. Januar) fanden im Seminarraum 1-22 in der Johannisgasse 26 statt.
Termin und Ort
Einzelne Termine siehe Tabelle ‘Themen’.
- Vorbesprechung: 17. Oktober 2006
- Uhrzeit: dienstags 13:00 Uhr bis ca. 15 Uhr, statt; bei 3 Themen bis ca. 16:30 Uhr.
- Ort: Seminargebäude 3-05
Inhaltsübersicht
Daten aus verschiedenen Datenquellen können u.a. falsche Werte, Inkonsistenzen sowie Duplikate enthalten. Data Cleaning beschäftigt sich daher mit der Säuberung von Daten, d.h. dem Erkennen und Korrigieren von Datenfehlern. Dazu gehören u.a. die Normalisierung von Daten in ein einheitliches Format (z.B. Personennamen), die Analyse von auffälligen Datenwerten (z.B. Geburtsjahr > 3000) oder das Erkennen gleicher Datensätze (z.B. doppelter Eintrag für gleiche Person).
Data Cleaning ist u.a. zentraler Bestandteil von Anwendungen zur Datenintegration (z.B. Data Warehouses). Der Qualität des durchgeführten Data Cleanings kommt eine entscheidende Bedeutung zu, da fehlerhafte Daten zu falschen Ergebnissen in den entsprechenden Anwendungen führen (garbage in, garbage out). Das Seminar gibt einen Überblick über die Teilgebiete des Data Cleanings und beleuchtet sowohl aktuelle Forschungsarbeiten als auch bestehende Tools zum Data Cleaning.
Teilnehmerkreis
Informatiker (Diplom / Bachelor / Master) im Hauptstudium
Erwartete Vorkenntnisse
- DBS1
- Data-Warehousing (von Vorteil)
Bedingungen für Scheinvergabe (pro Teilnehmer)
- Selbständiger Vortrag mit Diskussion (25–30min)
- Schriftliche Ausarbeitung (ca. 15 Seiten)
- Ausarbeitung vom Betreuer abzunehmen
- Ausarbeitung soll zum Vortragstermin vorliegen
- Aktive Teilnahme an allen Vortragsterminen
Themen
Nr | Thema | Betreuer | Bearnbeiter | Termin | Termin |
---|---|---|---|---|---|
0 | Einführung, Ablauf | - | E. Rahm | 17.10.06 | Folien |
1 | Data Cleaning – Ein Überblick | D. Sosna | Björn Dassow, Ronny Jäkel | 09.01.07 | Folien |
2 | Normalisierung von Daten | D. Aumüller | Fei Yuan, Shuangqing He | 09.01.07 | |
3 | Outlier-Analyse | M. Hartung | Regine Werner, Andreas Richter | 16.01.07 | |
4 | Ähnlichkeitsmaße zur Duplikaterkennung | T. Kirsten | Xiaoling Luo, Yiming Huang | 16.01.07 | |
5 | Object Matching in relationalen Daten | H. Köpcke | Tino Schnerwitzki, Michael Maaß | 23.01.07 | |
6 | Object Matching in hierarchischen Daten | A. Thor | Doreen Seider, Enrico Tappert | 23.01.07 | |
7 | Bereinigung von Web-Daten | D. Aumüller | Bo Peng, Chun Bao | 23.01.07 | |
8 | Data-Cleaning-Frameworks | S. Maßmann | Zheng Li | 30.01.07 | |
9 | Data-Cleaning-Unterstützung in kommerziellen DBS | A. Weikum | Qin Wang, Marcel Hoyer | 30.01.07 | |
10 | Evaluierungen/Benchmarks | H. Köpcke | Thomas Weber, Renfei Zhang | 30.01.07 |
Literatur
- Hinweise zur schriftlichen Ausarbeitung
- Relevante Literatur klassifiziert im Publication Categorizer on Data Cleaning.