Seminar Data Cleaning

Modul

Semester

Wintersemester 2006/07

Die Termine 23.01. und 30.01. finden im Seminargebäude Raum 3-05 um 13 Uhr statt.

Die ersten beiden Termine (9. und 16. Januar) fanden im Seminarraum 1-22 in der Johannisgasse 26 statt.

Termin und Ort

Einzelne Termine siehe Tabelle ‘Themen’.

Vorbesprechung: 17. Oktober 2006
Uhrzeit: dienstags 13:00 Uhr bis ca. 15 Uhr, statt; bei 3 Themen bis ca. 16:30 Uhr.
Ort: Seminargebäude 3-05

Inhaltsübersicht

Daten aus verschiedenen Datenquellen können u.a. falsche Werte, Inkonsistenzen sowie Duplikate enthalten. Data Cleaning beschäftigt sich daher mit der Säuberung von Daten, d.h. dem Erkennen und Korrigieren von Datenfehlern. Dazu gehören u.a. die Normalisierung von Daten in ein einheitliches Format (z.B. Personennamen), die Analyse von auffälligen Datenwerten (z.B. Geburtsjahr > 3000) oder das Erkennen gleicher Datensätze (z.B. doppelter Eintrag für gleiche Person).

Data Cleaning ist u.a. zentraler Bestandteil von Anwendungen zur Datenintegration (z.B. Data Warehouses). Der Qualität des durchgeführten Data Cleanings kommt eine entscheidende Bedeutung zu, da fehlerhafte Daten zu falschen Ergebnissen in den entsprechenden Anwendungen führen (garbage in, garbage out). Das Seminar gibt einen Überblick über die Teilgebiete des Data Cleanings und beleuchtet sowohl aktuelle Forschungsarbeiten als auch bestehende Tools zum Data Cleaning.

Teilnehmerkreis

Informatiker (Diplom / Bachelor / Master) im Hauptstudium

Erwartete Vorkenntnisse

DBS1
Data-Warehousing (von Vorteil)

Bedingungen für Scheinvergabe (pro Teilnehmer)

Selbständiger Vortrag mit Diskussion (25–30min)
Schriftliche Ausarbeitung (ca. 15 Seiten)
- Ausarbeitung vom Betreuer abzunehmen
- Ausarbeitung soll zum Vortragstermin vorliegen
Aktive Teilnahme an allen Vortragsterminen

Themen

Nr	Thema	Betreuer	Bearnbeiter	Termin	Termin
0	Einführung, Ablauf	-	E. Rahm	17.10.06	Folien
1	Data Cleaning – Ein Überblick	D. Sosna	Björn Dassow, Ronny Jäkel	09.01.07	Folien
2	Normalisierung von Daten	D. Aumüller	Fei Yuan, Shuangqing He	09.01.07
3	Outlier-Analyse	M. Hartung	Regine Werner, Andreas Richter	16.01.07
4	Ähnlichkeitsmaße zur Duplikaterkennung	T. Kirsten	Xiaoling Luo, Yiming Huang	16.01.07
5	Object Matching in relationalen Daten	H. Köpcke	Tino Schnerwitzki, Michael Maaß	23.01.07
6	Object Matching in hierarchischen Daten	A. Thor	Doreen Seider, Enrico Tappert	23.01.07
7	Bereinigung von Web-Daten	D. Aumüller	Bo Peng, Chun Bao	23.01.07
8	Data-Cleaning-Frameworks	S. Maßmann	Zheng Li	30.01.07
9	Data-Cleaning-Unterstützung in kommerziellen DBS	A. Weikum	Qin Wang, Marcel Hoyer	30.01.07
10	Evaluierungen/Benchmarks	H. Köpcke	Thomas Weber, Renfei Zhang	30.01.07

Literatur

Hinweise zur schriftlichen Ausarbeitung
Relevante Literatur klassifiziert im Publication Categorizer on Data Cleaning.

Database Group Leipzig

within the department of computer science