Die Termine 23.01. und 30.01. finden im Seminargebäude Raum 3-05 um 13 Uhr statt.

Die ersten beiden Termine (9. und 16. Januar) fanden im Seminarraum 1-22 in der Johannisgasse 26 statt.

Termin und Ort

Einzelne Termine siehe Tabelle ‘Themen’.

  • Vorbesprechung: 17. Oktober 2006
  • Uhrzeit: dienstags 13:00 Uhr bis ca. 15 Uhr, statt; bei 3 Themen bis ca. 16:30 Uhr.
  • Ort: Seminargebäude 3-05

Inhaltsübersicht

Daten aus verschiedenen Datenquellen können u.a. falsche Werte, Inkonsistenzen sowie Duplikate enthalten. Data Cleaning beschäftigt sich daher mit der Säuberung von Daten, d.h. dem Erkennen und Korrigieren von Datenfehlern. Dazu gehören u.a. die Normalisierung von Daten in ein einheitliches Format (z.B. Personennamen), die Analyse von auffälligen Datenwerten (z.B. Geburtsjahr > 3000) oder das Erkennen gleicher Datensätze (z.B. doppelter Eintrag für gleiche Person).

Data Cleaning ist u.a. zentraler Bestandteil von Anwendungen zur Datenintegration (z.B. Data Warehouses). Der Qualität des durchgeführten Data Cleanings kommt eine entscheidende Bedeutung zu, da fehlerhafte Daten zu falschen Ergebnissen in den entsprechenden Anwendungen führen (garbage in, garbage out). Das Seminar gibt einen Überblick über die Teilgebiete des Data Cleanings und beleuchtet sowohl aktuelle Forschungsarbeiten als auch bestehende Tools zum Data Cleaning.

Teilnehmerkreis

Informatiker (Diplom / Bachelor / Master) im Hauptstudium

Erwartete Vorkenntnisse

  • DBS1
  • Data-Warehousing (von Vorteil)

Bedingungen für Scheinvergabe (pro Teilnehmer)

  • Selbständiger Vortrag mit Diskussion (25–30min)
  • Schriftliche Ausarbeitung (ca. 15 Seiten)
    • Ausarbeitung vom Betreuer abzunehmen
    • Ausarbeitung soll zum Vortragstermin vorliegen
  • Aktive Teilnahme an allen Vortragsterminen

Themen

NrThemaBetreuerBearnbeiterTerminTermin
0Einführung, Ablauf-E. Rahm17.10.06Folien
1Data Cleaning – Ein ÜberblickD. SosnaBjörn Dassow, Ronny Jäkel09.01.07Folien
2Normalisierung von DatenD. AumüllerFei Yuan, Shuangqing He09.01.07 
3Outlier-AnalyseM. HartungRegine Werner, Andreas Richter16.01.07 
4Ähnlichkeitsmaße zur DuplikaterkennungT. KirstenXiaoling Luo, Yiming Huang16.01.07 
5Object Matching in relationalen DatenH. KöpckeTino Schnerwitzki, Michael Maaß23.01.07 
6Object Matching in hierarchischen DatenA. ThorDoreen Seider, Enrico Tappert23.01.07 
7Bereinigung von Web-DatenD. AumüllerBo Peng, Chun Bao23.01.07 
8Data-Cleaning-FrameworksS. MaßmannZheng Li30.01.07 
9Data-Cleaning-Unterstützung in kommerziellen DBSA. WeikumQin Wang, Marcel Hoyer30.01.07 
10Evaluierungen/BenchmarksH. KöpckeThomas Weber, Renfei Zhang30.01.07 

Literatur