Skip to main content

User account menu

  • Log in
DBS-Logo

Database Group Leipzig

within the department of computer science

ScaDS-Logo Logo of the University of Leipzig

Main navigation

  • Home
  • Study
    • Exams
      • Hinweise zu Klausuren
    • Courses
      • Current
    • Modules
    • LOTS-Training
    • Abschlussarbeiten
    • Masterstudiengang Data Science
    • Oberseminare
    • Problemseminare
    • Top-Studierende
  • Research
    • Projects
      • Benchmark datasets for entity resolution
      • FAMER
      • HyGraph
      • Privacy-Preserving Record Linkage
      • GRADOOP
    • Publications
    • Prototypes
    • Annual reports
    • Cooperations
    • Graduations
    • Colloquia
    • Conferences
  • Team
    • Erhard Rahm
    • Member
    • Former employees
    • Associated members
    • Gallery

Seminar Data Cleaning

Breadcrumb

  • Home
  • Study
  • Wintersemester 2006/07
  • Seminar Data Cleaning

Die Termine 23.01. und 30.01. finden im Seminargebäude Raum 3-05 um 13 Uhr statt.

Die ersten beiden Termine (9. und 16. Januar) fanden im Seminarraum 1-22 in der Johannisgasse 26 statt.

Termin und Ort

Einzelne Termine siehe Tabelle ‘Themen’.

  • Vorbesprechung: 17. Oktober 2006
  • Uhrzeit: dienstags 13:00 Uhr bis ca. 15 Uhr, statt; bei 3 Themen bis ca. 16:30 Uhr.
  • Ort: Seminargebäude 3-05

Inhaltsübersicht

Daten aus verschiedenen Datenquellen können u.a. falsche Werte, Inkonsistenzen sowie Duplikate enthalten. Data Cleaning beschäftigt sich daher mit der Säuberung von Daten, d.h. dem Erkennen und Korrigieren von Datenfehlern. Dazu gehören u.a. die Normalisierung von Daten in ein einheitliches Format (z.B. Personennamen), die Analyse von auffälligen Datenwerten (z.B. Geburtsjahr > 3000) oder das Erkennen gleicher Datensätze (z.B. doppelter Eintrag für gleiche Person).

Data Cleaning ist u.a. zentraler Bestandteil von Anwendungen zur Datenintegration (z.B. Data Warehouses). Der Qualität des durchgeführten Data Cleanings kommt eine entscheidende Bedeutung zu, da fehlerhafte Daten zu falschen Ergebnissen in den entsprechenden Anwendungen führen (garbage in, garbage out). Das Seminar gibt einen Überblick über die Teilgebiete des Data Cleanings und beleuchtet sowohl aktuelle Forschungsarbeiten als auch bestehende Tools zum Data Cleaning.

Teilnehmerkreis

Informatiker (Diplom / Bachelor / Master) im Hauptstudium

Erwartete Vorkenntnisse

  • DBS1
  • Data-Warehousing (von Vorteil)

Bedingungen für Scheinvergabe (pro Teilnehmer)

  • Selbständiger Vortrag mit Diskussion (25–30min)
  • Schriftliche Ausarbeitung (ca. 15 Seiten)
    • Ausarbeitung vom Betreuer abzunehmen
    • Ausarbeitung soll zum Vortragstermin vorliegen
  • Aktive Teilnahme an allen Vortragsterminen

Themen

NrThemaBetreuerBearnbeiterTerminTermin
0Einführung, Ablauf-E. Rahm17.10.06Folien
1Data Cleaning – Ein ÜberblickD. SosnaBjörn Dassow, Ronny Jäkel09.01.07Folien
2Normalisierung von DatenD. AumüllerFei Yuan, Shuangqing He09.01.07 
3Outlier-AnalyseM. HartungRegine Werner, Andreas Richter16.01.07 
4Ähnlichkeitsmaße zur DuplikaterkennungT. KirstenXiaoling Luo, Yiming Huang16.01.07 
5Object Matching in relationalen DatenH. KöpckeTino Schnerwitzki, Michael Maaß23.01.07 
6Object Matching in hierarchischen DatenA. ThorDoreen Seider, Enrico Tappert23.01.07 
7Bereinigung von Web-DatenD. AumüllerBo Peng, Chun Bao23.01.07 
8Data-Cleaning-FrameworksS. MaßmannZheng Li30.01.07 
9Data-Cleaning-Unterstützung in kommerziellen DBSA. WeikumQin Wang, Marcel Hoyer30.01.07 
10Evaluierungen/BenchmarksH. KöpckeThomas Weber, Renfei Zhang30.01.07 

Literatur

  • Hinweise zur schriftlichen Ausarbeitung
  • Relevante Literatur klassifiziert im Publication Categorizer on Data Cleaning.

Modul

  • Bachelorseminar Informatik
  • Masterseminar Informatik

Semester

Wintersemester 2006/07

Recent publications

  • 2025 / 8: Slice it up: Unmasking User Identities in Smartwatch Health Data
  • 2025 / 6: SecUREmatch: Integrating Clerical Review in Privacy-Preserving Record Linkage
  • 2025 / 5: Federated Learning With Individualized Privacy Through Client Sampling
  • 2025 / 3: Automated Configuration of Schema Matching Tools: A Reinforcement Learning Approach
  • 2025 / 3: Assessing the Impact of Image Dataset Features on Privacy-Preserving Machine Learning

Footer menu

  • Directions
  • Contact
  • Impressum