By dbsa |

Allgemeine Hinweise

Arbeitsumgebung

Für die Bearbeitung der Aufgaben wird das Microsoft SQL Server DataTool innerhalb von Visual Studio verwendet. Dies ist auf wdiserv3.informatik.uni-leipzig.de installiert, welcher über eine Remote Desktop Verbindung erreichbar. Diesbezüglich müssen Sie sich im VPN der Universität befinden (siehe Anleitung) auch wenn Sie bereits mit eduroam verbunden sind. Den Login für die INFORMATIK-Domäne für die Remote-Desktop-Verbindung auf den entsprechenden Server erhalten Sie in der Einführungsveranstaltung.

Um die Domäne für Remotedesktopverbindung anzugeben, verwenden Sie folgendes Muster für den Benutzernamen INFORMATIK\dwhprakXX

Speichern Sie bitte die Projektdateien bitte in ihrem Home-Verzeichnis ab und nicht lokal.

Aufgaben und Testate

1. Aufgabe: Datenimport

  • Erstellen eines Integration Services Projects(Erstellung über die Suche) für den Import der XML- und CSV-Daten inklusive Aufbereitung der Daten
    • Jede Datenquelle ist separat zu speichern, z.B. dbplpauthor, acmauthor.
    • Das Datenbankschema soll in 2. NF vorliegen.
  • Ergebnisse:
    • SSIS-Pakete zur
      • Speicherung aller Daten der CSV- und XML-Dateien in der Datenbank
      • Extraktion von Autoren, Venue und Jahr bei Google Scholar
  • Inhalt des Testats:
    • Vorführung der Pakete mit Erläuterung

2. Aufgabe: Data Cleaning

  • Data Cleaning, d.h. Objektkonsolidierung, Datennormalisierung, Ableitung neuer Attribute
  • Ergebnisse:
    • SSIS-Projekt mit Paketen zur
      • Objektkonsolidierung
      • Vereinheitlichung der Insitutionsnamen
      • Erkennung von Selbstzitierung
  • Inhalt des Testats
    • Ausführung und Diskussion der Data-Cleaning-Schritte hinsichtlich Performanz und Datenqualität

3. Aufgabe: OLAP und Data Mining

  • Definition und Erstellung eines Data Cubes, inklusive OLAP-Analysen und MDX-Anfragen
  • Anwendung eines Data-Mining-Algorithmus
  • Ergebnisse:
    • PDF-Datei mit Aufbau des Data-Warehouse-Schemas (Dimensions- und Faktentabellen mit allen Attributen)
    • SSIS-Projekt zur Befüllung der Dimensions- und Faktentabellen
    • SSAS-Projekt zur Erstellung des Data Cubes
    • SSRS-Projekt mit Report-Dateien der MDX-Anfragen und ihren Ergebnissen (insbesondere Diagramm)
  • Inhalt des Testats:
    • Ausführung der MDX-Anfragen
    • Interaktive OLAP-Analyse basierend auf dem Cube
    • Interpretation des Ergebnisses der Data-Mining-Algorithmus