Skip to main content

User account menu

  • Log in
DBS-Logo

Database Group Leipzig

within the department of computer science

ScaDS-Logo Logo of the University of Leipzig

Main navigation

  • Home
  • Study
    • Exams
      • Hinweise zu Klausuren
    • Courses
      • Current
    • Modules
    • LOTS-Training
    • Abschlussarbeiten
    • Masterstudiengang Data Science
    • Oberseminare
    • Problemseminare
    • Top-Studierende
  • Research
    • Projects
      • Benchmark datasets for entity resolution
      • FAMER
      • HyGraph
      • Privacy-Preserving Record Linkage
      • GRADOOP
    • Publications
    • Prototypes
    • Annual reports
    • Cooperations
    • Graduations
    • Colloquia
    • Conferences
  • Team
    • Erhard Rahm
    • Member
    • Former employees
    • Associated members
    • Gallery

Big Data Praktikum

Breadcrumb

  • Home
  • Study
  • Sommersemester 2018
  • Big Data Praktikum

Modul

  • Big Data Praktikum

Semester

Sommersemester 2018

Dozenten

  • Dr. Martin Franke
  • Gladbach, M.
  • Ziad Sehili
  • Martin Grimmer
  • Kricke, Matthias
  • Dr. Christopher Rost
  • Johannes Zschache
  • Dr. Victor Christen
  • Alkhouri, Georges
  • Dr. Eric Peukert
  • Wilke, Moritz
  • Die Anmeldung zum Praktikum erfolgt über Almaweb.
    • Bei Fragen und Problemen zur Anmeldung wenden Sie sich bitte immer an das Studienbüro via einschreibung(at)math.uni-leipzig.de

Teilnehmerkreis

Master-Studiengänge Informatik. Die Teilnahme erfolgt in 2-3-er Gruppen, die Teilnehmerzahl ist beschränkt (20 Studenten). Bei zu großer Teilnehmerzahl erfolgt die endgültige Vergabe der Praktikumsplätze während der Einführungsveranstaltung. Zu beachten ist, dass Studenten, die das Big Data Praktikums noch nicht belegt haben, bevorzugt werden.

Termine/Testate

  • Einführungsveranstaltung mit Gruppeneinteilung: Mo 23.04, 11:15 Uhr, Raum S314 (Seminargebäude) Folien
  • Vorbesprechung: Erstes Treffen für die Konkretisierung des Themas und die ersten Schritte - Terminabsprache individuell mit Betreuer.

Das Praktikum gliedert sich in drei Teile. Nach jeder der drei Teilaufgaben wird ein Testat durchgeführt. Zum erfolgreichen Absolvieren des Praktikums müssen alle drei Testate erfolgreich abgelegt werden. Wird ein Termin nicht eingehalten, verfallen die bereits erbrachten Teilleistungen. Die konkreten Termine für Testat 1+2 sind mit dem Betreuer per E-Mail zu vereinbaren. Alle Gruppenmitglieder müssen zu den Testaten anwesend sein und Fragen zum Thema beantworten können.

  • Testat 1: Ende Mai
  • Testat 2: Mitte/Ende Juli
  • Testat 3: 06.08.2018 ab 13:30 Uhr Raum P502

Übersicht

Das Praktikum beinhaltet den Entwurf und die Realisierung einer Anwendung oder eines Algorithmus, die mithilfe der existierenden Big Data Frameworks wie. z.B. Hadoop, Spark, Flink oder Gradoop erstellt werden sollen. Die resultierende Anwendung soll in einer Clusterumgebung ausführbar sein. Im einzelnen sind folgende Teilaufgaben zu lösen:

  1. Konzeptioneller Entwurf Es ist ein Entwurfsdokument anzufertigen, welches konzeptionell den Ablauf und die Architektur ihrer Anwendung darstellt. Diesbezüglich sollen Sie beschreiben wie Sie die jeweiligen Frameworks nutzen. Das Dokument soll sich vom Umfang auf 2-4 Seiten beschränken.
  2. Implementierung Basierend auf ihrem Entwurf soll die Anwendung realisiert werden und in einem von uns zur Verfügung gestellten GitHub-Repository versioniert werden. Das Resultat dieser Phase ist ein dokumentiertes, ausführbares Programm.
  3. Abschlusspräsentation Am Ende des Praktikums stellt jede Gruppe ihr Projekt vor, wobei sie ihre Anwendung beschreibt sowie die Resultate präsentiert. Die Präsentation soll nicht mehr als 15 Minuten gehen.

Themen

NrThemaBetreuerStudentenFramework/Programmiermodell
1PPRL: Analyzing different BitSet Implementations for Bloom-Filter-based PPRLFranke[redacted]Java / Apache Flink
2PPRL: Analyzing different lengths of Bloom FiltersGladbach[redacted]Java / Apache Flink
3PPRL: Analyzing XOR-Folding for Bloom FiltersSehili Java / Apache Flink
4OSTMap: Efficient Termindex for Twitter Data and Trend VisualizationGrimmer Java / Apache Flink / Apache Accumulo / JavaScript
5OSTMap: Sentiment Analysis for Twitter DataKricke[redacted]Java / Apache Flink / Apache Accumulo / JavaScript
6Creation and visualization of temporal graphsRost[redacted]Java / Apache Flink / Gradoop / JavaScript
7Polyglot DBZschache[redacted]Java, MongoDB, Neo4j
8Bolt-on causal consistencyZschache[redacted]JavaScript, CouchDB, PouchDB
9Deep Walk and Paragraph Vector on TwitterChristen[redacted]DeepLearning4j
10Distributed FastText on TensorFlowAlkhouri[redacted]TensorFlow
11Farberkennung von ProduktenPeukert[redacted]TesorFlow
12Analysis of the BitCoin-BlockchainPeukert[redacted]Java / Apache Flink / Gradoop
13Webgraph AnalysisWilke[redacted]Java / Apache Flink / Gradoop / (JavaScript)

Erwartete Vorkenntnisse

  • Kenntnisse der Sprache Java sind hilfreich
  • Kenntnisse bzgl. Big Data Framework aus den Vorlesungen Cloud Data Management oder NoSQL
  • UNIX-Kenntnisse von Vorteil
  • Git-Kenntnisse von Vorteil

Recent publications

  • 2025 / 8: Slice it up: Unmasking User Identities in Smartwatch Health Data
  • 2025 / 6: SecUREmatch: Integrating Clerical Review in Privacy-Preserving Record Linkage
  • 2025 / 5: Federated Learning With Individualized Privacy Through Client Sampling
  • 2025 / 3: Assessing the Impact of Image Dataset Features on Privacy-Preserving Machine Learning
  • 2025 / 3: Automated Configuration of Schema Matching Tools: A Reinforcement Learning Approach

Footer menu

  • Directions
  • Contact
  • Impressum