Big Data Praktikum

Modul

Big Data Praktikum

Semester

Sommersemester 2018

Dozenten

Die Anmeldung zum Praktikum erfolgt über Almaweb.
- Bei Fragen und Problemen zur Anmeldung wenden Sie sich bitte immer an das Studienbüro via einschreibung(at)math.uni-leipzig.de

Teilnehmerkreis

Master-Studiengänge Informatik. Die Teilnahme erfolgt in 2-3-er Gruppen, die Teilnehmerzahl ist beschränkt (20 Studenten). Bei zu großer Teilnehmerzahl erfolgt die endgültige Vergabe der Praktikumsplätze während der Einführungsveranstaltung. Zu beachten ist, dass Studenten, die das Big Data Praktikums noch nicht belegt haben, bevorzugt werden.

Termine/Testate

Einführungsveranstaltung mit Gruppeneinteilung: Mo 23.04, 11:15 Uhr, Raum S314 (Seminargebäude) Folien
Vorbesprechung: Erstes Treffen für die Konkretisierung des Themas und die ersten Schritte - Terminabsprache individuell mit Betreuer.

Das Praktikum gliedert sich in drei Teile. Nach jeder der drei Teilaufgaben wird ein Testat durchgeführt. Zum erfolgreichen Absolvieren des Praktikums müssen alle drei Testate erfolgreich abgelegt werden. Wird ein Termin nicht eingehalten, verfallen die bereits erbrachten Teilleistungen. Die konkreten Termine für Testat 1+2 sind mit dem Betreuer per E-Mail zu vereinbaren. Alle Gruppenmitglieder müssen zu den Testaten anwesend sein und Fragen zum Thema beantworten können.

Testat 1: Ende Mai
Testat 2: Mitte/Ende Juli
Testat 3: 06.08.2018 ab 13:30 Uhr Raum P502

Übersicht

Das Praktikum beinhaltet den Entwurf und die Realisierung einer Anwendung oder eines Algorithmus, die mithilfe der existierenden Big Data Frameworks wie. z.B. Hadoop, Spark, Flink oder Gradoop erstellt werden sollen. Die resultierende Anwendung soll in einer Clusterumgebung ausführbar sein. Im einzelnen sind folgende Teilaufgaben zu lösen:

Konzeptioneller Entwurf Es ist ein Entwurfsdokument anzufertigen, welches konzeptionell den Ablauf und die Architektur ihrer Anwendung darstellt. Diesbezüglich sollen Sie beschreiben wie Sie die jeweiligen Frameworks nutzen. Das Dokument soll sich vom Umfang auf 2-4 Seiten beschränken.
Implementierung Basierend auf ihrem Entwurf soll die Anwendung realisiert werden und in einem von uns zur Verfügung gestellten GitHub-Repository versioniert werden. Das Resultat dieser Phase ist ein dokumentiertes, ausführbares Programm.
Abschlusspräsentation Am Ende des Praktikums stellt jede Gruppe ihr Projekt vor, wobei sie ihre Anwendung beschreibt sowie die Resultate präsentiert. Die Präsentation soll nicht mehr als 15 Minuten gehen.

Themen

Nr	Thema	Betreuer	Studenten	Framework/Programmiermodell
1	PPRL: Analyzing different BitSet Implementations for Bloom-Filter-based PPRL	Franke	[redacted]	Java / Apache Flink
2	PPRL: Analyzing different lengths of Bloom Filters	Gladbach	[redacted]	Java / Apache Flink
3	PPRL: Analyzing XOR-Folding for Bloom Filters	Sehili		Java / Apache Flink
4	OSTMap: Efficient Termindex for Twitter Data and Trend Visualization	Grimmer		Java / Apache Flink / Apache Accumulo / JavaScript
5	OSTMap: Sentiment Analysis for Twitter Data	Kricke	[redacted]	Java / Apache Flink / Apache Accumulo / JavaScript
6	Creation and visualization of temporal graphs	Rost	[redacted]	Java / Apache Flink / Gradoop / JavaScript
7	Polyglot DB	Zschache	[redacted]	Java, MongoDB, Neo4j
8	Bolt-on causal consistency	Zschache	[redacted]	JavaScript, CouchDB, PouchDB
9	Deep Walk and Paragraph Vector on Twitter	Christen	[redacted]	DeepLearning4j
10	Distributed FastText on TensorFlow	Alkhouri	[redacted]	TensorFlow
11	Farberkennung von Produkten	Peukert	[redacted]	TesorFlow
12	Analysis of the BitCoin-Blockchain	Peukert	[redacted]	Java / Apache Flink / Gradoop
13	Webgraph Analysis	Wilke	[redacted]	Java / Apache Flink / Gradoop / (JavaScript)

Erwartete Vorkenntnisse

Kenntnisse der Sprache Java sind hilfreich
Kenntnisse bzgl. Big Data Framework aus den Vorlesungen Cloud Data Management oder NoSQL
UNIX-Kenntnisse von Vorteil
Git-Kenntnisse von Vorteil

Database Group Leipzig

within the department of computer science

Modul

Semester

Dozenten

Recent publications