Rahm, E. ; Härder, T.

Editorial

Datenbankspektrum 19(1)

2019 / 03

Paper

Futher information: https://rd.springer.com/article/10.1007%2Fs13222-019-00310-1

Abstract

Das Schwerpunktthema dieser Ausgabe widmet sich ausgewählten Forschungsergebnissen des seit 2014 bestehenden BMBF-geförderten Big-Data-Kompetenzzentrums ScaDS (Competence Center for Scalable Data Services and Solutions) Dresden/Leipzig. Hierzu beinhaltet das Themenheft einen einleitenden Überblicksartikel sowie vier Artikel zu spezielleren Ergebnissen.

Im ersten Beitrag Big Data Competence Center ScaDS Dresden/Leipzig: Overview and selected research activities erläutern die neun Autoren von der Universität Leipzig und der TU Dresden die wesentlichen Forschungs- und Anwendungsgebiete von ScaDS und präsentieren zudem bereits einzelne Ergebnisse zu Themen, die in den nachfolgenden Artikeln nicht im Fokus stehen, u. a. zur Anreicherung sowie der holistischen Integration von Daten. Generell wird im ScaDS Dresden/Leipzig ein breites Themenspektrum in der Big-Data-Forschung und deren Anwendungsgebieten adressiert, wobei mehrere prototytpische Systemlösungen entstanden, u. a. zur auf große Datenmengen skalierbaren Datenintegration sowie zur Analyse von Graphdaten (Gradoop-System).

Der nachfolgende Artikel Large-Scale Time Series Analytics – Novel Approaches for Generation and Prediction der Autoren M. Hahmann, C. Hartmann, L. Kegel und W. Lehner von der TU Dresden widmet sich der Datenanalyse großer Zeitreihen. Ein Schwerpunkt ist dabei die Gewinnung von Zeitreihen aus bestehenden Daten, z. B. um ein System gezielt evaluieren zu können. Neben der Vorstellung bekannter, meist domänen-spezifischer Ansätze für eine derartige Generierung von Zeitreihen, wird ein domänen-übergreifend nutzbarer Ansatz vorgeschlagen, der auf statistischen Eigenschaften der vorliegenden Daten basiert. Der zweite Teil des Aufsatzes widmet sich der Vorhersage künftiger Zeitreihenereignisse. Hierzu wird der sogenannte CSAR-Ansatz vorgestellt, der auch bei unvollständigen bzw. fehlerhaften Eingabedaten anwendbar ist.

Der Beitrag ScaDS Research on Scalable Privacy-preserving Record Linkage der Leipziger Autoren M. Franke, M. Gladbach, Z. Sehili, F. Rohde und E. Rahm stellt Forschungsergebnisse zur Privacy-bewahrenden Datenintegration vor, z. B. um patientenbezogene Informationen aus verschiedenen Datenquellen unter Wahrung des Datenschutzes für eine verbesserte Datenanalyse zu kombinieren. Hierzu erfolgt eine Kodierung personenidentifizierender Attributwerte wie Name und Geburtsdatum durch Bitvektoren, welche durch eine vertrauenswürdige Instanz, einer sogenannten Linkage Unit, für das Erkennen übereinstimmender Personen abgeglichen werden. Die Autoren stellen insbesondere neue Ansätze zur Skalierung dieser Linkage-Ansätze vor, bei denen ein paralleles Linkage auf einem Hadoop-Cluster mit Apache Flink erfolgt und die Anzahl der Vergleiche von Bitvektoren durch Blocking- und Filter-Ansätze stark reduziert wird. Als besonders effektiv stellt sich dabei ein Blocking auf Basis von Locality-sensitive Hashing (LSH) heraus.

Der Big-Data-Anwendungsbereich Digital Humanities steht im Fokus des Artikels A Big Data Case Study in Digital Humanities: Creating a Performance Benchmark for Canonical Text Services von G. Heyer und J. Tiepmar von der Universität Leipzig. Die Autoren erläutern die Realisierung des sogenannten CTS-Dienstes (Canonical Text Services), mit dem bestimmte Textbereiche in hierarchisch strukturierten Dokumenten mit einer permanenten Referenz versehen werden können, um damit genaue Annotationen und Querverweise zu ermöglichen. Zudem wird die Leistungsfähigkeit der Implementierung analysiert.

Der letzte Beitrag BIGGR: Bringing Gradoop to Applications der Leipziger Autoren M.A. Rostami, M. Kricke, E. Peukert, S. Kühne, M. Wilke, S. Dienst und E. Rahm beschreibt die Ergebnisse des ScaDS-assoziierten BIGGR-Projektes, um das an der Universität Leipzig entwickelte, verteilte Graphanalysesystem Gradoop in die Analyseplattform Knime zu integrieren, um damit eine breitere Nutzung zu ermöglichen. Die realisierte Lösung erlaubt die visuelle Definition von Analyse-Workflows unter Nutzung der Gradoop-Operatoren zur Transformation und Analyse von Graphdaten (z. B. sozialen oder bibliographischen Netzen). Für die Auswertung großer Datenmengen können die Gradoop-Operatoren verteilt auf einem Cluster mit Apache Flink ausgeführt werden. Zudem werden unterschiedliche Ansätze zur Visualisierung von Graphen und Analyseergebnissen unterstützt.