By dbsa |

Innerhalb des Praktikums sollen Sie ein Data Warehouse erstellen, welches für Zitierungsanalysen wissenschaftlicher Publikationen nutzbar ist. Dazu wird im Folgenden zunächst Inhalt und Zweck von Zitierungsanalysen vorgestellt. Anschließend erfolgt eine Beschreibung der innerhalb des Praktikums verwendeten Datenquellen.

Zitierungsanalyse

Bei einer Zitierungsanalyse wird für wissenschaftliche Publikationen X die Anzahl derjenigen Publikationen Y bestimmt, die X zitieren. Diese Anzahl ist ein Indikator für den wissenschaftlichen Einfluss der Publikation X. Mit Hilfe der Zitierungszahl lassen sich sowohl einfache Rankings erstellen (Welche Publikationen wurden am häufigsten zitiert?) als auch komplexe Untersuchungen bezüglich Autoren, Institutionen, Venues (d.h. wo die Publikation erschienen ist) realisieren. Um einen Einblick in die möglichen Arten der Zitierungsanalyse zu erlangen, sei auf die Publikation Citation Analysis of Database Publications verwiesen, welche die Ergebnisse einer 2005 durchgeführten Zitierungsanalyse beschreibt.

Die zugrundeliegende Miniwelt ist im folgenden ER-Modell illustriert.

Image removed.

Die Entitäten Autoren und Publikationen sind durch die N:M-Beziehung “hat Autoren” verbunden sind. Zusätzlich ist jede Publikation einem Venue zugeordnet, welchem wiederum mehrere assoziierte Publikationen durch die 1:N-Relation “erschienen bei” hat.

Datenquellen

Innerhalb des Data-Warehouse-Praktikums stehen Ihnen Daten der folgenden drei Datenquellen zur Verfügung:

  • DBLP Bibliography ist eine manuelle gepflegte Website, die komplette Listen verschiedener Venues aus dem Informatik-Bereich enthält.
  • ACM Digital Library ist das Portal der Association for Computing Machinery, welche die wissenschaftliche Gesellschaft für Informatik in den USA ist. Es enthält ebenfalls komplette Listen verschiedener Venues.
  • Google Scholar ist eine Suchmaschine für wissenschaftliche Publikationen, welche nicht nur auf den Informatik-Bereich konzentriert ist.

Im Rahmen der Vorbereitung des Praktikums wurde eine ausgewählte Teilmenge der Daten heruntergeladen, die Ihnen in Form von CSV- und XML-Dateien im Verzeichnis \\informatik\pools\public\dwhprak\data zur Verfügung steht. Das Verzeichnis sollte als Netzlaufwerk eingebunden werden. In den folgenden Abschnitten werden sowohl Aufbau der Dateien als auch Eigenschaften der Datenquellen näher erläutert.

DBLP Bibliography (DBLP)

Der komplette Datenbestand von DBLP (Stand: Januar 2007) steht innerhalb mehrerer CSV-Dateien zur Verfügung. Die Felder der CSV-Dateien sind durch Tabulator getrennt. NULL-Werte, d.h. nicht definierte Felder, sind durch einen Leerstring charakterisiert. Die CSV-Dateien enthalten keine “Spaltenüberschriften”, so dass im Folgenden bei der Definition des Dateiaufbaus die Nummern der Spalten verwendet werden.

  • Author.csv (21MB)
    1. Id
    2. vollständiger Name
    3. Vorname(n)
    4. Familienname
    5. URL der Homepage
  • Publication.csv (87MB)
    1. Id
    2. DBLP-Code
    3. Titel
    4. Jahr der Veröffentlichung
    5. Startseite
    6. Endseite
  • VenueSeries.csv (0,1MB)
    1. Id
    2. Name
    3. Typ (z.B. “Conference” oder “Journal”)
  • Author_Publication.csv (28MB)
    1. Id der Publikation
    2. Id des Autoren
    3. Position des Autors in der Liste der Autoren (1=Erstautor, 2=Zweiautor, …)
  • VenueSeries_Publication.csv (9MB)
    1. Id der Venue-Serie
    2. Id der Publikation

Die Datenqualität der DBLP-Datenquelle ist sehr hoch. Sie enthält keine Duplikate bei Publikationen und Venues sowie fast keine bei den Autoren. Beachten Sie, dass alle Ids nur innerhalb von DBLP eindeutig sind.

ACM Digital Library (ACM)

Für das Praktikum wurden die Publikationen von fünf Venue-Serien heruntergeladen. Es handelt sich um die beiden Konferenzen VLDB und SIGMOD sowie um die drei Journals ACM Transactions on Database Systems (TODS), VLDB Journal und SIGMOD Record. Das XML-File (ACM.xml, 20MB) beinhaltet eine Menge von Publikationen, deren XML-Struktur am folgenden Beispiel illustriert wird (XML-Schema in ACM.xsd).

A survey of approaches to automatic schema matching http://portal.acm.org/ft_gateway.cfm?id=767154&type=pdf&coll=portal&dl=ACM&CFID=12950070&CFTOKEN=42563723 334 350 Volume 10 , Issue 4 (December 2001) The VLDB Journal — The International Journal on Very Large Data Bases Erhard Rahm Universität Leipzig, Institut für Informatik, 04109 Leipzig, Germany; (e-mail: rahm [at] informatik.uni-leipzig.de) Philip A. Bernstein Microsoft Research, Redmond, WA 98052-6399, USA; (e-mail: philbe [at] microsoft.com) Shanzhen Yi , Bo Huang , Weng Tat Chan, XML application schema matching using similarity measure and relaxation labeling, Information Sciences: an International Journal, v.169 n.1-2, p.27-46, 6 January 2005 David Aumueller , Hong-Hai Do , Sabine Massmann , Erhard Rahm, Schema and ontology matching with COMA++, Proceedings of the 2005 ACM SIGMOD international conference on Management of data, June 14-16, 2005, Baltimore, Maryland Simona Barresi , Yacine Rezgui , Celson Lima , Farid Meziane, Architecture to support semantic resources interoperability, Proceedings of the first international workshop on Interoperability of heterogeneous information systems, November 04-04, 2005, Bremen, Germany

Jede Publikation hat eine innerhalb der Datenquelle ACM eindeutige Id, welche als Attribut des Publication-Elements dargestellt wird. Jede Publikation hat weiterhin einen Titel sowie optional einen Link auf den Volltext (meist ein PDF-Dokument). Beachten Sie, dass das Trennzeichen für URL-Parameter (“&”) durch “& #38;” innerhalb des XML-Dokuments kodiert wird. Jede Publikation ist bei einem Venue erschienen, das entweder eine Konferenz oder (wie im obigen Fall) ein Journal ist. Jedes Venue gehört zu einer Serie (Konferenzreihe bzw. Journalname) und besitzt ein Erscheinungsjahr. Jede Publikation hat eine Menge von Autoren, die durch ihren Namen und optional durch ihre Institution gekennzeichnet sind. Zusätzlich ist die Position des Autors (Attribut “pos”) angegeben, d.h. ob es sich um den Erstautor, Zweitautor, usw. handelt. Für jede zitierende Publikation gibt es ein CitingPub-Element, dass aus einer Publikations-Id sowie einem Referenzstring besteht. (In obigem Beispiel sind aus Gründen der Übersichtlichkeit nur 3 Zitierungen aufgeführt.) Selbstzitierungen werden dadurch erkannt, dass mindestens ein Autor der Publikation auch Autor der zitierenden Publikation ist, was im Beispiel für die zweite Zitierung zutrifft.

Auch bei ACM ist die Datenqualität sehr gut, insbesondere gibt es auch keine Duplikate bei Publikationen und Venues.

Google Scholar (GS)

An die Suchmaschine Google Scholar wurden im Vorfeld eine Menge von Anfragen gestellt und die resultierenden Ergebnisse ebenfalls in einem XML-Dokument gespeichert (GS.xml, 35 MB), dessen Aufbau an folgendem Beispiel erläutert wird (XML-Schema in GS.xsd).

<Publication id="11767853031465773370"> <Title>A survey of approaches to automatic schema matching</Title> <NoOfCitings>690</NoOfCitings> <Additional>E Rahm, PA Bernstein - The VLDB Journal The International Journal on Very Large &amp;hellip;, 2001 - Springer</Additional> </Publication>

Jede Publikation hat eine (wiederum nur innerhalb der Datenquelle eindeutige) Id und einen Titel. Die Anzahl der Zitierungen ist im Element “NoOfCitings” erfasst. Das Element “Additional” beinhalt die weiteren von GS ermittelten bibliografischen Daten, d.h. Autoren, Venue, Jahr, Herausgeber und weitere. (Dies entspricht der grünen Zeile, wenn Sie GS-Suchergebnisse auf der Website betrachten.)

Die Datenqualität von GS ist deutlich schlechter als bei DBLP und ACM. Durch den automatischen Extraktionsprozess (insbesondere auf Basis der Referenzlisten von im PDF-Format vorliegenden Publikationen) ergeben sich vielfältige Fehler (z.B. auf Grund von Tippfehlern in den erwähnten Referenzlisten) sowie hetereogene Schreibweisen, z.B. von Venue-Namen. Zusätzlich entstehen durch Fehler im Extraktionsprozess weitere Probleme, wie z.B. unvollständige Autorenlisten oder Zusätze im Titel. Dadurch enthält GS für eine Publikation i.A. auch mehrere Einträge (siehe Abschnitt Data Cleaning).