Gefördert durch
BMBF Logo


Arbeitspaket IV (AP-IV): Verteilte Datenbankanfragen und Verwaltung von Datenströmen

Im Arbeitspaket IV wird eine effiziente, verteilte Verarbeitung im Grid von in Datenbanken archivierten Daten und von Datenströmen erreicht. Benutzer können mit persistenten Daten verknüpfte Datenströme abonnieren. Dies ermöglicht die Definition spezieller Ereignisse, die, aus Stromdaten gespeist und mit persistenten Daten verknüpft, spezifische Aktionen auslösen können. Ausgewählte Community-Anwendungen z.B. im Bereich der Analyse von Daten der Millenium-Simulation, der GAIA Simulationsdatenbank oder im Bereich der robotischen Teleskope bringen ihre Szenarien in die Entwicklung ein.

  1. Verteilung, Auslieferung und Verarbeitung von Daten im Grid

    Wissenschaftler wollen in zunehmendem Maße große Datenmengen im Grid zur Verfügung stellen (z.B. Daten aus der Millenium-Simulation, die GAIA Simulationsdatenbank oder große Datenbankkataloge) und diese effizient mit komplexen Operationen bis hin zu kompletten Anfragebearbeitungsplänen oder Workflows (siehe die Weiterentwicklungen des Prozesskoordinators im Planck-Projekt) verteilt verarbeiten.

    Durch die Verwendung von mobilem Code sowie intelligenter Beschreibung und Verteilung der (astrophysikalischen) Operationen kann die Verarbeitung effizient parallelisiert und der Datentransport minimiert werden. Auf eine geeignete Lastbalancierung für die Rechner und das Netzwerk muss Wert gelegt werden.

  2. Gridbasierte Verwaltung und Verarbeitung von Datenströmen.

    Die dezentrale, verteilte Informationsverarbeitung stellt eine wichtige Voraussetzung dar, damit Wissenschaftler verteilt gespeicherte Daten (z.B. Beobachtungsdaten oder Simulationen) oder kontinuierlich generierte Daten (z.B. aus Sensoren, Messstationen, Teleskopen, etc.) miteinander verknüpfen und verarbeiten können, um daraus umfassendere neue Erkenntnisse zu gewinnen.

    Um die notwendige Effizienz zu erreichen, ist die adaptive Verlagerung der Anfragebearbeitung in das Netzwerk – hin zu den Datenquellen – vorgesehen, um dadurch den Datenfluss im Netz zu optimieren.

Organisationsstruktur

Partner: MPA, MPE, TUM, ZAH

Arbeitspaket-Verantwortlicher: Tobias Scholl (TUM)

Technische Ansprechpartner:

  • Wolfgang Hovest (MPA)
  • Tobias Scholl (TUM)
  • Wolfgang Voges (MPE)
  • Joachim Wambsganß (ZAH)

Arbeitsplan

  1. Spezifikation der Anforderungen und Entwurf der Architektur
  2. Erstellung eines Demo-Prototyps
  3. Aufbau eines verteilten Function-Provider-Servers
  4. Verteilte Anfragebearbeitung auf persistenten Daten
  5. Entwicklung eines Datenstrom-Management-Systems
  6. Einbeziehung persistenter Daten in das Datenstrommanagement-System und erweiterte Optimierungen
  7. Realisierung eines Anfrageoptimierers für die verteilte Anfrageverarbeitung
  8. Deployment der Datenstromverwaltung in die Grid-Infrastruktur
  9. Test der Entwicklungen durch Adaption der Community-Anwendungen