froscon2010 - PREVIEW

FrOSCon
Free and Open Source Software Conference

Speakers
Miriam Ney
Schedule
Day Day 1 - 2010-08-21
Room HS3
Start time 15:15
Duration 01:00
Info
ID 501
Event type Lecture
Track Other
Language used for presentation German
Feedback

DataFinder

Datenmanagement

Der DataFinder ist eine in Python entwickelte Open Source Software zur Datenverwaltung. Veröffentlicht unter der Simplified BSD Lizenz, ermöglicht sie es einfach, große Datenmengen, wie sie häufig bei wissenschaftlichen Simulationen und Versuchen anfallen, zu verwalten. Dabei hilft die konsequente Angabe von individuell definierten Metadaten, welche die Daten beschreiben und diese durchsuchbar machen. Eine intuitive Verwaltung von wissenschaftlichen Daten ist sehr wichtig für die Zusammenarbeit innerhalb einer Forschungs oder Entwicklungsgruppe, aber auch um Projektpartnern und Kollegen die Möglichkeit zu geben, existierende Ergebnisse einsehen und verwenden zu können.

Konzipiert wurde der DataFinder als leichtgewichtige Anwendung basierend auf einer Client-Server-Struktur. Er kann durch Einbindung von Skripten leicht in die eigene Arbeitsumgebung eingebunden und und neue Funktionen erweitert werden. In der Entwicklung wurden viele Standards, wie zum Beispiel XML und WebDAV, verwendet, um möglichst kompatibel zu ähnlichen Tools zu sein.

Der DataFinder wurde mit Fokus auf die Datenmanagementsituation im Deutschen Zentrum für Luft und Raumfahrt (DLR) entwickelt. Mit der kürzlich releasten Version 2.0 ist die Entwicklung auf eine öffentliche Plattform verschoben, um mehr Anwendungsgebieten den Einsatz zu ermöglichen.

Der Vortrag stellt den Aufbau der Software vor, präsentiert Beispiele zum Einsatz der Software und zeigt Möglichkeiten aktiv an der Entwicklung mitzuarbeiten.

Durch eine Vielzahl an Experimenten, umfangreiche numerische Simulationen, ständig wechselnde Mitarbeitern und anderen Einflussfaktoren, besteht in der Wissenschaft ein hoher Bedarf Daten so zu lagern, dass sie leicht wieder auffindbar sind, sowohl für die Wissenschaftler selber als auch von anderen Kooperationspartnern. Durch unstrukturierte oder aufwändige Abläufe ist dies zunächst schwer realisierbar. Dies war der Grund für das Deutsche Zentrum für Luft- und Raumfahrt (DLR) den DataFinder als Datenmanagement-Software zu entwickeln.

Der DataFinder basiert auf einer Client-Server-Architektur. Dabei gibt es für die Einrichtung und Benutzung des DataFinder einen Administrator und einen User Client. Serverseitig wird unterschieden in Metadaten- und Daten-Server.

Auf dem Metadaten-Server werden in einer Datenbank alle beschreibenden Informationen zu einer Datei gespeichert, unter anderem der tatsächliche Speicherort der Datei. Die Dateien werden in DataStores auf separaten Daten-Servers gespeichert. Die Daten-Server können unterschiedlichster Art sein, zum Beispiel File Server, WebDAV-Server oder Archivierungssysteme, wie TSM. Die Integration von Cloud-Ressourcen ist derzeit in der Entwicklung.

Der Administrator konfiguriert mit dem Administrator-Client die DataStores auf den Servern und kann obligatorische Metadaten angeben.

Der Anwender kann mit dem User-Client Daten in die konfigurierten DataStores laden. Dabei ist es für ihn völlig uninteressant, wo welche Dateien gespeichert sind. Zu jeder Datei müssen die obligatorischen Metadaten angegeben werden, aber es können von jedem Nutzer noch eigene hinzugefügt werden. Später ist es jedem Anwender möglich über diese Metadaten zu suchen und so leicht Informationen für die weitere Arbeit zu bekommen. Als Anwenderschnittstelle wird des weiteren noch ein Web-Portal entwickelt, welches das Veröffentlichen von Versuchsergebnissen und Daten vereinfacht.

Da der DataFinder nicht alle Anwendungsfälle abdecken kann, wurde er so konzipiert, dass er gut an individuelle Szenarien anpassbar ist. In der Grundfunktionalität des DataFinder wird so nur das Datenmanagement realisiert. Durch eine Skript-aAnbindung ist es aber möglich diesen um eigene Funktionalitäten, wie das Aufrufen von externen Programmen zu erweitern.

Innerhalb des DLRs wird der DataFinder von verschiedenen Instituten für unterschiedliche Einsatzgebiete verwendet.

In einem Institut wird der DataFinder dazu gebraucht, um Daten von Flughäfen und Flugrouten zu verwalten. Diese Informationen werden so aufbereitet, dass sie den verschiedenen Wissenschaftlern in dem Institut zur Verfügung stehen, aber auch für die Zusammenarbeit mit externen Partnern verwendet werden.

Für ein anderes Projekt wird der DataFinder verwendet um Simulationsdaten zu verwalten und auch direkt verteilte Rechnungen in einem Grid zu starten.

Der DataFinder wurde mit offenen und stabilen Standards, wie XML und WebDAV entwickelt. Das aktuelle Release 2.0 ist weiterhin eine völlige architektonische Überarbeitung des Vorgängerreleases und verwendet modernere Software Engineering Methoden, wie die Kapselung einzelner Layers. Der DataFinder ist mit Python entwickelt, einer auch bei Wissenschaftlern sehr beliebten Sprache, da sie leicht zu erlernen ist.

Die Entwicklung des DataFinders ist mit dem Release 2.0 als Launchpad- Projekt unter der simplified BSD Lizenz veröffentlicht worden, seitdem besteht die Entwicklerbasis nicht mehr ausschließlich aus DLR- Mitarbeitern.