- Data Reuse von multimodalen und multisensoriellen Corpora
- vorhandene Daten
- mehrperspektivische Videodaten
- XML-basierte Transkriptionen mit Annotationen
- Roboter Logfiles
- Motion Capture Daten
- Metadaten
Datenerstellung
geisteswissenschaftliche Daten werden oft teilweise manuell erstellt, starke Verbreitung von XML-basierten Formaten
- Transkription und Annotation von Videoaufnahmen mit ELAN Annotationssoftware
- textbasierte Logfiles von sprachgesteuertem Roboter
- Videoaufnahmen
- Motion Capture Daten
Versionskontrolle mit git und GitLab
- Organisation der kollaborativen Arbeit an Daten
- Versionskontrolle der text-basierten Daten
- Qualitätskontrolle der Daten durch GitLab CI
- Beispiel GitLab Projekt
Git und GitLab: Setup mit großen binären Dateien
Textbasierte Dateien
- XML-basierte Transkription von Videoaufnahmen mit ELAN Annotationssoftware
- Roboter Logfiles
Binäre Dateien
- Videoaufnahmen
- Motion Capture Daten
Arbeit auf Netzlaufwerk mit Videodateien
- sehr große Dateigröße
- Dateipfade müssen zur Bearbeitung korrekt sein
- Datenschutz bei Videodaten
Das bedeutet für das Git-Setup
- bei Videos nur Backup außerhalb von git, keine Versionskontrolle
- Versionskontrolle der text-basierten Dateien direkt auf gemeinsam genutzten Netzlaufwerk
- Nutzung von git niedrigschwellig und halbautomatisiert
Qualitätssicherung mit GitLab CI
Nutzung eines vorhandenen Tools in GitLab CI
- Verbesserung der Nachhaltigkeit der Daten: Reproduzierbarkeit von Experimenten, Beispiel aus
CONQUAIRE
- Nachnutzung des Tools Corpus Services
- GitLab CI mit HTML liste als Artifact (Vorteil Darstellung html Artifakte)
- Durch GitLab Kombination unterschiedlicher Check-Technologien (z.B. Java und Python) möglich
Einschränkungen
- nur automatischer Check der text-basierten Daten möglich
Ausblick im MuMoCorp Projekt
- Veröffentlichung von Checkliste mit best practices für Datenaufbereitung von linguistischen multimodalen Daten
- Weiterentwicklung des Beispiels von CI .yml Datei zur Weiternutzung
- Hinzufügen weiterer Qualitätschecks, z.B. XML-Validierung
- Hinzufügen automatischer Visualisierungsworkflows
- Nutzung von Präsentationen in GitLab/GitHub zur Erweiterung der Dokumentation