GitLab und Transkripte im Projekt MuMoCorp



Anne Ferger
Universität Paderborn | Universität Duisburg-Essen

Slides: anneferger.github.io/GitLabFDM2022

MuMoCorp

Projekt MuMoCorp

  • Data Reuse von multimodalen und multisensoriellen Corpora
  • vorhandene Daten
    • mehrperspektivische Videodaten
    • XML-basierte Transkriptionen mit Annotationen
    • Roboter Logfiles
    • Motion Capture Daten
    • Metadaten

Datenerstellung

geisteswissenschaftliche Daten werden oft teilweise manuell erstellt, starke Verbreitung von XML-basierten Formaten

  • Transkription und Annotation von Videoaufnahmen mit ELAN Annotationssoftware
  • textbasierte Logfiles von sprachgesteuertem Roboter
  • Videoaufnahmen
  • Motion Capture Daten

Versionskontrolle mit git und GitLab

  • Organisation der kollaborativen Arbeit an Daten
  • Versionskontrolle der text-basierten Daten
  • Qualitätskontrolle der Daten durch GitLab CI
  • Beispiel GitLab Projekt

Git und GitLab: Setup mit großen binären Dateien

Textbasierte Dateien

  • XML-basierte Transkription von Videoaufnahmen mit ELAN Annotationssoftware
  • Roboter Logfiles

Binäre Dateien

  • Videoaufnahmen
  • Motion Capture Daten

Arbeit auf Netzlaufwerk mit Videodateien

  • sehr große Dateigröße
  • Dateipfade müssen zur Bearbeitung korrekt sein
  • Datenschutz bei Videodaten

Das bedeutet für das Git-Setup

  • bei Videos nur Backup außerhalb von git, keine Versionskontrolle
  • Versionskontrolle der text-basierten Dateien direkt auf gemeinsam genutzten Netzlaufwerk
  • Nutzung von git niedrigschwellig und halbautomatisiert

Qualitätssicherung mit GitLab CI

Nutzung eines vorhandenen Tools in GitLab CI

  • Verbesserung der Nachhaltigkeit der Daten: Reproduzierbarkeit von Experimenten, Beispiel aus CONQUAIRE
  • Nachnutzung des Tools Corpus Services
  • GitLab CI mit HTML liste als Artifact (Vorteil Darstellung html Artifakte)
  • Durch GitLab Kombination unterschiedlicher Check-Technologien (z.B. Java und Python) möglich

Einschränkungen

  • nur automatischer Check der text-basierten Daten möglich

Ausblick im MuMoCorp Projekt

  • Veröffentlichung von Checkliste mit best practices für Datenaufbereitung von linguistischen multimodalen Daten
  • Weiterentwicklung des Beispiels von CI .yml Datei zur Weiternutzung
  • Hinzufügen weiterer Qualitätschecks, z.B. XML-Validierung
  • Hinzufügen automatischer Visualisierungsworkflows
  • Nutzung von Präsentationen in GitLab/GitHub zur Erweiterung der Dokumentation

Contact

MuMoCorp

Anne Ferger

anne.ferger@uni-due.de