GitLab und Transkripte im Projekt MuMoCorp

GitLab und Transkripte im Projekt MuMoCorp

Anne Ferger
Universität Paderborn | Universität Duisburg-Essen

Slides: anneferger.github.io/GitLabFDM2022

MuMoCorp

Projekt MuMoCorp

Data Reuse von multimodalen und multisensoriellen Corpora
vorhandene Daten

mehrperspektivische Videodaten
XML-basierte Transkriptionen mit Annotationen
Roboter Logfiles
Motion Capture Daten
Metadaten

Datenerstellung

geisteswissenschaftliche Daten werden oft teilweise manuell erstellt, starke Verbreitung von XML-basierten Formaten

Transkription und Annotation von Videoaufnahmen mit ELAN Annotationssoftware
textbasierte Logfiles von sprachgesteuertem Roboter
Videoaufnahmen
Motion Capture Daten

Versionskontrolle mit git und GitLab

Organisation der kollaborativen Arbeit an Daten
Versionskontrolle der text-basierten Daten
Qualitätskontrolle der Daten durch GitLab CI
Beispiel GitLab Projekt

Git und GitLab: Setup mit großen binären Dateien

Textbasierte Dateien

XML-basierte Transkription von Videoaufnahmen mit ELAN Annotationssoftware
Roboter Logfiles

Binäre Dateien

Videoaufnahmen
Motion Capture Daten

Arbeit auf Netzlaufwerk mit Videodateien

sehr große Dateigröße
Dateipfade müssen zur Bearbeitung korrekt sein
Datenschutz bei Videodaten

Das bedeutet für das Git-Setup

bei Videos nur Backup außerhalb von git, keine Versionskontrolle
Versionskontrolle der text-basierten Dateien direkt auf gemeinsam genutzten Netzlaufwerk
Nutzung von git niedrigschwellig und halbautomatisiert

Qualitätssicherung mit GitLab CI

Nutzung eines vorhandenen Tools in GitLab CI

Verbesserung der Nachhaltigkeit der Daten: Reproduzierbarkeit von Experimenten, Beispiel aus CONQUAIRE
Nachnutzung des Tools Corpus Services
GitLab CI mit HTML liste als Artifact (Vorteil Darstellung html Artifakte)
Durch GitLab Kombination unterschiedlicher Check-Technologien (z.B. Java und Python) möglich

Einschränkungen

nur automatischer Check der text-basierten Daten möglich

Ausblick im MuMoCorp Projekt

Veröffentlichung von Checkliste mit best practices für Datenaufbereitung von linguistischen multimodalen Daten
Weiterentwicklung des Beispiels von CI .yml Datei zur Weiternutzung
Hinzufügen weiterer Qualitätschecks, z.B. XML-Validierung
Hinzufügen automatischer Visualisierungsworkflows
Nutzung von Präsentationen in GitLab/GitHub zur Erweiterung der Dokumentation

Contact

anne.ferger@uni-due.de