Geisteswissenschaftliche Daten in Gitlab mit Git LFS

Aspekte aus der Praxis



Anne Ferger | Universität Paderborn

Slides: anneferger.github.io/GitLab2021

Im Projekt INEL wurden die Versionierung mit git und ein Framework zur Qualitätssicherung mithilfe von GitLab in existierende Workflows zur Datenerstellung integriert.

Geisteswissenschaftlichen Daten und GitLab in der Praxis

  • Existierende Workflows der Datenerstellung möglichst unverändert lassen
  • Nutzung von Git während der Datenerstellung mit möglichst wenig (Lern-)Aufwand
  • Git LFS für binäre Daten, die sich dafür auch wirklich eignen
  • Methoden der Qualitätssicherung als GitLab CI

GitLab und Git LFS können die Arbeit and Forschungsdaten vereinfachen und nachhaltiger machen

Workflows der Datenerstellung

Datenerstellung

  • linguistische Transkriptionen, Annotationen und und Übersetzungen von Dolgan, Kamas, Evenki und Selkup im Projekt INEL
  • weiterführende Informationen zum Projekt

Datenerstellung

  • Erstellung linguistischer Korpora teilweise manuell, teilweise automatisch unterstützt (mit den Programmen ELAN, FLEx und EXMARaLDA)
  • Daten bestehen aus Transkriptionsdateien (xml) mit Annotationen und Übersetzungen, Metadaten (xml) und Audiodateien oder Manuskripten (binäre Dateien)
  • Git und GitLab zur Versionskontrolle und kollaborativem Arbeiten

Nutzung von GitLab und Git LFS

Hürden

  • steile Lernkurve bei der Nutzung von Git
  • Unterbrechung der existierenden Workflows
  • große binäre Dateien (Audio und Manuskripte), die aufgrund der verwendeten Software an bestimmten lokalen Pfaden liegen müssen

Überwindung der Hürden

  • Nutzung eines vereinfachten Gitskripts (statt z.B. GitGUI): Lama
  • Integration von Qualitätskontrolle in Gitworkflow
  • Erstmaliges Setup von Git und Gitskript (inklusive GitLFS) ist nur einmalig nötig

Git LFS

  • Git Large File Storage
  • Welche Daten können gut mit Git LFS versioniert werden?
    • Die binären Daten (z.B. PDF, WAV, MP3) werden zu Beginn erhoben und eventuell verändert, bleiben aber danach konstant
    • Es ist schon zu Beginn des Projekts relativ klar, welche binären Dateien hinzugefügt werden und welche Dateiendungen sie haben (.gitattributes)

Git LFS

  • Welche Daten können gut mit Git LFS versioniert werden?
    • Es werden regelmäßig neue Daten hinzugefügt, die dann wieder lange nicht verändert werden
    • Die Daten müssen zwingend an einem bestimmten Ort auf dem lokalen Rechner liegen, damit z.B. verwendete Transkriptionssoftware funktioniert

Git LFS

  • Nutzung von GitLFS in GitLab
  • Zu Beginn des Projekts war an der Universität Hamburg noch kein GitLab verfügbar, deshalb wurden nach dem Wechsel die Vorteile von GitLFS und GitLab für die geisteswissenschaftlichen Daten sichtbar
  • Das Hosten der Daten auf GitLab und mit Git LFS bietet Vorteile bei der Publikation der Daten und ist nachhaltiger als die bisherige Lösung

(Kontinuierliche) Qualitätskontrolle

Datenqualität bei (teilweise) manuell erstellten Daten

  • wissenschaftlich robust für statistische Auswertungen, Suchen etc.
  • manuelle Bearbeitung führt zu technischen Inkonsistenzen
  • Transkriptionen, Übersetzungen, Annotationen and Metadaten beziehen sich aufeinander und können so automatisch gecheckt werden

➔ Checks und Fixes für Inkonsistenzen

Integration in existierende Workflows

Weitere Informationen und Tools:

  • Vereinfachte git Lösung: Lama
  • Qualitätschecks und automatische Fixes für linguistische Korpora: corpus services
  • Automatic git solution for corpus services: cubo

Korpus Daten

Brykina, Maria; Orlova, Svetlana; Wagner-Nagy, Beáta. 2020. INEL Selkup Corpus. Version 1.0. Publication date 2020-06-30. Archived in Hamburger Zentrum für Sprachkorpora. http://hdl.handle.net/11022/0000-0007-E1D5-A. In: Wagner-Nagy, Beáta; Arkhipov, Alexandre; Ferger, Anne; Jettka, Daniel; Lehmberg, Timm (eds.). The INEL corpora of indigenous Northern Eurasian languages.

Däbritz, Chris Lasse; Kudryakova, Nina; Stapert, Eugénie. 2019. "INEL Dolgan Corpus." Version 1.0. Publication date 2019-08-31. http://hdl.handle.net/11022/0000-0007-CAE7-1. Archived in Hamburger Zentrum für Sprachkorpora. In: Wagner-Nagy, Beáta; Arkhipov, Alexandre; Ferger, Anne; Jettka, Daniel; Lehmberg, Timm (eds.). The INEL corpora of indigenous Northern Eurasian languages.

Gusev, Valentin; Klooster, Tiina; Wagner-Nagy, Beáta. 2019. "INEL Kamas Corpus." Version 1.0. Publication date 2019-12-15. http://hdl.handle.net/11022/0000-0007-DA6E-9. Archived in Hamburger Zentrum für Sprachkorpora. In: Wagner-Nagy, Beáta; Arkhipov, Alexandre; Ferger, Anne; Jettka, Daniel; Lehmberg, Timm (eds.). The INEL corpora of indigenous Northern Eurasian languages.

Also on GitLab

Quellen

Hermann, Fabian / Pietsch, Christian / Cimiano, Philipp (2021): “Conquaire Infrastructure for Continuous Quality Control”, in: Cimiano, Philipp / Pietsch, Christian / Wiljes, Cord (Eds) Studies in Analytical Reproducibility: the Conquaire Project. Bielefeld 17-27. DOI: https://doi.org/10.4119/unibi/2942780/p>

Contact

Anne Ferger

anne.ferger@uni-paderborn.de

https://twitter.com/anneferger1