Web-MAUS Evaluation und Dokumentation eines Integrationsprozesses anhand des ICE-Scotland Corpus - Simon Betz - Forum CA3

https://youtu.be/J-EjQU5JnKg

Simon Betz von der Universität Bielefeld stellt stellvertretend für die  F-AG 6 "Gesprochene Sprache und andere Modalitäten" das CLARIN Kurationsprojekt 3 vor. Hierbei handelt es sich um eine WebMAUS Evaluation anhand des ICE-Scotland Corpus. 

Die generellen Ziele des Kurationsprojektes waren 

  • Best Practice Guidelines für phonetische Anreicherung von Korpusdaten zu entwickeln und definieren
  • Zur Verbesserung von WebMAUS beitragende Tests und Vorschläge zu liefern, um systematische Fehler zu beheben
  • Ein reich annotiertes Sprachkorpus, welches Teil des International Corpus of English: Scotland ist, bereitzustellen

Im Detail bedeutet das, die Erstellung des ersten schottisch-englisches Phoneminventar, das in WebMAUS Eingebunden werden kann. Hierfür wurden phonemische Annotationen für 30.000 gesprochene Wörter aus dem ICE Scotland erzeugt. Das ICE Scotland ist ein Unterkorpus der International Corpora of English für das Schottische. Die Genauigkeit der Annotationen wurde gemessen um darauf beruhend eventuelle Verbesserungen an WebMAUS vorzunehmen. Der gesamte Prozess wurde hierbei detailiert dokumentiert und für CLARIN-D bereitgestellt. 

Die Ergebnisse die aus dem Kurationsprojekt folgten sind ein Schottisch Englisches Phoneminventar mit zugehörigen Annotationsregeln, welche fortlaufend auf Grundlage der Messung des inter-annotator-agreements angepasst wurden. Die Ergebnisse wurden an das BAS in München übermittelt, wodurch sie nun in WebMAUS implementiert werden können. Innerhalb von WebMAUS wurden die phonemischen Annotationen erzeugt und manuell nachkorrigiert, und die Ergebnisse mit denen der menschlichen Annotatoren verglichen. Hierbei wurde insbesondere auf die Übereinstimmung der annotierten Phoneme und der Segmentgrenzen geachtet, wo die Abweichung zwischen den menschlich annotierten und den mittels WebMAUS annotierten Daten wie zu erwartet sehr groß war. 

Durch das Projekt konnte also neben der Evaluation und Verbesserung von WebMAUS auch eine noch nicht vorhandene sprachliche Varietät, das Schottisch Englische, implementiert und CLARIN zur Verfügung gestellt werden.

Geschrieben von : Sarah Schneider

1000 Buchstaben übrig