Reichhaltige phonetische Annotation gesprochener Sprachdaten in CLARIN-D: WebMAUS Evaluation und Dokumentation eines Integrationsprozesses anhand des ICE-Scotland Corpus

Anja Choon, Ulrike Gut, Robert Fuchs, WWU Münster (Hilfskraft Annika Marek)
Petra Wagner, Simon Betz, Universität Bielefeld
Henning Reetz, Universität Frankfurt (Hilfskraft Maya Lippmann)
Bernd Möbius, Jürgen Trouvain, Universität des Saarlandes (Hilfskraft Sascha Schäfer Susanne Fuchs, ZAS Berlin (Hilfskraft Christoph Gube)
Oliver Niebuhr, University of Southern Denmark (Hilfskraft Jana Voße)

In unserem CLARIN-D Kurationsprojekt wurde anhand eines 30.000 Wörter umfassenden Teils des ICE-Scotland Korpus (zeitgenössisches schottisches Englisch) die CLARIN Ressource WebMAUS evaluiert. Zugleich wurde eine Prozessdokumentation erstellt, die als Best Practice Guideline für CLARIN-Integration phonetisch annotierter Korpora dienen wird. Darüber hinaus werden die erzeugten, reich annotierten Korpusdaten der CLARIN Infrastruktur zur Verfügung gestellt. Eine Besonderheit dieses Projekts war, dass WebMAUS auf einen Dialekt des Englischen angewandt wurde, für den es bisher nicht vorgesehen war.

Für die Evaluation von WebMAUS wurde untersucht (a) wie zuverlässig die Phoneme erkannt wurden und (b) wie präzise bei korrekt erkannten Phonemen die Segmentgrenzen gesetzt wurden. Als Baseline dienten von im Rahmen des Projekts von 8 Personen manuell transkribierte Korpusausschnitte, zwischen denen auch paarweise die Übereinstimmung gemessen wurde. Es zeigt sich, dass im Verlauf von zwei Messungen die menschlichen Annotatoren eine relativ gute Übereinstimmung aufweisen, sowohl in Bezug auf (a) wie auch auf (b). Die Annotation von WebMAUS weist nahezu doppelt so große Abweichung ab wie die größte Abweichung unter Annotatoren, sowohl bei (a) wie auch bei (b). Es wurde weiterhin ausgewertet, welche Phonemtypen und welche Segmentklassen welchen Einfluss auf Abweichungen haben. Diese Ergebnisse stehen der LMU München zur Weiterentwicklung von WebMAUS zur Verfügung.

Die Projektergebnisse bieten vielfältigen Nutzen für CLARIN-D: Allen interessierten Nutzern stehen 30.000 Wörter des gesprochenen schottischen Englisch mit sowohl automatisch erzeugten als auch manuell korrigierten phonemischen Annotationen zur Verfügung, die für phonemische / phonetische Analysen des schottischen Englisch genutzt werden können. Das forced alignment in WebMAUS kann aufgrund der Dokumentation der erfolgten manuellen Korrekturen verbessert werden. WebMAUS steht nun ein Phoneminventar des schottischen Englisch zur Verfügung, das an 30.000 Wörtern empirisch verifiziert wurde. Durch die Dokumentation/Best Practice Guidelines für den Anreicherungsprozess des ICE- Scotland mit phonemischen Annotationen können weitere Korpora der gesprochenen Sprache auf die gleiche Weise mit zusätzlichen phonemischen Annotationen versehen werden.