DGS-Korpus, "Sprachressourcen für Deutsche Gebärdensprache"

Dolly Blanck, Julian Bleicken, Thomas Hanke, Andreas Hanß, Ilona Hofmann, Olga Jeziorski, Lutz König, Susanne König, Reiner Konrad, Gabriele Langer, Christian Rathmann, Uta Salden, Sven Wagner (Universität Hamburg)

In der ersten Phase des Langzeitvorhabens DGS-Korpus wurde ein Korpus der Deutschen Gebärdensprache mit 330 Informanten aus ganz Deutschland im Umfang von 850 Stunden Mehrkamera-Video erstellt. Es handelt sich dabei überwiegend um Dialoge, die von freien Gesprächen bis zu Staged Communicative Events reichen. Dabei verwenden wir neben neu entwickelten Formaten auch solche, die bereits für andere Gebärdensprachen und auch Lautsprachen Verwendung gefunden haben, um crossmodale und crosslinguistische Vergleichsmöglichkeiten zu schaffen.
Aktuell arbeiten wir daran, dieses Korpus für verschiedenste Nutzungen zugänglich zu machen, nicht zuletzt für die Erstellung eines korpusbasierten Wörterbuches der DGS.
Die andere Sprachmodalität sowie das Fehlen einer etablierten Schriftform der DGS (mit entsprechender Orthographie) führen erst einmal dazu, dass Standardwerkzeuge der Sprachtechnologie hier nicht zum Einsatz kommen können und spezielle Ansätze erforderlich sind. Für schriftsprachlich fassbare Sprachen häufig einfache Schritte wie Tokenisierung und Lemmatisierung sind bislang nicht automatisierbar und erfordern hohen personellen Aufwand.
Die Übersetzung des sprachlichen Materials ins Deutsche und Englische macht aus dem Korpus nicht nur eine mehrsprachige Ressource mit vielfältigen Anwendungsbereichen im Rahmen der Sprachlehre, sondern ermöglicht in einigen Bereichen auch den Einsatz von CLARIN-Sprachtechnologien, etwa Named Entity Recognition, zur weiteren Annotation des Korpus.
Gleichzeitig ist das Korpus ein wichtiger Beitrag zur Cultural Heritage einer sprachlichen Minderheit. Entsprechend machen wir das Material in ausgewählten Teilen über ein Webportal auch für ein Publikum zugänglich, das sich mehr für den Inhalt als für sprachliche Strukturen interessiert.