Integration von Social-Media-Korpora in CLARIN-D: Ergebnisse und Best Practices aus dem Kurationsprojekt ChatCorpus2CLARIN

Prof. Dr. Michael Beißwenger, Universität Duisburg-Essen
Prof. Dr. Angelika Storrer, Universität Mannheim

In den Digital Humanities gibt es bislang keine Standards für den Aufbau, die linguistische Annotation, die Repräsentation und die Bereitstellung von Korpora zur Sprachverwendung in Social-Media-Genres. Zugleich besteht in diversen Disziplinen (Philologien, Sozial-, Kommunikations- und Medienwissenschaften, Sprachtechnologie) eine breites, stark empirisch ausgerichtetes Interesse an der Erforschung von Social-Media-Phänomenen auf der Basis authentischer Sprachdaten sowie am Aufbau und der computergestützten Analyse entsprechender digitaler Ressourcen.
Das Poster präsentiert Ergebnisse aus dem inzwischen abgeschlossenen Kurationsprojekt der fachspezifischen CLARIN-D-Arbeitsgruppe F-AG 1 „Deutsche Philologie“ mit dem Titel „ChatCorpus2CLARIN“. In diesem Projekt wurden am Beispiel eines bestehenden linguistischen Korpus zur Sprachvariation in der deutschsprachigen Chat-Kommunikation, dem Dortmunder Chat-Korpus, Annotations- und Repräsentationschemata sowie Verfahren entwickelt, anhand derer sich Korpora zu Social-Media-Genres (a) konform zu De-facto-Standards im Bereich der Digital Humanities und (b) interoperabel mit in CLARIN-D existierenden Sprachressourcen zu anderen Kommunikationsbereichen (Text- und Gesprächskorpora) in die CLARIN-D-Korpusinfrastrukturen integrieren und über diese bereitstellen lassen.
Zentrale Arbeitspakete waren u.a. die Remodellierung des Korpus in TEI, die Anreicherung um eine linguistische Basisannotation (Part-of-speech-Tagging) auf Grundlage eines STTS-kompatiblen, für die sprachlichen Beosnderheiten von Social-Media-Genres angepassten Tagsets sowie die Integration in die Korpus-Infrastrukturen am Institut für Deutsche Sprache (IDS) Mannheim und an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW/DWDS-Korpora). Die dafür im Projekt entwickelten Best Practices sind einerseits abgestimmt auf die Formate der beteiligten CLARIN-D-Zentren und andererseits auf existierende Standardisierungsinitiativen im Forschungsfeld (Special Interest Group „Computer-Mediated Communication“ der Text Encodung Initiative, Initiative zur Erweiterung von STTS für Genres „nichtstandardisierter“ Schriftlichkeit). Durch die Kompatibilität des in CLARIN-D integrierten Korpus mit etablierten Standards ergeben sich darüber hinaus verbesserte Möglichkeiten für die vergleichende Analyse der sprachlichen und interaktionalen Besonderheiten von Chats mit dem Datenbestand existierender Text- und Geprächskorpora. Die im Projekt entwickelten Lösungen sollen im Rahmen von Anschlussvorhaben auf weitere Korpusprojekte zu Social-Media-Genres übertragen und dabei weiter verfeinert werden.