Multi-CAST (Multilingual Corpus of Annotated Spoken Texts): Ein Projekt zur Erstellung und Auswertung mehrsprachiger Korpora für die Sprachtypologie

Geoffrey Haig, Nils Schiborr, Universität Bamberg

Das Multi-CAST-Projekt vereinigt technische Entwicklungen aus Sprachdokumentation und Korpuslinguistik, um einen quantitativen und probabilistischen Ansatz in der Sprachtypologie zu verwirklichen. Entwickelt wurde es in Zusammenarbeit mit Stefan Schnell (Melbourne University) und mit der technischen Unterstützung des Language Archive Cologne (LAC) implementiert; siehe https://lac.uni-koeln.de/en/multicast/ sowie https://www.uni-bamberg.de/fileadmin/aspra/Multi-CAST_corpus-overview.pdf für eine Zusammenfassung.

Das Korpus enthält zur Zeit gesprochene Sprachdaten aus sieben Sprachen, die mit einem einheitlichen und stufenweise erweiterbaren Annotationsschema annotiert sind, und wird um weitere typologisch unterschiedliche Sprachen erweitert. Ziel ist es, Gemeinsamkeiten und Unterschiede in den statistisch identifizierbaren Mustern zu erfassen, die sprachübergreifend in den Strukturen zusammenhängender gesprochener Sprache vorhanden sind. Der Vortrag bietet einen kurzen Überblick über das Korpus sowie Beispiele aus derzeit laufenden Forschungsarbeiten.