Kurationsprojekt zur Aufbereitung und Integration multimodaler Ressourcen in CLARIN-D (F-AG 6)

Projektinhalt

Das Kurationsprojekt zur Integration multimodaler Ressourcen in CLARIN-D wurde im April 2012 bewilligt. Inhaltlich verantwortlich ist die F-AG 6 „Sprache und andere Modalitäten“ vertreten durch apl. Prof. Dr.-Ing. Stefan Kopp (Universität Bielefeld). Die Realisierung wird von der Farina Freigang, M. Sc. (Universität Bielefeld), sowie Hilfskräften an den beteiligten Institutionen geleistet. Technische Beratung und Unterstützung erhält das Projekt vom CLARIN-D-Zentrum, dem Bayerischen Archiv für Sprachsignale (BAS), vertreten durch PD Dr. Christoph Draxler und PD Dr. Florian Schiel, sowie durch ein weiteres CLARIN-D-Zentrum, das Max-Planck Institut für Psycholinguistik (MPI), vertreten durch Han Sloetjes und Sebastian Drude.

Die F-AG 6 “Sprache und andere Modalitäten” verfolgt das Ziel, den Aspekt der Multimodalität in CLARIN-D zu stärken und zu etablieren. Als ersten wichtigen Schritt sollen im Rahmen des Kurationsprojekts zunächst entsprechende Ressourcen in die CLARIN-D Infrastruktur integriert werden. Eine Bestandsaufnahme in der F-AG hat ergeben, dass ein hohes Maß an Heterogenität bzgl. erhobener und verwendeter multimodaler Ressourcen. Auf Grund dieser Heterogenität hält es die F-AG für sinnvoll, nicht ein großes Korpus, sondern Ausschnitte mehrerer, bereits bestehender Korpora für CLARIN-D aufzubereiten. Der Schwerpunkt des Projekts soll also nicht auf der Integration großer Datenmengen liegen, sondern vielmehr eine breite Basis bilden, die die zukünftige Einbringung entsprechender Daten vereinfacht. Des Weiteren wird durch diese beispielhafte Aufbereitung verschiedener Ressourcen die Etablierung von Standards, z.B. für das Anlegen von Metadaten, für Methoden zur Qualitätssicherung oder für Annotationsmethoden und -richtlinien, vorangetrieben. Auf diese Weise entsteht ein CLARIN-konformer Querschnitt der in der Fachcommunity verwendeten multimodalen Ressourcen im Hinblick auf multimodale Primär-, Sekundär- und Metadaten.

Um eine möglichst große Abdeckung der in der Fachcommunity verwendeten Daten zu erreichen, hat die F-AG drei repräsentative Korpora ausgewählt. Dabei handelt es sich um zwei umfangreiche und größtenteils manuell annotierte Korpora: (1) das Bielefelder Speech and Gesture Alignment Korpus (Universität Bielefeld) ist ein umfassend annotiertes Korpus natürlicher Sprache und sprachbegleitender Gestik und (2) das Dicta-Sign Korpus (Universität Hamburg) beinhaltet Dialoge in Deutscher Gebärdensprache zu unterschiedlichen Themen. Ergänzt wird diese Auswahl durch eine dritte Ressource, nämlich Motion-Capture-Daten, zur Verwendung natürlicher Gestik (RWTH Aachen, Human Technologies Centre, Forschungsgruppe “Natural Media”).

Laufzeit

  • 01.08.2012 – 31.01.2014

Antragsteller

  • F-AG 6 „Sprache und andere Modalitäten“ vertreten durch apl. Prof. Dr.-Ing. Stefan Kopp, Arbeitsgruppe „Sociable Agents“, CITEC, Technische Fakultät, Universität Bielefeld


Verantwortliche Institution

  • Arbeitsgruppe „Sociable Agents“, CITEC, Technische Fakultät, Universität Bielefeld


Ausführende Mitarbeiter

  • Farina Freigang, M.Sc. (50%)
  • Hilfskräfte an den Universitäten Bielefeld, Hamburg und der RWTH Aachen.