Semantische Annotation - Éva Mújdricza-Maydt und Dr. Richard Eckart de Castilho - Forum CA3

https://youtu.be/6vcCDvNDXz4

Éva Mújdricza-Maydt und Dr. Richard Eckart de Castilho stellen auf dem Forum CA3 in Hamburg die Ergebnisse des Kurationsprojektes 3 "Semantische Annotation für Digital Humanities", das innerhalb der F-AG 7 "Inhaltsanalytische Methoden in den Sozialwissenschaften" entstanden ist, vor. 

Das Projekt verfolgte zweierlei Ziele. Zum Einen die semantische Annotation deutscher Korpora, um diese als weiterverwendbare Ressource zur Verfügung zu stellen, und zum anderen die Optimierung des Annotationstools WebAnno für Aufgaben innerhalb und außerhalb des linguistischen Kontextes. 

Um die Ziele zu erreichen, wurden Verblesarten und semantische Rollen von Argumenten der Prädikaten annotiert, was für das Deutsche vorher noch nicht geschehen ist. Diese Vorgehensweise beruht auf der Annahme, dass unterschiedliche Lesarten unterschiedliche Prädikat-Argument-Strukturen erfordern. So gibt es beispielsweise für das Wort bringen drei unterschiedliche Lesarten:

  • übergeben: jemandem etwas übergeben
  • begleiten: jemanden an einen Ort begleiten
  • erbringen: eine Leistung erbringen

Je nach Lesart ändern sich also die semantichen Rollen. So sind diese für die Lesart jemandem etwas übergeben:

  • Agens: der Bringende
  • Thema: das übergebene Objekt
  • Rezipient: der Emfpänger des Objektes

Wohingegen die Rollen für die Lesart eine Leistung erbringen folgenermaßen verteilt sind:

  • Agens: der die Leistung Erbringende
  • Thema: die erbrachte Leistung

Als Grundlage für die Rollenzuweisungen wurde das englische WordNet genutzt, welches für das Deutsche modifiziert und ausgearbeitet wurde. Das Rolleninventar besteht aus 30 Rollen, welche semantisch kodiert und hierarchisch aufgebaut sind. Es wurden zwei deutsche Korpora ausgezeichnet. Im SALSA Korpus, welches mit Nachrichtentexten Standardvarietäten des Deutschen enthält, wurden 3.500 Prädikatinstanzen mit Argumentstrukturen annotiert. Im Vergleich dazu wurde das Dortmunder Chat Corpus, welches nicht-Standardvarietäten enthält, ebenfalls mit 450 Instanzen ausgezeichnet.

Die Ziele, die semantischen Annotation deutscher Korpora, die Entwicklung der dazugehörigen Annotationsinventare und die Weiterentwicklung und Verbesserung von WebAnno, sodass diese neuen Annotationsebenen effektiv und automatisch annotiert werden können, wurden also erreicht. Zudem können die entstandenen Ressourcen auch für weitere Forschung genutzt werden, sowie die Eigenschaften der Interaktionen zwischen Lesarten und semantischen Rollen analysiert werden. 

Auf der technischen Seite des Kurationsprojektes wurde WebAnno weiterentwickelt. Bisher bot WebAnno ein flexibles, dokumentorientiertes Annotationstool mit frei konfigurierbaren Annotationsebenen und Kategorien, welche auch nicht-linguistischer Art sein können. Es zielt auf die Arbeit in kleinen Teams ab, in denen jeder für sich selbst annotiert und am Ende das agreement berechnet wird. Erweiterungen von WebAnno, nun WebAnno 3, sind 

  • Angebot semantischer Annotation
  • Nutzung von WebAnno über CLARIN-D
  • Anpassung von WebAnno an Bedürfnisse der Community 

Hierfür wurde unter anderem das Nutzerinterface vereinfacht und angepasst, die Möglichkeit externer Authentifizierung des CLARIN Shibboleth ermöglicht, und Nutzeranfragen wie die Implementierung von links-nach-rechts Sprachen angegangen. 

 

Geschrieben von : Sarah Schneider

1000 Buchstaben übrig