Semantische Annotation für Digital Humanities (F-AG 7)

Projektinhalt

In der ersten Phase von CLARIN-D wurden die Kurationsprojekte Implementierung einer webbasierten Annotationsplattform (WebAnno)  ( KP 7.1)  und Entwicklung von Guidelines und Best Practices für die Annotation NSV des Deutschen (KP2)  durchgeführt. Ziel von KP3 ist es, die erfolgreiche Arbeit von KP1 & KP2 zu konsolidieren und in neuen Aspekten weiterzuentwickeln. Der Fokus von KP3 liegt auf semantischer Annotation für DH.

Das Kurationsprojekt “Semantische Annotation für Digital Humanities” gliedert sich in drei Arbeitsbereiche.

A. Konsolidierung und Weiterentwicklung von WebAnno für den praktischen Einsatz in DH-Projekten

Zur besseren Unterstützung semantischer Annotationen und freier Annotationsarten wird WebAnno um neue Funktionen erweitert:

  • Template-basierte Annotationen – das Füllen von Slots, z.B. zur Annotation von Prädikat-Argument-Strukturen oder Ereignissen;

  • Constraints – kontextbasierte Einschränkung möglicher Annotationen.

Die Integration dieser neuen Funktionalitäten wird in Interaktion mit Projektpartnern als Nutzer umgesetzt.

Für eine bessere Verbreitung in der Community soll WebAnno durch verbesserte Anbindung an die CLARIN-Infrastruktur als Dienst in CLARIN angeboten.

B. Kuration von Ressourcen für semantische Annotation und Erweiterung des NoSta‑D-Korpus

Ziel ist die Entwicklung eines Prototyps für verlinkte semantische Lexika im Deutschen (inkl. einer LOD-Repräsentation), sowie ein robustes Annotationsschema für Konzepte und Prädikat-Argument-Strukturen für die Konzept- und Ereignisannotation in DH-Projekten. Hierbei konzentriert sich KP3 auf folgende Aufgaben:

  1. Verknüpfung existierender (GermaNet, SALSA) und neu entwickelter (UBY) lexikalisch-semantischer Ressourcen nach dem Vorbild des Unified Verb Index.

  2. Auslotung geeigneter Annotationsformate und Guidelines für WSD (ggf. nach dem Vorbild von OntoNotes) und SRL (FrameNet, VerbNet-Style-Annotation) sowie entsprechende Annotationen für ausgewählte Korpora zu NSV.

C. Unterstützung von Shared‑Tasks für das Deutsche für ausgewählte Annotationsarten

Gemeinsam mit nationalen Organisationen (GSCL, DGfS-CL) sollen Shared-Task-Aktivitäten für ausgesuchte Annotationsarten unterstützt werden. Erste Shared-Tasks für Named Entity Recognition (NER) sowie für Sentiment Tagging wurden im Rahmen der KONVENS 2014 erfolgreich durchgeführt. Ein weiterer Task zum PoS-Tagging auf IBK-Sprachdaten wird durch die GSCL gefördert. Zu möglichen Shared Tasks im Rahmen von KP3 zählen Dependenzparsing für NSV (auf Basis von Daten aus KP2) sowie Komposita-Analyse für das Deutsche.

Laufzeit

  • 01.03.2015 – 29.02.2016

Antragsteller

Verantwortliche Institution

  • Institut für Computerlinguistik, Universität Heidelberg

  • Fachbereich Informatik, Technische Universität Darmstadt

Ausführende Mitarbeiter

  • Silvana Hartmann

  • Eva Mujdricza-Maydt

  • Seid Muhie Yimam

Kooperationspartner

  • Prof. Dr. Phillip Cimiano, Universität Bielefeld

  • Prof. Dr. Stefanie Dipper, Universität Berlin

  • Prof. Dr. Gerhard Heyer, Universität Leipzig

  • Prof. Dr. Anke Lüdeling, Universität Bochum

  • Prof. Bolette Sandford Petersen, Universität Kopenhagen

  • Prof. Dr. Angelika Storrer, Universität Mannheim

  • CLARIN-D-Zentrum Tübingen (Prof. Dr. Erhard Hinrichs)

  • CLARIN-D-Zentrum Hamburg: CLARIN-D Helpdesk

Projekt-Webseite

  • http://www.cl.uni-heidelberg.de/projects/clarin-d/activities.mhtml

  • https://www.lt.informatik.tu-darmstadt.de/de/research/clarin-d-webanno-webbased-annotation-tool-for-linguistic-annotations/

Referenzen

  • Bonial, C., Stowe, K. & Palmer, M. (2013): Renewing and Revising SemLink. In: Proc. of LDL-2013: Representing and linking lexicons, terminologies and other language data, S. 9-17.

  • Burchardt, A., Erk, K. & Frank, A. (2005): A WordNet Detour to FrameNet. In: Proc. of the GLDV 2005 GermaNet II Workshop, S. 408-421.

  • Burchardt, A., Erk, K., Frank, A., Kowalski, A., Padó, S. & Pinkal, M. (2009): Using FrameNet for the Semantic Analysis of German: Annotation, Representation and Automation. Boas, H. C. (ed.), Multilingual FrameNets in Computational Lexicography - Methods and Applications, S. 209-244, Mouton de Gruyter.

  • Burchardt, A., Padó, S., Spohr, D., Frank, A. & Heid, U. (2008): Constructing Integrated Corpus and Lexicon Models for Multi-Layer Annotations in OWL DL. Linguistic Issues in Language Technology, 1, S. 1-33.

  • Cholakov, K., Eckle-Kohler, J. & Gurevych, I. (2014): Automated Verb Sense Labelling Based on Linked Lexical Resources. In: Proc. of EACL 2014, S. 68-77.

  • Eckart de Castilho, R., Biemann, C., Gurevych, I. and Yimam, S.M. (2014): WebAnno: a flexible, web-based annotation tool for CLARIN. In Proceedings of the CLARIN Annual Conference (CAC) 2014, Soesterberg, Netherlands.

  • Fürstenau, H. & Lapata, M. (2012): Semi-supervised Semantic Role Labeling via Structural Alignment. Computational Linguistics, 38(1): S. 135-171.

  • Gurevych, I., Eckle-Kohler, J., Hartmann, S., Matuschek, M., Meyer, C. M. & Wirth, C. (2012): UBY - A Large-Scale Unified Lexical-Semantic Resource Based on LMF. In: Proc. of EACL 2012, S. 580-590.

  • Hartmann, S. & Gurevych, I. (2013): FrameNet on the Way to Babel: Creating a Bilingual FrameNet Using Wiktionary as Interlingual Connection. In: Proc. of ACL 2013, S. 1363-1373.

  • Palmer, M. 2009. Semlink: Linking PropBank, VerbNet and FrameNet. Proceedings of the Generative Lexicon Conference.: GenLex-09.

  • Yimam, S.M., Eckart de Castilho, R., Gurevych, I., and Biemann C. (2014): Automatic Annotation Suggestions and Custom Annotation Layers in WebAnno In: Proceedings of ACL-2014, demo session, Baltimore, MD, USA

  • Yimam, S.M., Gurevych, I., Eckart de Castilho, R., and Biemann C. (2013): WebAnno: A Flexible, Web-based and Visually Supported System for Distributed Annotations. In Proceedings of ACL-2013, demo session, Sofia, Bulgaria.