CLARIN-D Blog

Automatische Annotation von Namen

https://youtu.be/OtDTtpMnzdk

Bücher, Artikel und Manuskripte enthalten oft Angaben zu Personen, Orten und Organisationen. Um sich einen Überblick über diese Angaben zu verschaffen ist ein automatisches Werkzeug wie ein Named-Entity-Recognizer sinnvoll, mit dessen Hilfe Namen markiert und kategorisiert werden können. Gerade bei längeren Texten erhält man dadurch einen guten Überblick, häufig sieht man sogar Namen, Orte und Einrichtungen, die man beim Lesen übersehen hätte.

Mit Hilfe des Tools WebLicht, welches einen Named Entity Recognizer für mehrere Sprachen enthält, können diese Informationen automatisch markiert und extrahiert werden. Sie müssen sich lediglich mit Ihrem CLARIN-Account oder dem Zugang Ihrer Heimatinstitution einloggen und können dann Ihren Text eingeben, hochladen oder einen Beispieltext auswählen. Der nächste Schritt ist die Zusammenstellung Ihrer Prozesskette. Um dies tun zu können klicken Sie im nächsten Schritt auf "Advanced Mode".   

In diesem Screencast zur automatischen Annotation von Namen haben wir die Prozesskette folgendermaßen zusammengestellt:

SfS to TCF Converter - SfS: Tokenizer Sentences - SfS: POS tagger OpenNLP - SfS: German Named Entity  

Innerhalb dieser Auswahl haben wir die Standardeinstellungen beibehalten- es ist jedoch auch hier möglich personalisierte Einstellungen vorzunehmen. Sie können die Prozesskette nun starten und haben nach einigen Sekunden die Möglichkeit im letzten WebService (German NamedEntity) den Baum auszuwählen um dann unter Highlighted view - NamedEntities Ihre Personen- Orts- und Organisationangaben farblich hervorgehoben anzusehen oder die Datei zur Weiterverarbeitung herunterzuladen. 

 

Read more

DiaCollo Screencast

https://youtu.be/_0HdBPoajZA

Dieser Screencast zeigt die Verwendung des Werkzeugs "DiaCollo: Kollokationsanalyse in diachroner Perspektive". 

Der Kontext eines Wortes, in diesem Fall seine Kollokationen, kann Aufschluss über Bedeutung des Wortes oder Bedeutungswandel geben. Ebenso können politische, kulturelle oder gesellschaftliche Veränderungen mittels der Kollokationen eines Wortes aufgefunden werden. 

DiaCollo hilft auf einfache Weise solche Kollokationen aufzufinden. Der zu untersuchende Begriff muss lediglich in das Suchfeld eingegeben werden. Die Suche kann noch durch Wahl eines bestimmten Zeitraumes, einer speziellen Darstellungsform und anderer Attribute verfeinert werden.

Die Ergebnisse der Kollokationsanalyse werden dann auf unterschiedliche Weise visuell aufbereitet und ausgegeben. So lassen sich zum Beispiel auf einfach Art und Weise Kollokationen eines Wortes aus dem Jahre 1650 mit denen aus dem Jahre 1850 vergleichen, analysieren und für weitere Forschung nutzen. 

 

Read more

CLARIN-D Helpdesk

https://youtu.be/ETLM_351ZtM

Bei jeglichen Fragen zu unserer Forschungsinfrastruktur steht Ihnen das CLARIN-D Zentrum Hamburger Zentrum für Sprachkorpora (HZSK) mittels des Helpdesks zur Verfügung.

Der Helpdesk bietet so eine Schnittstelle zwischen CLARIN und Ihnen als UserIn, indem er Ihre Frage in einem zentralen Fragenpool aufnimmt und sie dann mittels eines Ticketing Systems an das entsprechende Expertenteam weiterleitet. Die Mitarbeitenden des Helpdesks haben es sich zum Ziel gesetzt Ihre Frage nach spätestens nach 48 Stunden weiter zu delegieren, um Ihnen schnellstmöglich behilflich sein zu können. 

Read more

Bericht von der ESU 2017  Workshop: From Print and Manuscript to Electronic Version

Das CLARIN-Zentrum an der Berlin-Brandenburgische Akademie der Wissenschaften ist bereits seit einigen Jahren ein aktiver Teil der Community rund um die European Summer University in Digital Humanities „Culture and Technology“ (ESU) in Leipzig. Auch in diesem Jahr waren wir mit einem Kurs zur Digitalisierung und Annotation historischer Drucke und Manuskripte wieder vor Ort und haben am regen interdisziplinären Wissensaustausch zwischen allen Beteiligten teilgenommen. 

Unser Kurs fand in der ersten Woche der ESU 2017 statt. Er wurde von sechs Teilnehmerinnen und Teilnehmern verschiedener wissenschaftlicher Disziplinen (Literaturwissenschaften, Anglistik, Romanistik, Mediävistik, Geografie, Wissenschaftsgeschichte) besucht, die den Kurs durch ihre unterschiedlichen fachlichen Hintergründe und ihre Einbettung in verschiedene internationale Fach-Communities (Italien, Polen, USA, Deutschland) bereicherten.

Der erste Tag des Workshops diente der kurzen Einführung in die Linguistik, speziell der Grundlagen der linguistischen Arbeit mit Korpora, um eine gemeinsame Basis für die Arbeit mit historischen Texten und den möglichen Ebenen der Annotation zu legen. Anschließend erarbeiteten wir gemeinsam wichtige Grundlagen der Texttranskription, die dann bei der Digitalisierung eines historischen Textes gleich praktisch umgesetzt werden konnten.

Am nächsten Tag wurden viele Themen anhand der ersten Transkriptionen vertiefend behandelt, beispielsweise das Inter-Annotator-Agreement, die Korpuserstellung, der Umgang mit Metadaten oder die orthographische Normalisierung von Texten (mit dem Best-Practice-Beispiel des DTA-Basisformats). Danach präsentierten wir einen kurzen Überblick über aktuelle Techniken der automatischen Texterkennung. Im Anschluss an diese umfangreiche Sitzung konnten konnten wir gemeinsam mit den Studierenden bei den öffentlichen Projektpräsentationen interessante Forschungsprojekte innerhalb der Digital Humanities kennenlernen.

Der dritte Tag startete mit der traditionellen Teaser Session, einer kurzen Einführung in unseren Kurs für Studierende anderer Workshops, die zeitgleich von allen Workshops angeboten wird. Anschließend hatten unsere Studierenden die Gelegenheit, ihre eigenen Projekte und Qualifikationsarbeiten vorzustellen, um dann

Read more

Wortartentagging für die lexikographische Recherche

Wortartentagging für die lexikographische Recherche

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. Eine Vorverarbeitung der Korpora - das Wortartentagging - ist in diesem Prozess unbedingt erforderlich.

Was ist Wortartentagging?

Mit Wortartentagging bezeichnet man ein Verfahren, bei dem jedem Wort in einem Korpus eine Etikette angehängt wird. Diese Etikette bezeichnet die Wortart bzw. Wortklasse, die diesem Wort in dem Kontext, in dem es verwendet wurde, zugeschrieben werden kann. Grundlage dieser Etikettierung ist eine endliche und meistens kleine Menge von Etiketten (ein Tagset). Dieses umfasst typischerweise die Wortarten, die aus den traditionellen Grammatiken für die jeweilige Sprache bekannt und gebräuchlich sind. Für das Deutsche sind dies zum Beispiel Substantiv, Verb, Adjektiv, Adverb, Pronomen und Tags für weitere Funktionswörter. Hinzu kommen Etiketten für Erscheinungen bzw. Klassen, die außerhalb des Fokus traditioneller Grammatiken liegen (für Mehrwortausdrücke, fremdprachiges Material u. Ä.). Kürzere Texte bzw. kleine Korpora können von Hand getaggt werden, für größere Korpora ist die Verwendung eines automatischen Taggers unerlässlich. Ein umfangreiches, vollständig mit automatischen Methoden hinsichtlich der Wortarten annotiertes Korpus ist beispielsweise das Deutsche Textarchiv (DTA) der Berlin-Brandenburgischen Akademie der Wissenschaften, das auf vielfältige Weise innerhalb von CLARIN genutzt werden kann. Ein Satz mit Etikettierung könnte wie folgt aussehen:

Die/ART prinzipalischen/ADJA Rosenstöcke/NN brauchen/VVFIN Dünger/NE ./$. (Beispiel aus dem DWDS-Korpus: Strittmatter, Erwin: Der Laden, Berlin: Aufbau-Verl. 1983, S. 93)

Gibt man in die linguistische Suchmaschine des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) eine entsprechende Folge von Wortartentags ein (siehe Liste der Links [1]), erhält man eine ganze Reihe literarischer Belege mit dem Verb

Read more

Digital Humanities studieren und netzwerken mit CLARIN

Digital Humanities studieren und netzwerken mit CLARIN

Man nehme 70 internationale Nachwuchswissenschaftler aus den Digital Humanities (DH), 11 verschiedene Kurse von erfahrenen Experten, und einige Präsentationen von Forschenden zu ihrer Arbeit in verschiedenen DH-Bereichen. Man füge ein Rahmenprogramm hinzu, das Exkursionen zu Museen und Kulturstätten beinhaltet und voilà: Im Sommer 2017 war die „Europäische Sommeruniversität- Kulturen und Technologien“ (ESU) ein perfekter Treffpunkt für Forschende, um DH-Methoden zu erlernen und anzuwenden, ihren Horizont um verschiedene DH-Forschungsfragen zu erweitern und ein internationales Netzwerk an Expertise aufzubauen.

Bereits existierende Werkzeuge und Datensätze wurden genutzt, um Anwendungsbeispiele zu zeigen und um an Unterrichtsprojekten zu arbeiten, die den Interessen der Teilnehmenden entsprachen. Als wesentlicher Teil der DH-Infrastruktur in Europa hat CLARIN die Sommerschule durch Kurse unterstützt, die auf CLARIN-Diensten aufbauen. Zu den Diensten von CLARIN gehören unter anderem die Bereitstellung von Software-Werkzeugen, Datensätzen und Verfahren.

ESU 2017 Organisatoren: Elisabeth Burr und ihr Team haben die Summer School an der Universität Leipzig organisiert
ESU 2017 Organisatoren: Elisabeth Burr und ihr Team haben die Summer School an der Universität Leipzig organisiert

Ein enthusiastisches Team um Elisabeth Burr hat die Sommerschule organisiert, die seit 2009 an der Universität Leipzig regelmäßig stattfindet. CLARIN hat auch in diesem Jahr die Sommerschule mitgetragen, neben der Universität Leipizig, dem Deutschen Akademischen Austauschdienst (DAAD) und anderen nationalen und internationalen Einrichtungen. Dadurch konnten etwa 70 Studierende und Forschende aus der ganzen Welt an der Sommerschule teilnehmen, was auch Intensivkurse in Kleingruppen umfasste, in denen DH-Methoden unterrichtet und an Forschungsfragen eingeübt wurden.

Als internationales Netzwerk-Event für junge Forschende und internationale Experten aus den DH waren Teilnehmende aus der ganzen Welt, von Russland bis zu den USA, vertreten, die Meisten kamen aber aus Europa, von Bulgarien bis Frankreich.

Teilnehmende der ESU 2017 bei der Präsentation eines internationalen Kunstprojekts
Teilnehmende der ESU 2017 bei der Präsentation eines internationalen Kunstprojekts

Das Kursangebot von CLARIN umfasste Themen, die sich von Einführungskursen, über den

Read more

WebLicht und GermaNet: Im Gespräch mit Professor Dr. Minhaeng Lee

Sprachwissenschaftliche Werkzeuge von Clarin-D im Einsatz für den universitären Unterricht im Bereich "Deutsch als Fremdsprache".

Professor Dr. Minhaeng Lee erklärt in einem Interview eindrücklich, wie er CLARIN-D Ressourcen im Unterricht für Deutsch als Fremdsprache in Süd-Korea einsetzt. Das Video bezieht sich dabei auf Clarin-Ds Software-Angebote:

Read more

Ein Wortartentagger für den Parzival

Ein Wortartentagger für den Parzival

Wie oft wünscht man sich, dass man mittelhochdeutsche Texte endlich automatisch mit Wortarten versehen kann? Bei uns lautet die Antwort: ständig. Wenn wir im Kollaborationsprojekt CRETA (https://www.creta.uni-stuttgart.de/) darüber sprechen, wie man Texte aus Bundestagsdebatten, Werther oder Adornos Ästhetischer Theorie mit linguistischen Informationen anreichern kann, fällt der Parzival oftmals mit einem etwas mitleidigen Lächeln unter den Tisch: dafür haben wir nicht die Tools, heißt es dann. Denn für das Mittelhochdeutsche funktionieren Werkzeuge, die für das moderne Deutsch trainiert wurden, erwartungsgemäß nicht besonders gut. Dies, haben wir beschlossen, kann man ändern.

Das erste, was man braucht, wenn man seinen eigenen Wortartentagger erstellen will, sind Trainingsdaten. Als wir mit unserem Vorhaben begonnen haben, war das Referenzkorpus Mittelhochdeutsch (https://www.linguistics.rub.de/rem/), das annotierte mittelhochdeutsche Daten enthält, leider noch nicht veröffentlicht. Das hätte uns damals die Arbeit etwas erleichtert. Wir haben unsere Daten also aus anderer Quelle bezogen. Bei der Mittelhochdeutschen Begriffsdatenbank (http://mhdbdb.sbg.ac.at/) wurden wir fündig. Es handelt sich hierbei zwar nicht um ein mit Wortarten annotiertes Korpus im konventionellen Sinne, aber trotzdem können uns die enthaltenen Annotationen weiterhelfen – Not macht ja bekanntlich erfinderisch. Die Wortarteninformationen, die in der Datenbank enthalten sind, operieren nur auf Ebene der Wortformen und sind losgelöst vom Kontext eines Wortes. Beispielsweise kann das Wort guot als Adjektiv, Nomen oder Adverb verwendet werden (und ist dementsprechend dreifach annotiert); ohne einen konkreten Verwendungskontext lässt sich dies nicht genauer bestimmen.

Hinzu kommt, dass nicht alle möglichen Verwendungsformen der Wörter in der Datenbank abdeckt sind: So kann z.B. daz nicht nur Artikel oder subordinierende Konjunktion sein (Satz 1), sondern auch als Relativ- (2) oder Demonstrativpronomen (3) fungieren:

(1) Daz edel kint hât mir verjehen, daz ez in troume sî

Read more

Metadaten im CMDI-Format erstellen

Metadaten im CMDI-Format erstellen

Wenn bei uns im Haus im Rahmen von Forschungsarbeiten Ressourcen wie Tools oder Korpora entstehen, sind wir als Metadaten-Team eine erste Anlaufstelle: Wir unterstützen die Forschenden bei der Erstellung von CMDI-Dokumenten zur nachhaltigen Beschreibung der Ressourcen. Zum Team gehören immer ein bis zwei studentische Hilfskräfte, die nach einer kurzen Einarbeitungszeit selbstständig Vorschläge für Metadatenentwürfe zu den Ressourcen erarbeiten. Wir sind natürlich immer ansprechbar, wenn eine neue Ressource erstellt wird, suchen aber auch regelmäßig auf den Webseiten des Instituts, den Projekt- und Mitarbeiterseiten nach noch nicht beschriebenen Ressourcen.

Haben wir eine neue Ressource entdeckt, sprechen wir die für diese Ressource Verantwortlichen an und bieten an, unsererseits einen ersten Metadatenentwurf für die Ressource zu erstellen. Dabei erläutern wir auch die Vorteile, die durch die Dokumentation mit CMDI-Metadaten entstehen: die Metadaten werden im Repository (http://clarin04.ims.uni-stuttgart.de/repo/) abgelegt und die Ressource wird damit automatisch auch im VLO (https://vlo.clarin.eu/), dem CLARIN-weiten Ressourcenkatalog sichtbar. Neben der erhöhten Sichtbarkeit, wird für jeden Metadatensatz und jede Ressource auch ein eindeutiger und dauerhafter digitaler Quellenverweis („persistent identifier“) vergeben, der in Publikationen angegeben werden kann und so den nachhaltigen Umgang mit der Ressource belegt.

Stimmten die Ressourcenersteller zu, müssen die studentischen Hilfskräfte zunächst entscheiden, welches Metadaten-Profil für die Ressource geeignet ist. Dazu nutzen sie, neben der Erfahrung aus dem Projekt, die CLARIN Component Registry. Über das Suchfeld kann z.B. nach einem Ressourcentyp gesucht werden. Wenn wir also ein Textkorpus beschreiben wollen, finden wir z.B. mit der Sucheingabe „textcorpus“ mehrere Profile zur Auswahl. Welches davon für unsere Zwecke geeignet ist, können wir dadurch herausfinden, dass wir das Profil anklicken und in der unteren Hälfte der Seite die zum Profil gehörenden Komponenten ausklappen. Sie zeigen uns, welche Informationen auf welcher Detailstufe angegeben

Read more

Wie lange braucht man, um einen Datenmanagementplan für ein Graduiertenkolleg zu entwickeln?

Datenmanagementpläne: Eine typische Erwartung bei Projektanträgen

Wissenschaftsförderungsorganisationen wie DFG, BMBF, EU (Horizon 2020) erwarten, dass man sich dazu äußert, wie man mit Forschungsdaten, die in einem Projekt entstehen, umgeht; sie über 10 Jahre oder länger archiviert und zugänglich macht. Hintergrund ist – neben der Sicherung der guten wissenschaftlichen Praxis – auch das Bestreben nach Open Science, also der Transparenz von Ergebnissen, die eine Reproduzierbarkeit und ein Nachnutzen von Daten in anderen Kontexten ermöglicht.

Das klingt im ersten Augenblick trivial, aber wenn man einen Moment innehält merkt man, dass das ziemlich komplex werden kann: was passiert, wenn ein Projekt ausläuft und die Beteiligten die Forschung verlassen oder in Rente gehen? Was, wenn der Computer, der die Daten speichert, kaputtgeht? Die Speichermedien nicht mehr lesbar sind (welcher neue Computer hat schon noch DVD-Laufwerke oder gar Disketten)? Wem gehören die Daten überhaupt und darf jeder sie lesen? Ist irgendwie klar, mit welchem Programm sie geöffnet werden können? Was kostet der Umgang mit den Daten und wer soll das bezahlen? Wie findet man die Daten nach Jahren wieder? Ein Datenmanagementplan soll daher genau beschreiben, was man tut, um die Archivierung und Bereitstellung zu ermöglichen. Mit dem Werkzeug DMPTY hat CLARIN-D einen interaktiven Fragebogen bereitgestellt, mit dem man einen Datenmanagementplan erstellen kann. Wer den Fragebogen öffnet und sieht, wie viele Fragen er enthält, fragt sich unweigerlich, wie groß der Aufwand für einen Datenmanagementplan tatsächlich ist. In diesem Artikel soll versucht werden, darauf eine Antwort zu geben. Die Antwort für Eilige: wenn man mit einem Datenmanagementexperten zusammen den Plan erstellt und schon recht konkrete Vorstellungen vom Projekt hat, kann man das in 2-3 Stunden erledigen. Aber Achtung, hier sind einige Voraussetzungen, die man dafür erfüllen muss:

Read more