Automatische Annotation von Namen

Von Sarah Schneider , am 30 November 2017 14:05
Kommentar schreiben

Bücher, Artikel und Manuskripte enthalten oft Angaben zu Personen, Orten und Organisationen. Um sich einen Überblick über diese Angaben zu verschaffen ist ein automatisches Werkzeug wie ein Named-Entity-Recognizer sinnvoll, mit dessen Hilfe Namen markiert und kategorisiert werden können. Gerade bei längeren Texten erhält man dadurch einen guten Überblick, häufig sieht man sogar Namen, Orte und Einrichtungen, die man beim Lesen übersehen hätte.

Mit Hilfe des Tools WebLicht, welches einen Named Entity Recognizer für mehrere Sprachen enthält, können diese Informationen automatisch markiert und extrahiert werden. Sie müssen sich lediglich mit Ihrem CLARIN-Account oder dem Zugang Ihrer Heimatinstitution einloggen und können dann Ihren Text eingeben, hochladen oder einen Beispieltext auswählen. Der nächste Schritt ist die Zusammenstellung Ihrer Prozesskette. Um dies tun zu können klicken Sie im nächsten Schritt auf "Advanced Mode".

DiaCollo Screencast

Von Sarah Schneider , am 23 November 2017 14:36
Kommentar schreiben

https://youtu.be/_0HdBPoajZA

Dieser Screencast zeigt die Verwendung des Werkzeugs "DiaCollo: Kollokationsanalyse in diachroner Perspektive".

Der Kontext eines Wortes, in diesem Fall seine Kollokationen, kann Aufschluss über Bedeutung des Wortes oder Bedeutungswandel geben. Ebenso können politische, kulturelle oder gesellschaftliche Veränderungen mittels der Kollokationen eines Wortes aufgefunden werden.

CLARIN-D Helpdesk

Von Sarah Schneider , am 23 November 2017 13:45
Kommentar schreiben

https://youtu.be/ETLM_351ZtM

Bei jeglichen Fragen zu unserer Forschungsinfrastruktur steht Ihnen das CLARIN-D Zentrum Hamburger Zentrum für Sprachkorpora (HZSK) mittels des Helpdesks zur Verfügung.

Der Helpdesk bietet so eine Schnittstelle zwischen CLARIN und Ihnen als UserIn, indem er Ihre Frage in einem zentralen Fragenpool aufnimmt und sie dann mittels eines Ticketing Systems an das entsprechende Expertenteam weiterleitet. Die Mitarbeitenden des Helpdesks haben es sich zum Ziel gesetzt Ihre Frage nach spätestens nach 48 Stunden weiter zu delegieren, um Ihnen schnellstmöglich behilflich sein zu können.

Bericht von der ESU 2017 Workshop: From Print and Manuscript to Electronic Version

Von Axel Herold und Henriette Ast , am 26 Oktober 2017 16:49
Kommentar schreiben

Das CLARIN-Zentrum an der Berlin-Brandenburgische Akademie der Wissenschaften ist bereits seit einigen Jahren ein aktiver Teil der Community rund um die European Summer University in Digital Humanities „Culture and Technology“ (ESU) in Leipzig. Auch in diesem Jahr waren wir mit einem Kurs zur Digitalisierung und Annotation historischer Drucke und Manuskripte wieder vor Ort und haben am regen interdisziplinären Wissensaustausch zwischen allen Beteiligten teilgenommen.

Wortartentagging für die lexikographische Recherche

Von Lothar Lemnitzer , am 20 Oktober 2017 10:07
Kommentar schreiben

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. Eine Vorverarbeitung der Korpora - das Wortartentagging - ist in diesem Prozess unbedingt erforderlich.

Digital Humanities studieren und netzwerken mit CLARIN

Von Thorsten Trippel , am 19 Oktober 2017 14:53
Kommentar schreiben

Man nehme 70 internationale Nachwuchswissenschaftler aus den Digital Humanities (DH), 11 verschiedene Kurse von erfahrenen Experten, und einige Präsentationen von Forschenden zu ihrer Arbeit in verschiedenen DH-Bereichen. Man füge ein Rahmenprogramm hinzu, das Exkursionen zu Museen und Kulturstätten beinhaltet und voilà: Im Sommer 2017 war die „Europäische Sommeruniversität- Kulturen und Technologien“ (ESU) ein perfekter Treffpunkt für Forschende, um DH-Methoden zu erlernen und anzuwenden, ihren Horizont um verschiedene DH-Forschungsfragen zu erweitern und ein internationales Netzwerk an Expertise aufzubauen.

WebLicht und GermaNet: Im Gespräch mit Professor Dr. Minhaeng Lee

Von Redaktion , am 16 Oktober 2017 12:52
Kommentar schreiben

Sprachwissenschaftliche Werkzeuge von Clarin-D im Einsatz für den universitären Unterricht im Bereich "Deutsch als Fremdsprache".

Professor Dr. Minhaeng Lee erklärt in einem Interview eindrücklich, wie er CLARIN-D Ressourcen im Unterricht für Deutsch als Fremdsprache in Süd-Korea einsetzt. Das Video bezieht sich dabei auf Clarin-Ds Software-Angebote:

Ein Wortartentagger für den Parzival

Von Nora Ketschik und Sarah Schulz , am 13 September 2017 12:19
Kommentar schreiben

Wie oft wünscht man sich, dass man mittelhochdeutsche Texte endlich automatisch mit Wortarten versehen kann? Bei uns lautet die Antwort: ständig. Wenn wir im Kollaborationsprojekt CRETA (https://www.creta.uni-stuttgart.de/) darüber sprechen, wie man Texte aus Bundestagsdebatten, Werther oder Adornos Ästhetischer Theorie mit linguistischen Informationen anreichern kann, fällt der Parzival oftmals mit einem etwas mitleidigen Lächeln unter den Tisch: dafür haben wir nicht die Tools, heißt es dann. Denn für das Mittelhochdeutsche funktionieren Werkzeuge, die für das moderne Deutsch trainiert wurden, erwartungsgemäß nicht besonders gut. Dies, haben wir beschlossen, kann man ändern.

Das erste, was man braucht, wenn man seinen eigenen Wortartentagger erstellen will, sind Trainingsdaten. Als wir mit unserem Vorhaben begonnen haben, war das Referenzkorpus Mittelhochdeutsch (https://www.linguistics.rub.de/rem/), das annotierte mittelhochdeutsche Daten enthält, leider noch nicht veröffentlicht. Das hätte uns damals die Arbeit etwas erleichtert. Wir haben unsere Daten also aus anderer Quelle bezogen. Bei der Mittelhochdeutschen Begriffsdatenbank (http://mhdbdb.sbg.ac.at/) wurden wir fündig. Es handelt sich hierbei zwar nicht um ein mit Wortarten annotiertes Korpus im konventionellen Sinne, aber trotzdem können uns die enthaltenen Annotationen weiterhelfen – Not macht ja bekanntlich erfinderisch. Die Wortarteninformationen, die in der Datenbank enthalten sind, operieren nur auf Ebene der Wortformen und sind losgelöst vom Kontext eines Wortes. Beispielsweise kann das Wort guot als Adjektiv, Nomen oder Adverb verwendet werden (und ist dementsprechend dreifach annotiert); ohne einen konkreten Verwendungskontext lässt sich dies nicht genauer bestimmen.

Hinzu kommt, dass nicht alle möglichen Verwendungsformen der Wörter in der Datenbank abdeckt sind: So kann z.B. daz nicht nur Artikel oder subordinierende Konjunktion sein (Satz 1), sondern auch als Relativ- (2) oder Demonstrativpronomen (3) fungieren:

Metadaten im CMDI-Format erstellen

Von Kerstin Eckart , am 01 September 2017 12:28
Kommentar schreiben

Wenn bei uns im Haus im Rahmen von Forschungsarbeiten Ressourcen wie Tools oder Korpora entstehen, sind wir als Metadaten-Team eine erste Anlaufstelle: Wir unterstützen die Forschenden bei der Erstellung von CMDI-Dokumenten zur nachhaltigen Beschreibung der Ressourcen. Zum Team gehören immer ein bis zwei studentische Hilfskräfte, die nach einer kurzen Einarbeitungszeit selbstständig Vorschläge für Metadatenentwürfe zu den Ressourcen erarbeiten. Wir sind natürlich immer ansprechbar, wenn eine neue Ressource erstellt wird, suchen aber auch regelmäßig auf den Webseiten des Instituts, den Projekt- und Mitarbeiterseiten nach noch nicht beschriebenen Ressourcen.

Wie lange braucht man, um einen Datenmanagementplan für ein Graduiertenkolleg zu entwickeln?

Von Thorsten Trippel , am 29 August 2017 12:40
Kommentar schreiben

Datenmanagementpläne: Eine typische Erwartung bei Projektanträgen

Wissenschaftsförderungsorganisationen wie DFG, BMBF, EU (Horizon 2020) erwarten, dass man sich dazu äußert, wie man mit Forschungsdaten, die in einem Projekt entstehen, umgeht; sie über 10 Jahre oder länger archiviert und zugänglich macht. Hintergrund ist – neben der Sicherung der guten wissenschaftlichen Praxis – auch das Bestreben nach Open Science, also der Transparenz von Ergebnissen, die eine Reproduzierbarkeit und ein Nachnutzen von Daten in anderen Kontexten ermöglicht.