Auffinden

Auffinden

Auswerten

Auswerten

Aufbereiten und Aufbewahren

Aufbereiten

 

Mehr

Mehr

Hilfe

CLARIN hilft

Mehr erfahren

CLARIN-D Blog

Bericht von der ESU 2017  Workshop: From Print and Manuscript to Electronic Version

Das CLARIN-Zentrum an der Berlin-Brandenburgische Akademie der Wissenschaften ist bereits seit einigen Jahren ein aktiver Teil der Community rund um die European Summer University in Digital Humanities „Culture and Technology“ (ESU) in Leipzig. Auch in diesem Jahr waren wir mit einem Kurs zur Digitalisierung und Annotation historischer Drucke und Manuskripte wieder vor Ort und haben am regen interdisziplinären Wissensaustausch zwischen allen Beteiligten teilgenommen. 

Weiterlesen

Wortartentagging für die lexikographische Recherche

Wortartentagging für die lexikographische Recherche

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. Eine Vorverarbeitung der Korpora - das Wortartentagging - ist in diesem Prozess unbedingt erforderlich.

Weiterlesen

Digital Humanities studieren und netzwerken mit CLARIN

Digital Humanities studieren und netzwerken mit CLARIN

Man nehme 70 internationale Nachwuchswissenschaftler aus den Digital Humanities (DH), 11 verschiedene Kurse von erfahrenen Experten, und einige Präsentationen von Forschenden zu ihrer Arbeit in verschiedenen DH-Bereichen. Man füge ein Rahmenprogramm hinzu, das Exkursionen zu Museen und Kulturstätten beinhaltet und voilà: Im Sommer 2017 war die „Europäische Sommeruniversität- Kulturen und Technologien“ (ESU) ein perfekter Treffpunkt für Forschende, um DH-Methoden zu erlernen und anzuwenden, ihren Horizont um verschiedene DH-Forschungsfragen zu erweitern und ein internationales Netzwerk an Expertise aufzubauen.

Weiterlesen

WebLicht und GermaNet: Im Gespräch mit Professor Dr. Minhaeng Lee

Sprachwissenschaftliche Werkzeuge von Clarin-D im Einsatz für den universitären Unterricht im Bereich "Deutsch als Fremdsprache".

Professor Dr. Minhaeng Lee erklärt in einem Interview eindrücklich, wie er CLARIN-D Ressourcen im Unterricht für Deutsch als Fremdsprache in Süd-Korea einsetzt. Das Video bezieht sich dabei auf Clarin-Ds Software-Angebote:


Ein Wortartentagger für den Parzival

Ein Wortartentagger für den Parzival

Wie oft wünscht man sich, dass man mittelhochdeutsche Texte endlich automatisch mit Wortarten versehen kann? Bei uns lautet die Antwort: ständig. Wenn wir im Kollaborationsprojekt CRETA (https://www.creta.uni-stuttgart.de/) darüber sprechen, wie man Texte aus Bundestagsdebatten, Werther oder Adornos Ästhetischer Theorie mit linguistischen Informationen anreichern kann, fällt der Parzival oftmals mit einem etwas mitleidigen Lächeln unter den Tisch: dafür haben wir nicht die Tools, heißt es dann. Denn für das Mittelhochdeutsche funktionieren Werkzeuge, die für das moderne Deutsch trainiert wurden, erwartungsgemäß nicht besonders gut. Dies, haben wir beschlossen, kann man ändern.

Das erste, was man braucht, wenn man seinen eigenen Wortartentagger erstellen will, sind Trainingsdaten. Als wir mit unserem Vorhaben begonnen haben, war das Referenzkorpus Mittelhochdeutsch (https://www.linguistics.rub.de/rem/), das annotierte mittelhochdeutsche Daten enthält, leider noch nicht veröffentlicht. Das hätte uns damals die Arbeit etwas erleichtert. Wir haben unsere Daten also aus anderer Quelle bezogen. Bei der Mittelhochdeutschen Begriffsdatenbank (http://mhdbdb.sbg.ac.at/) wurden wir fündig. Es handelt sich hierbei zwar nicht um ein mit Wortarten annotiertes Korpus im konventionellen Sinne, aber trotzdem können uns die enthaltenen Annotationen weiterhelfen – Not macht ja bekanntlich erfinderisch. Die Wortarteninformationen, die in der Datenbank enthalten sind, operieren nur auf Ebene der Wortformen und sind losgelöst vom Kontext eines Wortes. Beispielsweise kann das Wort guot als Adjektiv, Nomen oder Adverb verwendet werden (und ist dementsprechend dreifach annotiert); ohne einen konkreten Verwendungskontext lässt sich dies nicht genauer bestimmen.

Hinzu kommt, dass nicht alle möglichen Verwendungsformen der Wörter in der Datenbank abdeckt sind: So kann z.B. daz nicht nur Artikel oder subordinierende Konjunktion sein (Satz 1), sondern auch als Relativ- (2) oder Demonstrativpronomen (3) fungieren:

Weiterlesen

Metadaten im CMDI-Format erstellen

Metadaten im CMDI-Format erstellen

Wenn bei uns im Haus im Rahmen von Forschungsarbeiten Ressourcen wie Tools oder Korpora entstehen, sind wir als Metadaten-Team eine erste Anlaufstelle: Wir unterstützen die Forschenden bei der Erstellung von CMDI-Dokumenten zur nachhaltigen Beschreibung der Ressourcen. Zum Team gehören immer ein bis zwei studentische Hilfskräfte, die nach einer kurzen Einarbeitungszeit selbstständig Vorschläge für Metadatenentwürfe zu den Ressourcen erarbeiten. Wir sind natürlich immer ansprechbar, wenn eine neue Ressource erstellt wird, suchen aber auch regelmäßig auf den Webseiten des Instituts, den Projekt- und Mitarbeiterseiten nach noch nicht beschriebenen Ressourcen.

Weiterlesen

Wie lange braucht man, um einen Datenmanagementplan für ein Graduiertenkolleg zu entwickeln?

Datenmanagementpläne: Eine typische Erwartung bei Projektanträgen

Wissenschaftsförderungsorganisationen wie DFG, BMBF, EU (Horizon 2020) erwarten, dass man sich dazu äußert, wie man mit Forschungsdaten, die in einem Projekt entstehen, umgeht; sie über 10 Jahre oder länger archiviert und zugänglich macht. Hintergrund ist – neben der Sicherung der guten wissenschaftlichen Praxis – auch das Bestreben nach Open Science, also der Transparenz von Ergebnissen, die eine Reproduzierbarkeit und ein Nachnutzen von Daten in anderen Kontexten ermöglicht.

Weiterlesen

Datenbank für Gesprochenes Deutsch (DGD)

Dieses Video-Tutorial stellt grundlegende Funktionen der Datenbank für Gesprochenes Deutsch (DGD, http://dgd.ids-mannheim.de/) am Institut für Deutsche Sprache vor. Die DGD ist die Plattform, über die mündliche Korpora des Archiv für Gesprochenes Deutsch (AGD, http://agd.ids-mannheim.de), darunter das Forschungs- und Lehrkorpus Gesprochenes Deutsch (FOLK, http://agd.ids-mannheim.de/folk.shtml), der wissenschaftlichen Öffentlichkeit zur Verfügung gestellt werden. Das Video-Tutorial wurde von Jurgita Baranauskaite für die CLARIN-F-AG 1 "Germanistik" (https://www.clarin-d.net/de/facharbeitsgruppen/germanistik) erstellt.


ESU Sommerschule für digitale Geisteswissenschaften, Leipzig 2015

Die European Summer University in Digital Humanities hat in Leipzig Studierende und Forschende aus dem Bereich der digitalen Geisteswissenschaften zusammengeführt, um miteinander verschiedene Themen zu diskutieren und neue Methoden kennenzulernen. CLARIN-D, eine Forschungsinfrastruktur für die Geistes- und Sozialwissenschaften, die auf der Grundlage von Sprachdaten arbeiten, war Teil der Sommerschule.

Weiterlesen