CLARIN-D Blog

CLARIN-D Newsflash Juli 2020

CLARIN-D Newsflash Juli 2020

Tour de CLARIN: CLARIN-D im Porträt von April-Mai 2020

Von April bis Mai 2020 war das deutsche CLARIN Konsortium Gastgeber der Tour de CLARIN. Die Tour de CLARIN ist ein etabliertes CLARIN Format, das die europäischen CLARIN Konsortien in den Blick nimmt und deren Schwerpunkte und Ergebnisse vorstellt. Die CLARIN Länder werden in Blogposts und nach den Themenblöcken „Introduction“ (Überblick), „Tool“, „Resource“, „Event“ und „Interview“ einheitlich porträtiert.

CLARIN-D wurde in den folgenden fünf englischsprachigen Blogposts präsentiert:

Wir bedanken uns ganz herzlich bei allen Beitragenden und Interviewten!

Neue Ressourcen

Das CLARIN-Zentrum an der Universität des Saarlandes hat eine neue Version des Royal Society Corpus veröffentlicht. Die neue Version enhält zusätzlich Texte aus 50 weiteren Jahren.

Das CLARIN-Zentrum an der Universität Tübingen hat GermaNet 15.0 veröffentlicht.

Seit diesem Sommer ist eine neue Version des Index Thomisticus Treebank (ITTB) in Tündra und über das Tübinger Archive of Language Resources verfügbar.

Das Deutsche Textarchiv (DTA) hat die Nutzungsbedingungen für DTA-Korpora gelockert, für wesentliche Teile des DTA entfällt jetzt die "Non-Commercial"-Einschränkung.

Neue Lexika und Wörterbücher in DTA und DTAQ: Im Rahmen der Kuration historischer Wörterbücher und Lexika zur Integration in die CLARIN-D-Infrastruktur wurden an der BBAW drei neue Lexika

Weiterlesen

WebLicht Experteninterview - Extraktion Prädikativer Nominalphrasen

https://youtu.be/z6Y6m_oj-XU

In diesem Experteninterview wird ein Anwendungsszenario von CLARINs WebLicht besprochen. Genau wird gezeigt, wie prädikativ verwendete Nominalphrasen mittels WebLicht aus literarischen Texten extrahiert werden können. Der Forschungskontext innerhalb dessen diese Arbeitsweise genutzt wurde waren Formen und Funktionen von NPs beim Entwurf literarischer Figuren

Bei prädikativ verwendeten NPs im literarischen Kontext handelt es sich zum Beispiel um Charakterisierungen, wie die im folgenden Textausschnitt aus Thomas Manns Mario und der Zauberberg fett markierte Stelle: 

Ohne Schwierigkeiten fand sich ein junger Mann aus den hinteren Sitzreihen, der bereit war, diktierte Ziffern auf die Tafel zu schreiben. Wir kannten ihn auch: die ganze Unterhaltung gewann etwas Familiärs dadurch, dass man so viele Gesichter kannte. Er war der Angestellte des Kolonialwaren- und Obstladens in der Hauptstraße und hatte uns mehrmals in guter Form bedient. 
Mann 1930: 61
 

Weiterlesen

Digitale Sprachressourcen in der Lehrerbildung - Prof. Dr. Angelika Storrer - Forum CA3

https://youtu.be/ObaE1rYqcIs

Welche Möglichkeiten bieten digitale Sprachressourcen in der Lehrerbildung? Dieser Frage geht Prof. Dr. Angelika Storrer von der Universität Mannheim nach und teilte ihre diesbezüglichen Erfahrungen auf dem Forum CA3 in Hamburg.

Digitale Sprachressourcen wie Onlinewörterbücher, digitale Korpora und Werkzeuge zu deren Auswertung werden immer leistungsfähiger und können gut in die Lehrerbildung eingebunden werden. So können mit dem Gebrauch solcher Ressourcen beispielsweise Wörterbuchwerkstätten entwickelt werden, bei denen Studierende neben dem Nutzen der Korpora und entsprechender Werkzeuge auch erfahren können, welche Verfahren nötig sind um linguistisch annotierte Korpora zu erstellen. 

Weiterlesen

CLARIN Federated Content Search: Suche in verteilten Sprachressourcen

https://youtu.be/SaUJVdfz1CA

In diesem Screencast stellen wir unser Werkzeug CLARIN Federated Content Search (FCS) vor. Es ermöglicht eine Suche nach unterschiedlichen Verwendungen eines Wortes in verteilten Sprachressourcen. Hierfür kann ein beliebiger Begriff in die Suchmaske eingegeben werden. um ihn entweder Sprachunabhängig oder in einer bestimmten Sprache darzustellen. Auch die Art der Darstellung lässt sich manuell festlegen.  

Eine dieser Darstellungsformen, die auch in diesem Screencast gezeigt wird, ist KWIC - also Keyword in Context. Hierbei wird das Wort in verschiedenen möglichen Kontexten dargestellt. 

Weiterlesen

Automatische Annotation von Namen

https://youtu.be/OtDTtpMnzdk

Bücher, Artikel und Manuskripte enthalten oft Angaben zu Personen, Orten und Organisationen. Um sich einen Überblick über diese Angaben zu verschaffen ist ein automatisches Werkzeug wie ein Named-Entity-Recognizer sinnvoll, mit dessen Hilfe Namen markiert und kategorisiert werden können. Gerade bei längeren Texten erhält man dadurch einen guten Überblick, häufig sieht man sogar Namen, Orte und Einrichtungen, die man beim Lesen übersehen hätte.

Mit Hilfe des Tools WebLicht, welches einen Named Entity Recognizer für mehrere Sprachen enthält, können diese Informationen automatisch markiert und extrahiert werden. Sie müssen sich lediglich mit Ihrem CLARIN-Account oder dem Zugang Ihrer Heimatinstitution einloggen und können dann Ihren Text eingeben, hochladen oder einen Beispieltext auswählen. Der nächste Schritt ist die Zusammenstellung Ihrer Prozesskette. Um dies tun zu können klicken Sie im nächsten Schritt auf "Advanced Mode".   

Weiterlesen

Bericht von der ESU 2017  Workshop: From Print and Manuscript to Electronic Version

Das CLARIN-Zentrum an der Berlin-Brandenburgische Akademie der Wissenschaften ist bereits seit einigen Jahren ein aktiver Teil der Community rund um die European Summer University in Digital Humanities „Culture and Technology“ (ESU) in Leipzig. Auch in diesem Jahr waren wir mit einem Kurs zur Digitalisierung und Annotation historischer Drucke und Manuskripte wieder vor Ort und haben am regen interdisziplinären Wissensaustausch zwischen allen Beteiligten teilgenommen. 

Weiterlesen

WebLicht und GermaNet: Im Gespräch mit Professor Dr. Minhaeng Lee

Sprachwissenschaftliche Werkzeuge von Clarin-D im Einsatz für den universitären Unterricht im Bereich "Deutsch als Fremdsprache".

Professor Dr. Minhaeng Lee erklärt in einem Interview eindrücklich, wie er CLARIN-D Ressourcen im Unterricht für Deutsch als Fremdsprache in Süd-Korea einsetzt. Das Video bezieht sich dabei auf Clarin-Ds Software-Angebote: