CLARIN-D Blog

Diskursanalytische Fragestellungen mithilfe des DeReKo (Teil 2)

https://youtu.be/56kF3-03_fY

Im ersten Teil dieses Screencasts erklärte Simon Meier, Mitglied der CLARIN F1, wie für diskursanalytische Fragestellungen das Deutsche Referenzkorpus (DeReKo) in COSMAS II mit der integrierten Funktion der Themenannotation genutzt werden kann. hier geht es zum Blogpost der Teil 1 des Videos behandelt. 

Dieser Blogpost beschäftigt sich nun mit Teil 2 von Meier's Screencast, in dem er zeigt, wie die in Teil 1 gefundenen Belege exportiert und mithilfe des kostenlosen Korpusanalysewerkzeugs AntConc weiter untersucht werden können. 

Im letzten Screencast zeigte Meier bereits, dass Formulierungen wie heute weiß man in populärwissenschaftlichen Texten sowie Texten über Ernährung und Gesundheit besonders häufig vorkommen. Die Frage ist nun, welche Gegenstände typischerweise, und mit welchen sprachlichen Mitteln, so repräsentiert werden. Um die Frage zu beantworten werden die Belege zusammen mit Referenzbelegen in AntConc analysiert.  

Weiterlesen

Konstruktionsgrammatik - Sprachgebrauchsbasierte Analysen mit den Korpora des DWDS und des DTA

https://youtu.be/wgmzrT9UJxQ

Prof. Dr. Alexander Lasch, Linguist an der TU Dresden, zeigt in diesem Video, wie mit den Ressourcen des DTA und des DWDS sprachgebrauchsbasierte Analysen durchgeführt werden können, um das Deutsche konstruktionsgrammatisch zu beschreiben. Dafür stellt er zwei Leitfragen auf: 

  1. Kann mittels eines konstruktionsgrammatischen Ansatzes Sprachgebrauch gegenstandsadäquat beschrieben werden?
  2. Inwieweit können maschinelle Analysen des Sprachgebrauchs dazu dienen, den sprachgebrauchsbasierten konstruktionsgrammatischen Ansatz zu plausibilisieren?  

Ein sprachgebrauchsbasierter Zugang verlangt die Diskussion darüber, was für uns ein Muster, Pattern, Schema oder eine Konstruktion sei, wovon sowohl die Grammatik des Deutschen, als auch die Konstruktionsgrammatik als Teilgebiet unter spezifischen kognitionslinguistischen Prämissen profitieren können. Der aktuelle Trend ist die Ermittlung solcher Muster durch maschinelle Analysen. Diese Muster werden dann im nächsten Schritt abstrahiert, um aus ihnen Konstruktionen zu gewinnen. Durch diese Vorgehensweise soll Sprachwissen, welches Sprechende zur Produktion der sprachlichen Strukturen verwenden, aus Sprachgebrauch rekonstruiert werden. Für diese Arbeit bieten das DWDS und das DTA gute Mittel.

Weiterlesen

COSMAS II Screencast

https://youtu.be/0pY2cSgd4kQ

In diesem Screencast wird eine Nutzungsmöglichkeit von COSMAS II gezeigt. COSMAS, das Corpus Search, Management and Analysis System, ist ein Portal für Korpusrecherchen innerhalb textueller Korpora des IDS. Als Beispiel wird die Untersuchung der Entwicklung des öffentlichen Diskurses über Geflüchtete gezeigt

Es wird im Detail gezeigt, welche Schritte für eine solche Analyse in COSMAS II vorgenommen werden müssen. So muss zunächst ein für den Forschungskontext geeignetes Teilkorpus zusammengestellt werden. Hierfür muss nach einer Anmeldung in COSMAS II ein Textarchiv ausgewählt werden. Im Screencast wird beispielsweise das Archiv für geschriebene Sprache ausgewählt. Als Textkorpus werden Texte aus der Zeitung Die Zeit zwischen 1953 und 2015 ausgewählt.

Weiterlesen

Multi-CAST - Prof. Dr. Geoffrey Haig - Forum CA3

 https://youtu.be/kxezf9VQdWU

Prof. Dr. Geoffrey Haig von der Universität Bamberg stellte auf dem Forum CA3 in Hamburg das in der CLARIN F-AG 3 "Linguistische Feldforschung, Ethnologie, Sprachtypologie" entstandene Multilingual Corpus of Annotated Spoken Text, kurz Multi-CAST vor. Der Forschungskontext innerhalb dessen Multi-CAST entstanden ist, ist Korpusbasierte Sprachtypologie. Was genau das heißt ist im Video und in diesem Blogpost zu sehen. 

Mit Sprachtypologie beziehen sich die Entwickler auf die Untersuchung der Gesamtheit aller möglicher menschlicher Sprachen, und das Identifizieren der Grenzen ihrer Variationen. Da es nicht möglich, ist alle Sprachen zu untersuchen, werden die Untersuchungen an einer möglichst ausgewogenen Stichprobe gemacht. Ausgewogen heißt hierbei, dass idealerweise möglichst weit entfernte Sprachen auszuwählen sind.

Weiterlesen

Digitale Sprachressourcen in der Lehrerbildung - Prof. Dr. Angelika Storrer - Forum CA3

https://youtu.be/ObaE1rYqcIs

Welche Möglichkeiten bieten digitale Sprachressourcen in der Lehrerbildung? Dieser Frage geht Prof. Dr. Angelika Storrer von der Universität Mannheim nach und teilte ihre diesbezüglichen Erfahrungen auf dem Forum CA3 in Hamburg.

Digitale Sprachressourcen wie Onlinewörterbücher, digitale Korpora und Werkzeuge zu deren Auswertung werden immer leistungsfähiger und können gut in die Lehrerbildung eingebunden werden. So können mit dem Gebrauch solcher Ressourcen beispielsweise Wörterbuchwerkstätten entwickelt werden, bei denen Studierende neben dem Nutzen der Korpora und entsprechender Werkzeuge auch erfahren können, welche Verfahren nötig sind um linguistisch annotierte Korpora zu erstellen. 

Weiterlesen

Wo sagt man ... ?

  https://youtu.be/gJo_eGbEQ0I

Besonders interessant für Dialektforschende und RegionalhistorikerInnen ist das in diesem Screencast vorgestellte Werkzeug "Wo sagt man?". Es ermöglicht Nutzenden nach Ausdrücken zu suchen und visualisiert die Bereiche auf einer Karte, in denen dieser Ausdruck verwendet wird, beziehungsweise wo er aufgenommen wurde und liefert weitere Informationen dazu. 

Weiterlesen

Bericht von der ESU 2017  Workshop: From Print and Manuscript to Electronic Version

Das CLARIN-Zentrum an der Berlin-Brandenburgische Akademie der Wissenschaften ist bereits seit einigen Jahren ein aktiver Teil der Community rund um die European Summer University in Digital Humanities „Culture and Technology“ (ESU) in Leipzig. Auch in diesem Jahr waren wir mit einem Kurs zur Digitalisierung und Annotation historischer Drucke und Manuskripte wieder vor Ort und haben am regen interdisziplinären Wissensaustausch zwischen allen Beteiligten teilgenommen. 

Weiterlesen

Wortartentagging für die lexikographische Recherche

Wortartentagging für die lexikographische Recherche

Moderne Lexikographie ist heute in der Regel korpusbasiert. Die meisten uns bekannten größeren lexikographischen Vorhaben nutzen meist sehr große Textkorpora als Grundlage der lexikographischen Beschreibung ihrer Stichwörter. Anders ausgedrückt: die Benutzer von Wörterbüchern erwarten zu Recht, verlässliche und geprüfte Informationen vorzufinden. Eine Vorverarbeitung der Korpora - das Wortartentagging - ist in diesem Prozess unbedingt erforderlich.

Weiterlesen