CLARIN-D Blog

CLARIN-D Newsflash Januar 2020

Buchveröffentlichung des Deutschen Textarchivs

2019, zum Jubiläum, seines 250. Geburtstages, ist im Suhrkamp/Insel Verlag eine Nachschrift der ›Kosmos-Vorträge‹ Alexander von Humboldts in einer gedruckten Ausgabe, herausgegeben von Christian Kassung (Humboldt-Universität zu Berlin) und Christian Thomas (BBAW), erschienen. Mit diesem Manuskript der Henriette Kohlrausch, deren bislang unbekannte Verfasserschaft in diesem Band belegt und erstmals einer breiten Öffentlichkeit bekannt gemacht wurde, liegt somit die einzige bekannte Nachschrift der populären Vorträge in der Berliner Sing-Akademie in einer zuverlässigen, anhand der Handschrift geprüften Textfassung vor. Diese basiert auf der gemäß TEI-XML im DTA-Basisformat für Manuskripte (DTABf-M) annotierten Textgrundlage, die 2014/15 im »Hidden Kosmos«-Projekt erstellt und im Deutschen Textarchiv publiziert wurde.

Neue Ressourcen

Das Saarbrücker Kochbuch-Corpus (SaCoCo) kann jetzt unter einer freien Lizenz heruntergeladen werden.

Neue Services

Die BAS WebServices veröffentlichen eine erste Alpha-Version des neuen Services 'Speaker Diarization'. Speaker Diarization, d.h. die Klassifikation und Segmentierung von Sprachaufnahmen nach Sprecher-Identitäten, ist nach wie vor eines der schwierigsten Probleme der KI. Mit dem neuen Services des BAS können Anwender z.B. ihre Interview-Video-Aufzeichnungen automatisch in Interviewer und Interviewee trennen.

Im Transkriptionseditor Octra sind nun Spracherkennung und Segmentation direkt verfügbar. Sie öffnen eine .wav-Audiodatei in Octra, drücken die Taste M, warten ein wenig und dann erscheint eine Wortsegmentation des Wortlauts – korrigieren Sie diese manuell und exportieren Sie sie in eine Vielzahl von Formaten. Einfach magisch!

Neue Werkzeuge für das Deutsche Textarchiv über CLARINs Language Resource Switchboard (LRS) zugänglich. Im Rahmen des für 25 Monate angelegten Verbundprojekts CLARIAH-DE mit dem vornehmlichen Ziel, die beiden mit Mitteln des Bundesministeriums für Bildung und Forschung (BMBF) aufgebauten geisteswissenschaftlichen Forschungsinfrastrukturen CLARIN-D und DARIAH-DE zu einer gemeinsamen digitalen Forschungsinfrastruktur zusammenzuführen, wurden an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) neue

Read more

CLARIN-D Newsflash Oktober 2019

Neue Ressourcen

Veröffentlichung des Korpus Digitale Sammlung Deutscher Kolonialismus im DTA/CLARIN-D-Repositorium (BBAW, Berlin). Im Rahmen eines zweijährigen, von der DFG geförderten Kooperationsprojekts der Staats- und Universitätsbibliothek (SuUB) Bremen, der Universitätsbibliothek Johann Christian Senckenberg in Frankfurt/Main und der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) wurde eine umfassende digitale Sammlung zum Deutschen Kolonialismus erarbeitet. Das mehr als 1000 Titel mit ca. 240000 Seiten umfassende Korpus „Digitale Sammlung Deutscher Kolonialismus“ (DSDK) besteht aus Publikationen, die in der Zeit des deutschen Kaiserreichs und von den genannten Bibliotheken unter dem Aspekt Kolonialismus gesammelt wurden.

Mit der Veröffentlichung des Korpus werden nun der Kolonialismusforschung, der Koloniallinguistik sowie weiteren historisch-textbasiert arbeitenden Disziplinen – und nicht zuletzt auch der breiteren Öffentlichkeit – eine in dieser Form einzigartige Sammlung an Publikationen in Bild und Text digital zur Verfügung gestellt. Die digitale Erfassung erfolgte automatisch mit Methoden der Optical Character Recognition (OCR). Die Texte wurden zunächst innerhalb der Qualitätssicherungsumgebung des Deutschen Textarchivs, DTAQ, publiziert, wo die Bände nach freier Anmeldung zugänglich und bereits vollumfänglich nutzbar sind (URL: http://www.deutschestextarchiv.de/dtaq/book?q=dsdk)

Neue Services

Das Bayerische Archiv für Sprachsignale hat eine neue Version seines Webservices API freigeben (2.31).

  • Der neue Service "AnnotConv" ist nun in Betrieb, er übersetzt signalbasierte Annotationsdateien in verschiedene Formate.
  • Neuer Service "AudioEnhance" zur Manipulation von Sprachsignalen: Kanalauswahl und -merging, Re-Sampling, Extraktion von Tonspuren aus Video-Eingaben, Amplituden-Normalisierung, Bandpass-Filterung, Rauschunterdrückung, Änderung der Sprechgeschwindigkeit ohne die Tonlage zu verändern, Änderung der Tonhöhe ohne die Sprechgeschwindigkeit zu ändern.

Vom Deutschen Textarchiv ins Language Resource Switchboard

Das Deutsche Textarchiv (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) unterstützt seit neuestem die Übermittlung aller im DTA enthaltenen Werke an das innerhalb von CLARIN-PLUS entwickelte Language Resource Switchboard (LRS). Das LRS evaluiert die einzelnen Textdateien und bietet im

Read more

CLARIN-D Newsflash Juli 2019

Neue Ressourcen

GermaNet Logo

GermaNet Version 14.0 ist nun veröffentlicht. Neu bei dieser Version sind

  • Neue Synsets und ca. 10 000 neue lexikalische Einheiten für alle Wortklassen
  • Neue Relationen zwischen Synsets

Seit November 2017 wird der Briefwechsel Daniel Sanders' im Deutschen Textarchiv veröffentlicht. Derzeit stehen 182 Briefe im Volltext bereit. Insgesamt konnten 432 Briefe aus 41 Archiven nachgewiesen und verzeichnet werden. Mehr dazu im Blogpost zum Briefwechsel Daniel Sanders'.

Die Digitalisierung des zweiten Teils des Mannheimer Korpus Historischer Zeitungen und Zeitschriften (MKHZ2) wurde abgeschlossen. Dieses Digitalisierungsprojekt wurde in Kooperation der CLARIN-Zentren in Mannheim und Berlin durchgeführt. Die Ressourcen sind nun im Deutschen Textarchiv verfügbar. Weitere Informationen im Blogpost "Presseschau um die Jahrhundertwende".

Neue Services

Am Bayerischen Archiv für Sprachsignale (BAS) in München wurden zwei neue Webservices für die Öffentlichkeit freigeschaltet (WebServices 2.30): 'AnnotConv' ist ein Service, welcher Annotationsdateien mit alignierter Zeitinformation in andere Formate konvertiert. Der zweite Service 'AudioEnhance' erlaubt die Anwendung von verschiedenen Signalverarbeitungen auf Sprachsignale des Benutzer, z.B. Filterung, Kanalselektierung und -zusammenfassung, Rauschreduktion, Tonhöhen- und Längenmanipulation. URL: http://hdl.handle.net/11858/00-1779-0000-0028-421B-4

Neue Projekte

Das neu geförderte DFG-Projekt „Die Evolution von komplexen Textmustern“ startete im Juni/Juli 2019 an den Standorten Berlin und Paderborn. Das Projekt wird in Kooperation der Universität Paderborn/Lehrstuhl für Germanistische und Allgemeine Sprachwissenschaft und des CLARIN-Zentrums der BBAW durchgeführt. Mehr dazu im Blogpost zu dem neuen Projekt.

Im Rahmen eines kürzlich bewilligten Lehrlabors mit dem Titel "Querstreben sprachförderlichen Fachunterrichts: Texte - Potenziale - Formen", wird unter der Leitung von Kristin Bührig erneut WebAnno für die Fragestellungen des Projekts eingesetzt und weiterentwickelt. Das Projekt ist Teil der vom BMBF geförderten Initiative Lehrerprofessionalisierung und startet zum Wintersemester 2019/2020.

Bei den gemeinsamen Veranstaltungen im Rahmen einer vom DAAD geförderten Insitutspartnerschaft zwischen

Read more

CLARIN-D Newsflash Mai 2019

Mehr Informationen zu den Visualisierungen befinden sich hier: https://dhd2019.org/erkl%C3%A4rung-visualisierung/

Neue Services

Am Bayerischen Archiv für Sprachsignale (BAS) in München wurden zwei neue Webservices für die Öffentlichkeit freigeschaltet: 'Subtitle' ist ein frei verfügbarer Service, welcher automatisch Untertitel-Tracks für Videos erzeugt - in einer Pipeline zusammen mit automatischer Spracherkennung sogar ohne Transkript. 'Anonymizer' ist ein Service welcher Sprachsignale und zugehörige Annotationen anhand einer Lis te von Stichwörtern automatisch anonymisiert, d.h. alle Vorkommnisse eines Stichworts werden im Signal durch ein Rauschen maskiert und in allen Annotationen gelöscht bzw. durch ein definiertes Tag ersetzt . URL: http://hdl.handle.net/11858/00-1779-0000-0028-421B-4

CLARIN-D und DARIAH-DE bei DHd 2019 in Mainz und Frankfurt

Auf der DHd gab es einen gemeinsamen Infostand von CLARIN-D und DARIAH-DE.

CLARIN-D hat zusammen mit dem DHd Verband und DARIAH insgesamt neun Stipendien für NachwuchswissenschaftlerInnen vergeben. Die Erfahrungsberichte wurden im CLARIN-D Blog veröffentlicht.

DHd-Workshop zu "Qualitätsstandards und Interdisziplinarität in der Kuration audiovisueller (Sprach-)Daten", organisiert von Thomas Schmidt, Jonathan Blumtritt, Hanna Hedeland, Jan Gorisch, Felix Rau, Kai Wörner am 25./26.03.2019 in Mainz mit dem Vortrag "Vergleich der Transkription mit und ohne Spracherkennung."

Workshops und Schulungen

Vorstellung von CLARIN-D Werkzeugen und Services und Beratung für Projekte/Antragstellungen in Gießen (Zentrum für Medien und Interaktivität (ZMI)), Berlin (ZfL Berlin: Leibniz-Zentrum für Literatur- und Kulturforschung Berlin) und Braunschweig (Georg-Eckert-Institut – Leibniz-Institut für internationale Schulbuchforschung) (FAG 8: Geschichtswissenschaften)

"BAS Tutorial Tools and Services" auf der Jahrestagung der Italienischen Gesellschaft der Stimmwissenschaften (AISV) am 14.02.2019 in Arezzo

Read more

CLARIN-D Newsflash Februar 2019

Die CLARIN Annual Conference findet dieses Jahr in Leipzig statt.
Die CLARIN Annual Conference findet dieses Jahr in Leipzig statt

Neue Ressourcen

The Corpus of Late Modern English Texts Version 3.1 ist nun am CLARIN-D-Zentrum an der Universität des Saarlandes verfügbar.

Neue Versionen von Webservices

WebLicht


TüNDRA

Öffentlichkeitsarbeit

Die FAG 2 "Andere Philologien" stellt sich vor Präsentation des CLARIN-D-Zentrums an der Universität des Saarlandes bei der 77. Transforum-Sitzung in Saarbrücken

Die CLARIN Annual Conference wird dieses Jahr vom 30.September bis 2. Oktober in Leipzig stattfinden. Der Call for Abstracts läuft bis zum 15. April 2019.

Workshops und Seminare

Nachwuchsworkshop “Herausforderungen der Briefkodierung”: Am 29./30. Oktober 2018 fand an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) der Nachwuchsworkshop “Herausforderungen der Briefkodierung” statt, der durch CLARIN-D und die TEI Correspondence SIG ausgerichtet wurde.

Lexical Data Masterclass 2018: Vom 3. bis 7. Dezember 2018 fand in Berlin die Lexical Data Masterclass 2018 (LexMC18) statt. Die Masterclass wurde organisiert von DARIAH, der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW), Inria sowie dem Belgrade Center for Digital Humanities und wurde unterstützt von CLARIN und der European Lexicographic Infrastructure (ELEXIS). Mehr Informationen unter: https://lexmc18.sciencesconf.org/ und https://digilex.hypotheses.org/.

Im Wintersemester 2018/2019 wurden zwei Seminare mit Digital-Humanities-Bezug an der Humboldt-Universität Berlin von CLARIN-D-Mitarbeitern mit ausgerichtet: Themen waren Alexander von Humboldts Reise 1797/98 sowie Alexander von Humboldts Kosmos-Vorlesungen. Beide Seminare vermittelten u.a. Methoden der digitalen Edition. Weitere Informationen unter: https://bit.ly/2QWxVIv und https://bit.ly/2Crrl7u.

Read more

CLARIN-D Newsflash Oktober 2018

Linguistic Annotation in XML (DTABf)
Linguistic Annotation in XML (DTABf)

 

 

Neue Standards

Doktorandentage

Workshops und Panels

Bildnachweis: Linguistic Annotation in XML (DTABf): Christian Thomas 2018, Lizenz: CC-BY-NC.

Read more

CLARIN-D Newsflash Juli 2018

 

Titelseite der ersten Ausgabe der Philosophical Transactions
Titelseite der ersten Ausgabe der Philosophical Transactions

Neue Ressourcen in CLARIN-D

Neue Medien

Sommerschulen und Workshops

Veröffentlichungen

  • Im Sammelband "Computational Social Science—Die Analyse von Big Data" (herausgegeben von Prof. Dr. Andreas Blätte, Prof. Dr. Joachim Behnke, Prof. Dr. Kai-Uwe Schnapp, Prof. Dr. Claudius Wagemann) ist ein Methodenartikel erschienen, in dem die Analyse komplexer sozialwissenschaftlicher Konzepte mit korpusanalytischen Methoden reflektiert wird.

Bildnachweis: Titelseite der ersten Ausgabe der Philosophical Transactions, Foto von Richard Valencia, Quelle: https://commons.wikimedia.org/wiki/File:Philosophical_Transactions_Volume_1_frontispiece.jpg, Lizenz CC-BY-4.0

 

Read more