Lexikalische Ressourcen

Im Folgenden werden die lexikalischen Ressourcen der CLARIN-D-Zentren vorgestellt.

Eine lexikalische Ressource ist eine Sammlung von lexikalischen Einheiten mit zusätzlichen linguistischen und klassifikatorischen Informationen zu diesen Einheiten. Typische Beispiele für lexikalische Einheiten sind Wörter, mehrwortige Einheiten oder Wortteile.


Bayerisches Archiv für Sprachsignale, München:

Das Aussprache-Lexikon PHONOLEX enthält zu 1,6 Mio deutschen Vollformen (ein Großteil basierend auf Sprachkorpora) die deutsche Standard-Aussprache kodiert in SAM-PA, sowie empirische Realisierungen.

BAStat ist eine empirische Statistik für Laute, Silben und Wörter basierend auf gesprochener Sprache.


Berlin-Brandenburgische Akademie der Wissenschaften, Berlin:

Das DWDS-Wörterbuch (Digitales Wörterbuch der deutschen Sprache) basiert auf der digitalisierten Fassung des zwischen 1961 und 1977 herausgegebenen sechsbändigen Wörterbuchs der deutschen Gegenwartssprache (WDG) und stellt eine Überarbeitung dieser Ressource dar. Das Wörterbuch bietet ausführliche lexikographische Informationen zu ca. 120000 Stichwörtern. Für den Großteil der Einträge wurde die Aussprache in Form von Sprachaufnahmen ergänzt. Es wurden außerdem alle im Zuge der Rechtschreibreform entstandenen Varianten aufgenommen.

Das etymologische Wörterbuch des DWDS basiert auf der Digitalisierung des zweibändigen „Etymologischen Wörterbuchs des Deutschen“ von Wolfgang Pfeifer. Es umfasst ca. 22 000 Stichwörter mit grammatischen, semantischen und etymologischen Informationen.

¹DWB ist eine originalgetreue Modellierung der Erstausgabe des Deutschen Wörterbuchs von Jakob und Wilhelm Grimm, dessen Druckfassung in 33 Bänden zwischen 1854 und 1961 erschien. Das Wörterbuch umfasst ca. 300.000 Stichwörter, deren Form- und Bedeutungsgeschichte bis in frühe Sprachstadien nachgezeichnet wird.

Die lexikalische Datenbank dlexdb wurde im von der DFG geförderten gemeinsamen Projekt der Universität Potsdam (Psychologie) und der BBAW (Projekt DWDS) erstellt und wird dort weiter entwickelt. dlexdb ist als eine allgemeine Ressource für Studien im Bereich der experimentellen Psychologie, der Psycholinguistik und der Linguistik konzipiert und soll CELEX für diesen Bereich ergänzen. Sie basiert auf den Daten des DWDS-Kernkorpus und stellt Frequenzdaten für die superlexikalische (n-Gramme), sublexikalische (Morphem- und Silbenabfolge) und lexikalische Ebene bereit. Darüber hinaus werden auch aktuelle Maße der Forschung, z.B. das in der Psychologie verwendete Maß der contextual diversity oder orthographische Nachbarschaft berechnet.


Institut für Deutsche Sprache, Mannheim:

OWID: LogoOWID ist das Portal für wissenschaftliche, korpusbasierte Lexikografie des Instituts für Deutsche Sprache. Es beinhaltet wissenschaftliche Onlinewörterbücher zum Deutschen mit unterschiedlichen inhaltlichen Schwerpunkten, sowie eine Bibliografie zur elektronischen Lexikografie und zu Online-Wörterbüchern (OBELEX). OWID ist somit die zentrale Anlaufstelle für Internetlexikografie am IDS.


Institut für Informatik, Abteilung Automatische Sprachverarbeitung, Leipzig:

Logo Wortschatz, Uni LeipzigDas Projekt Deutscher Wortschatz hat es sich zur Aufgabe gemacht, den Gebrauch der deutschen Sprache zu dokumentieren. Die Inhalte des Wortschatzportals haben den Charakter einer Sammlung. Seit 1999 werden dazu automatisiert die Texte großer Nachrichtenportale, der Wikipedia und einiger weiterer Quellen gesammelt und in einzelne Sätze zerlegt. Anschließend werden verschiedene, meist sprachunabhängige, statistikbasierte Verfahren genutzt, um Angaben wie Wortfrequenz und Frequenzklasse, Satz- und Nachbarschaftskookkurrenzen abzuleiten. In Ergänzung zu dem sich auf die deutsche Sprache konzentrierenden Wortschatzportal erlaubt das englischsprachige, internationale Portal den Zugriff auf monolinguale Wörterbücher im Stil der Daten des Wortschatz Projektes in über 90 verschiedenen Sprachen.

Tagesaktuellen Begriffe - die Wörter des Tages - werden aus verschiedenen, ausgewählten Tageszeitungen und Newsdiensten extrahiert. Die „Aktualität“ eines Begriffs ergibt sich dabei aus der Häufigkeit zum Beobachtungszeitpunkt, verglichen mit der durchschnittlichen Häufigkeit über längere Zeit hinweg. Der Datenbestand reicht für Deutsch bis in den April 2002 und für Norwegisch bis in den März 2006 zurück.


Institut für Maschinelle Sprachverarbeitung, Stuttgart:

Sie sind an morphologischen und valenzbezogenen Informationen zum Deutschen interessiert und wollen diese Informationen für sprachverarbeitende Anwendungen automatisch abfragen?

imslexDie IMSLex-Wörterbuchdatenbank beinhaltet entsprechende Informationen bezüglich Flexion, Wortbildung und Valenz für mehrere zehntausend Stammformen des Deutschen. Sie ermöglicht die Ableitung spezialisierter Ressourcen für Anwendungen im Bereich Sprachverarbeitung, Information Retrieval u. -Extraktion. Die lexikalischen Daten liegen in einem flexiblen XML-Format vor, aus Effizienzgründen kommt jedoch auch ein relationales Datenbankformat zum Einsatz. Die zugrundeliegenden Daten wurden zum Großteil semi-automatisch mittels Text-Mining-Methoden über großen Korpora gewonnen.


Seminar für Sprachwissenschaft, Abt. Computerlinguistik, Tübingen:

GermaNet logoGermaNet ist ein lexikalisch-semantisches Wortnetz des Deutschen, das dem englischen Princeton WordNet nachgebildet ist und verschiedene lexikalische Funktionen, einen Thesaurus und eine linguistische Ontologie miteinander verbindet. Mit GermaNet liegt eine digitale Ressource vor, die für die Sprachverarbeitung und die Textanalyse, insbesondere für Wortbedeutungen und die Darstellung semantischer Relationen nützlich ist.

GermaNet ist ein Wortnetz bestehend aus Adjektiven, Nomina und Verben, die in konzeptuelle Synonymgruppen, so genannten Synsets, zusammengefasst sind, die das gleiche Konzept ausdrücken. Lexikalische Einträge und Synsets sind in einem Netzwerk kognitiver und linguistischer Relationen zusammengeschlossen, wie Antonymie, Hyperonymie, Hyponymie und Meronymie (Teil-Ganzes-Beziehung). Die Ressource liegt in einer relationalen Databank vor und wird im XML-Format angeboten, damit sie für möglichst viele Computeranwendungen zugänglich sind. GermaNet ist teilweise in das EuroWordNet integriert. Auf diese Weise können Synsets mit Entsprechungen in anderen EuroWordNet kompatiblen Sprachen automatisch abgeglichen werden. Es enthält außerdem Information zu Subkatagorisierungsrahmen und Beispielsätze für Verben.

GermaNet wurde 1997 in der Abteilung „Allgemeine Sprachwissenschaft und Computerlinguistik“ des Seminars für Sprachwissenschaft an der Universität Tübingen entwickelt und wird laufend weiterentwickelt. Die aktuelle Version von GermaNet (Release 8.0 von April 2013) enthält 84.584 Synsets und 111.361 lexikalische Einträge, die durch 96.925 Relationen miteinander verbunden sind.