Dr. Marc Kupietz vom Mannheimer Institut für Deutsche Sprache (IDS) präsentiert auf dem Forum CA3 2016 in Hamburg DeReKo- das Deutsche Referenz Korpus, sowie die Korpus Analyse Platform KoRaP.
Seit 2004 wird am IDS das DeReKo aufgebaut und erweitert. Es soll als eine Art Ur-Stichprobe gegenwärtigen Sprachgebrauchs gelten und bietet unter anderem die Möglichkeit virtuelle Korpora zu definieren. Wichtig sind beim DeReKo nicht die relativen Größenverhältnisse einzelner Strata, sondern die ausreichende Streuung und Besetzung dieser. Zu den vorhandenen Strata gehören Texte aus der Belletristik, populärwissenschaftliche Texte wie Zeitschriften, konzeptuelle Schriften wie Polmine-Plenarprotokolle, sowie konzeptuelle Mündlichkeit im Bereich internetbasierter Kommunikation.
Zur dieser internetbasierten Kommunikation gehören Diskussionen aus Wikipedia, Usenet News, sowie das Dortmunder Chat Korpus, welches aus dem CLARIN Kurationsprojekt ChatCorpus2CLARIN entstanden ist. Im Jahr 2016 bestand das DeReKo aus 30 Milliarden Wörtern und zählte rund 38.000 Nutzende.
Um einigen Herausforderungen der aktuellen Recherchesoftware COMSAS II wie nicht ausreichenden Recall (97%) oder komplexe Annotationen und Anfragen gerecht zu werden, wurde seit 2011 das neue Recherchesystem KoRaP entwickelt, welches COSMAS II langfristig ablösen soll. Die horizontale Skalierung von KoRaP ermöglicht die parallele Nutzung verschiedener Such- und Analyseknoten. Die Plattform unterstützt verschiedene Anfragesprachen wie Poliqarp oder Annis QL und bietet die Möglichkeit beliebig vieler Annotationsschichten und Suchmöglichkeiten. Der Rückbezug zu den Daten und Texten ist durch die bessere Visualisierung zu jedem Punkt gegeben.
Report absenden
My comments