Praktikumsangebot für (Nachwuchs)Wissenschagtler (Hosting)

Forschungsaufenthalt an einem Clarin-D Zentrum
Kontakt bei Interesse/Fragen:

Was können wir bieten?

Praktische Erfahrung und Hilfestellung beim konkreten Umgang mit Sprachressourcen und Sprachtechnologie für ein gezieltes Forschungsvorhaben
finanzielle Unterstützung: Stipendium für Reisekosten, Unterkunft, ...

Zielgruppe

(Nachwuchs)Wissenschaftler mit einem gezielten Forschungsvorhaben, die Hilfe beim Einsatz von Sprachressourcen und Sprachtechnologie brauchen
Siehe die Liste der Aufgenohmen Gastwissenschaftler

Voraussetzungen

konkretes Forschungsvorhaben
Bericht über den Aufenthalt
Vortrag über die Arbeit am jeweiligen CLARIN-D Zentrum
Integration der Resultate der Arbeit in CLARIN-D

Informationen zu den Zentren

Informationen zu den Zentren

Zentrum	Expertisen	Forschungsschwerpunkte	Projekte
UTü	Baumbanken* WordNet Daten* Web Services* Integration von Web Services in service-oriented architectures (SOA) * (Design, Aufbau, Validierung und Distribution)	Korpuslinguistik, WordNet Daten, Maschinelle Sprachverarbeitung, Web Services, SOA	CLARA, EUDAT
BAS	Sprachdaten* Softwareentwicklung, Beratung * (Design, Aufbau, Validierung, Distribution, Integration)	Sprachdatenmodelle automatische Annotation gesprochener Sprache grapheme-to-phoneme Konvertierung, Aufnahme und Annotation durch crowd-sourcing	ALC (speech database of intoxicated speakers, DFG), PERCY (Entwicklung eines webbasierten frameworks für Experimente)
BBAW	Aufbau, Annotation und Pflege historischer und gegenwartssprachlicher Textkorpora (als Referenzkorpora) Kuration und Integration digitalisierter Textressourcen Qualitätssicherung (DTAQ; auch mithilfe von Crowdsourcing) korpusbasierte und computerlinguistisch gestützte Lexikographie Linguistische Suchmaschine DDC, die die Ergebnisse linguistischer Textanalysen einbezieht	(automatische) linguistische Analyse und Annotation von Textkorpora Behandlung nicht-standardgemäßer Schreibungen (z.B. historische Schreibweisen, internetbasierte Kommunikation) TEI/P5-Schemata für die strukturelle Erschließung und die Katalogisierung großer Textkorpora (historische Texte: DTA-Basisformat; internetbasierte Kommunikation: TEI-CMC) Metadatenkonvertierung in verschiedene Formate (z.B. CMDI)	DWDS DTA dlexDB
IDS	große Corpora geschriebener Sprache Corpora gesprochener Sprache elektronische Lexika * (Design, Aufbau, Validierung und Distribution)	Germanistische Linguistik	TextGrid
MPI	Sprachtechnologie (http://www.mpi.nl/lat) Online Archivierung (http://www.mpi.nl/tla) Corpora aus den Bereichen: gesprochene Sprache, Gebärdensprache, multimodal, Spracherwerb, Sprachverständnis, Sprachproduktion, Sprachgenetik, etc. Kuration von Sprachressourcen aus linguistisch & ethnologischer Feldarbeit und gefährdeter Sprachen Audio/Video Erkennen Infrastrukturen Standards (http://www.isocat.org/, LMF) * (Design, Aufbau, Validierung und Distribution)	Sprachdokumentation Aufbau von Experimenten Brain imaging-based language research Multimedia Annotation & Gestik Spracherwerb, Sprachverständnis, Sprachproduktion, Sprachgenetik Neurobiologie der Sprachforschung etc.	http://www.mpi.nl/research/research-projects/the-language-archive/projects: CLARIN NL (http://www.clarin.nl) DOBES (http://www.mpi.nl/DOBES/) EUDAT (http://www.eudat.eu) DASISH (EC, site to come) Radieschen (http://www.forschungsdaten.org/) TextGrid (http://www.textgrid.de) AVATecH (http://www.mpi.nl/avatech) INNET (EC, site to come)
UHH	Corpora, insbesondere für gesprochene Sprache Design, Aufbau, Distribution, Beratung Softwareentwicklung (EXMARaLDA)	Corpora, Methoden, Werkzeuge für Sprachdaten aus den Bereichen: Gesprächsforschung (Diskursanalyse, Konversationsanalyse, Interaktionale Linguistik) Erst- oder Zweitspracherwerb sowie der Mehrsprachigkeit (z.B. Korpora zum kindlichen Spracherwerb, zum Zweitspracherwerb oder zu Language Attrition bei Erwachsenen) Soziolekt und Dialekt (soziale und regionale Variationen)	Hamburger Zentrum für Sprachkorpora Etablierung eines Schwerpunkts 'Mehrsprachigkeit und Gesprochene Sprache' am HZSK
ULei	Webcrawling / Sammlung von Texten aus dem Web Erstellung von Referenz- und Normgrößenkorpora bzw. Digitalen Wörterbüchern in zahlreichen Sprachen (Preprocessing und Berechnung statistischer Größen wie Frequenzen, Satz- und Nachbarschaftskookkurrenzen, ... über große Datenmengen) (linguistische) Webservices Information Retrieval und Wissensmanagement Semantic Web Textmining	generell: Daten, Verfahren und Anwendungen für die automatische semantische Analyse des Wissensrohstoffs Text Zitationsspuren (eTraces) s.a. Kompetenzen	eTraces Automatische Anreicherung von OAI-Metadata INSEARCH dauerhafte Projekte des Lehrstuhls: Sprachdatenressourcen – Deutscher Wortschatz, multilinguale Corpora und Wörter-des-Tages see also: aktuelle Übersicht auf der ASV-Webseite
UdS	Kompilierung und Annotation von Corpora; Empirische Korpuslinguistik	Sprachvariation, Registeranalyse: synchron, diachron; multilinguale Corpora (parallel, vergleichbar); Corpora der Wissenschaftssprache	GeCCo (German-English contrasts in cohesion) Register in Contact
USt	Computerlinguistik: Ansätze zur Analyse und Generierung (regelbasiert, maschinelles Lernen, kombiniert) Morphologie, Syntax, Semantik, Discoursesemantik, Prosodie linguistische Korpusannotation, lexikalische Ressourcen, Representätions- und Austauschformate, Annotationsstandards multi-linguale Werkzeuge für robustes Tagging; morphologische, syntaktische Analyse (Dependenz- und Konstituentenstruktur); semantisches role labelling; Relationsextraction; Korreferenzsresolution statistische maschinelle Übersetzung	Parsing und Generierung: linguistisch inspirierte und daten-basierte Modelle und Techniken Tagging, morphologische, syntaktische und semantische Analyse: Kombination verschiedener Modelle, verbesserte Abdeckung und Qualität Web Service: Integration von daten-basierten Analysewerkzeuge (Lemmatisierer, Dependenzparser, semantic role labeller) Parametrisierung von Analysewerkzeugen für gezielte Anwendungen (Domain Adaptation, etc.)	SFB (Sonderforschungbereich) 732 "Incremental Specification in Context" B3: Disambiguierung von Nominalisierungen bei der Datenextraktion aus Korpora: Morphologisch verwandte Wörter D2: Combining Contextual Information Sources for Disambiguation in Parsing and Choice in Generation D4: Modular Lexicalization of Probabilistic Context-Free Grammars: Improved Parameter Estimation and Clustering Methods for Statistical Parsing D8: Data-driven Dependency Parsing - Context Factors in Dependency Classification