Praktikumsangebot für (Nachwuchs)Wissenschagtler (Hosting)

  • Forschungsaufenthalt an einem Clarin-D Zentrum
  • Kontakt bei Interesse/Fragen: CLARIN-D Helpdesk

Was können wir bieten?

  • Praktische Erfahrung und Hilfestellung beim konkreten Umgang mit Sprachressourcen und Sprachtechnologie für ein gezieltes Forschungsvorhaben
  • finanzielle Unterstützung: Stipendium für Reisekosten, Unterkunft, ...

Zielgruppe

Voraussetzungen

  • konkretes Forschungsvorhaben
  • Bericht über den Aufenthalt
  • Vortrag über die Arbeit am jeweiligen CLARIN-D Zentrum
  • Integration der Resultate der Arbeit in CLARIN-D

Informationen zu den Zentren

ZentrumExpertisenForschungsschwerpunkteProjekte
UTü
  • Baumbanken*
  • WordNet Daten*
  • Web Services*
  • Integration von Web Services in service-oriented architectures (SOA)
* (Design, Aufbau, Validierung und Distribution)
  • Korpuslinguistik,
  • WordNet Daten,
  • Maschinelle Sprachverarbeitung,
  • Web Services,
  • SOA
BAS
  • Sprachdaten*
  • Softwareentwicklung, Beratung
* (Design, Aufbau, Validierung, Distribution, Integration)
  • Sprachdatenmodelle
  • automatische Annotation gesprochener Sprache
  • grapheme-to-phoneme Konvertierung,
  • Aufnahme und Annotation durch crowd-sourcing
  • ALC (speech database of intoxicated speakers, DFG),
  • PERCY (Entwicklung eines webbasierten frameworks für Experimente)
BBAW
  • Aufbau, Annotation und Pflege historischer und gegenwartssprachlicher Textkorpora (als Referenzkorpora)
  • Kuration und Integration digitalisierter Textressourcen
  • Qualitätssicherung (DTAQ; auch mithilfe von Crowdsourcing)
  • korpusbasierte und computerlinguistisch gestützte Lexikographie
  • Linguistische Suchmaschine DDC, die die Ergebnisse linguistischer Textanalysen einbezieht
  • (automatische) linguistische Analyse und Annotation von Textkorpora
  • Behandlung nicht-standardgemäßer Schreibungen (z.B. historische Schreibweisen, internetbasierte Kommunikation)
  • TEI/P5-Schemata für die strukturelle Erschließung und die Katalogisierung großer Textkorpora (historische Texte: DTA-Basisformat; internetbasierte Kommunikation: TEI-CMC)
  • Metadatenkonvertierung in verschiedene Formate (z.B. CMDI)
IDS
  • große Corpora geschriebener Sprache
  • Corpora gesprochener Sprache
  • elektronische Lexika
* (Design, Aufbau, Validierung und Distribution)
Germanistische Linguistik
MPI
  • Sprachtechnologie (http://www.mpi.nl/lat)
  • Online Archivierung (http://www.mpi.nl/tla)
  • Corpora aus den Bereichen: gesprochene Sprache, Gebärdensprache, multimodal, Spracherwerb, Sprachverständnis, Sprachproduktion, Sprachgenetik, etc.
  • Kuration von Sprachressourcen aus linguistisch & ethnologischer Feldarbeit und gefährdeter Sprachen
  • Audio/Video Erkennen
  • Infrastrukturen
  • Standards (http://www.isocat.org/, LMF)
* (Design, Aufbau, Validierung und Distribution)
  • Sprachdokumentation
  • Aufbau von Experimenten
  • Brain imaging-based language research
  • Multimedia Annotation & Gestik
  • Spracherwerb, Sprachverständnis, Sprachproduktion, Sprachgenetik
  • Neurobiologie der Sprachforschung
  • etc.
http://www.mpi.nl/research/research-projects/the-language-archive/projects:
UHH
  • Corpora, insbesondere für gesprochene Sprache
    Design, Aufbau, Distribution, Beratung
  • Softwareentwicklung (EXMARaLDA)
Corpora, Methoden, Werkzeuge für Sprachdaten aus den Bereichen:
  • Gesprächsforschung (Diskursanalyse, Konversationsanalyse, Interaktionale Linguistik)
  • Erst- oder Zweitspracherwerb sowie der Mehrsprachigkeit (z.B. Korpora zum kindlichen Spracherwerb, zum Zweitspracherwerb oder zu Language Attrition bei Erwachsenen)
  • Soziolekt und Dialekt (soziale und regionale Variationen)
ULei
  • Webcrawling / Sammlung von Texten aus dem Web
  • Erstellung von Referenz- und Normgrößenkorpora bzw. Digitalen Wörterbüchern in zahlreichen Sprachen (Preprocessing und Berechnung statistischer Größen wie Frequenzen, Satz- und Nachbarschaftskookkurrenzen, ... über große Datenmengen)
  • (linguistische) Webservices
  • Information Retrieval und Wissensmanagement
  • Semantic Web
  • Textmining
  • generell: Daten, Verfahren und Anwendungen für die automatische semantische Analyse des Wissensrohstoffs Text
  • Zitationsspuren (eTraces)
  • s.a. Kompetenzen
UdS
  • Kompilierung und Annotation von Corpora;
  • Empirische Korpuslinguistik
  • Sprachvariation, Registeranalyse: synchron, diachron;
  • multilinguale Corpora (parallel, vergleichbar);
  • Corpora der Wissenschaftssprache
USt Computerlinguistik:
  • Ansätze zur Analyse und Generierung (regelbasiert, maschinelles Lernen, kombiniert)
  • Morphologie, Syntax, Semantik, Discoursesemantik, Prosodie
  • linguistische Korpusannotation, lexikalische Ressourcen, Representätions- und Austauschformate, Annotationsstandards
  • multi-linguale Werkzeuge für robustes Tagging; morphologische, syntaktische Analyse (Dependenz- und Konstituentenstruktur); semantisches role labelling; Relationsextraction; Korreferenzsresolution
  • statistische maschinelle Übersetzung
  • Parsing und Generierung: linguistisch inspirierte und daten-basierte Modelle und Techniken
  • Tagging, morphologische, syntaktische und semantische Analyse: Kombination verschiedener Modelle, verbesserte Abdeckung und Qualität
  • Web Service: Integration von daten-basierten Analysewerkzeuge (Lemmatisierer, Dependenzparser, semantic role labeller)
  • Parametrisierung von Analysewerkzeugen für gezielte Anwendungen (Domain Adaptation, etc.)