WebLicht - Ein Web-Basiertes Analysewerkzeug

WebLicht ist eine Service-orientierte Architektur (SOA) zur Erstellung annotierter Textcorpora. Sie wird seit Oktober 2008, und damit bereits im Rahmen des CLARIN-D-Vorgängerprojekts D-SPIN, entwickelt. Die Weiterentwicklung von WebLicht zu einer umfassenden virtuellen Forschungsumgebung stellt einen wichtigen Aspekt in der Implementierung der CLARIN-D Infrastruktur dar.

WebLicht liegen Restful Web Services zugrunde, die vom Benutzer zu beliebigen Ketten kombiniert werden können. Jeder Web Service kapselt ein sprachtechnologisches Werkzeug oder gewährt Zugriff auf eine linguistische Resource. Dies beinhaltet etwa die Abfragekomponente eines Korpus, einen Konverter, einen Tokenizer, einen Tagger, einen Parser oder dergleichen. Außerdem beinhaltet WebLicht Konverter für linguistische Ein- u. Ausgabeformate. Jeder Web Service fügt Annotationsebenen in Form spezifisch angereicherter Information hinzu. Am Ende der Kette steht ein mit linguistischen Informationen angereichertes Texkorpus, das in Form eines XML-Dokuments weiter online analysiert, visualisiert oder heruntergeladen werden kann.

Damit die Web Services ineinandergreifen können, muss Kompatibilität zu einem von allen Diensten "verstandenen" gemeinsamen Austauschformat sichergestellt werden. Hierbei handelt es sich um das projektintern definierte Text Corpus Format (TCF). Letzteres ist weitgehend kompatibel mit bestehenden einschlägigen Formaten wie Negra, Paula, TüBa-D/Z etc., bzw. über spezifische Konverter jederzeit übersetzbar.


Der Login bei WebLicht ist hier möglich. Voraussetzung zur Nutzung ist ein Account in der CLARIN Service Provider Federation. Weitergehende Informationen finden Sie hier.