Parallele Suche über Sammlungen an verschiedenen Orten

FCS symbol picture

Der CLARIN Federated Content Search (CLARIN FCS) erlaubt die Suche in Korpora unabhängig von ihrem Aufbewahrungsort an verschiedenen CLARIN-Zentren und deren spezialisierten Suchanwendungen. Jedes Zentrum implementiert in ihren primären Suchmaschinen dafür eine standardisierte Applikationsschnittstelle (API), technisch ist dies eine Contextual Query Language (CQL) Schnittstelle auf Basis des Search Retrieve via URL (SRU)-Protokolls.

Der Aggregator des FCS fasst die einzelnen Ergebnisse zusammen und stellt sie dar. Dadurch werden Anfragen transparent über mehrere verschiedene Systeme ermöglicht. In einem nächsten Schritt können die Ergebnisse weiter linguistisch verarbeitet werden, z.B. in der automatisierten Analyse durch Werkzeuge in WebLicht.

Besonders interessant für Forschende im Bereich

  • Sprachwissenschaften
  • insbesondere Computerlinguistik
  • Philologen
  • Historiker

Ausgangslage:

Eine Suchanfrage, zum Beispiel ein Wort oder eine Phrase.

Ziel:

Verteilte Suche in zahlreichen Korpora unabhängig von ihrem Aufbewahrungsort. Dazu braucht man normalerweise mehrere Suchmaschinen der CLARIN-D Zentren.

Lösung:

Der Zugriff auf CLARIN Federated Content Search durch den dort vorhandenen Aggregator, durch den Ergebnisse z.B. in Weblicht weiterverarbeitet werden können.

Verwandte CLARIN-D-Werkzeuge und -Dienste

Eine kurze Anleitung zur Ausführung einer verteilten und Verarbeitung der Ergebnisse unter Verwendung der CLARIN-D Infrastruktur

Ein Beispiel zur Nutzung von des CLARIN Federated Content Search Aggregators

  • Gehen Sie zum Aggregator [https://clarin.eu/contentsearch/]
  • Formulieren Sie eine Suchanfrage (z.B. Prinz) und klicken Sie auf „Suche“ (Lupensymbol rechts neben der Eingabezeile). Sie sollten die Suche idealerweise verfeinern, indem Sie die Ressourcensprache und Korpora auswählen. Außerdem können Sie die Anzahl der Ergebnisse pro Korpus ändern.
  • Um die Ergebnisse im Format KWIC (Key Word in Context) darzustellen, klicken Sie auf „Display as Key Word in Context“.
  • Die Ergebnisse können in verschiedenen Formaten (CSV, Excel, TCF, Klartext) heruntergeladen werden. Klicken Sie dazu „Download“ und wählen Sie ein Format.
  • Sie können mehrere Ergebnisse aus einem Korpus aufrufen. Klicken Sie die Taste „View“ (Augensymbol) und anschließend „... More Results“.

Weiterverarbeitung der CLARIN FCS Ergebnisse mit WebLicht

  • Klicken Sie „View“ und verwenden Sie dann die Taste „Use Weblicht“ auf der rechten Seite und wählen Sie „Send to Weblicht“ per Drop-down.
  • Um Weblicht zu benutzen, müssen Sie sich zuerst anmelden. Die Verwendung von Shibboleth vereinfacht das Anmelden, indem Sie Ihre vorhandenen Zugangsdaten verwenden können. Geben Sie Ihre institutionelle Zugehörigkeit (z.B IDS) aus der vorgegebenen Liste an und loggen Sie sich ein.
  • Nach der Anmeldung werden Sie auf die Hauptseite der Weblicht-Website weitergeleitet.

Ein Beispiel zur Verarbeitung der CLARIN FCS Ergebnisse in WebLicht

  1. Klicken Sie „Start Weblicht“ und „Start“, um eine neue Webservice-Kette zu erstellen.
  2. Auf der rechten Seite wird Ihnen die in das Format TCF umgewandelte Datei aus dem Aggregator angezeigt. Klicken Sie „OK“.
  3. In der unteren Spalte sehen Sie die Tool-Kette und die Eingabedaten im TCF-Format an erster Stelle. In der oberen Spalte stehen weitere Tools zur Wahl. Klicken Sie die „i“-Taste, um Informationen über diese Tools zu erhalten.
  4. Wählen Sie beispielsweise mit Doppelklick den „SfS Tokenizer-OpenNLP“ aus. Das Tool wird automatisch der Tool-Kette hinzugefügt. Klicken Sie „X“ im Tool-Kasten, um es aus der Kette zu entfernen.
  5. Sie können mehrere Tools hinzufügen, um die Tool-Kette zu verlängern. Wählen Sie dazu mit doppeltem Mausklick in dieser Reihenfolge
    1. „IMS:TreeTagger“
    2. „Berlin:Person Name Recognizer“
  6. klicken Sie anschließend "Run Tools".
  7. Die Ergebnisse jedes Tools können nun heruntergeladen werden (Pfeil abwärts).
  8. Abschließend klicken Sie das Baum-Icon neben „Download“, um die Ergebnisse darzustellen.