Metadaten im CMDI-Format erstellen

Last updated: 18 September 2018 13:11
Created: 01 September 2017 12:28
Hits: 10371

Wenn bei uns im Haus im Rahmen von Forschungsarbeiten Ressourcen wie Tools oder Korpora entstehen, sind wir als Metadaten-Team eine erste Anlaufstelle: Wir unterstützen die Forschenden bei der Erstellung von CMDI-Dokumenten zur nachhaltigen Beschreibung der Ressourcen. Zum Team gehören immer ein bis zwei studentische Hilfskräfte, die nach einer kurzen Einarbeitungszeit selbstständig Vorschläge für Metadatenentwürfe zu den Ressourcen erarbeiten. Wir sind natürlich immer ansprechbar, wenn eine neue Ressource erstellt wird, suchen aber auch regelmäßig auf den Webseiten des Instituts, den Projekt- und Mitarbeiterseiten nach noch nicht beschriebenen Ressourcen.

Haben wir eine neue Ressource entdeckt, sprechen wir die für diese Ressource Verantwortlichen an und bieten an, unsererseits einen ersten Metadatenentwurf für die Ressource zu erstellen. Dabei erläutern wir auch die Vorteile, die durch die Dokumentation mit CMDI-Metadaten entstehen: die Metadaten werden im Repository (http://clarin04.ims.uni-stuttgart.de/repo/) abgelegt und die Ressource wird damit automatisch auch im VLO (https://vlo.clarin.eu/), dem CLARIN-weiten Ressourcenkatalog sichtbar. Neben der erhöhten Sichtbarkeit, wird für jeden Metadatensatz und jede Ressource auch ein eindeutiger und dauerhafter digitaler Quellenverweis („persistent identifier“) vergeben, der in Publikationen angegeben werden kann und so den nachhaltigen Umgang mit der Ressource belegt.

Stimmten die Ressourcenersteller zu, müssen die studentischen Hilfskräfte zunächst entscheiden, welches Metadaten-Profil für die Ressource geeignet ist. Dazu nutzen sie, neben der Erfahrung aus dem Projekt, die CLARIN Component Registry. Über das Suchfeld kann z.B. nach einem Ressourcentyp gesucht werden. Wenn wir also ein Textkorpus beschreiben wollen, finden wir z.B. mit der Sucheingabe „textcorpus“ mehrere Profile zur Auswahl. Welches davon für unsere Zwecke geeignet ist, können wir dadurch herausfinden, dass wir das Profil anklicken und in der unteren Hälfte der Seite die zum Profil gehörenden Komponenten ausklappen. Sie zeigen uns, welche Informationen auf welcher Detailstufe angegeben werden können. Alternativ kann man mit dem selben Suchfeld auch nach Profilen suchen, die z.B. von einer bestimmten Gruppe erstellt wurden. Um den Stil der Metadaten für unsere Ressourcen möglichst einheitlich zu gestalten, nutzen wir mehrere Profile, die von derselben Gruppe erstellt wurden, in unserem Fall z.B. der Gruppe „NaLiDa“.

Ist kein passendes Profil der Gruppe verfügbar, suchen wir nach Profilen anderer Gruppen. Im seltenen Fall, dass sich dann noch immer kein passendes Profil findet, können wir ein eigenes Profil anlegen. So haben wir zum Beispiel ein Profil für austauschbare Werkzeugkomponenten angelegt (Suchen Sie doch mal nach „toolcomponent“!), mit dem man z.B. trainierte Modelle getrennt vom verwendeten Parser beschreiben kann. Das hat den Vorteil, dass die inhaltlichen Metadaten zum Tool selbst nicht für jedes neue Modell angepasst werden müssen oder überladen werden, z.B. wenn modellierte Parameterdateien eines Tools für weitere Sprachen verfügbar gemacht werden, die dazu noch von verschiedenen Institutionen stammen.

Beim Erstellen des Profils haben wir ebenfalls hauptsächlich auf bereits bestehende Komponenten zurückgegriffen, und damit ohne viel Aufwand ein Profil im Stil der von uns sonst verwendeten Profile erzeugt.

Gibt es Unsicherheit darüber, welches Profil gewählt werden soll, wird das im Team besprochen und ggf. in Rücksprache mit den jeweiligen Ressourcenerstellenden entschieden. Dann beginnen die studentischen Hilfskräfte mit dem Ausfüllen des eigentlichen Metadatendokuments. Dabei greifen sie zunächst auf vorhandene Informationen, z.B. Webseiten zur Ressource, Publikationen sowie die im Umfang der Ressource vorhandene Dokumentation zurück.

Auf technischer Seite legen wir Wert darauf, dass die studentischen Hilfskräfte direkt an der XML-Datei arbeiten um texttechnologische Fähigkeiten zu schulen. Auch hier hilft die Profilansicht der CLARIN Component Registry, auf der nachvollzogen werden kann, welche XML-Elemente zur Verfügung stehen, ob sie mehrmals angegeben werden können und ob es sich um Angaben im Freitext, numerische Angaben oder Werte aus einem vorgegebenen Vokabular handelt. Schließlich kann das XML-Dokument automatisch gegen das in der Component Registry vorliegende Schema für das Profil validiert werden. So werden technische Probleme frühzeitig erkannt.

Fragen und offene Punkte zum Inhalt des Metadatendokuments besprechen wir dann in der nächsten Teamsitzung und lösen sie, wo möglich, konsistent mit Fällen aus unseren bestehenden Metadatendokumenten.

Danach folgt ein Treffen mit den Forschenden, die die Ressource erstellt haben, bei dem wir das bestehende Dokument einmal komplett gemeinsam durchgehen, Angaben bei Bedarf ändern und offene Punkte ergänzen. Aus unserer Erfahrung genügt meistens eine halbe Stunde für eine Ressource.

In der Folge arbeiten die studentischen Hilfskräfte die gewünschten Änderungen und Ergänzungen ein und wir bieten auf Wunsch den Forschenden die finale Version zur erneuten Ansicht an.

Problematisch wird es immer dann, wenn niemand mehr aus der Gruppe derer, die mit den Details der Ressource vertraut sind, verfügbar ist. Wir können dann nur mit vorhandenen Angaben arbeiten, aber keine Fragen klären. Im umgekehrten Fall ist es kein Problem, Unterstützung bei der Metadatenerstellung zu bieten, auch wenn noch keine Webseite oder Publikation zur Ressource vorliegen. Dann wird frühzeitig von der zuständigen studentischen Hilfskraft ein Termin mit den Ressourcenerstellenden vereinbart und die Metadaten werden direkt vor Ort erfasst. Der zusätzliche Zeitaufwand lohnt sich in diesen Fällen erfahrungsgemäß für alle Beteiligten, denn die erfahrene studentische Hilfskraft kann oft bereits im Gespräch geeignete Vorschläge für mögliche einzutragende Werte machen.

Die studentischen Hilfskräfte können bei uns im Team schon früh in ihrem Studium beginnen und lernen ein großes Feld an Ressourcen kennen. Desweiteren lernen sie die am Institut vertretenen Forschungsfelder und -teams kennen. Außerdem lernen sie nach einigen Sitzungen bei denen sie Protokoll führen, auch selbst die Gespräche zur Vervollständigung der Metadatendokumente zu leiten. Neben den texttechnologischen Grundkenntnissen gehen die gesammelten Erfahrungen durchaus auch in die Wahl der Abschlussarbeiten ein.

Wir sind der Überzeugung, dass dieses Vorgehen dazu beiträgt, dass Metadaten als Teil einer hilfreichen und notwendigen Dokumentation wahrgenommen und geschätzt werden: der zusätzliche Aufwand für die Ressourcenerstellenden wird gering gehalten und den studentischen Hilfskräften wird von Anfang an ein selbstverständlicher Kontakt mit dem Thema Ressourcen und Nachhaltigkeit ermöglicht.

Wenn Sie also das nächste Mal ein Projekt beantragen und die Möglichkeit dafür haben, wie wäre es mit einem Ressourcen-Team?

Alternativ stehen die CLARIN-Zentren natürlich auch für die Aufbereitung von Ressourcen zur Verfügung; wir erstellen z.B. im ähnlichen Stil auch Metadaten für externe Ressourcen. Und wenn Sie sich selbst damit vertraut machen möchten: Schauen Sie sich einfach auf den Seiten der CLARIN Component Registry um und folgen sie bei Fragen zu Elementen auch den angegebenen „ConceptLinks“, dort finden sie oft weitere Erklärungen und Beispiele für einzutragende Werte.

CLARIN Component Registry: https://catalog.clarin.eu/ds/ComponentRegistry

Dokumentation zur Component Registry: https://www.clarin.eu/content/component-registry-documentation

Weiterführendes Material:

Seite zu CMDI: https://www.clarin.eu/content/component-metadata

CLARIN-D Benutzerhandbuch: http://media.dwds.de/clarin/userguide/userguide-1.0.1.pdf