Text+ (NFDI-Konsortium)

Der Verbund Text+ wird text- und sprachbasierte Forschungsdaten langfristig erhalten und ihre breite Nutzung in der Wissenschaft ermöglichen.

Die Text+ Infrastruktur ist auf Sprach- und Textdaten ausgerichtet und konzentriert sich zunächst auf digitale Sammlungen, lexikalische Ressourcen und Editionen. Diese sind von hoher Relevanz für alle sprach- und textbasierten Disziplinen, speziell für Sprachwissenschaften, Literaturwissenschaften, Philosophie, Klassische Philologie, Anthropologie, außereuropäische Kulturen und Sprachen sowie sprach- und textbasierte Forschung der Sozial‑, Wirtschafts‑, Politik‑, und Geschichtswissenschaften.

Die Gemeinsame Wissenschaftskonferenz hat Text+ als Konsortium der bundesweiten Initiative zum Aufbau einer nationalen Forschungsdateninfrastruktur (NFDI) bewilligt. Text+ startet offiziell im Herbst 2021 nach mehrjähriger Vorbereitungszeit und wird zunächst für fünf Jahre durch die Deutsche Forschungsgemeinschaft (DFG) gefördert.
Das Projekt gliedert sich in die Arbeitsbereiche Collections, lexikalische Ressourcen,  Editionen und Infrastruktur/Operations. 

Das TCDH ist als Projektpartner in zwei Datendomänen beteiligt:

Lexikalische Ressourcen

Das TCDH bringt seine langjährige Expertise und Erfahrung bei der Retrodigitalisierung, Aufbereitung und Vernetzung von Wörterbüchern in Text+ ein. Das Trierer Wörterbuchnetz bietet Zugang zu mittlerweile 49 verschiedenen digitalen Wörterbüchern, darunter sowohl eigene, durch das TCDH bereitgestellte Ressourcen als auch Wörterbücher, die durch andere Institutionen veröffentlicht werden. Im Rahmen der Task Area „Lexical Resources“ ist das TCDH an der Implementierung der Federated Content Search beteiligt und stellt verschiedene Wörterbücher für die Integration in die ressourcenübergreifende Schnittstelle bereit. Zur Verbesserung der Interoperabilität der lexikographischen Daten werden diese schrittweise an den De-Facto-Standard TEI Lex-0 angeglichen.

Collections

In der Text+ Task Area Collections beteiligt sich das TCDH an der Erforschung und Evaluation der Arbeit mit abgeleiteten Textformaten. Bei der Nutzung digitalisierter Texte als Forschungsdaten besteht häufig das Problem, dass die Textdaten urheberrechtlich geschützt sind und deshalb nicht veröffentlicht werden dürfen. Die Publikation der Textdaten in abgeleiteten Textformaten kann ermöglichen, dass Forschungsergebnisse trotzdem transparent und reproduzierbar bleiben, indem die urheberrechtlich geschützten Informationen der originalen Texte in diesen entfernt sind. Im Rahmen der Arbeit von Text+ geht es vor allem um die Frage, wie gut die abgeleiteten Textformate einerseits für unterschiedliche Text- und Data Mining-Aufgaben nutzbar bleiben und inwieweit sie (z. B. durch Large Language Models) rekonstruierbar sind. Für eine ausführlichere Darstellung der Arbeit zu den abgeleiteten Textformaten siehe auch den Blogpost „Abgeleitete Textformate: (Nach-)nutzbarkeit, Wiedererkennbarkeit und Rekonstruierbarkeit“.

Team TCDH

Anne Klee
E-Mail: kleeatuni-trier [dot] de
Tel: +49 651 201-3120

Dr. Joëlle Weis
E-Mail: weisatuni-trier [dot] de
Tel: +49 651 201-3017

Dr. Matthias Bremm
E-Mail: bremmatuni-trier [dot] de
Tel: +49 651 201-2679

Dr. Thomas Burch
E-Mail: burchatuni-trier [dot] de
Tel: +49 651 201-3364

Keli Du
E-Mail: dukatuni-trier [dot] de
Tel: +49 651 201-3377

Prof. Dr. Christof Schöch
E-Mail: schoechatuni-trier [dot] de
Tel: +49 651 201-3264

Themen