Store research data with Text+

As part of the NFDI, the Text+ network is the contact point for text and language-based research data. Text+ offers its community the opportunity to adopt research data. These are not only archived in the long term, but also made available for further use in accordance with their licence. Access is open to all researchers with an academic affiliation and supports the consideration of data protection and licence-compliant access conditions.

There are two ways of incorporating data into the infrastructure of Text+

  1. One of the Text+ centres takes over the data and archives it sustainably and interoperably with the Text+ services and tools. The Text+ centres provide support in all aspects of research data acquisition. The support ranges from the preparation, labelling and transfer of the research data - including the description of the research data with Text+-specific metadata (see also the further information) - to the selection of a suitable data centre. Contact is usually made via the helpdesk.

  2. A dedicated archive makes research data available to Text+ via standard interfaces. The sustainability of the processes in the archive is usually documented with a certificate from Nestor or the Core Trust Seal. With the technical interfaces to the Text+ infrastructure, these archives can also benefit from the Text+ software services. If you are thinking about becoming part of the Text+ network with your own repository, the helpdesk can also help you.

Benefits of archiving data in Text+

Research data is a valuable asset. It is a central component of our own scientific work and of current scientific practice.

The inclusion and provision of research data in Text+ is carried out in accordance with the FAIR principles by specialised, certified Text+ centres. These centres can store research data sustainably - even beyond 10 years - and make it available for subsequent use. Text+ ensures that research data is visible within the Text+ community - and beyond - via the registry’s central reference system. With the Federated Content Search (FCS), Text+ also offers a way of accessing data in compliance with data protection and licence requirements. As data is often linked to other research data, Text+ as part of the NFDI also guarantees the cross-disciplinary linking of data.

Further Informations

Der Ingest von Daten beinhaltet üblicherweise die folgenden Schritte:

  1. Sichten der Daten, Vorarbeiten zur Auszeichnung der Daten (Metadaten)
  • Welche Datenformate liegen vor; können proprietäre Formate durch offene Formate ersetzen werden
  • Mit welcher Thematik befassen sich die Daten (welches Datenzentrum ist am Besten geeignet)?
  • Welchen Stand haben die Daten; ist das Projekt beendet oder noch nicht; gibt es eine Versionierung?
  • Wer ist die Ansprechperson, die stellvertretend für die an der Datenerfassung- und -auswertung Teilnehmenden sprechen kann?
  • Wem gehören die Daten? Wo liegen die Rechte? Liegen Einschränkungen zur Nutzung der Daten vor (Datenschutz, Lizenzrechte).
  • Gibt es bereits eine Grundmenge von Metadaten, die für den Ingest genutzt werden kann bzw. eine Beschreibung der Forschungsdaten (z.B. ein Arbeitspapier, eine Publikation)?
  • Wie hoch sind der Aufwand und die Kosten für die Archivierung?
  1. Datenaufbereitung und Anreicherung der Daten mit Metadaten
  • Erzeugung eines gut strukturierten Dateienbaums; Entfernung von Dubletten und temporären Dateien; Formatkonvertierung in LZA-taugliche Formate
  • In Kooperation mit dem aufnehmenden Datenzentrum: fehlende Metadaten ergänzen, unter Nutzung eines Datenschemas in machinen-lesbares Format überführen.
  1. Aufnahme in das Archivsystem (Technischer Ingest): technische Metadaten erzeugen/ergänzen: Strukturmetadaten, Kopierschutzprüfung, Validitätsprüfung, Prüfsummen etc.

  2. Langzeitkonservierungsvorarbeiten und Wartung

  • Semantic preservation vs. Bitstream preservation
  • Aktualisierung von Metadaten (z.B. Ansprechperson; Änderung der Rechte)
  • Formatkonvertierung (z.B. auf neueste Audio/Videoformate)

Informationen zu Metadaten

Die Auffindbarkeit und Wiederverwendbarkeit von Forschungsdaten bedingt ihre bestmögliche Beschreibung mit Metadaten. In Text+ sollten alle Forschungsdaten zumindest mit den Beschreibungsmitteln aus Datacite ausgezeichnet werden. Im Wesentlichen sollten Sie Ihre Forschungsdaten mithilfe dieser 20 Felder beschreiben:

NrFeldBeschreibungObligation
1.Identifiereindeutiger BezeichnerM
2.CreatorUrheber der RessourceM
3.TitleTitel der RessourceM
4.PublisherHerausgeber der RessourceM
5.PublisherYearZeitpunkt der VeröffentlichungM
6.ResourceTypeArt der RessourceM
7.SubjectGegenstandsbereichR
8.ContributorMitwirkende bei der EntstehungR
9.DateDatum der EntstehungR
10.LanguageIn welcher Sprache liegt die Ressource vorO
11.AlternateIdentifierAlternative Bezeichner, falls vorhandenO
12.RelatedIdentifierBezeichner von verwandten RessourcenR
13.SizeGrössenbeschreibungO
14.FormatIn welchen Formaten liegt die Ressource vorO
15.VersionVersionierungO
16.RightsLizenz- UrheberrechtlichesO
17.DescriptionBeschreibung der Ressource im KlartextR
18.GeolocationVerortung der RessourceR
19.FundingsReferenceFörderkennzeichenO
20.RelatedItemVerwandte RessourcenO

Beachten Sie das die erstem 6 Felder verpflichtend sind (Mandatory), einige Felder sind empfohlen (Recommended), andere hingegen nur optional (Optional).

Viele Partner in Text+ zeichnen Ihre Forschungsdaten mit weiteren - oft Ressourcen-typischen - Merkmalen aus. Auch innerhalb der Text+ Datendomänden gibt es eine Vielfalt von Beschreibungssystemen, z.B. um lexikalische Ressourcen auszuzeichnen. Innerhalb des Konsortiums wurde deshalb für jede Datendomäne (Lexikalische Ressourcen, Collections, Editionen) der gemeinsame Kern aller Metadatenbeschreibungen herausgearbeitet. Zur Orientierung können Sie die entsprechende Dokumentationen konsultieren: