Store research data with Text+

As part of the NFDI, the Text+ network is the contact point for text and language-based research data. Text+ offers its community the opportunity to adopt research data. These are not only archived in the long term, but also made available for further use in accordance with their licence. Access is open to all researchers with an academic affiliation and supports the consideration of data protection and licence-compliant access conditions.

There are two ways of incorporating data into the infrastructure

  1. A Text+ centre takes over the data and archives it sustainably and interoperably with Text+ services and tools.
  2. A separate, sustainable archive provides research data for Text+ via standard interfaces.

If you operate a data centre yourself and would like to become part of the Text+ network, you can document the sustainability of your own processes with a certificate from Nestor or the Core Trust Seal. With the technical interfaces to the Text+ infrastructure, these centres can also benefit from Text+ software services.

Benefits of archiving data in Text+

The inclusion and provision of research data in Text+ is based on the FAIR principles:

  • Findable: making data easy to find, which promotes the dissemination and recognition of your work.
  • Accessible: ways to access data
  • Interoperable: standards for the use of data in different research projects
  • Reusable: Reuse of data in other research contexts.

Text+ ensures that research data is visible within the Text+ community, and beyond, via the registry, its central reference system. Research data in Text+ is often linked to other research data, so that cross-disciplinary research is also possible.

Text+ Support

Text+ provides support in all aspects of recording research data. The support ranges from the preparation, labelling and transfer of research data to the selection of a suitable data centre. Contact is usually made via the helpdesk.

Further Informations

Der Ingest von Daten beinhaltet üblicherweise die folgenden Schritte:

  1. Sichten der Daten, Vorarbeiten zur Auszeichnung der Daten (Metadaten)
  • Welche Datenformate liegen vor; können proprietäre Formate durch offene Formate ersetzen werden
  • Mit welcher Thematik befassen sich die Daten (welches Datenzentrum ist am Besten geeignet)?
  • Welchen Stand haben die Daten; ist das Projekt beendet oder noch nicht; gibt es eine Versionierung?
  • Wer ist die Ansprechperson, die stellvertretend für die an der Datenerfassung- und -auswertung Teilnehmenden sprechen kann?
  • Wem gehören die Daten? Wo liegen die Rechte? Liegen Einschränkungen zur Nutzung der Daten vor (Datenschutz, Lizenzrechte).
  • Gibt es bereits eine Grundmenge von Metadaten, die für den Ingest genutzt werden kann bzw. eine Beschreibung der Forschungsdaten (z.B. ein Arbeitspapier, eine Publikation)?
  • Wie hoch sind der Aufwand und die Kosten für die Archivierung?
  1. Datenaufbereitung und Anreicherung der Daten mit Metadaten
  • Erzeugung eines gut strukturierten Dateienbaums; Entfernung von Dubletten und temporären Dateien; Formatkonvertierung in LZA-taugliche Formate
  • In Kooperation mit dem aufnehmenden Datenzentrum: fehlende Metadaten ergänzen, unter Nutzung eines Datenschemas in machinen-lesbares Format überführen.
  1. Aufnahme in das Archivsystem (Technischer Ingest): technische Metadaten erzeugen/ergänzen: Strukturmetadaten, Kopierschutzprüfung, Validitätsprüfung, Prüfsummen etc.

  2. Langzeitkonservierungsvorarbeiten und Wartung

  • Semantic preservation vs. Bitstream preservation
  • Aktualisierung von Metadaten (z.B. Ansprechperson; Änderung der Rechte)
  • Formatkonvertierung (z.B. auf neueste Audio/Videoformate)

Informationen zu Metadaten

Die Auffindbarkeit und Wiederverwendbarkeit von Forschungsdaten bedingt ihre bestmögliche Beschreibung mit Metadaten. In Text+ sollten alle Forschungsdaten zumindest mit den Beschreibungsmitteln aus Datacite ausgezeichnet werden. Im Wesentlichen sollten Sie Ihre Forschungsdaten mithilfe dieser 20 Felder beschreiben:

NrFeldBeschreibungObligation
1.Identifiereindeutiger BezeichnerM
2.CreatorUrheber der RessourceM
3.TitleTitel der RessourceM
4.PublisherHerausgeber der RessourceM
5.PublisherYearZeitpunkt der VeröffentlichungM
6.ResourceTypeArt der RessourceM
7.SubjectGegenstandsbereichR
8.ContributorMitwirkende bei der EntstehungR
9.DateDatum der EntstehungR
10.LanguageIn welcher Sprache liegt die Ressource vorO
11.AlternateIdentifierAlternative Bezeichner, falls vorhandenO
12.RelatedIdentifierBezeichner von verwandten RessourcenR
13.SizeGrössenbeschreibungO
14.FormatIn welchen Formaten liegt die Ressource vorO
15.VersionVersionierungO
16.RightsLizenz- UrheberrechtlichesO
17.DescriptionBeschreibung der Ressource im KlartextR
18.GeolocationVerortung der RessourceR
19.FundingsReferenceFörderkennzeichenO
20.RelatedItemVerwandte RessourcenO

Beachten Sie das die erstem 6 Felder verpflichtend sind (Mandatory), einige Felder sind empfohlen (Recommended), andere hingegen nur optional (Optional).

Viele Partner in Text+ zeichnen Ihre Forschungsdaten mit weiteren - oft Ressourcen-typischen - Merkmalen aus. Auch innerhalb der Text+ Datendomänden gibt es eine Vielfalt von Beschreibungssystemen, z.B. um lexikalische Ressourcen auszuzeichnen. Innerhalb des Konsortiums wurde deshalb für jede Datendomäne (Lexikalische Ressourcen, Collections, Editionen) der gemeinsame Kern aller Metadatenbeschreibungen herausgearbeitet. Zur Orientierung können Sie die entsprechende Dokumentationen konsultieren: