Abgeleitete Textformate

Während viele der Sprach- und Textressourcen aus den Text+ Zentren der Wissenschaft frei zur Verfügung stehen, sind andere wegen rechtlicher Einschränkungen nur bedingt für die Forschung nutzbar – insbesondere Werke, die urheberrechtlich oder durch Daten- und Persönlichkeitsrechte geschützt sind bzw. lizenzrechtlichen Limitierungen unterstehen.

Text+ verfolgt das Ziel, auch derart geschützte Werke für die Wissenschaft zugänglich und verwertbar zu machen. Eine Möglichkeit dazu bieten Abgeleitete Textformate (ATF, vgl. Schöch et al., 2020).

Was sind ATFs?

ATFs entstehen durch die Reduktion von Informationsgehalt in Texten – nach einer ersten Anreicherungsphase. Sie können so hergestellt werden, dass einerseits das Ergebnis noch die Beantwortung mindestens einer Forschungsfrage ermöglicht, der verbleibende Rest andererseits aber z.B. die Rechte der Urheberrechtsinhaber nicht mehr beeinträchtigt.

Voraussetzung dafür ist u.a., dass keine Möglichkeit zur Rekonstruktion des Ausgangstextes besteht. Solche ATFs können daher frei veröffentlicht werden. Bei der Erzeugung von mehr als einem ATF von einem Dokument bzw. einem Korpus ist darauf zu achten, dass auch durch deren Kombination keine Rekonstruktion möglich ist. So sind nicht alle ATFs automatisch rechtefrei. Ist eine Rekonstruktion des Originaltextes ohne größeren Aufwand möglich, fällt das ATF weiterhin unter das Urheberrecht.

Wie werden ATF erzeugt?

ATFs entstehen auf der Basis des Originaltextes durch die Anwendung einer Reihe von Veränderungen. In einem ersten Schritt wir der Text durch Annotationen angereichert (z.B. Part-of-Speech-Tagging (POS), Verlinkungen von Named Entities zu Normdaten oder statistische Analysen auf dem Originaltext). Danach erfolgt eine gezielte Informationsreduktion. Diese basiert einerseits auf einer Reihe von Veränderungen, die typischerweise automatisiert ablaufen und ganz wesentlich auf der Entscheidung, welche Granularität diesen Operationen zu Grunde liegen.

Für die Informationsreduktion stehen vier Operationen zur Verfügung:

  • Löschen
  • Behalten
  • Ersetzen
  • Vertauschen

Diese können auf verschiedenen Granularitätsebenen greifen (z.B. auf Token-, Satz- oder Absatzebene) und in Bezug auf unterschiedliche Größen (z.B. pro Dokument, pro Werk oder pro Korpus).

Verbreitete Formen von ATFs sind z.B. Term-Dokument-Matrizen, N-Gramme, Texte mit maskierten Tokens oder Wort-Embeddings.

Aktueller Stand

Text+ arbeitet derzeit an einem Vorschlag für einen DIN-Standard zu ATFs sowie an einer Veröffentlichung zu rechtlichen Aspekten dieser Formate, um wissenschaftliche Communitys, die diese Daten nutzen, und Institutionen, die solche Daten bereitstellen möchten, gleichermaßen mit der nötigen Expertise zu unterstützen.

Zugleich treibt Text+ die Forschung in diesem Bereich voran. So sind zuletzt mehrere Analysen veröffentlicht worden, z.B. zur Eignung verschiedener ATFs für die Autorschaftsattribution und zum Feintuning von Sprachmodellen mit ATFs:

  • Understanding the impact of three derived text formats on authorship classification with Delta: https://doi.org/10.5281/zenodo.7715299
  • Shifting Sentiments? What happens to BERT-based Sentiment Classification when derived text formats are used for fine-tuning: (link to be added)

Beispiele

RangN-GrammHäufigkeit
1gott sei dank43
2ja gnädigste frau17
3auch heute wieder13
4doch auch wieder11
5ist doch auch11
6ist immer so10
7gnädigste frau ist10
8war so war10
9nein gnädigste frau9
10wird ja wohl9
11ist doch recht9
12doch immer noch9

Häufigkeiten von 3-Grammen über mehrere Texte hinweg, bei einer Mindesthäufigkeit von 5. Beispieldaten auf der Grundlage von fünf Erzähltexten von Theodor Fontane. [Schöch et al. 2020]

von_APPR_von Hohen-Cremmen_NN_Hohen-Cremmen Georg_NE_Georg zu_APPR_zu heller_ADJA_hell des_ART_die fiel_VVFIN_fallen schon_ADV_schon bewohnten_ADJA_bewohnt In_APPR_in der_ART_die <SEG> Mittagsstille_ADJA_Mittagsstille Gartenseite_NN_Gartenseite und_KON_und erst_ADV_erst Park-_TRUNC_Park- Dorfstraße_NN_Dorfstraße ,_PUN_, Seitenflügel_NN_Seitenflügel breiten_ADJA_breit die_ART_die hin_ADV_hin während_KOUS_während angebauter_ADJA_angebaut der_ART_die nach_APPR_nach ein_ART_eine Schatten_NN_Schatten auf_APPR_auf einen_ART_eine rechtwinklig_ADJD_rechtwinklig <SEG> großes_ADJA_groß ,_PUN_, auf_APPR_auf mit_APPR_mit in_APPR_in ein_ART_eine weiß_ADJD_weiß und_KON_und über_APPR_über quadrierten_ADJA_quadrierten und_KON_und diesen_PDAT_dies auf_APPR_auf Mitte_NN_Mitte seiner_PPOSAT_sein dann_ADV_dann Fliesengang_NN_Fliesengang hinaus_ADV_hinaus einen_ART_eine grün_ADJD_grün <SEG>

Ausschnitt aus der Liste der Tokens mit Annotation bei segmentweiser Aufhebung der Sequenzinformation für den Beginn von Fontanes Effi Briest. Hier auf Unigramm-Basis und mit Wortform, Lemma und Wortart-Information sowie einer Segmentlänge von 20 Tokens. Man beachte die Markierung der Segmentgrenzen mit nach jeweils 20 Tokens. [Schöch et al. 2020]