Large Language Models (LLMs) und künstliche Intelligenz

Vor dem Hintergrund der rasant fortschreitenden Entwicklung der Large Language Models (LLMs) möchte Text+ Perspektiven für die Einsatzmöglichkeiten generativer Sprachmodelle, künstlicher Intelligenz und Transformermodelle in der Wissenschaft aufzeigen. Seine umfangreichen Bestände an Sprach- und Textdaten will das Konsortium dafür ebenso gewinnbringend einsetzen wie die leistungsfähigen Rechenzentren in den Reihen seiner Partnerinstitutionen.

Text+ verfolgt das Ziel, Anwendungen und Dienste für wissenschaftliche Communities zu entwickeln, die auf LLMs zurückgreifen. Darüber hinaus wollen die Text+ Zentren ihre Sprach- und Textressourcen qualitativ gezielt für das Training von Sprachmodellen aufbereiten. Modelle (Fine-Tuning vortrainierter Modelle oder Retrieval-Augmented Generation, RAG) für spezifische Aufgaben sollen von Text+ ebenso bereitgestellt werden wie Ressourcen – also Daten und Rechenleistung – für das Fine-Tuning von Modellen durch Forschende. Ferner will Text+ ausloten, wie Material mit (urheber-)rechtlichen Zugangsbeschränkungen in LLMs integriert werden kann, ob und wie LLMs mit abgeleiteten Textformaten trainiert werden können und für welche Forschungsfragen LLMs geeignet sind.

Anwendungsszenarien in Text+

Mit Blick auf die Datendomänen – Editionen, Collections, Lexikalische Ressourcen – zeigen folgende Szenarien das Potential der Anwendung von LLMs für Text+:

  • Daten-Preprocessing bspw. mittels Named Entity Recognition (NER): LLMs unterstützen beim Daten-Preprocessing zur späteren Anwendung eines speziell trainierten NER-Modells.
  • Generierung von Beispielsätzen bzw. von Kontext: LLMs unterstützen bei der Generierung von Beispielsätze für einen lexikalischen Eintrag, z.B. bei der Anreicherung von Einträgen im lexikalisch-semantischen Wortnetz GermaNet.
  • Laufzeitumgebung für NLP-Tools: Klassifikatoren werden in Containern via API bereitgestellt und mit GPU-Nodes zur effektiven Nutzung von Deep Learning-Modellen versehen.
  • Query Generation zur Suchunterstützung in der Federated Content Search (FCS) von Text+: Ein LLM-basierter ChatBot unterstützt bei der Exploration der FCS und hilft bei der Übersetzung von natürlichsprachlichen Anfragen in syntaktisch korrekte Suchanfragen für die FCS.
  • Entity Linking: Retrieval Augmented Generation (RAG) mit Kontextwissen aus Wikidata, der GND und anderen Quellen. Voraussichtlich zusätzliche Datenbank/Suchmaschine für die Kontexte: Graph-Datenbank (z.B. BlazeGraph) oder ElasticSearch.
  • Historische Normalisierungen per seq2seq-Transformer-Modellen: Mit Daten aus historischen Beständen nachtrainierte LLMs passen abweichende Schreibweisen aus verschiedenen Epochen an (ggf. auch als Webservice).
  • MONAPipe, APIs für Komponenten: neuronale Modelle (z.B. Redewiedergabe, Ereigniserkennung) werden als API zur Verfügung gestellt.

Generelle Anwendungsszenarien

Im Folgenden sind einige Anwendungsfälle skizziert, die zeigen, wie LLMs generell in den text- und sprachbasierten Geisteswissenschaften als leistungsstarke Werkzeuge eingesetzt werden können.

LLMs können für Inhaltsanalyse genutzt werden, um große Textmengen systematisch zu analysieren und Themen, Motive oder stilistische Merkmale herauszuarbeiten. Beispielsweise können literarische Werke, historische Dokumente oder philosophische Texte automatisch auf wiederkehrende Themen, Sentiments oder sprachliche Muster untersucht werden. In umfangreichen textuellen Datenbeständen können LLMs historische Veränderungen von Begriffen und Ideen nachverfolgen oder Diskurse in verschiedenen Zeiträumen und Kulturen analysieren.
LLMs können verwendet werden, um Texte automatisch mit relevanten Metadaten zu versehen, wie etwa Schlagwörtern, Abstracts oder Klassifikationen. Das erleichtert die Erschließung und Wiederverwendung von Texten in Repositorien. Sie können dabei helfen, Daten in großen Repositorien nach thematischen, geographischen oder zeitlichen Kriterien zu sortieren und zu organisieren, was die Zugänglichkeit und Nutzung für Forscher erleichtert.
Für interdisziplinäre und internationale Forschungsprojekte können LLMs eingesetzt werden, um Texte aus verschiedenen Sprachen maschinell zu übersetzen, was den Zugang zu internationalen Forschungsergebnissen und Quellen erheblich erleichtert. LLMs könnten eingesetzt werden, um regionale Sprachvarianten, historische Sprachstufen oder dialektale Unterschiede zu identifizieren und zu analysieren.
LLMs können verwendet werden, um aus großen Mengen wissenschaftlicher Literatur zentrale Forschungsfragen und -hypothesen herauszuarbeiten, die als Grundlage für neue Studien dienen können (automatisierte Literaturübersichten). Durch die Analyse existierender Forschungsliteratur können LLMs Bereiche identifizieren, die bisher wenig untersucht wurden, und so neue Forschungsthemen vorschlagen.
In Fällen von engen Verbindung zwischen Texten und visuellen Materialien (z.B. Manuskripte etc.) können LLMs in Kombination mit Bildanalysemodellen genutzt werden, um solche multimodalen Daten zu analysieren, z.B. durch die Analyse von Bildbeschreibungen oder die Verknüpfung von Texten mit entsprechenden visuellen Darstellungen.
LLMs können helfen, historische Texte zu transkribieren, zu annotieren und in digitale Formate zu überführen, was die Erstellung und Analyse digitaler Editionen erleichtert. Durch die Analyse historischer Textkorpora können LLMs dazu beitragen, Diskursverläufe nachzuvollziehen und die Entwicklung von Ideen und Begriffen in der Geschichte zu erforschen.
LLMs können verwendet werden, um erste Entwürfe oder Zusammenfassungen von wissenschaftlichen Arbeiten zu generieren, was besonders hilfreich sein kann, um Schreibblockaden zu überwinden oder große Datenmengen zu verarbeiten. Sie können genutzt werden, um passende Zitate und Literaturquellen basierend auf dem Textkontext vorzuschlagen und so den Schreibprozess effizienter zu gestalten.