LLM-Service

Mit ihren Forschungsdaten bieten die text- und sprachbasierten Geisteswissenschaften vielfältige Anwendungsfälle für den Einsatz großer Sprachmodelle (Large Language Models, LLMs). Text+ ermöglicht den Zugang zu solchen Forschungsdaten über die Registry, die Federated Content Search (FCS) sowie über die beitragenden Datenzentren und deren Repositorien.

Darüber hinaus stellt die GWDG einen Webservice für die Open Source LLMs (Meta) LLaMA, Mixtral, Qwen und Codestral sowie Chat-GPT von OpenAI bereit. So unterstützt das Nationale Hochleistungsrechen- und KI-Zentrum die Entwicklung und Erprobung forschungsbezogener KI-Anwendungsfälle in Text+.

Anwendungsszenarien

In den text- und sprachbasierten Geisteswissenschaften werden LLMs als leistungsstarke Werkzeuge eingesetzt, um die Forschung zu unterstützen und neue Erkenntnisse zu gewinnen. Dabei ist es wichtig, ethische Überlegungen und die Einhaltung von Datenschutzbestimmungen zu berücksichtigen, insbesondere im Umgang mit sensiblen oder urheberrechtlich geschützten Daten. Eine Übersicht verschiedener Anwendungsszenarien sowohl innerhalb von Text+ als auch im allgemeinen Kontext von sprach- und textbasierten Forschungsdaten finden Sie im Bereich Themen und Dokumentation.

Wer kann den LLM-Service nutzen?

Nach einem Login per Academic Cloud können aus lizenzrechtlichen Gründen vorerst alle unmittelbar am Projekt beteiligten Personen den Service nutzen. Eine Erweiterung der User Base ist für die Zukunft geplant. Außer den beiden extern eingebundenen Chat-GPT Modellen werden die LLMs auf Servern der GWDG gehostet, so dass keine Daten nach extern abfließen.

Video-Tutorial

In diesem Tutorial wird erklärt, wie man den Text+ LLM Service startet und ein Custom Model für spezielle Fragestellungen erstellt. Zudem wird gezeigt, wie Prompts (bzw. Arbeitsanweisungen) genutzt werden können, um Informationen aus einem Dokument zu extrahieren.

Vorteile

  • Kostenlose Nutzung von diversen Open-Source-Modellen
  • Kostenlose Nutzung von OpenAI GPT-4
  • KI-Chat ohne serverseitige Speicherung des Chatverlaufs (außer Chat-GPT)
  • Managed Hosting eigener Sprachmodelle
  • Finetuning von LLMs auf eigenen Daten
  • Retrieval-Augmented Generation (RAG) auf eigenen Dokumenten
  • Einhaltung gesetzgeberischer Vorgaben und insbesondere auch der Datenschutzinteressen der Nutzenden

Feedback erwünscht

Diese Einbindung von LLMs hat trotz der beschriebenen Vorteile den Status eines ersten Angebots, das über Zeit sowohl im Funktionsumfang wie auch in der Zugänglichkeit ergänzt und verbessert werden soll. Feedback zur aktuellen Version ist daher ausdrücklich erwünscht! Melden Sie sich gerne über das Kontaktformular.

Changelog

  • Februar 2025: Arbeiten an der Benutzeroberfläche, Einbindung ins Portal abgeschlossen
  • Oktober 2024: initiale Bereitstellung des Dienstes mit Anbindung an die Academic Cloud sowie Hostinginfrastruktur