Warum das Training großer Sprachmodelle von den Text- und Data-Mining-Schranken gedeckt ist
Die Frage, ob das Training von KI-Systemen in den Anwendungsbereich der Ausnahmen für Text and Data Mining (TDM) fällt, ist Gegenstand einer intensiven Debatte. Seit einiger Zeit vertreten Rechtswissenschaftler und Stakeholder sowohl die Auffassung, dass diese Ausnahmen auf das Training großer Sprachmodelle (Large Language Models – LLMs) anwendbar sind, als auch die gegenteilige Position. Mit dem Inkrafttreten des AI Act schien ein Großteil dieser Diskussion zunächst an Bedeutung zu verlieren, da die Verordnung die Relevanz der TDM-Ausnahmen für das Training von KI ausdrücklich anerkennt. Eine jüngere Entschließung des Europäischen Parlaments (2025/2058(INI)) hat die Debatte jedoch erneut belebt, indem sie auf Schwächen des bestehenden Regelungsrahmens hingewiesen hat.
Die gesetzlichen Ausnahmen für Text and Data Mining wurden durch die Richtlinie über das Urheberrecht im digitalen Binnenmarkt (Richtlinie (EU) 2019/790, DSM-Richtlinie) harmonisiert. Die Artikel 3 und 4 der Richtlinie definieren TDM sehr weit als jede automatisierte Analysetechnik, die darauf abzielt, Texte und Daten in digitaler Form auszuwerten, um Informationen zu gewinnen, einschließlich, aber nicht beschränkt auf Muster, Trends und Korrelationen.
Ein LLM ist ein großes probabilistisches Modell natürlicher Sprache, das Informationen über Muster, Trends und Korrelationen zwischen Wörtern und Ausdrücken in natürlicher Sprache enthält. Das Training eines LLM – unabhängig davon, ob es sich um ein statisches oder dynamisches (generatives) Modell handelt – entspricht daher exakt der Definition von TDM im europäischen Recht. Ein LLM ist insbesondere kein „Speicher“ oder „Repository“ der Trainingsdaten, aus dem diese Daten in unveränderter Form wieder abgerufen werden könnten. Zwar wurde berichtet, dass einige LLMs gelegentlich Teile ihrer Trainingsdaten „wiedergeben“ („regurgitate“), doch handelt es sich dabei um seltene Fälle, die auf Zufall oder gezieltes adversariales Prompting zurückzuführen sind.
Die DSM-Richtlinie wurde 2016 vorgeschlagen und 2019 verabschiedet, zu einer Zeit also, als das Training von LLMs noch kaum öffentliche Aufmerksamkeit erhielt. Der europäische Gesetzgeber war sich jedoch der möglichen Anwendung der TDM-Ausnahmen bewusst, wie ein vom JURI-Ausschuss in Auftrag gegebenes Briefing aus dem Jahr 2018 (PE 604.942) belegt. Die Definition des TDM wurde bewusst weit gefasst, um zukünftigen technologischen Entwicklungen Rechnung zu tragen. Neuere Rechtsakte zeigen zudem deutlich, dass der Gesetzgeber beabsichtigte, auch das Training von KI-Systemen in den Anwendungsbereich der TDM-Ausnahmen einzubeziehen.
Artikel 53 Absatz 1 Buchstabe c des AI Act (Verordnung (EU) 2024/1689) verpflichtet Anbieter von General-Purpose-AI-Modellen ausdrücklich dazu, Strategien zur Identifizierung und Beachtung von Rechtevorbehalten („reservations of rights“) der Rechtsinhaber einzurichten. Die Vorschrift verweist unmittelbar auf Artikel 4 der DSM-Richtlinie, der Rechtsinhabern ermöglicht, Text and Data Mining durch einen maschinenlesbaren Vorbehalt auszuschließen. Indem der AI Act die Einhaltung dieses Opt-out-Mechanismus verlangt, erkennt er die TDM-Ausnahmen als potenzielle Rechtsgrundlage für das Training von KI-Systemen an.
Folglich fällt das Training von LLMs in den Anwendungsbereich der TDM-Ausnahmen und bedarf daher grundsätzlich keiner Zustimmung des Rechtsinhabers, sofern sämtliche Voraussetzungen der jeweiligen Ausnahme erfüllt sind. Insbesondere stellt Artikel 3 der DSM-Richtlinie eine geeignete Rechtsgrundlage für das Training von LLMs zu Forschungszwecken dar. Die deutschen Gerichte haben diese Ausnahme jüngst im Verfahren Kneschke gegen LAION (Az. 5 U 104/24) vergleichsweise weit ausgelegt.
Darüber hinaus hebt die bereits erwähnte Entschließung des Europäischen Parlaments, obwohl sie die Nutzung der TDM-Ausnahmen für das Training von KI kritisch bewertet, zugleich hervor, dass wissenschaftliche Forschung und Forschungsaktivitäten nicht durch eine restriktive Auslegung oder Anwendung dieser Regelungen beeinträchtigt werden sollten.
HAFTUNGSAUSSCHLUSS: Diese Erklärung stellt keine Rechtsberatung dar und sollte auch nicht als solche interpretiert werden. Denken Sie daran, dass die Anwendbarkeit der TDM-Schranken an das Vorliegen bestimmter Voraussetzungen geknüpft ist.