Creative Commons: Mit CC Signals Content für Künstliche Intelligenz freigeben – oder auch nicht

Screenshot: https://creativecommons.org/ai-and-the-commons/cc-signals/

In dem Blogbeitrag Was unterscheidet Künstliche Intelligenz von Suchmaschinen? hatte ich dargestellt, wie sich Suchmaschinen von Künstlicher Intelligenz unterscheiden. Content-Anbieter können dabei nur bedingt auf Datenschutz, Urheberrecht, EU AI Act usw. vertrauen. In der folgenden Veröffentlichung sind die verschiedenen Punkte noch einmal strukturiert zusammengefasst, inkl. einer möglichen Lösung für die skizzierten Probleme:

Creative Commons (2025): From Human Content to Machine Data. Introducing CC Signals | PDF

Creative Commons (CC) kennen dabei viele von uns als eine Möglichkeit, anderen unter bestimmten Bedingungen das Recht zur Nutzung des eigenen Contents einzuräumen. Creative Commons erläutert, dass KI-Modelle die üblichen gesellschaftlichen Vereinbarungen mehr oder weniger ignoriert, und somit den “social contract” aufkündigt. Diesen Hinweis finde ich bemerkenswert, da hier das Vorgehen der KI-Tech-Unternehmen mit den möglichen gesellschaftlichen Auswirkungen verknüpft wird.

Mit CC Signals hat Creative Commons ein erstes Framework veröffentlich, das es ermöglichen soll, Content mit Berechtigungsstufen für KI-Systeme zu versehen.

“CC signals are a proposed framework to help content stewards express how they want their works used in AI training—emphasizing reciprocity, recognition, and sustainability in machine reuse. They aim to preserve open knowledge by encouraging responsible AI behavior without limiting innovation” (ebd.)

Machen Sie bei der Weiterentwicklung dieses Ansatzes mit:

“Head over to the CC signals GitHub repository to provide feedback and respond to our discussion questions: https://github.com/creativecommons/cc-signals.”

Was unterscheidet Künstliche Intelligenz von Suchmaschinen?

Conceptual technology illustration of artificial intelligence. Abstract futuristic background

Man könnte meinen, dass Künstliche Intelligenz (GenAI) doch nur eine Weiterentwicklung bekannter Suchmaschinen ist, doch dem ist nicht so. In einem Paper wird alles noch ausführlicher beschrieben. Hier nur ein Auszug:

“The intermediation role played by AI systems is altogether new: where the role of search engines has traditionally been to surface the most relevant links to answers of the user’s query, AI systems typically expose directly an answer… For the large number of content producers whose sustainability relies on direct exposure to (or interactions with) the final end user, this lack of reliable exposure makes it unappealing to leave their content crawlable for AI-training purposes.” (Hazaël-Massieux, D. (2024): Managing exposure of Web content to AI systems | PDF.

Für viele Content-Anbieter ist die Vorgehensweise der GenAI-Modelle von großem Nachteil, da diese direkte Ergebnisse liefern, und die Interaktionen mit dem User (wie bei den bisher üblichen Suchmaschinen-Ergebnissen) entfallen können. Die bekannten GenAI-Modelle (Closed Source) nutzen einerseits die vorab antrainierten Daten und andererseits live content (summarize this page), und machen daraus ein Milliarden-Geschäft.

Demgegenüber stehen erste allgemeine Entwicklungen wie EU AI Act, Urheberrecht, Datenschutz usw., die allerdings nicht ausreichend sind, sich als Content-Anbieter (Person, Unternehmen, Organisation, Verwaltung usw.) vor der Vorgehensweise der Tech-Giganten zu schützen.

Es müssen neue, innovative Lösungen gefunden werden.

Dabei wäre es gut, wenn jeder Content-Anbieter mit Hilfe eines einfachen Verfahrens (Framework) entscheiden könnte, ob und wie sein Content für die Allgemeinheit, für Suchmaschinen, für KI-Modelle verwendet werden darf.

… und genau so etwas gibt es in ersten Versionen.

Über diese Entwicklungen schreibe ich in einem der nächsten Blog-Beiträge noch etwas ausführlicher.

Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet

Quelle: Eigener Screenshot

In verschiedenen Blogbeiträgen hatte ich darauf hingewiesen, dass es für Organisationen in Zukunft immer wichtiger wird, die digitale Abhängigkeiten von kommerziellen IT-/AI-Anbietern zu reduzieren – auch bei der Anwendung von Künstlicher Intelligenz (AI: Artificial Intelligence), da die Trainingsdatenbanken der verschiedenen Anbieter

(1) nicht transparent sind,
(2) es zu Urheberrechtsverletzungen kommen kann,
(3) und nicht klar ist, was mit den eigenen eingegeben Daten, z.B. über Prompts oder hochgeladenen Dateien, passiert.

Siehe dazu auch Digitale Souveränität: Europa, USA und China im Vergleich. Nicht zuletzt werden die Kosten für die KI-Nutzung immer höher – beispielsweise bei Microsoft und der Nutzung des KI-Assistenten Copilot: KI treibt Microsoft-365-Preise in die Höhe (golem vom 17.01.2025).

Es ist natürlich leicht, darüber zu schreiben und die Dinge anzuprangern, schwieriger ist es, Lösungen aufzuzeigen, die die oben genannten Punkte (1-3) umgehen. Zunächst einmal ist die Basis von einer Lösung Free Open Source Software (FOSS). Eine FOSS-Alternative zu OpenAI, Claude usw. haben wir auf einem Server installiert und die ersten drei Modelle installiert. Was bedeutet das?

Wenn wir in einem Chat einen Prompt (Text, Datei..) eingeben, greift das System auf das ausgewählte Modell (LLM: Large Language Model) zu, wobei die Daten (Eingabe, Verarbeitung, Ausgabe) alle auf unserem Server bleiben.

Wie in der Abbildung zu sehen ist, haben wir neben Llama 3.2 auch Teuken 7B hinterlegt. Gerade Teuken 7B basiert auf einem europäischen Ansatz für eine Trainingsdatenbank (LLM) in 24 Sprachen der Europäischen Union. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Wir werden diese Modelle in der nächsten Zeit testen und unsere Erkenntnisse in Blogbeiträgen darstellen.

Patenticus: Eine App um den Umgang mit geistigem Eigentum zu lernen – kostenlos

In der Industriegesellschaft haben sich Patente, Marken, Gebrauchsmuster, eingetragene Designs und Topografien als gewerbliche Schutzrechte (DPMA-Website) etabliert. In einer Wissensgesellschaft kommt dem Umgang mit geistigen Eigentums eine ganz neue Bedeutung zu. Viele Menschen sehen es beispielsweise als eine Art Sport an, von anderen abzuschreiben, ohne Quellen zu nennen. Ein physisches Teil, wie z.B. einen Stuhl zu entwenden, käme diesen Personen wohl nicht in den Sinn. Mit immateriellen Gütern umzugehen, müssen viele noch lernen.

Es ist daher sehr erfreulich, dass es mit Patencius eine kostenlose App gibt, mit der jeder den Umgang mit geistigen Eigentum lernen kann. “Patenticus entstand im Rahmen der Initiative “L2Pro – learn to protect your Intellectual Property”, soll eine Einstiegshilfe in das Thema sein und ist und bleibt kostenlos! Die Nutzung von Patenticus ist keine Rechtsberatung und kann und soll diese nicht ersetzen!”. Probieren Sie es doch einfach mal aus.

Nicht ganz einfach: Urheberrecht in der Wissensgesellschaft

Die bekannten Schutzrechte des Industriezeitalters wie Patente, Gebrauchsmuster, Marken und Design (Siehe DPMA) müssen in einer Wissensgesellschaft um das wichtige Urheberrecht ergänzt werden. Ganz besonders geht es auch um die Rechte und Pflichten von öffentlichen Archiven, Bibliotheken, Museen und Einrichtungen des Film- und Tonerbes. Das das alles nicht so ganz einfach ist, wird in der Handreichung Klimpel, P., Rack, F., Weitzmann, J. H. (2017): Neue rechtliche Rahmenbedingungen für Digitalisierungsprojektevon Gedächtnisinstitutionen (PDF):

Der Gesetzgeber hat mit dem Gesetz  zur Angleichung des Urheberrechts an die Erfordernisse einer Wissensgesellschaft (Urheberrechts-Wissensgesellschafts-Gesetz,kurz UrhWissG) neben dem großen Bereich Forschung und Bildung auch einen neuen Rechtsrahmen für öffentliche Archive, Bibliotheken, Museen und ausdrücklich auch Einrichtungen des Film- oder Tonerbes geschaffen. Im Wesentlichen betreffen die Änderungen die Frage, welche Nutzungen von urheberrechtlich geschütztem Material diesen Institutionen erlaubt sind (Seite 8).

Das Urheberrecht thematisieren wir in den von uns entwickelten Blended Learning Lehrgängen Innovationsmanager (IHK) und Wissensmanager (IHK). Informationen dazu finden Sie auf unserer Lernplattform.