Creative Commons: Mit CC Signals Content für Künstliche Intelligenz freigeben – oder auch nicht

Screenshot: https://creativecommons.org/ai-and-the-commons/cc-signals/

In dem Blogbeitrag Was unterscheidet Künstliche Intelligenz von Suchmaschinen? hatte ich dargestellt, wie sich Suchmaschinen von Künstlicher Intelligenz unterscheiden. Content-Anbieter können dabei nur bedingt auf Datenschutz, Urheberrecht, EU AI Act usw. vertrauen. In der folgenden Veröffentlichung sind die verschiedenen Punkte noch einmal strukturiert zusammengefasst, inkl. einer möglichen Lösung für die skizzierten Probleme:

Creative Commons (2025): From Human Content to Machine Data. Introducing CC Signals | PDF

Creative Commons (CC) kennen dabei viele von uns als eine Möglichkeit, anderen unter bestimmten Bedingungen das Recht zur Nutzung des eigenen Contents einzuräumen. Creative Commons erläutert, dass KI-Modelle die üblichen gesellschaftlichen Vereinbarungen mehr oder weniger ignoriert, und somit den “social contract” aufkündigt. Diesen Hinweis finde ich bemerkenswert, da hier das Vorgehen der KI-Tech-Unternehmen mit den möglichen gesellschaftlichen Auswirkungen verknüpft wird.

Mit CC Signals hat Creative Commons ein erstes Framework veröffentlich, das es ermöglichen soll, Content mit Berechtigungsstufen für KI-Systeme zu versehen.

“CC signals are a proposed framework to help content stewards express how they want their works used in AI training—emphasizing reciprocity, recognition, and sustainability in machine reuse. They aim to preserve open knowledge by encouraging responsible AI behavior without limiting innovation” (ebd.)

Machen Sie bei der Weiterentwicklung dieses Ansatzes mit:

“Head over to the CC signals GitHub repository to provide feedback and respond to our discussion questions: https://github.com/creativecommons/cc-signals.”

Künstliche Intelligenz: Vorteile von Small Language Models (SLMs)

Aktuell bekannte KI-Anwendungen rühmen sich seit Jahren, sehr große Mengen an Trainingsdaten (Large Language Models) zu verarbeiten. Der Tenor war und ist oft noch: Je größer die Trainingsdatenbank, um so besser.

In der Zwischenzeit weiß man allerdings, dass das so nicht stimmt und Large Language Models (LLMs) durchaus auch Nachteile haben. Beispielsweise ist die Genauigkeit der Daten ein Problem – immerhin sind die Daten oft ausschließlich aus dem Internet. Daten von Unternehmen und private Daten sind fast gar nicht verfügbar. Weiterhin ist das Halluzinieren ein Problem. Dabei sind die Antworten scheinbar plausibel, stimmen aber nicht.

Muddu Sudhaker hat diese Punkte in seinem Artikel noch einmal aufgeführt. Dabei kommt er zu dem Schluss, dass es in Zukunft immer mehr darauf ankommen wird, kleinere, speziellere Trainingsdatenbanken zu nutzen – eben Small Language Models (SLMs).

Muddu Sudhakar (2024): Small Language Models (SLMs): The Next Frontier for the Enterprise, Forbes, LINK

Große Vorteile der SLMs sieht der Autor natürlich einmal in der Genauigkeit der Daten und damit in den besseren Ergebnissen. Weiterhin sind SLMs natürlich auch kostensparender. Einerseits sind die Entwicklungskosten geringer, andererseits benötigt man keine aufwendige Hardware, um SLMs zu betreiben. Teilweise können solche Modelle auf dem eigenen PC, oder auf dem Smartphone betrieben werden.

Solche Argumente sind natürlich gerade für Kleine und Mittlere Unternehmen (KMU) interessant, die mit den geeigneten SLMs und ihren eigen, unternehmensinternen Daten ein interessantes und kostengünstiges KI-System aufbauen können.

Voraussetzung dafür ist für mich, dass alle Daten auf den eigenen Servern bleiben, was aktuell nur mit Open Source AI möglich ist. OpenAI mit ChatGPT ist KEIN Open Source AI.