Common Crawl: Freie Daten für jeden?

Website: https://commoncrawl.org/

Large Language Models (LLMs) benötigen eine Unmenge an Daten. Bei den Closed Source KI-Modellen von OpenAI, Meta, etc. ist manchmal nicht so klar (Black Box), woher diese ihre Trainingsdaten nehmen. Eine Quelle scheint Common Crawl zu sein.

„Common Crawl maintains a free, open repository of web crawl data that can be used by anyone. The Common Crawl corpus contains petabytes of data, regularly collected since 2008“ (ebd.)

Die Daten werden von Amazon gehostet, können allerdings auch ohne Amazon-Konto genutzt werden. Eine Datensammlung, die für jeden frei nutzbar und transparent ist, und sogar rechtlichen und Datenschutz-Anforderungen genügt, wäre schon toll.

Doch es gibt auch Kritik: Wie auf der Wikipedia-Seite zu Common Crawl zu lesen ist, respektiert Common Crawl wohl nicht immer Paywalls bei ihrer Datensammlung: Wired (2024): Publishers Target Common Crawl In Fight Over AI Training Data.

Es ist also Vorsicht geboten, wenn man Common Crawl nutzen möchte. Dennoch kann diese Entwicklung interessant für diejenigen sein, die ihr eigenes, auf den Werten von Open Source AI basierendes KI-Modell nutzen wollen. Siehe dazu auch

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Loyal Agents – it all starts with trust

Website: https://loyalagents.org/

KI-Agenten sind aktuell in aller Munde. Gerade in Software-Unternehmen wurde schon früh damit angefangen, Agenten zu nutzen: KI-Agenten können bis zu 30% der realen Aufgaben eines Unternehmens autonom übernehmen.

Im Außenverhältnis, z.B. mit Kunden , wird es schon schwieriger, KI-Agenten einzusetzen, da hier weitergehende Herausforderungen zu bewältigen sind. Es wundert daher nicht, dass es an dieser Stelle Forschungsbedarf gibt.

In dem Projekt Loyal Agents arbeiten dazu beispielsweise das Stanford Digital Economy Lab und Consumer Report zusammen. Worum es ihnen geht, haben sie auf der Website Loyal Agents so formuliert:

„Agentic AI is transforming commerce and services; agents are negotiating, transacting and making decisions with growing autonomy and impact. While agents can amplify consumer power, there is also risk of privacy breaches, misaligned incentives, and manipulative business practices. Trust and security are essential for consumers and businesses alike“ (ebd.).

Dass Vertrauen und Sicherheit eine besonders wichtige Bedeutung in den Prozessen mit der Beteiligung von KI-Agenten haben, wird hier noch einmal deutlich – It all starts with Trust. Ähnliche Argumente kommen von Bornet, der sich für Personalized AI Twins ausspricht:

Personal AI Twins represent a profound shift from generic to deeply personalized agents. Unlike today´s systems that may maintain the memory of past interactions but remain fundamentally the same for all users, true AI twins will deeply internalize an individual´s thinking patterns, values, communication style, and domain expertise“ (Bornet et al. 2025).

Möglicherweise können einzelne Personen in Zukunft mit Hilfe von Personalized AI Twins oder Loyal Agents ihre eigenen Ideen besser selbst entwickeln, oder sogar als Innovationen in den Markt bringen. Dabei empfiehlt sich aus meiner Sicht die Nutzung von Open Source AI – ganz im Sinne einer Digitalen Souveränität und im Sinne von Open User Innovation nach Eric von Hippel. Siehe dazu auch

Eric von Hippel (2017): Free Innovation

Von Democratizing Innovation zu Free Innovation

Open Source AI: SERA – Open Coding Agents at low cost

Source: https://allenai.org/blog/open-coding-agents

Das Ai2 Institut hat immer wieder interessante KI-Modelle auf Open Source Basis veröffentlicht. Unter anderem sind das die OLMO 3 – Familien oder auch MOLMO mit Schwerpunkt auf Videos. Mit der SERA ist es nun möglich, Open Coding Agents zu stellen, und das zu geringen Kosten.

„Today we’re releasing not just a collection of strong open coding models, but a training method that makes building your own coding agent for any codebase – for example, your personal codebase or an internal codebase at your organization – remarkably accessible for tasks including code generation, code review, debugging, maintenance, and code explanation. (…) The challenge: specializing agents to your data“ (Source: https://allenai.org/blog/open-coding-agents).

Die Modellfamilie (8B bis 32B) steht selbstverständlich auf Huggingface zur Verfügung, und kann auf eigenen Servern genutzt werden. Ganz im Sinne von Open Source AI und Digitalen Souveränität.

Warum öffnet OpenAI mit GPT OSS die Tür zu Open Source?

Quelle; https://openai.com/de-DE/index/introducing-gpt-oss/

In dem Kontinuum der KI-Modelle sind die Übergänge zwischen den Polen fließend. Immer mehr große Modelle bieten daher neben den Closed Models (Proprietäre Modelle) sogenannte Open Weights Modelle an.

OpenAI hat am 05.08.2025 GPT OSS veröffentlicht, das in der kleinsten Version mit 20B z.B. über Huggingface genutzt werden kann. Grundsätzlich erscheint diese Öffnung gut zu sein. Der Beitrag OpenAI Cracks The Door With GPT OSS vom 11.08.2025 geht darauf detaillierter ein. Ich möchte dazu folgende Punkte anmerken:

(1) OpenAI suggerierte bei der Gründung mit dem Namen, dass man sich den Open Source Werten verpflichtet fühlt. Seit 2019 ist OpenAI allerdings vorwiegend ein kommerzielles Unternehmen, das den Firmennamen für geschicktes Marketing nutzt.

(2) Der Modellname GPT OSS weist zunächst darauf hin, dass es sich um Open Source Software (OSS) handelt, was grundsätzlich zu begrüßen ist.

(3) Möglicherweise werden viele GTP OSS mit Open Source AI verwechseln, was möglicherweise auch gewollt ist. Ansonsten hätte das Unternehmen auch einen anderen Namen verwenden können.

(4) Bei GPT OSS handelt es sich nicht um Open Source AI, sondern um einen Open Weight Model: „Among the Big AI companies, attitudes towards openness vary. Some, like OpenAI or Anthropic, do not release any of their models openly. Others, like Meta, Mistral or Google, release some of their models. These models — for example, Llama, Mistral or Gemma — are typically shared as open weights models“ (Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

(5) Dabei ist zu beachten, dass man sich mit proprietärer Künstlicher Intelligenz (KI) immer noch die Denkwelt der Eigentümer einkauft.

Siehe dazu auch

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

Buyl et al. (2024): Large Language Models Reflect the Ideology of their Creators

Künstliche Intelligenz, Agiles Manifest, Scrum und Kanban

Bei Künstlicher Intelligenz denken aktuell die meisten an die KI-Modelle der großen Tech-Konzerne. ChatGPT, Gemini, Grok etc sind in aller Munde und werden immer stärker auch in Agilen Organisationen eingesetzt. Wie in einem anderen Blogbeitrag erläutert, sind in Agilen Organisationen Werte und Prinzipien mit ihren Hebelwirkungen die Basis für Praktiken, Methoden und Werkzeuge. Dabei beziehen sich viele, wenn es um Werte und Prinzipien geht, auf das Agile Manifest, und auf verschiedene Vorgehensmodelle wie Scrum und Kanban. Schauen wir uns einmal kurz an, was hier jeweils zum Thema genannt wird:

Agiles Manifest: Individuen und Interaktionen mehr als Prozesse und Werkzeuge
In der aktuellen Diskussion über die Möglichkeiten von Künstlicher Intelligenz werden die Individuen eher von den technischen Möglichkeiten (Prozesse und Werkzeuge) getrieben, wobei die Interaktion weniger zwischen den Individuen, sondern zwischen Individuum und KI-Modell stattfindet. Siehe dazu auch Mensch und Künstliche Intelligenz: Engineering bottlenecks und die fehlende Mitte.

SCRUM: Die Werte Selbstverpflichtung, Fokus, Offenheit, Respekt und Mut sollen durch das Scrum Team gelebt werden
Im Scrum-Guide 2020 wird erläutert, was die Basis des Scrum Frameworks ist. Dazu sind die Werte genannt, die u.a. auch die Offenheit thematisieren, Ich frage mich allerdings, wie das möglich sein soll, wenn das Scrum Team proprietäre KI-Modelle wie ChatGPT, Gemini, Grok etc. nutzt, die sich ja gerade durch ihr geschlossenes System auszeichnen? Siehe dazu auch Das Kontinuum zwischen Closed Source AI und Open Source AI.

KANBAN basiert auf folgenden Werten: Transparenz, Balance, Kooperation, Kundenfokus, Arbeitsfluss, Führung, Verständnis, Vereinbarung und Respekt.
Bei den proprietären KI-Modellen ist die hier angesprochene Transparenz kaum vorhanden. Nutzer wissen im Detail nicht, mit welchen Daten das Modell trainiert wurde, oder wie mit eingegebenen Daten umgegangen wird, etc.

In einem anderen Blogbeitrag hatte ich dazu schon einmal darauf hingewiesen, dass man sich mit proprietärer Künstlicher Intelligenz (KI) auch die Denkwelt der Eigentümer einkauft.

Um agile Arbeitsweisen mit Künstlicher Intelligenz zu unterstützen, sollte das KI-Modell den genannten Werten entsprechen. Bei entsprechender Konsequenz, bieten sich also KI-Modelle an, die transparent und offen sind. Genau an dieser Stelle wird deutlich, dass das gerade die KI-Modelle sind, die der Definition einer Open Source AI entsprechen – und davon gibt es in der Zwischenzeit viele. Es wundert mich daher nicht, dass die Open Source Community und die United Nations die gleichen Werte teilen.

Es liegt an uns, ob wir uns von den Tech-Giganten weiter in eine immer stärker werdende Abhängigkeit treiben lassen, oder andere Wege gehen – ganz im Sinne einer Digitalen Souveränität. Siehe dazu auch Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Künstliche Intelligenz: Die neue Olmo3 Modell-Familie

https://allenai.org/

Auf die Olmo Modell Familie hatte ich diesen Blogbeitrag schon einmal hingewiesen: Mit der Olmo2 Modell-Familie offene Forschung an Sprachmodellen vorantreiben. Es handelt sich dabei um Modelle, die vom Ai2 Institut entwickelt und veröffentlicht werden. Ziel des Instituts ist es, neben der Offenheit der Modelle auch einen Beitrag zur Lösung der gesellschaftlichen Herausforderungen zu leisten. Im November 2025 ist die Olmo3 Modell-Familie veröffentlicht worden:

Olmo 3-Think (7B, 32B)–our flagship open reasoning models for advanced experiments, surfacing intermediate thinking steps.

Olmo 3-Instruct (7B)–tuned for multi-turn chat, tool use, and function/API calling.

Olmo 3-Base (7B, 32B)–strong at code, reading comprehension, and math; our best fully open base models and a versatile foundation for fine-tuning.

Die Modelle sind bei Huggingface frei verfügbar und können in einem Playground getestet werden.

Apertus: Schweizer Open Source KI – Modell veröffentlicht

Image by Stefan Schweihofer from Pixabay

In der Zwischenzeit gibt es einen Trend zu Open Source KI-Modellen. Aktuell hat beispielsweise die ETH Zürich zusammen mit Partnern das KI-Modell Apertus veröffentlicht:

Apertus: Ein vollständig offenes, transparentes und mehrsprachiges Sprachmodell
Die EPFL, die ETH Zürich und das Schweizerische Supercomputing-Zentrum CSCS haben am 2. September Apertus veröffentlicht: das erste umfangreiche, offene und mehrsprachige Sprachmodell aus der Schweiz. Damit setzen sie einen Meilenstein für eine transparente und vielfältige generative KI“ (Pressemitteilung der ETH Zürich vom 02.09.2025)

Der Name Apertus – lateinisch für offen – betont noch einmal das grundsätzliche Verständnis für ein offenes , eben kein proprietäres, KI-Modell, das u.a auch auf Hugging Face zur Verfügung steht. Die beiden KI-Modelle mit 8 Milliarden und 70 Milliarden Parametern bieten somit auch in der kleineren Variante die Möglichkeit, der individuellen Nutzung.

Es gibt immer mehr Personen, Unternehmen und öffentliche Organisationen, die sich von den Tech-Giganten im Sinne einer Digitalen Souveränität unabhängiger machen möchten. Hier bieten in der Zwischenzeit sehr viele leistungsfähige Open Source KI-Modelle erstaunliche Möglichkeiten- auch im Zusammenspiel mit ihren eigenen Daten: Alle Daten bleiben dabei auf Ihrem Server – denn es sind Ihre Daten.

Da das KI-Modell der Schweizer unter einer Open Source Lizenz zur Verfügung steht, werden wir versuchen, Apertus auf unseren Servern auch in unsere LocalAI, bzw. über Ollama in Langflow einzubinden.

Mit Künstlicher Intelligenz zu Innovationen – aber wie?

Wenn es um Innovationen geht, denken viele an bahnbrechende Erfindungen (Inventionen), die dann im Markt umgesetzt, und dadurch zu Innovationen werden.. Da solche Innovationen oft grundlegende Marktstrukturen verändern, werden diese Innovationen mit dem Begriff „disruptiv“ charakterisiert. Siehe dazu auch Disruptive Innovation in der Kritik.

Betrachten wir uns allerdings die Mehrzahl von Innovationen etwas genauer, so entstehen diese hauptsächlich aus der Neukombination von bestehenden Konzepten. Dazu habe ich auch eine entsprechende Quelle gefunden, die das noch einmal unterstreicht.

„New ideas do not come from the ether; they are based on existing concepts. Innovation scholars have long pointed to the importance of recombination of existing ideas. Breakthrough often happen, when people connect distant, seemingly unrelated ideas“ (Mollick 2024).

Bei Innovationsprozessen wurden schon in der Vergangenheit immer mehr digitale Tools eingesetzt. Heute allerdings haben wir mit Künstlicher Intelligenz (GenAI) ganz andere Möglichkeiten, Neukombinationen zu entdecken und diese zu Innovationen werden zu lassen.

Dabei kommt es natürlich darauf an, welche Modelle (Large Language Models, Small Language Models, Closed Sourced Models, Open Weighted Models, Open Source Models) genutzt werden.

Wir favorisieren nicht die GenAI Modelle der bekannten Tech-Unternehmen, sondern offene, transparente und für alle frei zugängige Modelle, um daraus dann Innovationen für Menschen zu generieren.

Wir setzen diese Gedanken auf unseren Servern mit Hilfe geeigneter Open Source Tools und Open Source Modellen um:

LocalAI: Open EuroLLM: Ein Modell Made in Europe – eingebunden in unsere LocalAI

Ollama und Langflow: Ollama: AI Agenten mit verschiedenen Open Source Modellen entwickeln

Dabei bleiben alle Daten auf unseren Servern – ganz im Sinne einer Digitalen Souveränität.

Den Gedanken, dass Künstliche Intelligenz (Cognitive Computing) Innovationen (hier: Open Innovation) unterstützen kann, habe ich schon 2015 auf der Weltkonferenz in Montreal (Kanada) in einer Special Keynote vorgestellt.

Siehe dazu Freund, R. (2016): Cognitive Computing and Managing Complexity in Open Innovation Model. Bellemare, J., Carrier, S., Piller, F. T. (Eds.): Managing Complexity. Proceedings of the 8th World Conference on Mass Customization, Personalization, and Co-Creation (MCPC 2015), Montreal, Canada, October 20th-22th, 2015, pp. 249-262 | Springer

Digitale Souveränität: Projekt SOOFI (Sovereign Open Source Foundation Models) gestartet

Quelle: Pressemitteilung | PDF | zu SOOFI

In unserem Blog habe ich schon oft über die notwendige Digitale Souveränität von einzelnen Personen, Organisationen und Länder geschrieben. Es wird dabei immer deutlicher, dass wir in Europa Modelle benötigen, die nicht vom Mindset amerikanischer Tech-Konzernen oder vom Mindset chinesischer Politik dominiert werden, und auf Open Source Basis zur Verfügung stehen.

So etwas soll nun mit SOOFI (Sovereign Open Source Foundation Models) entwickelt werden. In der Abbildung ist der prinzipielle Aufbau zu erkennen. Auf Basis geeigneter Daten können Foundation Models an die jeweiligen Bedürfnisse ganzer Branchen angepasst werden. Darauf aufbauend, schließen sich u.a. auch AI Agenten an.

„Ein wichtiger Schritt für die europäische KI-Souveränität: Unter SOOFI arbeiten zukünftig Wissenschaftlerinnen und Wissenschaftler aus 6 führenden deutschen Forschungseinrichtungen zusammen, um souveräne europäische Alternativen zu KI Technologien aus den USA und China bereitzustellen. Der Fokus liegt darin, mit den Modellen einen Beitrag für die industrielle Nutzung von KI zu leisten“ (Quelle: Pressemitteilung | PDF).

Möglicherweise interessieren Sie auch noch folgende Beiträge zum Thema:
Digitale Souveränität: Europa, USA und China im Vergleich
Von der digitalen Abhängigkeit zur digitalen Souveränität,
Digitale Souveränität: Welche Open Source Alternativen gibt es?
Digitale Souveränität: Souveränitätsscore für KI Systeme
Digitale Souveränität: Google Drive im Vergleich zu Nextcloud

Digitale Souveränität: Nuudle – ein nicht-trackendes Termintool

Screenshot: https://nuudel.digitalcourage.de//

Viele Menschen nutzen Doodle für die einfache Terminabstimmung. Im Sinne einer Digitalen Souveränität kann alternativ Nuudle genutzt werden. Wie die Abbildung zeigt, können über Termine hinaus auch noch klassische Umfragen erstellt werden.

Nuudle ist ein datensparsames Termintool und unterstützt daher Personen und Organisationen, die ihre Daten schützen möchten.

Das Tool ist auf der Website von digitalcourage zu finden, auf der es viele Hinweise dazu gibt, wie man seine eigenen Daten schützen kann. Manches finde ich gut, manches etwas überzogen – wie immer…

Siehe dazu auch Welche Open Source Alternativen gibt es?