Das Kontinuum zwischen Closed Source AI und Open Source AI

In dem Beitrag AI: Was ist der Unterschied zwischen Open Source und Open Weights Models? hatte ich schon einmal darauf hingewiesen, dass es zwischen den Polen Closed Source AI und Open Source AI ein Kontinuum weiterer Möglichkeiten gibt.

Die Grafik illustriert den Zusammenhang noch einmal anhand der zwei Dimensionen Degree of Openness und Completeness. Man sieht hier deutlich, dass der Firmenname OpenAI dazu führen kann, z.B. ChatGPT von OpenAI als Open Source AI zu sehen, obwohl es komplett intransparent ist und somit in die Kategorie Closed Source AI gehört. Die Open Weights Models liegen irgendwo zwischen den beiden Polen und machen es nicht einfacher, wirkliche Open Source AI zu bestimmen.

Eine erste Entscheidungshilfe kann die Definition zu Open Source AI sein, die seit 2024 vorliegt. Anhand der (recht wenigen) Kriterien kann man schon eine erste Bewertung der Modelle vornehmen.

In der Zwischenzeit hat sich auch die Wissenschaft dem Problem angenommen und erste Frameworks veröffentlicht. Ein erstes Beispiel dafür ist hier zu finden:

White et al. (2024): The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence | Quelle).

Open Source KI-Agenten: Update auf Langflow 1.4

Eigener Screenshot

Die Abhängigkeit von amerikanischen oder chinesichen KI-Anbietern ist zu einem großen Problem in Europa geworden, da wir in Europa einen anderen Ansatz im Umgang mit Künstlicher Intelligenz haben. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Um die eigene Digitale Souveränität wiederzuerlangen, setzen immer mehr Organisationen auf Open Source Anwendungen. Siehe dazu Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Wir haben beispielsweise im ersten Schritt Nextcloud als Alternative zu den bekannten Microsoft-Produkten auf einem eigenen Server installiert, und weitere Bausteine wie Open Project, Moodle usw. integriert. In Nextcloud ist ein Assistent integriert, über den wir auch KI-Modelle lokal (LocalAI) auf unserem Server nutzen können. Siehe dazu auch LocalAI: Aktuell können wir aus 713 Modellen auswählen.

Eine professionelle Möglichkeit, KI-Agenten zu nutzen – also Prozesse mit internen/externen Daten und KI-Modellen zu kombinieren – haben wir mit Langflow (Open Source) auf unserem Server installiert. Siehe dazu AI Agents: Langflow (Open Source) auf unserem Server installiert. Mit der neuen Version 1.4 stehen uns nun stark erweiterte Funktionen zur Verfügung. In dem Beitrag Langflow 1.4: Organize Workflows + Connect with MCP werden diese ausführlich erläutert:

This release introduces Projects, a new way to organize, modularize, and expose your AI workflows.

Beyond organization, Projects are now also MCP servers! MCP (Model Context Protocol) is an open standard from Anthropic designed to establish seamless interoperability between LLM applications and external tools, APIs, or data sources.

In der nächsten Zeit werden wir verschiedene Anwendungen für KI-Agenten testen und unsere Erafhrungen hier mitteilen.

Open Source AI: Warum sollte Künstliche Intelligenz demokratisiert werden?

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Aktuell überschlagen sich die Meldungen darüber, wie die Zukunft von Künstlicher Intelligenz (AI: Artificial Intelligence) wohl aussehen wird. Die Dynamik ist in diesem Feld allerdings so groß, dass es unmöglich ist, genauere Voraussagen zu machen.

Dennoch glauben einige, dass ein Modell, wie z.B. ChatGPT, Gemini usw. mit ihren vielfältigen Möglichkeiten, die Lösung für alles sein wird. Grundannahme ist hier also One Size fits all.

Demgegenüber steht der Gedanke, dass es viele unabhängig und vernetzt nutzbare KI-Anwendungen geben wird, die eher den Anforderungen der Menschen und Organisationen entsprechen. Weiterhin sollten diese KI-Apps Open Source sein, also offen und transparent. Dazu habe ich den folgenden aktuellen Text gefunden:

“The future of AI is not one amazing model to do everything for everyone (you will hear us tell you time and time again in this book: one model will not rule them all). AI’s future will not just be multimodal (seeing, hearing, writing, and so on); it will also most certainly be multimodel (in the same way cloud became hybrid). AI needs to be democratized—and that can only happen if we collectively leverage the energy and the transparency of open source and open science—this will give everyone a voice in what AI is, what it does, how it’s used, and how it impacts society. It will ensure that the advancements in AI are not driven by the privileged few, but empowered by the many” (Thomas, R.; Zikopoulos, P.; Soule, K. 2025).

Es wird hier noch einmal deutlich herausgestellt, dass Künstliche Intelligenz demokratisiert werden muss. Das wiederum kann durch Open Source und Open Science ermöglicht werden. Siehe dazu auch

Digitale Souveränität: Europa, USA und China im Vergleich

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

RAG: KI-Basismodelle mit eigener Wissensbasis verknüpfen

Von Democratizing Innovation zu Free Innovation

In Europa gibt es immer mehr länderspezifische LLM (Large Language Models) – wie z.B. AI Sweden

Screenshot von der Website AI Sweden

In dem Blogbeitrag Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data hatte ich schon erläutert, wie wichtig es ist, dass sich Organisationen und auch Privatpersonen nicht nur an den bekannten AI-Modellen der Tech-Giganten orientieren. Ein wichtiges Kriterien sind die dort oftmals hinterlegten Daten, die natürlich zum überwiegenden Teil in Englisch (oder Chinesisch) vorliegen.

In Europa haben wir gegenüber China und den USA in der Zwischenzeit ein eigenes Verständnis von der gesellschaftlichen Nutzung der Künstlichen Intelligenz entwickelt (Blogbeitrag). Dabei spielen die technologische Unabhängigkeit (Digitale Souveränität) und die europäische Kultur wichtige Rollen.

Die jeweiligen europäischen Kulturen drücken sich in den verschiedenen Sprachen aus, die dann auch möglichst Bestandteil der in den KI-Modellen genutzten Trainingsdatenbanken (LLM) sein sollten – damit meine ich nicht die Übersetzung von englischsprachigen Texten in die jeweilige Landessprache.

Ein Beispiel für so eine Entwicklung ist AI SWEDEN mit dem veröffentlichten GPT-SW3 (siehe Abbildung). Das LLM ist im Sinne der Open Source Philosophie (FOSS: Free Open Source Software) transparent und von jedem nutzbar – ohne Einschränkungen.

“GPT-SW3 is the first truly large-scale generative language model for the Swedish language. Based on the same technical principles as the much-discussed GPT-4, GPT-SW3 will help Swedish organizations build language applications never before possible” (Source).

Für schwedisch sprechende Organisationen – oder auch Privatpersonen – bieten sich hier Möglichkeiten, aus den hinterlegten schwedischen Trainingsdaten den kulturellen Kontext entsprechend Anwendungen zu entwickeln. Verfügbar ist das Modell bei Huggingface.

Künstliche Intelligenz: Wie hängen Modelle, Agenten und Tools zusammen?

General agent architecture and components (Wiesinger et al. (2024): Agents)

In der letzten Zeit kommt immer mehr der Begriff AI Agent – oder auch Gen AI Agent – auf. Mit Hilfe der Abbildung möchte ich die Zusammenhänge der verschiedenen Komponenten erläutern.

Die Modelle (Model), oft als Language Models, Small Language Models oder Large Language Models (LLM) bezeichnet, enthalten eine sehr große Menge an Trainingsdaten. Dabei können Open Source AI Models, Open Weights Models und Closed AI Models unterschieden werden. An dieser Stelle merkt man schon, wie wichtig die Auswahl eines geeigneten Modells ist. Diese Modelle sind üblicherweise nicht auf typische Tools oder Kombinationen von Tools trainiert. Oftmals wird dieser Teil dann mit Hilfe von immer detaillierteren Eingaben (Prompts, Dateien etc.) des Users spezifiziert.

Die Beschränkungen von Modellen bei der Interaktion mit der “äußeren Welt” kann durch geeignete Tools erweitert werden. Dazu können spezielle Datenbanken, API-Schnittstellen usw. genutzt werden. Siehe dazu auch RAG: KI-Basismodelle mit eigener Wissensbasis verknüpfen.

Der AI Agent orchestriert nun alle Komponenten, wie die Eingabe des Users, das jeweilige Modell (oder sogar mehrere), die Tools und gibt das Ergebnis (Output) für den User in der gewünschten Form aus.

Die Möglichkeit, AI Agenten zu erstellen, bieten in der Zwischenzeit viele kommerzielle KI-Anbieter an. Wir gehen demgegenüber den Weg, Open Source AI auf unserem Server zu installieren und zu nutzen:

AI Agenten konfigurieren wir mit Langflow (Open Source). Dabei können wir in Langflow auf sehr viele Open Source AI Modelle über Ollama (Open Source) zugreifen, und vielfältige Tools integrieren. Alle Daten bleiben dabei auf unserem Server.

Künstliche Intelligenz: Mit Private Prompts (Open Source) bleiben die Daten auf dem eigenen Rechner

Was passiert eigentlich mit meinen Daten, wenn ich Künstliche Intelligenz nutze? Bei Anweisungen (Prompts) an das jeweilige KI-Modell ist oft nicht klar, was mit den Daten passiert, da viele der bekannten Modelle – wie beispielsweise ChatGPT – Closed Source Models, also nicht transparent sind.

Gerade wenn es um persönliche Daten geht, ist das unangenehm. Es ist daher sehr erfreulich, dass die Entwicklung eines Tools, dass die privaten Daten schützt öffentlich gefördert wurde und als Open Source Anwendung frei zur Verfügung steht.

“Mit der kostenlosen Anwendung Private Prompts bleiben deine Daten dort, wo sie hingehören – bei dir auf deinem Rechner. Die Entwicklung von Private Prompts wird im Zeitraum 1.9.2024-28.02.2025 gefördert durch das Bundesministerium für Bildung und Forschung und den Prototype Fund (Förderkennzeichen 01IS24S44)” (Quelle: https://www.privateprompts.org/).

Wir gehen noch einen Schritt weiter, in dem wir LocalAI auf unserem Server installiert haben. Wir nutzen dabei verschiedene Modelle, die als Open Source AI bezeichnet werden können. Siehe dazu

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

LocalAI: Das Open Source Modell olmOCR installiert

Eigener Screenshot

Wie schon in mehreren Blogbeiträgen erläutert, haben wir das Ziel, einen souveränen Arbeitsplatz zu gestalten, bei dem u.a. auch Künstliche Intelligenz so genutzt werden kann, dass alle eingegebenen und generierten Daten auf unserem Server bleiben.

Dazu haben wir LocalAI (Open Source) auf unserem Server installiert. Damit können wir aktuell aus mehr als 700 frei verfügbaren KI-Modellen je nach Bedarf auswählen. Zu beachten ist hier, dass wir nur Open Source AI nutzen wollen. Siehe dazu auch AI: Was ist der Unterschied zwischen Open Source und Open Weights Models?

Bei den verschiedenen Recherchen sind wir auch auf OLMo gestoßen. OLMo 2 ist eine LLM-Familie (Large Language Models), die von Ai2 – einer Not for Profit Organisation – entwickelt wurde und zur Verfügung gestellt wird:

“OLMo 2 is a family of fully-open language models, developed start-to-finish with open and accessible training data, open-source training code, reproducible training recipes, transparent evaluations, intermediate checkpoints, and more” (Source: https://allenai.org/olmo).

Unter den verschiedenen Modellen haben wir uns die sehr spezielle Version allenai_olmocr-7b-0225 in unserer LocalAI installiert – siehe Abbildung.

“olmOCR is a document recognition pipeline for efficiently converting documents into plain text” (ebd.)

Siehe dazu auch Efficient PDF Text Extraction with Vision Language Models.

Selbstverständlich werden wir demnächst auch noch andere Möglichkeiten aus der OLMo-Familie testen und Erfahrungen sammeln.

AI: Was ist der Unterschied zwischen Open Source und Open Weights Models?

In verschiedenen Beiträgen habe ich schon erläutert, dass sich Open Source AI und Closed Source AI unterscheiden. Die bekannten Closed Source AI Modelle wie z.B. ChatGPT von (OpenAI) sind beispielsweise nicht wirklich Open Source sind, da dsolche Modelle intransparent sind und den eigentlichen Zweck haben, wirtschaftliche Gewinne zu generieren – koste es was es wolle. Siehe dazu Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Zwischen diesen beiden Polen Open Source AI und Closed Source AI gibt es allerdings – wie immer – ein Kontinuum von weiteren Möglichkeiten. Beispielsweise sind LLama, Mistral und Gemma nicht so ohne weiteres den beiden Extremen zuzuordnen, da diese Modelle teilweise offen sind. Solche Modelle werden Open Weights Models genannt:

“As a result, the term “Open Source” has been used to describe models with various levels of openness, many of which should more precisely be described as “open weight” models. Among the Big AI companies, attitudes towards openness vary. Some, like OpenAI or Anthropic, do not release any of their models openly. Others, like Meta, Mistral or Google, release some of their models. These models — for example, Llama, Mistral or Gemma — are typically shared as open weights models” (Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

Warum nur werden solche Modelle angeboten? Der Grund kann sein, dass man mit dieser Strategie versucht, dem Regulierungsbestreben z.B. der Europäischen Union entgegenzuwirken. Ich hoffe, dass das nicht funktioniert und Big Tech gezwungen wird, sich an die Spielregeln in der Europäischen Union zu halten. Aktuell sieht es so aus, dass die neue Regierung der USA die Europäische Union auch bei diesem Thema vor sich hertreiben möchte.

Open LLMs for Transparent AI in Europe

Screenshot Open Euro LLM

Wie schon in dem Beitrag Digitale Souveränität: Europa, USA und China im Vergleich dargestellt, haben China, die USA und Europa unterschiedliche Herangehensweisen, mit Künstlicher Intelligenz umzugehen.

Es wundert daher nicht, dass sich die neue Regierung in den USA darüber beschwert, dass Europa die Entwicklung und Nutzung Künstlicher Intelligenz in Schranken regulieren will. Ich hoffe, Europa ist selbstbewusst genug, sich diesem rein marktwirtschaftlich ausgerichteten Vorgehen der USA zu widersetzen, ohne die Möglichkeiten einer Nutzung und Entwicklung von Künstlicher Intelligenz zu stark einzuschränken. Der Einsatz Künstlicher Intelligenz wird gravierende gesellschaftliche Veränderungen nach sich ziehen, sodass es auch erforderlich, gesellschaftlich auf diese Entwicklung zu antworten.

Neben China und den USA kann es Europa durchaus gelingen, beide Schwerpunkte (USA: Kapital getrieben, China: Politik getrieben) zur Nutzung von Künstliche Intelligenz in einem Hybriden Europäischen KI-Ansatz zu verbinden. Das wäre gesellschaftlich eine Innovation, die durchaus für andere Länder weltweit interessant sein könnte.

Open Euro LLM ist beispielsweise so eine Initiative, die durchaus vielversprechend ist. Wie in dem Screenshot zur Website zu erkennen ist, setzt man bei Open Euro LLM auf Offenheit und Transparenz, und auch auf europäische Sprachen in den Trainingsdatenbanken der Large Language Models (LLM). Beispielhaft soll hier der Hinweis auf Truly Open noch einmal herausgestellt werden:

Truly Open
including data, documentation, training and testing code, and evaluation metrics; including community involvement

In Zukunft wird es meines Erachtens sehr viele kleine, spezialisierte Trainingsdatenbanken (SLM: Small Language Models) geben, die kontextbezogen in AI-Agenten genutzt werden können. Wenn es um Kontext geht, muss auch die kulturelle Vielfalt Europas mit abgebildet werden. Dabei bieten sich europäische Trainingsdatenbanken an. Siehe dazu auch

CAIRNE: Non-Profit Organisation mit einer europäischen Perspektive auf Künstliche Intelligenz

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

AI Agents: Langflow (Open Source) auf unserem Server installiert

Ollama: AI Agenten mit verschiedenen Open Source Modellen entwickeln

Künstliche Intelligenz (KI oder AI: Artificial Intelligence) einzusetzen ist heute in vielen Organisationen schon Standard. Dabei nutzen immer noch viele die von den kommerziellen Anbietern angebotenen KI-Systeme. Dass das kritisch sein kann, habe ich schon in vielen Blogbeiträgen erläutert.

Wir wollen einen anderen Weg, aufzeigen, der die Digitale Souveränität für Organisationen und Privatpersonen ermöglicht: Open Source AI und eine Open Source Kollaborationsplattform. Siehe dazu Von der digitalen Abhängigkeit zur digitalen Souveränität.

Im ersten Schritt haben wir unsere NEXTCLOUD über einen ASSISTENTEN mit Künstlicher Intelligenz verknüpft, wobei alle Daten auf unserem Server bleiben. Siehe LocalAI (Free Open Source Software): Chat mit KI über den Nextcloud-Assistenten.

Im zweiten Schritt haben wir für die Entwicklung von AI-Agenten Langflow (Open Source) auf unserem Server installiert. Dabei ist es möglich, ChatGPT von OpenAI, oder über Ollama sehr viele unterschiedliche Open Source Modelle zu nutzen. Wir wollen natürlich den zweiten Weg gehen und haben daher Ollama auf unserem Server installiert.

Ollama Startseite auf unserem Server: Eigener Screenshot

In der Abbildung ist zu sehen, dass wir für den ersten Test zunächst vier Modelle installiert haben, inkl. DeepSeek-R1 und LLama 3.2. Demnächst werden wir noch weitere Modelle installieren, die wir dann in Langflow integrieren, um AI-Agenten zu entwickeln. In den kommenden Wochen werden wir über die Erfahrungen berichten.