Open Source AI und das MCP-Protocol: Another perfect match

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Die Nutzung von KI-Modellen ist im privaten und unternehmerischen Umfeld angekommen. Dabei ist es für Kleine und Mittlere Unternehmen (KMU) entscheidend, ob sie sich in die Abhängigkeit der proprietären KI-Modelle begeben, oder mehr Wert auf die eigene Datenhoheit legen. Gerade KMU können es sich nicht leisten, hier knappe Ressourcen zu verschwenden.

Wenn es um Digitale Souveränität geht, und darum, leistungsfähige KI-Modelle mit eigenen oder anderen Daten zu verknüpfen, bietet das MCP-Protocol in der Zwischenzeit sehr spannende Möglichkeiten.

MCP (Model Context Protocol) is an open standard from Anthropic designed to establish seamless interoperability between LLM applications and external tools, APIs, or data sources“ (Source: Langflow 1.4: Organize Workflows + Connect with MCP).

Wie das beispielsweise mit Langflow möglich ist, habe ich in verschiedenen Blogbeiträgen erläutert. Im Zusammenhang mit Open Source AI bietet das MCP einen Rahmen für ein eigenes, innovatives KI-System, bei dem Sie die Datenhoheit haben.

„Open-Source-Sprachmodelle sind die natürliche Ergänzung zu MCP. Während MCP den sicheren Rahmen vorgibt, liefern Open-Source-Modelle die Freiheit, diesen Rahmen nach eigenen Bedürfnissen zu gestalten“ (Hennekeuser, D. (2026): Model Context Protocol (MCP) und Open-Source-Sprachmodelle: Die Eröffnung neuer souveräner Wege. In Mittelstand Digital Fokus Mensch (2026): Digitale Souveränität als Basis für sichere KI-Anwendungen).

Siehe dazu auch Open Data and Open Source AI – a perfect match.

KI und Open Data: Common Corpus mit mehr als 1 Millionen Downloads

Quelle: Link

Über Open Data und Open Source Ai habe ich in dem Beitrag Open Data and Open Source AI – a perfect match geschrieben. Eine besondere Rolle nimmt in dem Zusammenhang Common Corpus ein,

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

„Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)“ (Source).

In der Zwischenzeit wurde Common Corpus schon mehr als 1 Millionen Mal heruntergeladen. Der starke Anstieg der Downloads zeigt eine relative Verschiebung auf dem KI-Markt, denn immer mehr Marktteilnehmer suchen nach Open Data, die sie frei nutzen können.

„Open-Source-Datensätze wie das Common Corpus bieten hier eine Lösung. Sie ermöglichen es Forschern und Unternehmen, auf eine breite Palette von Daten zuzugreifen, ohne sich über komplexe Lizenzfragen oder potenzielle Urheberrechtsverletzungen Gedanken machen zu müssen“ ( Common Corpus übertrifft eine Million Downloads und hebt Bedeutung von Open Data für KI hervor, Mindverse vom 12.03.2026).

Langsam aber sicher wollen immer mehr KI-Nutzer Künstliche Intelligenz gesellschaftlich verantwortungsvoll nutzen – ganz im Sinne einer Digitalen Souveränität.

Divergentes und konvergentes Denken mit KI unterstützen

Typischer Stage-Gate Ideenverfeinerungs- und Auswahlprozess (CEN/TS 16555-2014)

Für den kreativen Prozess, bzw. den Problemlösungsprozess, sind grundsätzlich zwei Denkstile erforderlich (Hornung/Patzak 2011):

Divergentes Denken (divergent: „auseinandergehend, ausschweifend, verzweigend“): die Gedanken schweifen lassen, in die Breite gehendes Denken, den Gedanken freien Lauf lassen, eine Ausweitung des Suchraumes.

Konvergentes Denken (konvergent: „zusammenlaufend, zusammenführend“): die Gedanken auf einen Punkt bringen, einem Ziel zuführen, eine Einengung des Suchraumes, vorsehen von Randbedingungen und Beschränkungen.

Divergentes und Konvergentes Denken sind im Ideenverfeinerungs- und Auswahlprozess gefragt (Abbildung).

Die jeweiligen Schritte können heute gut mit Künstlicher Intelligenz unterstützt werden. Es stellen sich dabei folgend Fragen:

Welches KI-Modell soll verwendet werden? Eher ein Modell, oder mehrere, spezialisierte Modelle? Siehe dazu Von „One Size Fits All“ über Variantenvielfalt in die Komplexitätsfalle?

Soll es ein proprietäres KI-Modell sein, oder doch besser ein Open Source AI Modell? Siehe dazu Das Kontinuum zwischen Closed Source AI und Open Source AI.

Welche Daten sollen verwendet werden? Sollen relativ wahllos Daten aus den Netz genutzt werden? Das kann zu rechtlichen Problemen führen. Oder sollen frei verfügbare (Open Data) Daten und eigene Daten aus der Organisation genutzt werden?

Bei der Beantwortung der jeweiligen Fragen merkt man sehr schnell, dass Open Data und Open Source AI ein perfect match bilden.

Natürlich kann der Prozess auch weiter geöffnet werden, wobei sich zwei Ansätze anbieten: Einmal ist es der Open Innovation Ansatz von Henry Chesbrough, der von offeneren Innovationsprozessen in Unternehmen ausgeht und somit auf das jeweilige Business Model zielt.

Andererseits kann ein persönlicher offener Innovationsprozess, also Open User Innovation nach Henry Chesbrough gemeint sein. Siehe dazu Henry Chesbrough über die Zukunft von Open Innovation.

Open Data and Open Source AI – a perfect match

Grafik mit Mistral Le Chat generiert

Alle KI-Anwendungen basieren darauf, dass Daten zur Verfügung stehen. Bei den bekannten proprietären Anbietern ist die Herkunft der Daten, und der Umgang mit den Daten oft nicht transparent. Diese KI-Modelle werden daher auch Closed AI Models genannt.

Demgegenüber gibt es die (wirklichen) Open Source KI-Modelle, die sich an der Definition von Open Source AI orientieren, somit transparent sind, wie Mistral AI auch in Europe gehostet werden, und der DSGVO entsprechen.

Solche Modelle können auf viele frei verfügbaren Daten (Open Data) in Europa, Deutschland, ja sogar aus Ihrer Region zurückgreifen. Für Einzelpersonen und für Kleine und Mittlere Unternehmen (KMU) ist das wichtig, um keine rechtlichen Probleme bei der KI-Anwendung zu bekommen.

Ein guter Einstieg ist European Data – Das offizielle Portal für Daten zu Europa.

Dort kann man für jedes Land analysieren, welche Datensätze zur Verfügung stehen. In der folgenden Abbildung ist zu erkennen, dass für Deutschland 855.325 Datensätze (Stand: 05.04.2026) vorliegen..

Quelle: European Data

Auf der Seite können Sie weiter auswählen und so die Datensätze (Open Data) recherchieren, die Sie für Ihre Anwendungen (Innovationen) im Unternehmen oder auch für sich selbst nutzen wollen.

Die Datensätze können dann in KI-Modelle eingebunden werden. Wir schlagen natürlich vor, Open Source KI zu verwenden, beispielsweise Mistral 3 Modellfamilie. Siehe dazu auch meine verschiedenen Blogbeiträge zu Mistral AI.

Open Data and Open Source AI – a perfect match. Ganz im Sinne einer Digitalen Souveränität.

Daten als Ressource: Um welche Kategorien von Daten geht es?

Wir sind uns alle einig, dass Daten eine bedeutende Ressource für einzelne Personen, Unternehmen, Organisationen und ganze Gesellschaften darstellen. Einerseits müssen Daten offen verfügbar sein, andererseits allerdings auch geschützt werden. Insofern macht es Sinn, verschiedene Kategorien für Daten zu unterscheiden:

Open data: data that is freely accessible, usable and shareable without restrictions, typically under an open license or in the Public Domain36 (for example, OpenStreetMap data);
Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed“
(Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

Es zeigt sich, dass es viele frei verfügbare Daten gibt, doch auch Daten, die geschützt werden sollten.

Die amerikanischen Tech-Konzerne möchten alle Daten für ihre Trainingsdatenbanken (LLM: Large Language Models) kostenlos nutzen können. Das Ziel ist hier, die maximale wirtschaftliche Nutzung im Sinne einiger weniger Großkonzerne. Dabei sind die Trainingsdaten der bekannten KI-Modelle wie ChatGPT etc. nicht bekannt/transparent. Die Strategie von Big-Tech scheint also zu sein,: Alle Daten „abgreifen“ und seine eigenen Daten und Algorithmen zurückhalten. Ein interessantes Geschäftsmodell, dass sehr einseitig zu sein scheint.

Bei der chinesische Perspektive auf Daten liegt der Schwerpunkt darauf, mit Hilfe aller Daten politische Ziele der Einheitspartei zu erfüllen. Daran müssen sich alle Bürger und die Unternehmen – auch die KI-Unternehmen – halten.

In Europa versuchen wir einen hybriden Ansatz zu verfolgen. Einerseits möchten wir in Europa Daten frei zugänglich machen, um Innovationen zu fördern. Andererseits wollen wir allerdings auch, dass bestimmte Daten von Personen, Unternehmen, Organisationen und Öffentlichen Verwaltungen geschützt werden.

An dieser Stelle versucht die aktuelle amerikanische Regierung, Druck auf Europa auszuüben, damit Big-Tech problemlos an alle europäischen Daten kommen kann. Ob das noch eine amerikanische Regierung ist, oder nicht schon eine kommerziell ausgerichtete Administration wird sich noch zeigen. Das letzte Wort werden wohl die Gerichte in den USA haben.

Ich hoffe, dass wir in Europa unseren eigenen Weg finden, um offene Daten in großem Umfang verfügbar zu machen, und um gleichzeitig den Schutz sensibler Daten zu gewährleisten.

Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Was ist unter „Open Data“ und „Open Government Data“ zu verstehen?

Das Bundesministerium des Innern, für Bau und Arbeit hat am 07. Juli 2021 die Open-Data-Strategie der Bundesregierung (PDF) veröffentlicht. Darin wird auf der Seite 6 erläutert/definiert, was unter Open Data, bzw. Open Government zu verstehen ist.

„Nach der Definition der Richtlinie der EU über offene Daten (Open Data) und die Weiterverwendung von Informationen des öffentlichen Sektors (Richtlinie (EU) 2019/1024) sind Daten dann „offen“, wenn sie „von allen zu jedem Zweck frei verwendet, weiterverwendet und weitergegeben werden können“. Open Government Data – offene Daten von Behörden – sind eine Unterkategorie von Open Data. Die Erhebung dieser Daten durch die öffentliche Verwaltung dient i. d. R. einem spezifischen, meist gesetzlich vorgegebenen Zweck und ist daher weitgehend steuerfinanziert:
– Behörden haben die Daten selbst erhoben oder durch Dritte erheben lassen,
– frei über öffentliche Netze zugänglich,
– maschinenlesbar,
– nicht personenbezogen,
– frei verwendbar,
– keine sicherheitsrelevanten Informationen.“

Aus diesen frei zugänglichen Daten entstehen sehr viele Projekte.

Open Data: Die wichtigsten Fakten

open-dataDaten sind gut und wichtig. Daten sollten geschützt werden – das weiß doch jeder. Es gibt allerdings auch Daten, die vom Staat und von den Kommunen zur Verfügung stehen, und die z.B. für neue Produkte, Dienstleistungen und Geschäftsmodelle genutzt werden können (Innovationen). Die Veröffentlichung Konrad Adenauer Stiftung (2016): Open Data. Die wichtigsten Fakten zu offenen Daten (PDF) zeigt die vielfältigen Möglichkeiten auf 10 Seiten kompakt auf.

Staat und Kommunen haben eine Fülle von Daten für vielfältige Verwaltungsaufgaben erhoben. Welche davon man nun geeignet und wertschöpfend Bürgern und Wirtschaft als Open Data zur Verfügung stellen kann, lässt sich mit Hilfe von Szenarien ausleuchten.

Mit vielen Querverweisen und Links ist diese Veröffentlichung ein guter Einstieg in das Thema. Solche Zusammenhänge besprechen wir in den von uns entwickelten Blended Learning Lehrgängen Innovationsmanager (IHK) und Wissensmanager (IHK), die im April bei der IHK Köln angeboten werden. Weitere Hinweise zu den Lehrgängen finden Sie auf unserer Lernplattform.

Open Data: Schlusslicht Deutschland

open-dataDeutschland verschläft mal wieder die Entwicklung zur Bereitstellung und Nutzung offener Daten (Open Data) – und das trotz großer Bekundungen mit der Unterzeichnung der Open Data Charta. In der Zwischenzeit überholen immer mehr Länder Deutschland, wie die Studie Offene Daten ohne Deutschland (PDF) zeigt:

„Andere Industrienationen haben die Chancen Offener Daten nicht nur erkannt, sondern auch große Fortschritte bei der Umsetzung erzielt. Länder wie Japan, Frankreich oder Italien, die sich erst sehr spät um eine Offene Daten-Strategie bemühten, können inzwischen auf Erfolge zurückblicken. Die Plattform RatingComuniItaliani.it des Startups EvaBet beispielsweise nutzt die offengelegten Daten der italienischen Regierung, um eine geografische Übersicht zum finanziellen Status und Lebensstandard in Kommunen zu erstellen. Die französische Regierung richtete für die Umstellung auf offene Daten eine eigene Task Force ein und stellte unter anderem die Daten des öffentlichen Nahverkehrs bereit, um Innovationen für eine effizientere Infrastruktur anzustoßen. Dabei profitieren die Länderregierungen vom gegenseitigen Austausch. Vorreiterstaaten erzielen Erfolge, weil sie sich auf rechtlicher und technischer Ebene untereinander austauschen und voneinander lernen“.

Daten sind die Basis für Inforamtionen und diese wiederum für die Entwicklung von Wissen. Wer Daten zur Verfügung stellt, ermöglicht es der Gesellschaft, diese zu nutzen. Diese Zusammenhänge werden auch in dem von uns entwickelten Blended Learning Lehrgang Wissensmanager/in (IHK) thematisiert. Weitere Informationen finden Sie auf unserer Lernplattform.

Datenvisualisierung, Storytelling und Wissensmanagement

storyIn Zeiten von Big Data, Open Data, Open Knowledge usw. ist es interessant sich anzusehen, wie aus der Fülle von Daten Informationen – und last but not least – Wissen werden kann (Wissenstreppe). Neue Technologien ermöglichen es uns heute, Daten in Formen zu übertragen, die den Übergang zu Informationen und Wissen erleichtern können. Der Beitrag Storytelling with Data Visulization vom 27.01.2015 fasst die Entwicklung gut zusammen. Stellt man Daten in einen ersten Kontext ergeben sich Zusammenhänge, die als Story weitertransportiert werden können. Ein so verstandenes Storytelling, das auf neuen Möglichkeiten der Datenvisualisierung basiert, erweitert die Möglichkeiten des klassischen Storytellings, das als ein wichtiges Instrument des modernen Wissensmanagements gelten kann. In dem von uns entwickelten Blended Learning Lehrgang Wissensmanager/in (IHK), gehe ich auf diese Zusammenhänge ein. Weitere Informationen finden Sie auf unserer Moodle-Lernplattform.

European Union (2015): Growing a Digital Social Innovation Ecosystem for Europe

dsi-2015Vielen ist es noch nicht klar: Die neuen Technologien vernetzen sehr, sehr viele Menschen und Dinge zu sagenhaft günstigen Kosten. Was sich so einfach anhört, hat allerdings für einzelne Menschen, Gruppen, Organisationen, Netzwerken und Gesellschaften erhebliche Auswirkungen. Und nicht nur das: Diese Auswirkungen geschehen in einer noch nie dagewesenen Geschwindigkeit. In European Union (2015): Growing a Digital Social Innovation Ecosystem for Europe (PDF) wird zunächst erläutert, was unter Digital Social Innovation (DSI) zu verstehen ist (S. 4): „These range from social networks for those living with chronic health conditions, to online platforms for citizen participation in policymaking, to using´open data to create more transparency around public spending. We call this Digital Social Innovation (DSI).“  Dabei werden die vier folgenden Trends unterschieden:

  • Open Hardware
  • Open Networks
  • Open Data
  • Open Knowledge

Diese Trends werden dann auf europäischer Ebene dargestellt und in Hinblick auf Innovationen analysiert – interessant. Siehe dazu auch Innovationsmanager (IHK) und Wissensmanager (IHK) auf unserer Moodle-Lernplattform.