OECD Report (2026) – Bei der Reproduzierbarkeit erfüllen GenAI Modelle nicht die wissenschaftlichen Kriterien

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Es ist nur natürlich, dass jeder Einzelne, Organisationen und Öffentliche Verwaltungen ausprobieren, was mit Künstlicher Intelligenz (GenAI) möglich ist. Im wissenschaftlichen Umfeld wundere ich mich allerdings immer wieder darüber, wie unkritisch GenAI eingesetzt wird, wodurch die Kriterien wissenschaftlicher Arbeit konterkariert werden. Warum ist das so? Eine ausführlich Begründung habe ich im aktuellen OECD Report gefunden. Dabei geht es hier speziell um die Reproduzierbarkeit als Säule wissenschaftlichen Arbeitens geht.

Reproducibility is a pillar of scientific operations. To be accepted by the scientific community, results must (usually) be verifiable, and reproducible by others. One condition for reproducibility is full disclosure of the methods and data that led to the conclusion, meaning transparency and accessibility. From this perspective, GenAI models do not meet scientific criteria. First, the most popular models of GenAI are “black boxes”, as neither their weights (the parameters that define a neural network) nor their training data are publicised. Thus, disentangling the contribution of the data and the contribution of various components of the model is difficult in any scientific result coming from such a model. This comes from the very nature of neural networks: knowledge is distributed, hence difficult to localise. As GenAI models have a random component at their core, some results might not be robust. In addition, access to the training data can be limited due to the proprietary nature of many GenAI models: one example is the “AI Structural Biology Consortium”, a follow-up to AlphaFold-3, an ongoing project which makes use of data owned by pharmaceutical companies, which is secret and will remain secret (Callaway, 2025). Currently, solutions for access include open weights (e.g. Llama) and open source (including access to training data). The importance of openness was demonstrated by AlphaFold2, as the disclosure of its code and data triggered a series of initiatives refining the tool (Saplakoglu, 2024). Openness is essential to the cumulative progress at the core of science“ (OECD Digital Education Report 2026).

Am Beispiel von Pharmaunternehmen wird deutlich, dass es gerade in sensiblen Branchen wichtig ist, offene KI-Modelle zu nutzen. Offenheit ist: „Offenheit ist für den kumulativen Fortschritt im Kern der Wissenschaft unerlässlich“ (ebd.). Siehe dazu auch

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

In Zeiten des Hypes um Künstliche Intelligenz kann Akademische Integrität nicht schaden

Smolagents: Turn your idea into an App – mit verschiedenen LLMs und natürlich Open Source

https://smolagents.org/de/

KI-Agenten sind aktuell gefühlt überall. Natürlich bieten die proprietären Modelle wie ChatGPT, Gemini, Grok etc. viele Möglichkeiten an, solche KI-Agenten zu erstellen und zu nutzen. Wie Sie als Leser unseres Blogs wissen, tentieren wir allerdings dazu, Open Source AI zu nutzen, gerade wenn es um eigene, spezielle Expertise, oder unternehmensspezifisches Wissen in Innovationsprozessen geht.

Neben den von uns schon beschriebenen Möglichkeiten von Langflow und Ollama, möchten wir Ihnen eine weitere Alternative vorstellen, eigene KI-Agenten zu nutzen, und dabei unterschiedliche LLMs einzubinden.

Smolagents is a minimalist AI agent framework developed by the Hugging Face team, crafted to enable developers to deploy robust agents with just a few lines of code. Embracing simplicity and efficiency, smolagents empowers large language models (LLMs) to interact seamlessly with the real world“ (Source: https://smolagents.org/de/).

Das Team von Hugging Face bietet hier eine minimalistische Möglichkeit, auf Open Source Basis KI-Agenten zu entwickeln, und der Community in einem Repository zur Verfügung zu stellen (Best Smolagents in Hugging Face).

Es ist interessant zu sehen, wie einfach man seine Idee in einem ersten KI-Agenten umsetzen kann. In dem folgenden Beispiel habe ich versucht, einen persönlichen Innovationsprozess abzubilden. In jedem Prozessschritt wollte ich ein anderes Open Source KI-Modell einsetzen.

Eigener Screenshot

In der Abbildung sind erste Prozessschritte für die Entwicklung von Innovationen zu sehen: Inspire mit Llama 3, Ideate mit Mistral, Prototype mit Phi 3 etc. Die jeweiligen LLM kann ich auswählen und testen. Das ging sehr schnell und war super einfach.

Probieren Sie es doch auch einmal aus!

Open Source AI und das MCP-Protocol: Another perfect match

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Die Nutzung von KI-Modellen ist im privaten und unternehmerischen Umfeld angekommen. Dabei ist es für Kleine und Mittlere Unternehmen (KMU) entscheidend, ob sie sich in die Abhängigkeit der proprietären KI-Modelle begeben, oder mehr Wert auf die eigene Datenhoheit legen. Gerade KMU können es sich nicht leisten, hier knappe Ressourcen zu verschwenden.

Wenn es um Digitale Souveränität geht, und darum, leistungsfähige KI-Modelle mit eigenen oder anderen Daten zu verknüpfen, bietet das MCP-Protocol in der Zwischenzeit sehr spannende Möglichkeiten.

MCP (Model Context Protocol) is an open standard from Anthropic designed to establish seamless interoperability between LLM applications and external tools, APIs, or data sources“ (Source: Langflow 1.4: Organize Workflows + Connect with MCP).

Wie das beispielsweise mit Langflow möglich ist, habe ich in verschiedenen Blogbeiträgen erläutert. Im Zusammenhang mit Open Source AI bietet das MCP einen Rahmen für ein eigenes, innovatives KI-System, bei dem Sie die Datenhoheit haben.

„Open-Source-Sprachmodelle sind die natürliche Ergänzung zu MCP. Während MCP den sicheren Rahmen vorgibt, liefern Open-Source-Modelle die Freiheit, diesen Rahmen nach eigenen Bedürfnissen zu gestalten“ (Hennekeuser, D. (2026): Model Context Protocol (MCP) und Open-Source-Sprachmodelle: Die Eröffnung neuer souveräner Wege. In Mittelstand Digital Fokus Mensch (2026): Digitale Souveränität als Basis für sichere KI-Anwendungen).

Siehe dazu auch Open Data and Open Source AI – a perfect match.

KI und Open Data: Common Corpus mit mehr als 1 Millionen Downloads

Quelle: Link

Über Open Data und Open Source Ai habe ich in dem Beitrag Open Data and Open Source AI – a perfect match geschrieben. Eine besondere Rolle nimmt in dem Zusammenhang Common Corpus ein,

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

„Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)“ (Source).

In der Zwischenzeit wurde Common Corpus schon mehr als 1 Millionen Mal heruntergeladen. Der starke Anstieg der Downloads zeigt eine relative Verschiebung auf dem KI-Markt, denn immer mehr Marktteilnehmer suchen nach Open Data, die sie frei nutzen können.

„Open-Source-Datensätze wie das Common Corpus bieten hier eine Lösung. Sie ermöglichen es Forschern und Unternehmen, auf eine breite Palette von Daten zuzugreifen, ohne sich über komplexe Lizenzfragen oder potenzielle Urheberrechtsverletzungen Gedanken machen zu müssen“ ( Common Corpus übertrifft eine Million Downloads und hebt Bedeutung von Open Data für KI hervor, Mindverse vom 12.03.2026).

Langsam aber sicher wollen immer mehr KI-Nutzer Künstliche Intelligenz gesellschaftlich verantwortungsvoll nutzen – ganz im Sinne einer Digitalen Souveränität.

Künstliche Intelligenz: Reasoning und die Chain of Thoughts

Mit Explainable AI (XAI) sollen KI-Systeme transparent, nachvollziehbar und überprüfbar gemacht werden. in dem Zusammenhang kommt dem Reasoning eine besondere Rolle zu:

„Unter Reasoning versteht man den Prozess, bei dem ein KI-System seine internen Schlussfolgerungen sichtbar macht, etwa in Form logisch strukturierter Argumentationsketten oder textuell formulierter Teilschritte (sogenannter Chains-of-Thought)“ (Mittelstand Digital Fokus Mensch (2026): Digitale Souveränität als Basis für sichere KI-Anwendungen).

XAI und Reasoning ermöglichen es gerade Kleinen und Mittleren Unternehmen die jeweiligen Prozessschritte zumindest teilweise nachzuvollziehen.

„Transparenz allein genügt nicht, wenn die Systeme nicht kontrolliert, erweiterbar und datensouverän betrieben werden können“ (ebd.).

Gerade KMU sollten darauf achten, wenn sie Künstliche Intelligenz in ihre Prozesse einbinden wollen. XAI, Reasoning, Open Data und Open Source AI bieten hier geeignete Möglichkeiten, einen unternehmensspezifischen Mix zu finden.

Open Data and Open Source AI – a perfect match – ganz im Sinne einer Digitalen Souveränität.

Divergentes und konvergentes Denken mit KI unterstützen

Typischer Stage-Gate Ideenverfeinerungs- und Auswahlprozess (CEN/TS 16555-2014)

Für den kreativen Prozess, bzw. den Problemlösungsprozess, sind grundsätzlich zwei Denkstile erforderlich (Hornung/Patzak 2011):

Divergentes Denken (divergent: „auseinandergehend, ausschweifend, verzweigend“): die Gedanken schweifen lassen, in die Breite gehendes Denken, den Gedanken freien Lauf lassen, eine Ausweitung des Suchraumes.

Konvergentes Denken (konvergent: „zusammenlaufend, zusammenführend“): die Gedanken auf einen Punkt bringen, einem Ziel zuführen, eine Einengung des Suchraumes, vorsehen von Randbedingungen und Beschränkungen.

Divergentes und Konvergentes Denken sind im Ideenverfeinerungs- und Auswahlprozess gefragt (Abbildung).

Die jeweiligen Schritte können heute gut mit Künstlicher Intelligenz unterstützt werden. Es stellen sich dabei folgend Fragen:

Welches KI-Modell soll verwendet werden? Eher ein Modell, oder mehrere, spezialisierte Modelle? Siehe dazu Von „One Size Fits All“ über Variantenvielfalt in die Komplexitätsfalle?

Soll es ein proprietäres KI-Modell sein, oder doch besser ein Open Source AI Modell? Siehe dazu Das Kontinuum zwischen Closed Source AI und Open Source AI.

Welche Daten sollen verwendet werden? Sollen relativ wahllos Daten aus den Netz genutzt werden? Das kann zu rechtlichen Problemen führen. Oder sollen frei verfügbare (Open Data) Daten und eigene Daten aus der Organisation genutzt werden?

Bei der Beantwortung der jeweiligen Fragen merkt man sehr schnell, dass Open Data und Open Source AI ein perfect match bilden.

Natürlich kann der Prozess auch weiter geöffnet werden, wobei sich zwei Ansätze anbieten: Einmal ist es der Open Innovation Ansatz von Henry Chesbrough, der von offeneren Innovationsprozessen in Unternehmen ausgeht und somit auf das jeweilige Business Model zielt.

Andererseits kann ein persönlicher offener Innovationsprozess, also Open User Innovation nach Henry Chesbrough gemeint sein. Siehe dazu Henry Chesbrough über die Zukunft von Open Innovation.

Open Data and Open Source AI – a perfect match

Grafik mit Mistral Le Chat generiert

Alle KI-Anwendungen basieren darauf, dass Daten zur Verfügung stehen. Bei den bekannten proprietären Anbietern ist die Herkunft der Daten, und der Umgang mit den Daten oft nicht transparent. Diese KI-Modelle werden daher auch Closed AI Models genannt.

Demgegenüber gibt es die (wirklichen) Open Source KI-Modelle, die sich an der Definition von Open Source AI orientieren, somit transparent sind, wie Mistral AI auch in Europe gehostet werden, und der DSGVO entsprechen.

Solche Modelle können auf viele frei verfügbaren Daten (Open Data) in Europa, Deutschland, ja sogar aus Ihrer Region zurückgreifen. Für Einzelpersonen und für Kleine und Mittlere Unternehmen (KMU) ist das wichtig, um keine rechtlichen Probleme bei der KI-Anwendung zu bekommen.

Ein guter Einstieg ist European Data – Das offizielle Portal für Daten zu Europa.

Dort kann man für jedes Land analysieren, welche Datensätze zur Verfügung stehen. In der folgenden Abbildung ist zu erkennen, dass für Deutschland 855.325 Datensätze (Stand: 05.04.2026) vorliegen..

Quelle: European Data

Auf der Seite können Sie weiter auswählen und so die Datensätze (Open Data) recherchieren, die Sie für Ihre Anwendungen (Innovationen) im Unternehmen oder auch für sich selbst nutzen wollen.

Die Datensätze können dann in KI-Modelle eingebunden werden. Wir schlagen natürlich vor, Open Source KI zu verwenden, beispielsweise Mistral 3 Modellfamilie. Siehe dazu auch meine verschiedenen Blogbeiträge zu Mistral AI.

Open Data and Open Source AI – a perfect match. Ganz im Sinne einer Digitalen Souveränität.

Energiesicherheit, Open Source und Künstliche Intelligenz

Image by andreas160578 from Pixabay

Die beiden Kriege in der Ukraine und im Iran haben wieder einmal deutlich gemacht, wie Abhängig wir in Europa von der Lieferung fossiler Energie sind. Dabei haben wir gerade in den letzten 5-10 Jahren deutliche Fortschritte bei der Energiesicherheit gemacht. Beispielsweise hatten erneuerbare Energien in Deutschland Anfang 2026 einen 60%- Anteil an der Bruttostromerzeugung (Bundesministerium für Wirtschaft und Energie).

Im europäischen Raum mit seinen vernetzten Energiestrukturen kommt es nun immer stärker darauf an, die unterschiedlichen Netze sicher zu steuern, ohne auch hier wieder in eine technologische Abhängigkeit zu geraten. Das Fraunhofer Institut entwickelt hierzu die SCADA Plattform und setzt dabei bewusst auf Open Source.

Um Anomalien europaweit frühzeitig erkennen und beheben zu können, entwickeln die Forschenden eine Open-Source-Plattform zur Datenerfassung, Fernüberwachung und Steuerung von Energienetzen. Experten sprechen von einer SCADA Plattform, kurz für »Supervisory Control and Data Acquisition Platform«. (…) Die Open-Source Software ist quasi der Werkzeugkasten, mit dem das KI-Modell trainiert und später betrieben wird.
Quelle: Auf zu sicherer Energie, Fraunhofer-Magazin 1 | 2026 (PDF).

Es ist bezeichnend, dass auch in der Energieversorgung auf Open Source Lösungen gesetzt wird, und dass diese dann Basis für die Anwendung Künstlicher Intelligenz sein wird. Ich würde mir wünschen, dass auch Open Source KI verwendet wird, da diese offen und transparent sind, und unsere Daten schützen. Ganz im Sinne einer Digitalen Souveränität.

Innovatives Denken mit Künstlicher Intelligenz unterstützen

Legende
(CEN TS 16555-2014):

1 Sammeln von Informationen
2 Erzeugen von Lösungen
3 Rasches Lernen
4 Bewertung
5 Synthese und Outputs
6 Ergebnisse

Unternehmen setzen für ihren Innovationsprozess Künstliche Intelligenz ein. Auf der individuellen Ebene ist das natürlich auch möglich. Beispielsweise kann Künstliche Intelligenz das eigene innovative Denken unterstützen. Die Abbildung zeigt dazu die insgesamt sechs Schritte – vom Sammeln von Informationen (1) bis zu den Ergebnissen (6).

In jedem einzelnen Schritt sollten Sie überlegen, ob Sie nur ein KI-Modell verwenden wollen, oder ob es nicht besser ist, spezielle KI-Modelle zu nutzen. Siehe dazu auch KI-Modelle: Von „One Size Fits All“ über Variantenvielfalt in die Komplexitätsfalle?

Weiterhin sollten Sie sich überlegen, ob Sie die bekannten proprietären KI-Modelle für ihre innovativen Ideen nutzen wollen. Denken Sie bitte daran, dass diese wenig transparent sind und Sie nicht genau wissen, was mit ihren Ideen passiert. Siehe dazu auch Das Kontinuum zwischen Closed Source AI und Open Source AI.

Unser Vorschlag ist daher, dass Sie zur Unterstützung ihres innovativen Denkens, in jedem Schritt Open Source KI-Modelle nutzen. Dass kann MISTRAL LE CHAT als Alternative zu ChatGPT etc, ein Modell wie Mistral AI für alle Schritte, oder auch ein Konzept mit unterschiedlichen Modellen sein, die Sie auf Huggingface finden können.

Natürlich ist es auch möglich, für die oben genannten Schritte einen, oder mehrere KI-Agenten zu nutzen – natürlich möglichst auch Open Source basiert.

Überlegen Sie abschließend noch, ob Sie alles auf ihrem Laptop, oder auf einem eignen Server laufen lassen können. Damit hätten Sie die Kontrolle über ihre Ideen.

„Erst ignorieren sie dich, dann lachen sie über dich, dann bekämpfen sie dich, dann hast du gewonnen“ Mahatma Gandhi.

Sie können dann immer noch selbst entscheiden, ob Sie Ihre Ergebnisse mit anderen teilen, oder diese sogar Unternehmen anbieten wollen.

Alles im Sinne einer eigenen Digitalen Souveränität.

Künstliche Intelligenz: Open Source Modelle mit der Ollama-App auf dem eigenen Desktop

Eigener Screenshot – (c) Dr. Robert Freund

Ollama ist eine Open Source Software, mit der man kleine und größere Sprachmodelle (Small Language Models und Large Language Models testen kann.

(1) Zunächst natürlich auf Ollama selbst nach einem entsprechenden Login.

(2) Da Ollama Open Source ist, kann es auch auf dem eigenen Server installiert werden. Wie Sie wissen, haben wir das auch schon ausprobiert. Informationen dazu finden Sie in unseren verschiedenen Blogbeiträgen dazu.

(3) Es ist möglich, Ollama auf dem eigenen Desktop zu installieren und geeignete Modelle zu testen. In den Settings ist der Login bei Ollama zu hinterlegen.

Die Abbildung zeigt den Screenshot mit der Startseite auf meinem Desktop. Wie gewohnt kann ein geeigneter Prompt eingegeben werden.

Spannend ist, dass wir bei jedem neuen Chat aus verschiedenen installierten Modellen auswählen können. Bei dem Beispiel haben wir MISTRAL ausgewählt. Über das „+“-Zeichen können sogar Dateien mit hochgeladen werden.

Auch an der Stelle wird wieder deutlich, wie wichtig es ist, Künstliche Intelligenz mit transparenten Open Source Modellen auf der eigenen Infrastruktur zu betreiben. Ganz im Sinne einer Digitalen Souveränität.

Es war anschließend interessant zu sehen, wie schnell die Antwort über Ollama und MISTRAL erstellt wurde. Auch die Qualität der Antwort war gut. Hier der entsprechende Screenshot:

Ergebnis über MISTRAL (c) Dr. Robert reund