OECD Report (2026) – Bei der Reproduzierbarkeit erfüllen GenAI Modelle nicht die wissenschaftlichen Kriterien

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Es ist nur natürlich, dass jeder Einzelne, Organisationen und Öffentliche Verwaltungen ausprobieren, was mit Künstlicher Intelligenz (GenAI) möglich ist. Im wissenschaftlichen Umfeld wundere ich mich allerdings immer wieder darüber, wie unkritisch GenAI eingesetzt wird, wodurch die Kriterien wissenschaftlicher Arbeit konterkariert werden. Warum ist das so? Eine ausführlich Begründung habe ich im aktuellen OECD Report gefunden. Dabei geht es hier speziell um die Reproduzierbarkeit als Säule wissenschaftlichen Arbeitens geht.

Reproducibility is a pillar of scientific operations. To be accepted by the scientific community, results must (usually) be verifiable, and reproducible by others. One condition for reproducibility is full disclosure of the methods and data that led to the conclusion, meaning transparency and accessibility. From this perspective, GenAI models do not meet scientific criteria. First, the most popular models of GenAI are “black boxes”, as neither their weights (the parameters that define a neural network) nor their training data are publicised. Thus, disentangling the contribution of the data and the contribution of various components of the model is difficult in any scientific result coming from such a model. This comes from the very nature of neural networks: knowledge is distributed, hence difficult to localise. As GenAI models have a random component at their core, some results might not be robust. In addition, access to the training data can be limited due to the proprietary nature of many GenAI models: one example is the “AI Structural Biology Consortium”, a follow-up to AlphaFold-3, an ongoing project which makes use of data owned by pharmaceutical companies, which is secret and will remain secret (Callaway, 2025). Currently, solutions for access include open weights (e.g. Llama) and open source (including access to training data). The importance of openness was demonstrated by AlphaFold2, as the disclosure of its code and data triggered a series of initiatives refining the tool (Saplakoglu, 2024). Openness is essential to the cumulative progress at the core of science“ (OECD Digital Education Report 2026).

Am Beispiel von Pharmaunternehmen wird deutlich, dass es gerade in sensiblen Branchen wichtig ist, offene KI-Modelle zu nutzen. Offenheit ist: „Offenheit ist für den kumulativen Fortschritt im Kern der Wissenschaft unerlässlich“ (ebd.). Siehe dazu auch

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

In Zeiten des Hypes um Künstliche Intelligenz kann Akademische Integrität nicht schaden

Divergentes und konvergentes Denken mit KI unterstützen

Typischer Stage-Gate Ideenverfeinerungs- und Auswahlprozess (CEN/TS 16555-2014)

Für den kreativen Prozess, bzw. den Problemlösungsprozess, sind grundsätzlich zwei Denkstile erforderlich (Hornung/Patzak 2011):

Divergentes Denken (divergent: „auseinandergehend, ausschweifend, verzweigend“): die Gedanken schweifen lassen, in die Breite gehendes Denken, den Gedanken freien Lauf lassen, eine Ausweitung des Suchraumes.

Konvergentes Denken (konvergent: „zusammenlaufend, zusammenführend“): die Gedanken auf einen Punkt bringen, einem Ziel zuführen, eine Einengung des Suchraumes, vorsehen von Randbedingungen und Beschränkungen.

Divergentes und Konvergentes Denken sind im Ideenverfeinerungs- und Auswahlprozess gefragt (Abbildung).

Die jeweiligen Schritte können heute gut mit Künstlicher Intelligenz unterstützt werden. Es stellen sich dabei folgend Fragen:

Welches KI-Modell soll verwendet werden? Eher ein Modell, oder mehrere, spezialisierte Modelle? Siehe dazu Von „One Size Fits All“ über Variantenvielfalt in die Komplexitätsfalle?

Soll es ein proprietäres KI-Modell sein, oder doch besser ein Open Source AI Modell? Siehe dazu Das Kontinuum zwischen Closed Source AI und Open Source AI.

Welche Daten sollen verwendet werden? Sollen relativ wahllos Daten aus den Netz genutzt werden? Das kann zu rechtlichen Problemen führen. Oder sollen frei verfügbare (Open Data) Daten und eigene Daten aus der Organisation genutzt werden?

Bei der Beantwortung der jeweiligen Fragen merkt man sehr schnell, dass Open Data und Open Source AI ein perfect match bilden.

Natürlich kann der Prozess auch weiter geöffnet werden, wobei sich zwei Ansätze anbieten: Einmal ist es der Open Innovation Ansatz von Henry Chesbrough, der von offeneren Innovationsprozessen in Unternehmen ausgeht und somit auf das jeweilige Business Model zielt.

Andererseits kann ein persönlicher offener Innovationsprozess, also Open User Innovation nach Henry Chesbrough gemeint sein. Siehe dazu Henry Chesbrough über die Zukunft von Open Innovation.

Open Data and Open Source AI – a perfect match

Grafik mit Mistral Le Chat generiert

Alle KI-Anwendungen basieren darauf, dass Daten zur Verfügung stehen. Bei den bekannten proprietären Anbietern ist die Herkunft der Daten, und der Umgang mit den Daten oft nicht transparent. Diese KI-Modelle werden daher auch Closed AI Models genannt.

Demgegenüber gibt es die (wirklichen) Open Source KI-Modelle, die sich an der Definition von Open Source AI orientieren, somit transparent sind, wie Mistral AI auch in Europe gehostet werden, und der DSGVO entsprechen.

Solche Modelle können auf viele frei verfügbaren Daten (Open Data) in Europa, Deutschland, ja sogar aus Ihrer Region zurückgreifen. Für Einzelpersonen und für Kleine und Mittlere Unternehmen (KMU) ist das wichtig, um keine rechtlichen Probleme bei der KI-Anwendung zu bekommen.

Ein guter Einstieg ist European Data – Das offizielle Portal für Daten zu Europa.

Dort kann man für jedes Land analysieren, welche Datensätze zur Verfügung stehen. In der folgenden Abbildung ist zu erkennen, dass für Deutschland 855.325 Datensätze (Stand: 05.04.2026) vorliegen..

Quelle: European Data

Auf der Seite können Sie weiter auswählen und so die Datensätze (Open Data) recherchieren, die Sie für Ihre Anwendungen (Innovationen) im Unternehmen oder auch für sich selbst nutzen wollen.

Die Datensätze können dann in KI-Modelle eingebunden werden. Wir schlagen natürlich vor, Open Source KI zu verwenden, beispielsweise Mistral 3 Modellfamilie. Siehe dazu auch meine verschiedenen Blogbeiträge zu Mistral AI.

Open Data and Open Source AI – a perfect match. Ganz im Sinne einer Digitalen Souveränität.

Minerva AI LLM: Das italienischsprachige KI-Modell

https://minerva-ai.org/

In dem Blogbeitrag Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data hatte ich schon erläutert, wie wichtig es ist, dass sich Organisationen und auch Privatpersonen nicht nur an den bekannten AI-Modellen der Tech-Giganten orientieren.

Die dort oftmals hinterlegten Daten, die natürlich zum überwiegenden Teil in Englisch (oder Chinesisch) vorliegen, spiegeln nicht die vielfältige europäische Kultur mit ihren vielen Nuancen wieder. Kulturelle Bereiche, definieren sich oftmals über die jeweilige Sprache.

Es ist daher nicht verwunderlich, dass es in den jeweiligen europäischen Ländern einen Trend gibt, KI-Modelle zu entwickeln, die die jeweilige sprachlichen Besonderheiten beachten – wie z.B. Minerva AI LLM:

Minerva AI LLM is the first family of Large Language Models pretrained from scratch in Italian developed by Sapienza NLP in collaboration with Future Artificial Intelligence Research (FAIR) and CIN AIECA. The Minerva models are truly-open (data and model) Italian-English LLMs, with approximately half of the pretraining data composed of Italian text. You can chat with Minerva for free directly through the app — it’s easy, fast, and open to everyone.

Es handelt sich also um eine Modell-Familie, die offen für jeden nutzbar ist. Es zeigt sich auch hier wieder, dass Künstliche Intelligenz auf Vertrauen basieren muss, damit sie den gesellschaftlichen und wirtschaftlichen Anforderungen gerecht werden kann. Siehe dazu auch beispielhaft

Künstliche Intelligenz – It All Starts with Trust

Open EuroLLM: Ein Modell Made in Europe

Spanisch: Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

Schwedisch: GPT SW3

Common Crawl: Freie Daten für jeden?

Website: https://commoncrawl.org/

Large Language Models (LLMs) benötigen eine Unmenge an Daten. Bei den Closed Source KI-Modellen von OpenAI, Meta, etc. ist manchmal nicht so klar (Black Box), woher diese ihre Trainingsdaten nehmen. Eine Quelle scheint Common Crawl zu sein.

„Common Crawl maintains a free, open repository of web crawl data that can be used by anyone. The Common Crawl corpus contains petabytes of data, regularly collected since 2008“ (ebd.)

Die Daten werden von Amazon gehostet, können allerdings auch ohne Amazon-Konto genutzt werden. Eine Datensammlung, die für jeden frei nutzbar und transparent ist, und sogar rechtlichen und Datenschutz-Anforderungen genügt, wäre schon toll.

Doch es gibt auch Kritik: Wie auf der Wikipedia-Seite zu Common Crawl zu lesen ist, respektiert Common Crawl wohl nicht immer Paywalls bei ihrer Datensammlung: Wired (2024): Publishers Target Common Crawl In Fight Over AI Training Data.

Es ist also Vorsicht geboten, wenn man Common Crawl nutzen möchte. Dennoch kann diese Entwicklung interessant für diejenigen sein, die ihr eigenes, auf den Werten von Open Source AI basierendes KI-Modell nutzen wollen. Siehe dazu auch

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Open Source AI: SERA – Open Coding Agents at low cost

Source: https://allenai.org/blog/open-coding-agents

Das Ai2 Institut hat immer wieder interessante KI-Modelle auf Open Source Basis veröffentlicht. Unter anderem sind das die OLMO 3 – Familien oder auch MOLMO mit Schwerpunkt auf Videos. Mit der SERA ist es nun möglich, Open Coding Agents zu stellen, und das zu geringen Kosten.

„Today we’re releasing not just a collection of strong open coding models, but a training method that makes building your own coding agent for any codebase – for example, your personal codebase or an internal codebase at your organization – remarkably accessible for tasks including code generation, code review, debugging, maintenance, and code explanation. (…) The challenge: specializing agents to your data“ (Source: https://allenai.org/blog/open-coding-agents).

Die Modellfamilie (8B bis 32B) steht selbstverständlich auf Huggingface zur Verfügung, und kann auf eigenen Servern genutzt werden. Ganz im Sinne von Open Source AI und Digitalen Souveränität.

Organisationale Daten-Souveränität bedeutet nicht unbedingt Digitale Souveränität

Image by Tumisu from Pixabay

Digitale Souveränität wird oftmals mit Daten-Souveränität in Organisationen verwechselt. Es ist daher wichtig zu verstehen, was Organisationale Daten-Souveränität ausmachen kann. Dazu habe ich folgenden Vorschlag in einem Paper gefunden:

„We define organizational data sovereignty as the self-determined and deliberate exercise of control over an organization’s data assets, which includes the recognition of their value, the proactive management of data activities (collection, storage, sharing, analysis, and interpretation), and the ability to assimilate and apply these data to drive value creation through interorganizational collaboration“ (Moschko et al. 2024).

In dem Paper geht es den Autoren um Organisationale Daten-Souveränität in Bezug auf Open Value Creation (OVC) in offenen Innovationsprozessen (Open Innovation).

Die hier angesprochene eigene (organisationale) Kontrolle der Daten würde durch den Einsatz von proprietären (Closed Models) KI-Anwendungen konterkariert, da man bei deren Nutzung nicht wirklich weiß, was mit den eigenen Daten passiert. Siehe dazu auch Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

In dem Blogbeitrag Digitale Souveränität, oder doch nur Souveränitäts-Washing? finden Sie eine Definition von Digitaler Souveränität. Dabei werden Sie feststellen, dass Digitale Souveränität in diesem Sinne nur möglich ist, wenn Open Source AI – Modelle verwendet werden.

Künstliche Intelligenz: Mit FlexOlmo Trainingsmodelle kollaborativ erarbeiten – eine interessante Idee

Quelle: https://www.youtube.com/watch?v=dbTRBpA7FVQ

Trainingsmodelle sind für die Qualität der Ergebnisse von KI-Abfragen bedeutend. Dabei kann es sich im einfachsten Fall um ein Large Language Model (LLM) handeln – ganz im Sinne von „One Size Fits All, oder auch um verschiedene, spezialisierte Small Language Models (SLMs). Alles kann dann auch mit Hilfe eines AI-Routers sinnvoll kombiniert werden. Darüber hinaus ist es auch möglich, bestehende Modelle über InstructLab mit eigenen Daten zu kombinieren und zu trainieren.

Noch weiter geht jetzt Ai2, eine Not for Profit Organisation, über die ich schon einmal geschrieben hatte (Blogbeitrag). Mit FlexOlmo steht nun über Ai2 ein Trainingsmodell zur Verfügung, bei dem die Daten flexibel von einer Community weiterentwickelt / trainiert werden können:

„The core idea is to allow each data owner to locally branch from a shared public model, add an expert trained on their data locally, and contribute this expert module back to the shared model. FlexOlmo opens the door to a new paradigm of collaborative AI development. Data owners who want to contribute to the open, shared language model ecosystem but are hesitant to share raw data or commit permanently can now participate on their own terms“ (Ai2 2025).

Die Idee ist wirklich spannend, da sie auf einem offenen Trainingsmodell basiert – ganz im Sinne von Open Source AI – und die Eigentümer der Daten darüber entscheiden, ob ihre Daten von dem gemeinsamen Modell genutzt werden können, oder eben nicht. Wer noch tiefer in diese Idee einsteigen möchte, kann das mit folgendem Paper gerne machen:

Shi et al (2025): FLEXOLMO: Open Language Models for Flexible Data Use | PDF

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

„Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer“ (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Open Source Software (OSS)? Warum das denn?

Viele nutzen schon Software, die frei verfügbar ist, und als Open Source Software einen Siegeszug sonder gleichen angetreten hat. Dabei stellen sich vielfältige Fragen: Warum arbeiten Menschen an Open Source Projekten, ohne dafür eine monetäre Entlohnung zu erhalten? Wie kann ich als Einzelner Open Source Programme nutzen? Welche Möglichkeiten haben auch Unternehmen/Organisationen, Open Source Software zu nutzen? Welche rechtlichen Fragen stellen sich? … und natürlich: Wie kann jemand mit Open Source Software auch noch Geld verdienen?

Emma Romano hat mich am 11.05.2020 per Mail auf den Beitrag Understanding Open Source Software, and How It Makes You Money Online hingewiesen, der von Ezequiel Bruni am 17.05.2020 veröffentlicht wurde. Darin beschreibt er sehr anschaulich die Entwicklung und die Hintergründe von Open Source Software. Was wichtig ist: You Own Your Data!

Wir nutzen beispielsweise mit Moodle als Lern-Management-System, BigBlueButton Videokonferenzsystem (Plug-in in Moodle) und WordPress für unseren Blog gleich drei bekannte Open Source Programme. Diese Programme zu installieren, anzupassen und für die verschiedenen Zwecke zu nutzen ist manchmal einfach, und manchmal aufwändig. In solchen Fällen gibt es natürlich auch frei verfügbare Foren, in denen man Hilfe bekommt, doch ist es manchmal auch ratsam eine professionelle Hilfe zu nutzen. Gerade an dieser Stelle gibt es viele Chancen, sich auf dem Markt zu positionieren.

Wir werden häufig darauf angesprochen, wie wir Moodle oder auch WordPress nutzen. Aktuell erhalten wir Anfragen, wie BigBlueButton in Moodle integriert und genutzt werden kann, usw, usw. Das sind nur einige Beispiele dafür, dass es sich lohnt, Open Source Software zu nutzen und sein Wissen weiterzugeben.