OECD Report (2026) – Bei der Reproduzierbarkeit erfüllen GenAI Modelle nicht die wissenschaftlichen Kriterien

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Es ist nur natürlich, dass jeder Einzelne, Organisationen und Öffentliche Verwaltungen ausprobieren, was mit Künstlicher Intelligenz (GenAI) möglich ist. Im wissenschaftlichen Umfeld wundere ich mich allerdings immer wieder darüber, wie unkritisch GenAI eingesetzt wird, wodurch die Kriterien wissenschaftlicher Arbeit konterkariert werden. Warum ist das so? Eine ausführlich Begründung habe ich im aktuellen OECD Report gefunden. Dabei geht es hier speziell um die Reproduzierbarkeit als Säule wissenschaftlichen Arbeitens geht.

Reproducibility is a pillar of scientific operations. To be accepted by the scientific community, results must (usually) be verifiable, and reproducible by others. One condition for reproducibility is full disclosure of the methods and data that led to the conclusion, meaning transparency and accessibility. From this perspective, GenAI models do not meet scientific criteria. First, the most popular models of GenAI are “black boxes”, as neither their weights (the parameters that define a neural network) nor their training data are publicised. Thus, disentangling the contribution of the data and the contribution of various components of the model is difficult in any scientific result coming from such a model. This comes from the very nature of neural networks: knowledge is distributed, hence difficult to localise. As GenAI models have a random component at their core, some results might not be robust. In addition, access to the training data can be limited due to the proprietary nature of many GenAI models: one example is the “AI Structural Biology Consortium”, a follow-up to AlphaFold-3, an ongoing project which makes use of data owned by pharmaceutical companies, which is secret and will remain secret (Callaway, 2025). Currently, solutions for access include open weights (e.g. Llama) and open source (including access to training data). The importance of openness was demonstrated by AlphaFold2, as the disclosure of its code and data triggered a series of initiatives refining the tool (Saplakoglu, 2024). Openness is essential to the cumulative progress at the core of science“ (OECD Digital Education Report 2026).

Am Beispiel von Pharmaunternehmen wird deutlich, dass es gerade in sensiblen Branchen wichtig ist, offene KI-Modelle zu nutzen. Offenheit ist: „Offenheit ist für den kumulativen Fortschritt im Kern der Wissenschaft unerlässlich“ (ebd.). Siehe dazu auch

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

In Zeiten des Hypes um Künstliche Intelligenz kann Akademische Integrität nicht schaden

Kurzlehrbuch: Künstlicher Intelligenz für den Mittelstand

In mehreren Blogbeiträge habe ich verschiedene Aspekte aus einem Kurzlehrbuch thematisiert, das als Download zur Verfügung steht: Es freut mich besonders, dass darin herausgestellt wird, dass Open Source AI gerade für Kleine und Mittlere Unternehmen (KMU) geeignet ist, Digitale Souveränität im Unternehmen zu erzielen. Am Ende des Kurzlehrbuchs fassen die Autoren die fünf wichtigsten Punkte noch einmal zusammen:

Mittelstand Digital Fokus Mensch (2026): Digitale Souveränität als Basis für sichere KI-Anwendungen | PDF.

(1) Die Arbeitswelt verändert sich – wir müssen uns mit verändern.

(2) Generative KI kann schon bei kleinen Aufgaben große Wirkung entfalten.

(3) Die Entscheidung für KI ist individuell – ebenso die Wahl der passenden Anwendung.

(4) KI-Nutzung erfordert rechtliche Orientierung – insbesondere im Hinblick auf den EU AI Act.

(5) Menschen müssen Teil der Lösung sein – sowohl bei KI als auch bei Cybersicherheit

Mistral Forge: Eigene Unternehmens-KI entwickeln

Quelle: https://mistral.ai/products/forge

Die Nutzung den bekannten KI-Modelle (GenAI) wie ChatGPT, Gemini, Grok, Anthropic, Claude etc ist weit verbreitet. Es ist auch möglich, diese Modelle mit eigenen Daten zu trainieren, doch ist der Großteil dann immer noch zu wenig unternehmensspezifisch. Siehe dazu auch Digitale Souveränität: Europa, USA und China im Vergleich.

Mistral AI ist hier in den letzten Jahren einen eigenen Weg gegangen, indem es als europäische Modell Familie DSGVO-konform ist, und auch als Open Source AI zur Verfügung steht.

Mit dem nun veröffentlichten Mistral Forge können Unternehmen auf Basis der eigenen Daten und Expertise ihr eigenes KI-Modell entwickeln.

From your data to your model

Vorgehensweise bei Mistral Forge: https://mistral.ai/products/forge

Die einzelnen Schritte werden auf der genannten Webseite ausführlich dargestellt. Es wir spannend zu sehen, welche Organisationen diesen Weg gehen werden. Aktuell sind das immerhin so bekannte Namen wie ASML, Ericsson, ESA und DSO National Laboratories aus Singapur. Siehe dazu auch

Österreichische Verwaltung setzt bei Künstlicher Intelligenz auf Mistral

Mistral Le Chat: Eine europäische Alternative zu ChatGPT

Digitale Souveränität: Mistral 3 KI-Modell-Familie veröffentlicht

Wenn alle die selben KI-Workflows nutzen entsteht eine wissenschaftliche Monokultur

AI monoculture feedback loop (Traberg et al. 2026)

In allen möglichen Kontexten soll und wird Künstliche Intelligenz genutzt. Dabei dominieren in unserem Kulturkreis die von den amerikanischen Konzernen entwickelten GenAI-Modelle. Diese werden in allen privaten und organisatorischen Prozessen integriert. Ein Großteil der Personen und Organisationen nutzen dabei die gleichen KI-Workflows.

Das hat beispielsweise im wissenschaftlichen Kontext einen unschönen Effekt: Dadurch, dass alle Wissenschaftler mehr oder weniger stark die selben GenAI-Modelle für ihre Arbeiten nutzen, kommt es zu einer Art „wissenschaftlicher Monokultur„.

Traberg, C.S., Roozenbeek, J. & van der Linden, S. AI is turning research into a scientific monoculture. Commun Psychol 4, 37 (2026). https://doi.org/10.1038/s44271-026-00428-5

In der Abbildung ist der Kreislauf mit seinen einzelnen Schritten dargestellt. Es wird deutlich, dass es sich hier um eine Art Generator handelt, also ein sich selbst verstärkender Wirkungskreislauf.

Auch hier wird deutlich, dass es gut ist, verschiedene KI-Modelle für wissenschaftliche Arbeiten zu nutzen, und die jeweiligen Ergebnisse zu bewerten.

Es stellt sich natürlich auch gleich die Frage, ob diese „wissenschaftliche Monokultur“ auch bei Innovationsprozessen vorkommt. Auch hier nutzen viele Personen und Unternehmen oftmals die gleichen KI-Modelle.

Lernen ist die Barriere für das Skalieren von Künstlicher Intelligenz

Wenn es um Künstliche Intelligenz geht, wird oft über die KI-Modelle, die technische und organisatorische Infrastruktur, oder auch über Regulation oder Talent (Kompetenzen) gesprochen.

Diese Punkte sollen helfen, KI-Systeme zu skalieren und dadurch besser und profitabler zu machen. Wenn es um die Skalierung von KI-Systemen geht, hat sich allerdings ein ganz anderer Bereich als Barriere entpuppt: Das Lernen.

The core barrier to scaling is not infrastructure, regulation, or talent. It is learning. Most GenAI systems do not retain feedback, adapt to context, or improve over time“ (MIT NANDA 2025).

Die hier angesprochene Kritik richtet sich also darauf, dass die meisten GenAI Systeme kein Feedback speichern, sich nicht dem Kontext anpassen und sich nicht im Laufe der Zeit verbessern.

Natürlich gibt es GenAI-Systeme, die ein Feedback anbieten, doch geben nicht alle Nutzer ihr Feedback zu den Antworten, obwohl es manchmal ganz einfach mit „Daumen hoch“ oder „Daumen runter“ möglich ist.

Die Anpassung an den Kontext ist da schon für GenAI schwieriger, das es für das spezielle Erfahrungswissen (Expertise) viel mehr benötigt, als das, was GenAI aktuell anbietet. An diesen Stellen kommt der Mensch ins Spiel. Siehe dazu Rent a Human: KI-Agenten bieten Arbeit für Menschen an.

Natürlich verbessern sich die GenAI Systeme über die Zeit. Das machen sie, aufgrund ihrer vorliegenden Daten auch selbständig, selbstorganisiert, autopoietisch. GenAI-Systeme verbessern sich allerdings nur so lange selbst, bis ihr System infrage gestellt wird – dann ist Schluss. Allerdings sind die Daten, auf denen die Verbesserung basiert nicht so vollständig. Das wiederum bedeutet möglicherweise, dass auch die Verbesserung nicht optimal ist.

Wenn also Lernen der Flaschenhals beim Skalieren von GenAI ist, sollte sich jeder mit Lernen befassen. Ich bezweifle allerdings, dass diejenigen, die sich mit KI-Systemen und deren Nutzung in Organisationen befassen, etwas von Lernen verstehen. Siehe dazu auch

Künstliche Intelligenz macht Lebenslanges Lernen zur Pflicht.

Künstliche Intelligenz und Lernen.

Das Netzwerk vom Lernen.

Lernen des Entscheidens statt Lernen von Wissen?

Künstliche Intelligenz: Produktivität steigt und Innovation stagniert?

Es ist schon erstaunlich, was man alles mit Künstlicher Intelligenz (GenAI) machen kann. Der Schwerpunkt scheint aktuell darauf zu liegen, in Organisationen die Abläufe zu verbessern, um die Produktivität zu erhöhen.

Weiterhin werden die KI-Modelle immer intuitiver und einfacher, was die Anwendung von KI scheinbar immer leichter macht.

Eine aktuelle Studie (Liu et al. 2026) kommt allerdings zu dem Schluss, dass, je leichter KI (GenAI) angewendet werden kann, umso wichtiger ist der Mensch, der die „harte Arbeit“ erledigen muss.

„The uncomfortable truth: the easier AI gets, the more valuable the people who still do the hard work become — and the more urgently organisations need to protect the conditions that produce them“ (Liu et al 2026).

Weiterhin wird in der selben Studie auf den Zusammenhang zwischen der Produktivität bei der Nutzung von KI und Innovation durch KI eingegangen: Die Produktivität steigt, doch Innovation (das Innovations-Niveau) stagniert.

Das liegt laut Studie an den „good enough“ – Antworten der üblichen KI-Modelle, die zu wenig „Friktion“ bieten, um Innovationen zu pushen.

Wenn alles zu einfach und zu leicht ist, kann das dann jeder und es ist nichts Neues mehr im Sinne einer Innovation. Die Autoren empfehlen daher ein angemessenes Maß an Friktion in der Organisation zu etablieren. Dazu wurde auch ein erstes geeignetes Framework entwickelt.

Generative Künstliche Intelligenz und generative Kompetenzentwicklung

Klassische Kompetenzentwicklung versteht Kompetenz nach Erpenbeck und Heyse als Selbstorganisationsdisposition, die entwickelt werden kann und sollte. Mit dem Aufkommen von Künstlicher Intelligenz kommt auch immer stärker der Ruf nach einer entsprechenden Kompetenz auf – einer Digitalen Kompetenz oder auch KI-Kompetenz. Dabei sollte unter Künstlicher Intelligenz und Generativer Künstlicher Intelligenz unterschieden werden.

„Der Begriff generativ bedeutet bei künstlicher Intelligenz (KI), dass KI-Systeme aus Eingaben mittels generativer Modelle und gespeicherter Lerndaten neue Ergebnisse/Ausgaben wie Texte, Sprachaussagen, Vertonungen, Bilder oder Videos erzeugen“ (Quelle: Wikipedia).

Es handelt sich bei Generativer Intelligenz (GenAI) also auch um eine Art von Kreativität, die entsteht und die beispielsweise von Menschen bewertet werden kann, bzw. sollte. Es wundert daher nicht, dass vorgeschlagen wird, so eine „evaluative Kreativität“ – und in dem Zusammenhang auch generative Kompetenzen – zu entwickeln:

„Entwickle Deine evaluative Kreativität, entwickle Deine generativen Kompetenzen. (…) Generative Kompetenzen: die Fähigkeit, sich in neuen Technologien kreativ und selbstorganisiert mit einer klaren Wertorientierung zu bewegen“ (Erpenbeck und Sauter 2025).

Bemerkenswert ist hier, dass es nicht nur darum geht, mit KI-Modellen sebstorganisiert umgehen zu können, sondern auch wichtig ist, dass das mit einer klaren Wertorientierung erfolgen soll.

Dabei stellt sich gleich die Frage: Welche Werte kaufe ich mir denn ein, wenn ich ein KI-Modell der US-amerikanischen Tech-Konzerne oder KI-Modelle chinesischer Anbieter nutze? Siehe dazu auch Mit proprietärer Künstlicher Intelligenz (KI) kauft man sich auch die Denkwelt der Eigentümer ein.

Künstliche Intelligenz: Hohe Investitionen und keine Rendite?

Conceptual technology illustration of artificial intelligence. Abstract futuristic background

Es ist schon erstaunlich: Tag für Tag lesen wir von Milliardeninvestitionen der Unternehmen in GenAI. Es gibt in der Zwischenzeit auch genügend Beispiele aus allen Branchen die zeigen, wie mit Künstlicher Intelligenz (GenAI) produktiver als vorher gearbeitet werden kann. Somit sollten diese Effekte auch betriebswirtschaftlich nachgewiesen werden können.

Die Frage st also: Gibt es auch eine gewisse Rendite auf die Investitionen, die in solche Projekte gesteckt werden?

Eine Studie vom Juli 2025 zeigt ein überraschendes Ergebnis: Der Erfolg, in Form einer messbaren Rendite (Return on Investment). kann bei 95% der Organisationen nicht nachgewiesen werden. Hier der Originalabsatz aus der Studie:

Despite $30–40 billion in enterprise investment into GenAI, this report uncovers a surprising result in that 95% of organizations are getting zero return. The outcomes are so starkly divided across both buyers (enterprises, mid-market, SMBs) and builders (startups, vendors, consultancies) that we call it the GenAI Divide. Just 5% of integrated AI pilots are extracting millions in value, while the vast majority remain stuck with no measurable P&L impact. This divide does not seem to be driven by model quality or regulation, but seems to be determined by approach“ (NANDA 2025).

Interessant ist, dass der jeweils gewählte Ansatz (determined by approach) wohl das Grundübel ist. Möglicherweise ist es gar nicht so gut, sich nur auf die sehr großen, proprietären KI-Anbieter zu konzentrieren – ja, sich von diesen abhängig zu machen. Siehe dazu beispielsweise auch KI-Modelle: Monitoring einer Entwicklungsumgebung.

Anmerkung vom 28.01.2026: In der Zwischenzeit gibt es von Toby Stuart, UC Berkeley, den Hinweis, dass die Ergebnisse kritisch zu sehen sind und mit der Verbindung zum weltbekannten Massachusetts Institut o Technology (MIT) wohl anointed, also „gesalbt“ worden sind. Das bedeutet, dass viele etwas zu unkritisch waren, und diese Informationen weitergegeben haben. In einer PDF-Datei von Toby Stuart hat er seine Sicht noch einmal auf zwei Seiten zusammengefasst.

Künstliche Intelligenz und die ursprüngliche Bedeutung von Bildung

Image by dumcarreon from Pixabay

Es ist deutlich zu erkennen, dass Künstliche Intelligenz in seinen verschiedenen Formen (GenAI, AI Agenten usw.) Berufsbilder, Lernen, Wissens- und Kompetenzentwicklung beeinflusst, bzw. in Zukunft noch stärker beeinflussen wird. Siehe dazu beispielsweise WEF Jobs Report 2025.

Auch Strukturen im Bildungsbereich müssen sich daher fragen, welche Berechtigung sie noch in Zukunft haben werden, da sich der aktuelle Bildungssektor in fast allen Bereichen noch stark an den Anforderungen der Industriegesellschaft orientiert. Wenn es beispielsweise um Schulen geht, hat sich seit mehr als 100 Jahren nicht viel geändert. Siehe dazu Stundenplan von 1906/1907: Geändert hat sich bis heute (fast) nichts. Dazu passt folgendes Zitat:

„Every time I pass a jailhouse or a school, I feel sorry for the people inside.“
— Jimmy Breslin, Columnist, New York Post (Quelle)

Wohin sollen sich die Bildungsstrukturen – hier speziell Schulen – entwickeln?

(1) Wir können die Technologischen Möglichkeiten von Künstlicher Intelligenz in den Mittelpunkt stellen, und Menschen als nützliches Anhängsel von KI-Agenten verstehen. Dabei werden Menschen auf die KI-Technologie trainiert,, weiter)gebildet, geschult.

(2) Wir können alternativ Menschen und ihr soziales Zusammenleben in den Mittelpunkt stellen, bei dem Künstliche Intelligenz einen wertvollen Beitrag liefern kann. Ganz im Sinne einer Society 5.0.

Aktuell dominiert fast ausschließlich die Nummer (1) der genannten Möglichkeiten, was dazu führen kann, dass der Bildungsbereich Menschen so trainiert, dass sie zu den von Tech-Giganten entwickelten Technologien passen.

Möglicherweise hilft es in der Diskussion, wenn man den Ursprung des Wortes „Schule“ betrachtet. Der Begriff geht auf das griechische Wort „Skholè“ zurück, was ursprünglich „Müßiggang“, „Muße“, bedeutet und später zu „Studium“ und „Vorlesung“ wurde (Quelle: Wikipedia).

Bei Forschungen zur Künstlichen Intelligenz sind Autoren genau darauf eingegangen, weil sie vermuten, dass gerade diese ursprüngliche Perspektive besser zu den aktuellen Entwicklung passen kann:

„We find this etymology deeply revealing because it undercovers a profound truth about education´s original purpose: it wasn´t about preparing workers for jobs, but about providing space for thoughtful reflection and exploration of life´s fundamental questions. What inspires us about the ancient´s Greek approach is how they saw education as a means to help people find their purpose and develop their full potential as human beings“ (Bornet et al. 2025).

Wir behandeln oftmals Menschen wie Roboter und Künstliche Intelligenz wie Kreative

In den letzten Jahren wird immer deutlicher, dass Künstliche Intelligenz unser wirtschaftliches und gesellschaftliches Leben stark durchdringen wird. Dabei scheint es so zu sein, dass die Künstliche Intelligenz der Menschlichen Intelligenz weit überlegen ist. Beispielsweise kann Künstliche Intelligenz (GenAI) äußerst kreativ sein, was in vielfältiger Weise in erstellten Bildern oder Videos zum Ausdruck kommt. In so einem Zusammenhang behandeln wir Künstliche Intelligenz (AI: Artificial Intelligence) wie Kreative und im Gegensatz dazu Menschen eher wie Roboter. Dazu habe ich folgenden Text gefunden:

„We are treating humans as robots and ai as creatives. it is time to flip the equation“ (David de Cremer in Bornet et al. 2025).

David de Cremer ist der Meinung, dass wir die erwähnte „Gleichung“ umstellen sollten. Dem kann ich nur zustimmen, denn das aktuell von den Tech-Giganten vertretene Primat der Technik über einzelne Personen und sogar ganzen Gesellschaften sollte wieder auf ein für alle Beteiligten gesundes Maß reduziert werden. Damit meine ich, dass die neuen technologischen Möglichkeiten einer Künstlichen Intelligenz mit den Zielen von Menschen/Gesellschaften und den möglichen organisatorischen und sozialen Auswirkungen ausbalanciert sein sollten.

Der japanische Ansatz einer Society 5.0 ist hier ein sehr interessanter Ansatz. Auch in Europa gibt es Entwicklungen, die in diese Richtung gehen: Beispielsweise mit den Möglichkeiten von EuroLLM, einem Europäischen Large Language Model (LLM) auf Open Source Basis. Siehe dazu auch Open EuroLLM: Ein Modell Made in Europe – eingebunden in unsere LocalAI.