Künstliche Intelligenz und das Herkunftsproblem – provenance problem

Conceptual technology illustration of artificial intelligence. Abstract futuristic background

In meinen Konferenz-Paper der letzten Jahrzehnte habe ich natürlich immer darauf geachtet, die jeweilige Quelle anzugeben. Damit ist aus wissenschaftlicher Sicht gewährleistet, dass deutlich wird, was von einem anderen Autor, und was von mir stammt.

Mit der gleichen Vorgehensweise erstellen wir auch unsere Blogbeiträge. Da wir dafür keinen KI-generierten Content nutzen, kann der Leser darauf vertrauen. Das ist besonders wichtig, da Vertrauen die Basis für die Arbeit mit Künstlicher Intelligenz ist it all starts with trust.

Sollte also jemand Künstliche Intelligenz für seine Blogbeiträge, oder sogar für seine wissenschaftlichen Veröffentlichungen nutzen, steht er vor mehreren Herausforderungen, denn das jeweils verwendete KI-Modell zeigt nicht immer auf, welche Quelle es verwendet hat.

Texte, die originalgetreu von anderen übernommen wurden, werden zwar bei einigen KI-Modellen gekennzeichnet, doch andere Texte sind möglicherweise von der KI selbst zusammengestellt worden. Earp et al. (2025) haben das in einem veröffentlichten Paper als Herkunftsproblem (provenance problem) bezeichnet:

„Suppose the LLM trained on, but does not mention, Smith’s text. And suppose we have never read it or even heard of Smith or her work. So, we don’t cite the paper either. Still, our essay now inherits — via nebulous, machine-mediated means — a distinctive insight that Smith developed but for which she receives no credit“

Source: Earp, B.D., Yuan, H., Koplin, J. et al. LLM use in scholarly writing poses a provenance problem. Nat Mach Intell 7, 1889–1890 (2025). https://doi.org/10.1038/s42256-025-01159-8.

Es handelt sich dabei also nicht um Plagiate, sondern um eine subtilere Art der Verschleierung der Herkunft.

Im wissenschaftlichen Kontext wird das thematisiert, doch wie sieht es mit der privaten Nutzung der allseits eingesetzten KI-Modelle wie ChatGPT, Gemini, Anthropix, Grok etc. aus, die man als Black Box bezeichnen kann?

Da deren Trainingsdaten nicht transparent sind, ist das Herkunftsproblem natürlich auch hier vorhanden, doch die einzelnen Nutzer reflektieren über die Ergebnisse nicht so, wie es Wissenschaftler tun, die auf Qualität achten.

Dadurch werden alle möglichen und unmöglichen KI-Resultate weitergegeben und sind dann wiederum Bestandteil der nächsten Ergebnisse. In dem gesamten System entsteht so eine Unschärfe, die auch zu Manipulationen genutzt werden kann.

Minerva AI LLM: Das italienischsprachige KI-Modell

https://minerva-ai.org/

In dem Blogbeitrag Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data hatte ich schon erläutert, wie wichtig es ist, dass sich Organisationen und auch Privatpersonen nicht nur an den bekannten AI-Modellen der Tech-Giganten orientieren.

Die dort oftmals hinterlegten Daten, die natürlich zum überwiegenden Teil in Englisch (oder Chinesisch) vorliegen, spiegeln nicht die vielfältige europäische Kultur mit ihren vielen Nuancen wieder. Kulturelle Bereiche, definieren sich oftmals über die jeweilige Sprache.

Es ist daher nicht verwunderlich, dass es in den jeweiligen europäischen Ländern einen Trend gibt, KI-Modelle zu entwickeln, die die jeweilige sprachlichen Besonderheiten beachten – wie z.B. Minerva AI LLM:

Minerva AI LLM is the first family of Large Language Models pretrained from scratch in Italian developed by Sapienza NLP in collaboration with Future Artificial Intelligence Research (FAIR) and CIN AIECA. The Minerva models are truly-open (data and model) Italian-English LLMs, with approximately half of the pretraining data composed of Italian text. You can chat with Minerva for free directly through the app — it’s easy, fast, and open to everyone.

Es handelt sich also um eine Modell-Familie, die offen für jeden nutzbar ist. Es zeigt sich auch hier wieder, dass Künstliche Intelligenz auf Vertrauen basieren muss, damit sie den gesellschaftlichen und wirtschaftlichen Anforderungen gerecht werden kann. Siehe dazu auch beispielhaft

Künstliche Intelligenz – It All Starts with Trust

Open EuroLLM: Ein Modell Made in Europe

Spanisch: Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

Schwedisch: GPT SW3

OpenProject Version 17.2: Künstliche Intelligenz in Projekte einbinden

Quelle: https://www.openproject.org/de/blog/openproject-17-2-0-released/

OpenProject ist schon lange eine Alternative zu den proprietären Projektmanagement-Tools wie MS Project oder Jira etc. Die Integration von OpenProject in Nextcloud führt zu einer Kollaborationsplattform, bei der alle Daten auf dem eigenen Server bleiben und alle Anwendungen Open Source basiert sind. Siehe dazu unsere verschiedenen Blogbeiträge zu OpenProject.

Mit der Integration von OpenProject mit Nextcloud (Alternative zu Microsoft Sharepoint), inkl. TALK als Videokonferenzsystem (Alternative zu Microsoft Teams) etc. wurde schon ein wesentlicher Schritt in Richtung Digitale Souveränität am Arbeitsplatz gemacht.

Bei der Version OpenProject 17.2 gibt es eine Weiterentwicklung die es ermöglicht, Künstliche Intelligenz (Large Language Models oder Small Language Models) über einen sicheren MCP Server in die eigenen Projekte einzubinden.

MCP (Model Context Protocol) ist ein offener Standard von Anthropic über den LLM und externe Tools via APIs oder eigene Datenquellen eingebunden werden können.

Wie Sie wissen, schlagen wir in unseren Blogbeiträgen immer vor, Open Source AI und Open Source Software zu verwenden – möglichst auf dem eigenen Server. Dann bleiben alle Daten bei Ihnen und werden nicht von anderen genutzt – ganz im Sinne der Digitalen Souveränität.

Mit KI-Modellen ist es möglich, Personen zu de-anonymisieren

Quelle: Lermen et al. (2026)

Im Netz sind auch Personen unterwegs, deren Identität nicht bekannt ist. Für manche ist es der Schutz ihrer persönlichen Privatsphäre, für andere bietet Anonymität im Netz die Möglichkeit, Beiträge zu verfassen, die andere diffamieren.

Forscher von der ETH Zürich, MATS Research und Anthropic sind einmal der Frage nachgegangen, ob es mit den Möglichkeiten der Künstlichen Intelligenz in großem Maßstab möglich ist, zu de-anonymisieren. In dem Paper von Lermen et al. (2026) wurde die Vorgehensweise und die Ergebnisse ausführlich dargestellt.

Die Abbildung zeigt, wie aus einem einzelnen Interview mit Hilfe eines Large Language Models (LLM) ein Profil erstellt wurde, und abschließend ein KI-Agent die Person identifizieren konnte.

„End-to-end deanonymization from a single interview transcript from (details altered to protect the subject’s identity). An LLM agent extracts structured identity signals from a conversation, autonomously searches the web to identify a candidate individual, and verifies the candidate matches all extracted claims“ (Lermen et al. (2026): Large-scale online deanonymization with LLMs | PDF).

Die technischen Möglichkeiten haben nun zwei Effekte: (1) Anonyme Nutzer im Netz, die sich strafbar machen, können identifiziert werden. (2) Für Nutzer, die ihre Anonymität aus den verschiedenen Gründen wahren möchten, reicht ein Pseudonym im Netz in Zukunft wohl nicht mehr aus.

Künstliche Intelligenz: Das polnische Sprachmodell PLLuM

Es ist schon erstaunlich, wie dynamisch sich in Europa länderspezifische Large Language Models (LLMs) und europäische LLMs entwickeln.

In 2024 wurde beispielsweise Teuken 7B veröffentlicht, über das wir in unserem Blog auch berichtet hatten. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Weiterhin wurde Open EuroLLM veröffentlicht, ein „Large language Model made in Europe built to support all official 24 EU languages„. Die generierten Modelle sind Multimodal, Open Source, High Performance und eben Multilingual.

Zusätzlich zur europäischen Ebene gibt es allerdings auch immer mehr spezielle, länderspezifische Large Language Models (LLMs), wie das in 2025 veröffentlichte PLLuM ((Polish Large Language Model). Ich möchte an dieser Stelle drei wichtige Statements wiedergeben, die auf der Website zu finden sind:

Polnische Sprachunterstützung
Ein wichtiges Element dieses Projekts ist die Entwicklung eines umfassenden und vielfältigen Datensatzes, der die Komplexität der polnischen Sprache widerspiegelt.

Die polnische Sprachunterstützung geht darauf ein, dass die üblichen proprietären LLM überwiegend in englischer (chinesischer) Sprache trainiert wurden, und dann entsprechende Übersetzungen liefern. Diese sind für den Alltagsgebrauch durchaus nützlich, doch wenn es um die kulturellen, kontextspezifischen Nuancen einer Sprache geht, reichen diese großen KI-Modelle der Tech-Konzerne nicht aus.

Offene Zusammenarbeit und einfache Bedienung
Das PLLuM-Modell wird unter einer offenen Lizenz veröffentlicht. Die Modelle können über die Huggingface -Plattform heruntergeladen werden. Eine grafische Benutzeroberfläche (GUI) in Form eines Chats ist ebenfalls verfügbar.

Das PLLuM-Modell setzt auf Offenheit, Transparenz und einfache Bedienung. Es versteht sich daher von selbst, dass die Modelle bei Huggingface zur Verfügung stehen und genutzt werden können. Probieren Sie den Chat einfach einmal aus:

Sicherheit und Ethik
Wir stellen sicher, dass unser Modell sicher und frei von schädlichen und falschen Inhalten ist, was für seinen Einsatz in der öffentlichen Verwaltung von entscheidender Bedeutung ist.

Nicht zuletzt sind Sicherheit und Ethik wichtige Eckpunkte für das polnische Modell. Es unterscheidet sich dadurch von den bekannten großen KI-Modellen der Tech-Konzerne. Siehe dazu auch Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

Interessant ist auch, dass auf der PLLuM-Website darauf hingewiesen wird, dass man durch diese KI-Modelle auch Innovationen fördern möchte. Wieder ein direkter Bezug zwischen Open Source AI und Innovationen.

Vertrauen Sie daher besser wirklichen Open Source AI – Anwendungen: Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Warum es nicht angemessen erscheint, Künstliche Intelligenz und Menschliche Intelligenz zu verwechseln

Image by StockSnap from Pixabay

Seit langem geht es um die Frage, ob es möglich ist, Künstliche Intelligenz mit Menschlicher Intelligenz zu vergleichen. In der Zwischenzeit mehren sich dazu die Meinungen, dass dieser Vergleich ein Kategorienfehler sein kann. Siehe dazu beispielhaft Künstliche Cleverness statt Künstliche Intelligenz?

Auch Walter Quattrociocchi, Full Professor of Computer Science at Sapienza University, hat in verschiedenen psychologischen Tests Unterschiede zwischen Künstlicher Intelligenz und Menschlicher Intelligenz herausgefunden.

Quattrociocchi, W. (2026): What we risk when we confuse AI and human intelligence. Putting humans and LLMs head-to-head in classic tests of judgment from human psychology underscores the differences between them. Scientific American, 18.02.2026.

Zunächst beschreibt Quattrociocchi die Ausbildung von Ärzten, die über Jahre nicht nur lesen, sondern auch mit und an menschlichen Körpern arbeiten, Diagnosen stellen und Behandlungen durchführen. Wenn man das mit den Antworten der Künstlichen Intelligenz (genauer: Antworten auf Basis der Large Language Models) vergleicht, wird deutlich, dass etwas Wesentliches fehlt.

„Across all the tasks we have studied, a consistent pattern emerges. Large language models can often match human responses but for reasons that bear no resemblance to human reasoning. Where a human judges, a model correlates. Where a human evaluates, a model predicts. When a human engages with the world, a model engages with a distribution of words. Their architecture makes them extraordinarily good at reproducing patterns found in text. It does not give them access to the world those words refer to“ (ebd.).

Der Autor weist auf die Stärken von KI-Modellen hin, die er „linguistic automation“ nennt. Weiterhin wird im Artikel auch hervorgehoben, dass den KI-Modellen ein wichtiges Element fehlt: die Verbindung zur realen Welt. Siehe dazu auch Rent a Human: KI-Agenten bieten Arbeit für Menschen an.


Mass Intelligence: Wenn mehr als 1 Mrd. Menschen Zugang zu leistungsfähiger KI haben

Conceptual technology illustration of artificial intelligence. Abstract futuristic background

Wenn wir uns die Entwicklungen der Künstlichen Intelligenz in der letzten Zeit ansehen, so fällt auf, dass es mehrere Trends gibt.

Neben den dominierenden wenigen großen Large Language Models (LLMs) der Tech-Konzerne gibt es immer mehr kleine Modelle (Small Language Models), die je nach Anwendungsfall ausgewählt werden können. Solche SLM sind flexibler, kostengünstiger und in bestimmten Bereichen sogar besser. Siehe dazu auch KI-Modelle: Von „One Size Fits All“ über Variantenvielfalt in die Komplexitätsfalle?

Weiterhin wird für solche Problemlösungen auch viel weniger Energie benötigt, was die weltweiten, aber auch die unternehmensspezifischen Ressourcen/Kosten schont, Siehe dazu auch Künstliche Intelligenz: Das menschliche Gehirn benötigt maximal 30 Watt für komplexe Problemlösungen.

Darüber hinaus gibt es auch immer mehr leistungsfähige Open Source KI-Modelle, die jedem zur Verfügung stehen, und beispielsweise eher europäischen Werten entsprechen. Siehe dazu auch Das Kontinuum zwischen Closed Source AI und Open Source AI

Wenn also in Zukunft mehr als 1 Milliarde Menschen Künstliche Intelligenz nutzen, stellt sich gleich die Frage, wie Unternehmen damit umgehen. Immerhin war es üblich, dass so eine Art der intelligenten komplexen Problemlösung bisher nur spärlich – und dazu auch noch teuer – zur Verfügung stand.

Nun werden Milliarden von einzelnen Personen die Möglichkeit haben, mit geringen Mitteln komplexe Problemlösungen selbst durchzuführen. Prof. Ethan Mollick nennt dieses Phänomen in einem Blogbeitrag Mass Intelligence.

„The AI companies (whether you believe their commitments to safety or not) seem to be as unable to absorb all of this as the rest of us are. When a billion people have access to advanced AI, we’ve entered what we might call the era of Mass Intelligence. Every institution we have — schools, hospitals, courts, companies, governments — was built for a world where intelligence was scarce and expensive. Now every profession, every institution, every community has to figure out how to thrive with Mass Intelligence“ (Mollick, E. (2025): Mass Intelligence, 25.08.2025).

Ich bin sehr gespannt, ob sich die meisten Menschen an den proprietären großen KI-Modellen der Tech-Konzerne orientieren werden, oder ob es auch einen größeren Trend gibt, sich mit KI-Modellen weniger abhängig zu machen – ganz im Sinne einer Digitalen Souveränität.

Digitale Souveränität: Open Source KI-Systeme fördern Innovationen für die gesamte Gesellschaft

https://www.robertfreund.de/blog/2024/10/28/open-source-ai-definition-1-0-release-candidate-2-am-21-10-2024-veroeffentlicht/

Die kommerziellen, proprietären KI-Systeme machen den Eindruck, als ob sie die einzigen sind, die Innovationen generieren. In gewisser weise stimmt das auch, wenn man unter Innovationen die Innovationen versteht, die sich diese Unternehmen wünschen. Fast jeden Tag gibt es neue Möglichkeiten, gerade diese KI-Modelle zu nutzen. Dieses Modelle treiben ihre Nutzer vor sich her. Wer nicht alles mitmacht wird der Verlierer sein – so das Credo.

Dabei stehen Trainingsdaten zur Verfügung, die intransparent sind und in manchen Fällen sogar ein Mindset repräsentieren, das Gruppen von Menschen diskriminiert.

Versteht man unter Innovationen allerdings, das Neues für die ganze Gesellschaft generiert wird, um gesellschaftlichen Herausforderungen zu bewältigen, so wird schnell klar, dass das nur geht, wenn Transparenz und Vertrauen in die KI-Systeme vorhanden sind – und genau das bieten Open Source AI – Systeme.

Open-source AI systems encourage innovation and are often a requirement for public funding. On the open extreme of the spectrum, when the underlying code is made freely available, developers around the world can experiment, improve and create new applications. This fosters a collaborative environment where ideas and expertise are readily shared. Some industry leaders argue that this openness is vital to innovation and economic growth. (…) Additionally, open-source models tend to be smaller and more transparent. This transparency can build trust, allow for ethical considerations to be proactively addressed, and support validation and replication because users can examine the inner workings of the AI system, understand its decision-making process and identify potential biases“ (UN 2024)

Siehe dazu auch

Das Kontinuum zwischen Closed Source AI und Open Source AI

Apertus: Schweizer Open Source KI – Modell veröffentlicht

Open Source AI: Kimi K2 Thinking vorgestellt

Open Source AI: OlmoEarth Modell-Familie veröffentlicht

Digitale Souveränität: Verschiedene Open Source AI-Modelle ausprobieren

Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

Apertus: Schweizer Open Source KI – Modell veröffentlicht

Image by Stefan Schweihofer from Pixabay

In der Zwischenzeit gibt es einen Trend zu Open Source KI-Modellen. Aktuell hat beispielsweise die ETH Zürich zusammen mit Partnern das KI-Modell Apertus veröffentlicht:

Apertus: Ein vollständig offenes, transparentes und mehrsprachiges Sprachmodell
Die EPFL, die ETH Zürich und das Schweizerische Supercomputing-Zentrum CSCS haben am 2. September Apertus veröffentlicht: das erste umfangreiche, offene und mehrsprachige Sprachmodell aus der Schweiz. Damit setzen sie einen Meilenstein für eine transparente und vielfältige generative KI“ (Pressemitteilung der ETH Zürich vom 02.09.2025)

Der Name Apertus – lateinisch für offen – betont noch einmal das grundsätzliche Verständnis für ein offenes , eben kein proprietäres, KI-Modell, das u.a auch auf Hugging Face zur Verfügung steht. Die beiden KI-Modelle mit 8 Milliarden und 70 Milliarden Parametern bieten somit auch in der kleineren Variante die Möglichkeit, der individuellen Nutzung.

Es gibt immer mehr Personen, Unternehmen und öffentliche Organisationen, die sich von den Tech-Giganten im Sinne einer Digitalen Souveränität unabhängiger machen möchten. Hier bieten in der Zwischenzeit sehr viele leistungsfähige Open Source KI-Modelle erstaunliche Möglichkeiten- auch im Zusammenspiel mit ihren eigenen Daten: Alle Daten bleiben dabei auf Ihrem Server – denn es sind Ihre Daten.

Da das KI-Modell der Schweizer unter einer Open Source Lizenz zur Verfügung steht, werden wir versuchen, Apertus auf unseren Servern auch in unsere LocalAI, bzw. über Ollama in Langflow einzubinden.

Digitale Souveränität: Projekt SOOFI (Sovereign Open Source Foundation Models) gestartet

Quelle: Pressemitteilung | PDF | zu SOOFI

In unserem Blog habe ich schon oft über die notwendige Digitale Souveränität von einzelnen Personen, Organisationen und Länder geschrieben. Es wird dabei immer deutlicher, dass wir in Europa Modelle benötigen, die nicht vom Mindset amerikanischer Tech-Konzernen oder vom Mindset chinesischer Politik dominiert werden, und auf Open Source Basis zur Verfügung stehen.

So etwas soll nun mit SOOFI (Sovereign Open Source Foundation Models) entwickelt werden. In der Abbildung ist der prinzipielle Aufbau zu erkennen. Auf Basis geeigneter Daten können Foundation Models an die jeweiligen Bedürfnisse ganzer Branchen angepasst werden. Darauf aufbauend, schließen sich u.a. auch AI Agenten an.

„Ein wichtiger Schritt für die europäische KI-Souveränität: Unter SOOFI arbeiten zukünftig Wissenschaftlerinnen und Wissenschaftler aus 6 führenden deutschen Forschungseinrichtungen zusammen, um souveräne europäische Alternativen zu KI Technologien aus den USA und China bereitzustellen. Der Fokus liegt darin, mit den Modellen einen Beitrag für die industrielle Nutzung von KI zu leisten“ (Quelle: Pressemitteilung | PDF).

Möglicherweise interessieren Sie auch noch folgende Beiträge zum Thema:
Digitale Souveränität: Europa, USA und China im Vergleich
Von der digitalen Abhängigkeit zur digitalen Souveränität,
Digitale Souveränität: Welche Open Source Alternativen gibt es?
Digitale Souveränität: Souveränitätsscore für KI Systeme
Digitale Souveränität: Google Drive im Vergleich zu Nextcloud