Künstliche Intelligenz und das Herkunftsproblem – provenance problem

Conceptual technology illustration of artificial intelligence. Abstract futuristic background

In meinen Konferenz-Paper der letzten Jahrzehnte habe ich natürlich immer darauf geachtet, die jeweilige Quelle anzugeben. Damit ist aus wissenschaftlicher Sicht gewährleistet, dass deutlich wird, was von einem anderen Autor, und was von mir stammt.

Mit der gleichen Vorgehensweise erstellen wir auch unsere Blogbeiträge. Da wir dafür keinen KI-generierten Content nutzen, kann der Leser darauf vertrauen. Das ist besonders wichtig, da Vertrauen die Basis für die Arbeit mit Künstlicher Intelligenz ist it all starts with trust.

Sollte also jemand Künstliche Intelligenz für seine Blogbeiträge, oder sogar für seine wissenschaftlichen Veröffentlichungen nutzen, steht er vor mehreren Herausforderungen, denn das jeweils verwendete KI-Modell zeigt nicht immer auf, welche Quelle es verwendet hat.

Texte, die originalgetreu von anderen übernommen wurden, werden zwar bei einigen KI-Modellen gekennzeichnet, doch andere Texte sind möglicherweise von der KI selbst zusammengestellt worden. Earp et al. (2025) haben das in einem veröffentlichten Paper als Herkunftsproblem (provenance problem) bezeichnet:

„Suppose the LLM trained on, but does not mention, Smith’s text. And suppose we have never read it or even heard of Smith or her work. So, we don’t cite the paper either. Still, our essay now inherits — via nebulous, machine-mediated means — a distinctive insight that Smith developed but for which she receives no credit“

Source: Earp, B.D., Yuan, H., Koplin, J. et al. LLM use in scholarly writing poses a provenance problem. Nat Mach Intell 7, 1889–1890 (2025). https://doi.org/10.1038/s42256-025-01159-8.

Es handelt sich dabei also nicht um Plagiate, sondern um eine subtilere Art der Verschleierung der Herkunft.

Im wissenschaftlichen Kontext wird das thematisiert, doch wie sieht es mit der privaten Nutzung der allseits eingesetzten KI-Modelle wie ChatGPT, Gemini, Anthropix, Grok etc. aus, die man als Black Box bezeichnen kann?

Da deren Trainingsdaten nicht transparent sind, ist das Herkunftsproblem natürlich auch hier vorhanden, doch die einzelnen Nutzer reflektieren über die Ergebnisse nicht so, wie es Wissenschaftler tun, die auf Qualität achten.

Dadurch werden alle möglichen und unmöglichen KI-Resultate weitergegeben und sind dann wiederum Bestandteil der nächsten Ergebnisse. In dem gesamten System entsteht so eine Unschärfe, die auch zu Manipulationen genutzt werden kann.

Warum es nicht angemessen erscheint, Künstliche Intelligenz und Menschliche Intelligenz zu verwechseln

Image by StockSnap from Pixabay

Seit langem geht es um die Frage, ob es möglich ist, Künstliche Intelligenz mit Menschlicher Intelligenz zu vergleichen. In der Zwischenzeit mehren sich dazu die Meinungen, dass dieser Vergleich ein Kategorienfehler sein kann. Siehe dazu beispielhaft Künstliche Cleverness statt Künstliche Intelligenz?

Auch Walter Quattrociocchi, Full Professor of Computer Science at Sapienza University, hat in verschiedenen psychologischen Tests Unterschiede zwischen Künstlicher Intelligenz und Menschlicher Intelligenz herausgefunden.

Quattrociocchi, W. (2026): What we risk when we confuse AI and human intelligence. Putting humans and LLMs head-to-head in classic tests of judgment from human psychology underscores the differences between them. Scientific American, 18.02.2026.

Zunächst beschreibt Quattrociocchi die Ausbildung von Ärzten, die über Jahre nicht nur lesen, sondern auch mit und an menschlichen Körpern arbeiten, Diagnosen stellen und Behandlungen durchführen. Wenn man das mit den Antworten der Künstlichen Intelligenz (genauer: Antworten auf Basis der Large Language Models) vergleicht, wird deutlich, dass etwas Wesentliches fehlt.

„Across all the tasks we have studied, a consistent pattern emerges. Large language models can often match human responses but for reasons that bear no resemblance to human reasoning. Where a human judges, a model correlates. Where a human evaluates, a model predicts. When a human engages with the world, a model engages with a distribution of words. Their architecture makes them extraordinarily good at reproducing patterns found in text. It does not give them access to the world those words refer to“ (ebd.).

Der Autor weist auf die Stärken von KI-Modellen hin, die er „linguistic automation“ nennt. Weiterhin wird im Artikel auch hervorgehoben, dass den KI-Modellen ein wichtiges Element fehlt: die Verbindung zur realen Welt. Siehe dazu auch Rent a Human: KI-Agenten bieten Arbeit für Menschen an.


Locale KI-Anwendung: Erster Test mit dem Modell LLama 3.3 70B

Eigener Screenshot

Wie Sie wissen, haben wir auf unserem Server die Möglichkeit eingerichtet, KI-Modelle lokal auszuwählen und zu testen, bzw. zu nutzen – LokalKI oder LocalAI. Siehe dazu Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet.

Die verschiedenen Modelle können dazu vorab ausgewählt werden. Für diesen Test habe ich Llama 3.3 70B ausgewählt, was in der Abbildung zu erkennen ist. LLama 3.3 ist ein nur textbasiertes Modell, das den Vorteil hat, deutlich weniger Rechenaufwand zu benötigen, als z.B. LLama 3.1 405B.

Die Eingabetext wird unten in dem dunkelgrau hinterlegten Feld eingetragen und erscheint dann in dem blau hinterlegten Feld.

Eingabe: Welche Prozessschritte gehören zu einem Innovationsprozess?

Das Ergebnis (Grün hinterlegt) kann sich für den ersten kleinen Test sehen lassen. Die Prozessschritte sind genannt und erläutert.

Die Antwortzeit war relativ kurz, was bei der Modellgröße von 70B durchaus überrascht. Immerhin haben wir keine besondere Rechenleistung installiert.

Der Vorteil ist auch hier: Alle Daten der KI-Anwendung bleiben auf unserem Server .