Provenance Problem | Dr. Robert Freund

Conceptual technology illustration of artificial intelligence. Abstract futuristic background

In meinen Konferenz-Paper der letzten Jahrzehnte habe ich natürlich immer darauf geachtet, die jeweilige Quelle anzugeben. Damit ist aus wissenschaftlicher Sicht gewährleistet, dass deutlich wird, was von einem anderen Autor, und was von mir stammt.

Mit der gleichen Vorgehensweise erstellen wir auch unsere Blogbeiträge. Da wir dafür keinen KI-generierten Content nutzen, kann der Leser darauf vertrauen. Das ist besonders wichtig, da Vertrauen die Basis für die Arbeit mit Künstlicher Intelligenz ist – it all starts with trust.

Sollte also jemand Künstliche Intelligenz für seine Blogbeiträge, oder sogar für seine wissenschaftlichen Veröffentlichungen nutzen, steht er vor mehreren Herausforderungen, denn das jeweils verwendete KI-Modell zeigt nicht immer auf, welche Quelle es verwendet hat.

Texte, die originalgetreu von anderen übernommen wurden, werden zwar bei einigen KI-Modellen gekennzeichnet, doch andere Texte sind möglicherweise von der KI selbst zusammengestellt worden. Earp et al. (2025) haben das in einem veröffentlichten Paper als Herkunftsproblem (provenance problem) bezeichnet:

„Suppose the LLM trained on, but does not mention, Smith’s text. And suppose we have never read it or even heard of Smith or her work. So, we don’t cite the paper either. Still, our essay now inherits — via nebulous, machine-mediated means — a distinctive insight that Smith developed but for which she receives no credit“

Source: Earp, B.D., Yuan, H., Koplin, J. et al. LLM use in scholarly writing poses a provenance problem. Nat Mach Intell 7, 1889–1890 (2025). https://doi.org/10.1038/s42256-025-01159-8.

Es handelt sich dabei also nicht um Plagiate, sondern um eine subtilere Art der Verschleierung der Herkunft.

Im wissenschaftlichen Kontext wird das thematisiert, doch wie sieht es mit der privaten Nutzung der allseits eingesetzten KI-Modelle wie ChatGPT, Gemini, Anthropix, Grok etc. aus, die man als Black Box bezeichnen kann?

Da deren Trainingsdaten nicht transparent sind, ist das Herkunftsproblem natürlich auch hier vorhanden, doch die einzelnen Nutzer reflektieren über die Ergebnisse nicht so, wie es Wissenschaftler tun, die auf Qualität achten.

Dadurch werden alle möglichen und unmöglichen KI-Resultate weitergegeben und sind dann wiederum Bestandteil der nächsten Ergebnisse. In dem gesamten System entsteht so eine Unschärfe, die auch zu Manipulationen genutzt werden kann.

M	D	M	D	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Schlagwort: Provenance Problem

Künstliche Intelligenz und das Herkunftsproblem – provenance problem