Künstliche Intelligenz: 99% der Unternehmensdaten sind (noch) nicht in den Trainingsdaten der LLMs zu finden

Wenn es um allgemein verfügbare Daten aus dem Internet geht, können die bekannten Closed Source KI-Modelle erstaunliche Ergebnisse liefern. Dabei bestehen die genutzten Trainingsdaten der LLMs (Large Language Models) oft aus den im Internet verfügbaren Daten – immer öfter allerdings auch aus Daten, die eigentlich dem Urheberrecht unterliegen, und somit nicht genutzt werden dürften.

Wenn es um die speziellen Daten einer Branche oder eines Unternehmens geht, sind deren Daten nicht in diesen Trainingsdaten enthalten und können somit bei den Ergebnissen auch nicht berücksichtigt werden. Nun könnte man meinen, dass das kein Problem darstellen sollte, immerhin ist es ja möglich ist, die eigenen Daten für die KI-Nutzung zur Verfügung zu stellen – einfach hochladen. Doch was passiert dann mit diesen Daten?

Immer mehr Unternehmen, Organisationen und Verwaltungen sind bei diesem Punkt vorsichtig, da sie nicht wissen, was mit ihren Daten bei der KI-Nutzung durch Closed Source oder auch Closed Weighted Modellen passiert. Diese Modelle sind immer noch intransparent und daher wie eine Black Box zu bewerten. Siehe dazu Das Kontinuum zwischen Closed Source AI und Open Source AI oder Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

Wollen Sie wirklich IHRE Daten solchen Modellen zur Verfügung stellen, um DEREN Wettbewerbsfähigkeit zu verbessern?

“So here’s the deal: you’ve got data. That data you have access to isn’t part of these LLMs at all. Why? Because it’s your corporate data. We can assure you that many LLM providers want it. In fact, the reason 99% of corporate data isn’t scraped and sucked into an LLM is because you didn’t post it on the internet. (…) Are you planning to give it away and let others create disproportionate amounts of value from your data, essentially making your data THEIR competitive advantage OR are you going to make your data YOUR competitive advantage?” (Thomas et al. 2025).

Doch was ist die Alternative? Nutzen Sie IHRE Daten zusammen mit Open Source AI auf ihren eigenen Servern. Der Vorteil liegt klar auf der Hand: Alle Daten bleiben bei Ihnen.

Siehe dazu auch

LocalAI: KI-Modelle und eigene Daten kombinieren

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Ollama: AI Agenten mit verschiedenen Open Source Modellen entwickeln

Digitale Souveränität: Wo befinden sich deine Daten?

Test Criteria Catalogue for AI Systems in Finance

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Der Finanzbereich mit seinen unglaublichen Mengen an Daten (historische Daten und Echtzeitdaten) ist prädestiniert für den Einsatz Künstlicher Intelligenz (KI, oder englisch AI: Artificial Intelligence). Die Nutzung von LLM (Large Language Models) ,oder in Zukunft Small Language Models (SLM) und KI-Agenten, kann für eine Gesellschaft positiv, oder eher negativ genutzt werden. Dabei können Open Source AI Models, Open Weights Models und Closed AI Models unterschieden werden.

Es ist aus meiner Sicht gut, dass die Europäische Union mit dem EUAI-Act weltweit erste Rahmenbedingungen für die Nutzung Künstlicher Intelligenz festgelegt hat. Im Vergleich zu dem US-amerikanischen vorgehen (KI-Unternehmen können alles machen, um Profite zu generieren) und dem chinesischen Vorgehen (KI für die Unterstützung der Partei), ist der Europäische Weg eine gute Mischung. Natürlich muss dabei immer abgewogen werden, welcher Freiraum für Innovationen bleiben sollte.

Um nun herauszufinden, wie KI-Ssteme z.B. für den Finanzbereich bewertet und letztendlich ausgewählt werden sollten, hat das Federal Office for Information Security (Deutsch: BSI) einen entsprechenden Kriterienkatalog veröffentlicht:

Publication Notes
Given the international relevance of trustworthy AI in the financial sector and the widespread applicability ofthe EUAIAct across memberstates and beyond,this publication was prepared in English to ensure broader accessibility and facilitate collaboration with international stakeholders. English serves as the standard language in technical, regulatory, and academic discourse on AI, making it the most appropriate choice for addressing a diverse audience, including researchers, industry professionals, and policymakers across Europe and globally” (Federal Office for Information Security 2025).

Es stellt sich dabei auch die Frage, ob diese Kriterien nur für den Finanzbereich geeignet sind, oder ob alle – oder einige – der Kriterien auch für andere gesellschaftlichen Bereiche wichtig sein könnten.

Siehe dazu auch Sou.veränitätsscore für KI-Systeme.

Überraschend: Für ein Auto werden 100 Millionen, und für ein Flugzeug nur 14 Millionen Lines of Code benötigt

Image by ????? from Pixabay

Die etablierten Automobilhersteller haben seit ca. 100 Jahren ein Selbstverständnis (Mindset), das sich hauptsächlich auf die herausragende Hardware eines Autos fokussiert (Stichwort: Spaltmaß). Software war hier ein nützliches Zusatzprodukt. Es ging prinzipiell um

HARDWARE + Software

In den letzten Jahrzehnten wird immer klarer, dass Daten und Informationen, und damit Software, in dem Ökosystem Mobilität eine immer wichtigere Rolle spielen. Viele der etablierten Autohersteller haben daher versucht, den Softwarebereich immer weiter auszubauen, um letztendlich konkurrenzfähige Software im Vergleich zu den Tech-Giganten aus dem Silicon Valley anzubieten.

Viele der Initiativen sind krachend gescheitert. Ein Konzern, der Jahrzehnte lang das Mantra der Hardware propagiert hat, kann Softwareentwicklung scheinbar nicht – zumindest nicht marktgerecht. Doch es gibt auch ein gegenteiliges Beispiel: Der Vergleich der Lines of Code für eine Autos für ein viel größere Flugzeugs (Hardware) führt zu einem überraschenden Resultat:

“Consider this: today’s cars run on about 100 million lines of code—and to put that into perspective, a Boeing 787 Dreamliner runs on just 14 million lines of code. (We know, it shocked us too.) It’s obvious that a physical car defect requires a recall, but software code defects are super costly—especially in the auto industry” (Thomas et al. 2025).

Natürlich stellt sich hier die Frage, warum in einem Auto ca. 7x mehr (im Vergleich zu einem Flugzeug) Lines of Code nötig sind. Liegt es an dem Mindset aus der Hardwareentwicklung, die Softwareentwicklung einfach zu komplex werden lässt?

Es wird weiterhin deutlich, warum sich neue Marktteilnehmer (z.B. aus China) auf Software konzentrieren und die Hardware auf ein modernes Design abstimmen. Daraus entstehen konkurrenzfähige Produkte, die den heutigen Anforderungen (Preis und Leistung) entsprechen. Diese Vorgehensweise folgt der Logik

SOFTWARE + Hardware

Es ist spannend zu beobachten, wie sich die etablierten Automobilkonzerne auf die Herausforderer einstellen, denn diese brauchen keine alten Strukturen abzubauen/umzubauen.

Digitale Souveränität: Wo befinden sich deine Daten?

Screenshot von unserer Nextcloud-Installation

Die Digitale Abhängigkeit von amerikanischen oder chinesischen Tech-Konzernen, macht viele Privatpersonen, Unternehmen und Verwaltungen nervös und nachdenklich. Dabei stellen sich Fragen wie:

Wo befinden sich eigentlich unsere Daten?

Wissen Sie, wo sich ihre Daten befinden, wenn Sie neben ihren internen ERP-Anwendungen auch Internet-Schnittstellen, oder auch Künstliche Intelligenz, wie z.B. ChatGPT etc. nutzen?

Um wieder eine gewissen Digitale Souveränität zu erlangen, setzen wir seit mehreren Jahren auf Open Source Anwendungen. Die Abbildung zeigt beispielhaft einen Screenshot aus unserer NEXTCLOUD. Es wird deutlich, dass alle unsere Daten in Deutschland liegen – und das auch bei Anwendungen zur Künstlichen Intelligenz, denn wir verwenden LocalAI.

Nextcloud FLOW: Automatisieren von Abläufen

Eigener Screenshot

Viele persönliche, bzw. organisatorische Abläufe sind Routineprozesse, die sich häufig wiederholen. Sobald dazugehörende Unterlagen digital vorliegen, können diese mit Hilfe von definierten Abläufen automatisiert werden.

Auf unserem Server haben wir Nextcloud (Open Source) installiert, sodass alle Daten geschützt sind. Mit der App Nextcloud FLOW können wir auf alle Daten zugreifen, und einfache, oder auch etwas komplexere Abläufe automatisieren.

In der Abbildung ist beispielhaft zu sehen, dass in der linken Navigationsleiste “Ablauf”, also “Flow”, angeklickt wurde. In der rechten Hälfte ist zu erkennen, dass wir den Ablauf “PDF-Umwandlung” hinterlegt haben. Nun können wir anhand der verschiedenen Auswahlfelder bestimmen, unter welchen Bedingungen Dateien automatisiert in PDF umgewandelt werden können.

Das ist natürlich nur ein kleines und einfaches Beispiel für die Nutzung von Nextcloud FLOW, doch sind auch Anwendungen bei IKBD (Information, Kommunikation, Berichtswesen und Dokumentation) in Projekten denkbar, usw. usw. Den Möglichkeiten, sind fast keine Grenzen gesetzt.

Darüber hinaus kann es Sinn machen, auch noch den Nextcloud ASSISTENT oder sogar KI-Agenten zu nutzen – alles auf Open Source Basis, sodass alle Daten auf dem eigenen Server bleiben.

Mit Künstlicher Intelligenz und Online-Daten von Verbrauchern können (auch eigene) Produkte direkt entwickelt werden

Mit Hilfe der hybriden Wettbewerbsstrategie Mass Customization (PDF) ist es Unternehmen möglich, Produkte zu individualisieren, ohne dass der Preis höher ist, als bei massenhaft hergestellten Produkten. Kernelement ist dabei ein Konfigurator, mit dem der Kunde selbst in einem definierten Lösungsraum (fixed solution space) vielfältige Möglichkeiten zusammenstellen kann. In der Zwischenzeit gibt es allerdings mit Künstlicher Intelligenz noch ganz andere Optionen für Mass Customization.

Künstliche Intelligenz kann für einen Verbraucher Produkte und Dienstleistungen entwickeln und anbieten, nur auf Basis der vom Konsumenten generierten Daten – sogar ohne die aktive Mitwirkung des Konsumenten. Damit bringt Künstliche Intelligenz Mass Customization auf ein neues Level: Smart Customization.

“But this is one area where AI can take mass customization to a new level: The growth of AI and machine learning can allow us to use all the data traces consumers leave online to design a perfect product for an individual consumer, without their active involvement. AI can evolve into the ability to perfectly customize a product for a consumer, without the
need for a conscious process of elicitation from the consumer. As a consumer, I could specify what I want for aesthetics, while for functional parameters, it could be the system that senses what I want and desire. An algorithm reading your Instagram profile might know better than you do about your dream shirt or dress. I see a lot of opportunity to use the data that’s out there for what I call smart customization” (Piller, Frank T. and Euchner, James, Mass Customization in the Age of AI (June 07, 2024). Research-Technology Management, volume 67, issue 4, 2024 [10.1080/08956308.2024.2350919], Available at SSRN: https://ssrn.com/abstract=4887846).

Dieser Ansatz ist natürlich für Unternehmen interessant, da sie die umständlichen und teuren Befragungen von Verbraucher nicht mehr – oder etwas weniger – benötigen, um angemessene Produkte anzubieten.

Es gibt allerdings auch noch eine andere Perspektive: Was ist, wenn die Verbraucher ihre eigenen Daten mit Hilfe von Künstlicher Intelligenz selbst nutzen, um eigene Produkte zu entwickeln? Im Extremfall – und mit Hilfe von modernen Technologien wie z.B. den 3D-Druck (Additive Manufacturing) – können sich die Verbraucher innovative Produkte selbst herstellen. Diese Option klingt etwas futuristisch, da wir es gewohnt sind, Innovationen mit Unternehmen in Verbindung zu bringen. Doch hat Eric von Hippel gezeigt, dass es immer mehr von diesen Open User Innovation gibt, die gar nicht in den üblichen Statistiken zu Innovation auftauchen. Siehe dazu auch

Eric von Hippel (2005): Democratizing Innovation

Free Innovation: Was wäre, wenn wir Innovationen stärker Bottom-Up denken und fördern würden?

Eric von Hippel (2017): Free Innovation

Daten als Ressource: Um welche Kategorien von Daten geht es?

Wir sind uns alle einig, dass Daten eine bedeutende Ressource für einzelne Personen, Unternehmen, Organisationen und ganze Gesellschaften darstellen. Einerseits müssen Daten offen verfügbar sein, andererseits allerdings auch geschützt werden. Insofern macht es Sinn, verschiedene Kategorien für Daten zu unterscheiden:

Open data: data that is freely accessible, usable and shareable without restrictions, typically under an open license or in the Public Domain36 (for example, OpenStreetMap data);
Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed”
(Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

Es zeigt sich, dass es viele frei verfügbare Daten gibt, doch auch Daten, die geschützt werden sollten.

Die amerikanischen Tech-Konzerne möchten alle Daten für ihre Trainingsdatenbanken (LLM: Large Language Models) kostenlos nutzen können. Das Ziel ist hier, die maximale wirtschaftliche Nutzung im Sinne einiger weniger Großkonzerne. Dabei sind die Trainingsdaten der bekannten KI-Modelle wie ChatGPT etc. nicht bekannt/transparent. Die Strategie von Big-Tech scheint also zu sein,: Alle Daten “abgreifen” und seine eigenen Daten und Algorithmen zurückhalten. Ein interessantes Geschäftsmodell, dass sehr einseitig zu sein scheint.

Bei der chinesische Perspektive auf Daten liegt der Schwerpunkt darauf, mit Hilfe aller Daten politische Ziele der Einheitspartei zu erfüllen. Daran müssen sich alle Bürger und die Unternehmen – auch die KI-Unternehmen – halten.

In Europa versuchen wir einen hybriden Ansatz zu verfolgen. Einerseits möchten wir in Europa Daten frei zugänglich machen, um Innovationen zu fördern. Andererseits wollen wir allerdings auch, dass bestimmte Daten von Personen, Unternehmen, Organisationen und Öffentlichen Verwaltungen geschützt werden.

An dieser Stelle versucht die aktuelle amerikanische Regierung, Druck auf Europa auszuüben, damit Big-Tech problemlos an alle europäischen Daten kommen kann. Ob das noch eine amerikanische Regierung ist, oder nicht schon eine kommerziell ausgerichtete Administration wird sich noch zeigen. Das letzte Wort werden wohl die Gerichte in den USA haben.

Ich hoffe, dass wir in Europa unseren eigenen Weg finden, um offene Daten in großem Umfang verfügbar zu machen, und um gleichzeitig den Schutz sensibler Daten zu gewährleisten.

Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Eigener Screenshot

Künstliche Intelligenz (KI) wirkt schon heute – und in Zukunft noch viel mehr – in alle Bereiche der Gesellschaft. Die Frage ist allerdings, wie Künstliche Intelligenz (AI: Artificial Intelligence) genutzt wird.

Ein Weg ist dabei, sich von den Vorgaben der eher geschlossenen KI-Systeme treiben zu lassen. Das hat durchaus Vorteile, allerdings auch Nachteile. Siehe dazu ausführlicher Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Wir versuchen daher einen alternativen Weg aufzuzeigen, und auch umzusetzen. Dabei setzen wir auf die lokale Verarbeitung der Daten und auf die Nutzung von Open Source AI.

Dazu haben wir LocalAI (LokalKI) auf unserem Server installiert. Wie der Abbildung zu entnehmen ist, stehen uns aktuell 713 frei verfügbare Modelle zur Verfügung, die unterschiedlich genutzt werden können:

Zunächst ist es möglich, einzelne Modelle auszuwählen und mit Eingaben (Texte) zu testen. Dabei können Sie schon erkennen, welche Modelle für welche Anwendungen geeignet sind. Denn: Es wird in Zukunft immer mehr darauf ankommen, die geeigneten (kleineren) Modelle für die jeweiligen Prozessschritte im Unternehmen, oder privat zu nutzen.

Weiterhin können wir jedes der Modelle auch in NEXTCLOD über den NEXTCLOUD-ASSISTENTEN und der Funktion CHAT MIT KI nutzen. Siehe dazu LocalAI (Free Open Source Software): Chat mit KI über den Nextcloud-Assistenten.

Der Vorteil liegt auf der Hand: Mit LocalAI bleiben alle Daten auf unserem Server. Ein nicht zu unterschätzender Punkt – heute, und viel stärker noch in Zukunft.

Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet

Quelle: Eigener Screenshot

In verschiedenen Blogbeiträgen hatte ich darauf hingewiesen, dass es für Organisationen in Zukunft immer wichtiger wird, die digitale Abhängigkeiten von kommerziellen IT-/AI-Anbietern zu reduzieren – auch bei der Anwendung von Künstlicher Intelligenz (AI: Artificial Intelligence), da die Trainingsdatenbanken der verschiedenen Anbieter

(1) nicht transparent sind,
(2) es zu Urheberrechtsverletzungen kommen kann,
(3) und nicht klar ist, was mit den eigenen eingegeben Daten, z.B. über Prompts oder hochgeladenen Dateien, passiert.

Siehe dazu auch Digitale Souveränität: Europa, USA und China im Vergleich. Nicht zuletzt werden die Kosten für die KI-Nutzung immer höher – beispielsweise bei Microsoft und der Nutzung des KI-Assistenten Copilot: KI treibt Microsoft-365-Preise in die Höhe (golem vom 17.01.2025).

Es ist natürlich leicht, darüber zu schreiben und die Dinge anzuprangern, schwieriger ist es, Lösungen aufzuzeigen, die die oben genannten Punkte (1-3) umgehen. Zunächst einmal ist die Basis von einer Lösung Free Open Source Software (FOSS). Eine FOSS-Alternative zu OpenAI, Claude usw. haben wir auf einem Server installiert und die ersten drei Modelle installiert. Was bedeutet das?

Wenn wir in einem Chat einen Prompt (Text, Datei..) eingeben, greift das System auf das ausgewählte Modell (LLM: Large Language Model) zu, wobei die Daten (Eingabe, Verarbeitung, Ausgabe) alle auf unserem Server bleiben.

Wie in der Abbildung zu sehen ist, haben wir neben Llama 3.2 auch Teuken 7B hinterlegt. Gerade Teuken 7B basiert auf einem europäischen Ansatz für eine Trainingsdatenbank (LLM) in 24 Sprachen der Europäischen Union. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Wir werden diese Modelle in der nächsten Zeit testen und unsere Erkenntnisse in Blogbeiträgen darstellen.

Open Source: Nextcloud-Assistent und Künstliche Intelligenz (KI)

Bei den verschiedenen kommerziellen Anwendungen ist es fast schon Standard, dass Assistenten eingeblendet und angewendet werden, um Künstliche Intelligenz in den jeweiligen Prozess oder Task zu nutzen. Dabei ist immer noch weitgehend unklar, welche Trainingsdaten bei den verschiedenen Trainingsdatenbanken (LLM: Large Language Models) genutzt werden, und was beispielsweise mit den jeweils eigenen Eingaben (Prompts) passiert. Nicht zuletzt werden sich die kommerziellen Anbieter die verschiedenen Angebote mittelfristig auch gut bezahlen lassen.

Es kann daher nützlich sein, Open Source AI zu nutzen.

Praktisch kann das mit NEXTCLOUD und dem darin enthaltenen Nextcloud-Assistenten umgesetzt werden. Jede Funktion (Abbildung) kann man mit einer Traingsdatenbank verbinden, die wirklich transparent und Open Source ist. Solche Trainingsdatenbanken stehen beispielsweise bei Hugging Face zur Verfügung. Darüber hinaus bleiben alle Daten auf dem eigenen Server – ein heute unschätzbarer Wert . Wir werden diesen Weg weitergehen und in Zukunft dazu noch verschiedene Blogbeiträge veröffentlichen. Siehe dazu auch

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.