Künstliche Intelligenz: Mit FlexOlmo Trainingsmodelle kollaborativ erarbeiten – eine interessante Idee

Quelle: https://www.youtube.com/watch?v=dbTRBpA7FVQ

Trainingsmodelle sind für die Qualität der Ergebnisse von KI-Abfragen bedeutend. Dabei kann es sich im einfachsten Fall um ein Large Language Model (LLM) handeln – ganz im Sinne von “One Size Fits All, oder auch um verschiedene, spezialisierte Small Language Models (SLMs). Alles kann dann auch mit Hilfe eines AI-Routers sinnvoll kombiniert werden. Darüber hinaus ist es auch möglich, bestehende Modelle über InstructLab mit eigenen Daten zu kombinieren und zu trainieren.

Noch weiter geht jetzt Ai2, eine Not for Profit Organisation, über die ich schon einmal geschrieben hatte (Blogbeitrag). Mit FlexOlmo steht nun über Ai2 ein Trainingsmodell zur Verfügung, bei dem die Daten flexibel von einer Community weiterentwickelt / trainiert werden können:

“The core idea is to allow each data owner to locally branch from a shared public model, add an expert trained on their data locally, and contribute this expert module back to the shared model. FlexOlmo opens the door to a new paradigm of collaborative AI development. Data owners who want to contribute to the open, shared language model ecosystem but are hesitant to share raw data or commit permanently can now participate on their own terms” (Ai2 2025).

Die Idee ist wirklich spannend, da sie auf einem offenen Trainingsmodell basiert – ganz im Sinne von Open Source AI – und die Eigentümer der Daten darüber entscheiden, ob ihre Daten von dem gemeinsamen Modell genutzt werden können, oder eben nicht. Wer noch tiefer in diese Idee einsteigen möchte, kann das mit folgendem Paper gerne machen:

Shi et al (2025): FLEXOLMO: Open Language Models for Flexible Data Use | PDF

Ein aufgeklärter “Ich-Begriff” bedeutet, dass Individuen ihren Einfluss perspektivisch drastisch ausbauen können

Speech bubbles, blank boards and signs held by voters with freedom of democracy and opinion. The review, say and voice of people in public news adds good comments to a diverse group.

Der Trend zur Individualisierung hat eine gesellschaftliche und ökonomische Dimension. Dabei bestimmen neue technologische Möglichkeiten, wie z-B- die Künstliche Intelligenz, deutlich die Richtung der Veränderungen. Technologie war schon in der Vergangenheit immer wieder Treiber für solche Entwicklungen – mit all seinen Risiken und Möglichkeiten.

Dabei ging es in der Vergangenheit beispielsweise im ökonomischen Sinne darum, Produkte und Dienstleistungen immer stärker an das Individuum anzupassen – ganz im Sinne von Customization, Personalization, Mass Customization, Mass Personalization etc. – ganz im Sinne von Unternehmen.

Andererseits bieten neue Technologien wie Künstliche Intelligenz, Additive Manufacturing (3D-Druck), Robotik usw. auch neue Möglichkeiten für jeden Einzelnen, da die Kosten für diese Technologien teilweise sogar gegen “0” gehen. Beispiel im Softwarebereich: sind Open Source Projekte, oder im Innovationsbereich die vielen Open Innovation Projekte. Dabei meine ich bewusst den Ansatz von Eric von Hippel “Democratizing Innovation,” bzw. “Free Innovation”. Siehe dazu auch Künstliche Intelligenz und Open Innovation.

Immer mehr Menschen nutzen die neuen Möglichkeiten und kreieren ihre eignen Bilder, Beiträge, Videos oder eben Produkte und Dienstleistung mit Hilfe von Künstlicher Intelligenz, Additive Manufacturing (3D-Druck) und Robotik. Dabei geht es den Personen nicht in erster Linie darum, damit geschäftlich aktiv zu sein. Es geht am Anfang oft um das spielerische experimentieren mit den neuen Chancen.

Manche Personen stellen ihre Kreationen anderen zur Verfügung, z.B. auf Plattformen wie Patient Innovation. Alles, um unsere Gesellschaft einfach etwas besser, menschlicher zu machen. Dazu habe ich folgenden Text in einer Veröffentlichung der Initiative2030 gefunden:

“Wir glauben an einen aufgeklärten „Ich-Begriff“, bei dem die ausgiebige Beschäftigung dem Inneren weder das Ego füttern, noch ein um sich selbst kreisen anfeuern muss. In der Logik der Dichotomie der Kontrolle setzen wir uns dafür ein, dass handelnde Individuen ihren Einfluss auf die Dinge, die ihnen am wichtigsten sind, perspektivisch gewaltig ausbauen können. Wenn sie sich dann noch mit anderen zusammentun, können alternative Zukünfte gestaltet werden” (Initiative2030 (2025): Missionswerkstatt. Das Methodenhandbuch | PDF).

Ich bin auch der Meinung, dass einzelne Personen heute und in Zukunft mit Hilfe der neuen technischen Möglichkeiten, die täglichen und wichtigen Probleme von Menschen lösen können. Alleine und natürlich im Austausch mit anderen. Ob es dazu das oben verlinkte Methodenhandbuch bedarf sei dahingestellt. Dennoch: Für manche ist es gut, einen kleinen Leitfaden zum Thema zu haben.

Dabei steht nicht der Profit im Mittelpunkt, sondern das soziale Miteinander zum Wohle aller.

InstructLab: A new community-based approach to build truly open-source LLMs

Screenshot https://instructlab.ai/

In vielen Blogbeiträgen habe ich darauf hingewiesen, dass es kritisch ist, Closed Sourced Modelle für KI-Anwendungen (GenAI) zu nutzen. Die hinterlegten Trainingsdaten können kritisch sein und auch das Hochladen eigener Daten sollte bei diesen Modellen möglichst nicht erfolgen. Siehe dazu Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

In der Zwischenzeit gibt es viele Large Language Models (LLMs), die Open Source basiert sind, und sich an der Definition von Open Source AI orientieren. Das reicht vielen Unternehmen allerdings nicht aus, da sie gerne ihre eigenen Daten mit den Möglichkeiten der LLMs kombiniert – und sicher – nutzen wollen. Siehe dazu Künstliche Intelligenz: 99% der Unternehmensdaten sind (noch) nicht in den Trainingsdaten der LLMs zu finden.

In der Zwischenzeit ist es mit Hilfe von InstructLab möglich, vorhandene LLMs mit eigenen Daten zu trainieren. Dabei handelt sich um eine Initiative von Redhat und IBM – weiterführende Informationen dazu finden Sie bei Hugging Fcae.

Wie funktioniert InstructLab? Das Prinzip ist relativ einfach: Ein bestehendes Modell (LLM) wird mit Hilfe von InstructLab und eigenen Daten erweitert, spezifiziert und trainiert – alles unter eigener Kontrolle und Open Source.

“InstructLab can augment models though skill recipes used to generate synthetik data for tuning. Experiments can be run locally on quantized version of these models” (InstructLab-Website).

In einem ausführlichen, deutschsprachigen artikel erklärt Redhat noch einmal die Zusammenhänge: “Unternehmen können die InstructLab-Tools zum Modellabgleich auch nutzen, um ihre eigenen privaten LLMs mit ihren Kompetenzen und ihrem Fachwissen zu trainieren” (Redhat vom 10.03.2025).

Es ist für mich entscheidend, dass diese Initiative Open Source basiert, nicht auf bestimmte Modelle beschränkt, und lokal angewendet werden kann.

Creative Commons: Mit CC Signals Content für Künstliche Intelligenz freigeben – oder auch nicht

Screenshot: https://creativecommons.org/ai-and-the-commons/cc-signals/

In dem Blogbeitrag Was unterscheidet Künstliche Intelligenz von Suchmaschinen? hatte ich dargestellt, wie sich Suchmaschinen von Künstlicher Intelligenz unterscheiden. Content-Anbieter können dabei nur bedingt auf Datenschutz, Urheberrecht, EU AI Act usw. vertrauen. In der folgenden Veröffentlichung sind die verschiedenen Punkte noch einmal strukturiert zusammengefasst, inkl. einer möglichen Lösung für die skizzierten Probleme:

Creative Commons (2025): From Human Content to Machine Data. Introducing CC Signals | PDF

Creative Commons (CC) kennen dabei viele von uns als eine Möglichkeit, anderen unter bestimmten Bedingungen das Recht zur Nutzung des eigenen Contents einzuräumen. Creative Commons erläutert, dass KI-Modelle die üblichen gesellschaftlichen Vereinbarungen mehr oder weniger ignoriert, und somit den “social contract” aufkündigt. Diesen Hinweis finde ich bemerkenswert, da hier das Vorgehen der KI-Tech-Unternehmen mit den möglichen gesellschaftlichen Auswirkungen verknüpft wird.

Mit CC Signals hat Creative Commons ein erstes Framework veröffentlich, das es ermöglichen soll, Content mit Berechtigungsstufen für KI-Systeme zu versehen.

“CC signals are a proposed framework to help content stewards express how they want their works used in AI training—emphasizing reciprocity, recognition, and sustainability in machine reuse. They aim to preserve open knowledge by encouraging responsible AI behavior without limiting innovation” (ebd.)

Machen Sie bei der Weiterentwicklung dieses Ansatzes mit:

“Head over to the CC signals GitHub repository to provide feedback and respond to our discussion questions: https://github.com/creativecommons/cc-signals.”

Digitale Abhängigkeit in den Verwaltungen von Bund und Ländern: Warum eigentlich?

Image by Robin Higgins from Pixabay

Es ist unstrittig, dass die Verwaltungen in Bund und Ländern modernisiert, und damit auch digitalisiert werden müssen. Dabei haben deutsche Verwaltungen in der Vergangenheit gerne Software amerikanischer Tech-Konzerne genutzt.

“Die deutsche Verwaltung ist in hohem Maße abhängig von proprietären, US amerikanischen IT-Lösungen. 96% der Verwaltungsangestellten arbeiten täglich mit Microsoft-Produkten. 80% der Verwaltungsdaten werden in Datenbanken des US-Anbieters Oracle gespeichert und 75% der Virtualisierungslösungen kommen von VMWare” (ZenDis 02/2025: Digitale Souveränität als Staatsaufgabe).

Die Abhängigkeiten sind für den deutschen Steuerzahlen teuer: “Laufende Rahmenverträge mit großen IT-Firmen wie Microsoft und Oracle belaufen sich auf 13,6 Milliarden Euro” (Netzpolitik.org vom 04.12.2024). Je abhängiger die Verwaltungen hier sind, um so rigoroser können (und werden) Preissteigerungen durchgesetzt – zur Gewinnsteigerung bei den Tech-Konzernen und zum Nachteil der Gesellschaft.

Weiterhin wird deutlich, dass die Trump-Administration einen starken Einfluss auf die amerikanischen Tech-Konzerne hat – ganz im Sinne von “America first”. Was mit den europäischen oder deutschen Befindlichkeiten und Interessen ist, ist nicht wirklich relevant. Das ist aus der Sicht amerikanischer Konzerne und amerikanischer Administrationen verständlich, sollte uns in Europa allerdings nachdenklich stimmen -gerade auch wenn es um den nächsten Schritt geht: Dem Einsatz von Künstlicher Intelligenz.

Da es seit vielen Jahren schon verstärkt Hinweise dazu gibt, dass ohne Open Source keine moderne und souveräne Digitalisierung in Deutschland erreichbar ist, muss man sich als Bürger wundern, dass sich die Politik von den amerikanischen Tech-Konzernen immer weiter abhängig macht. Das ganze Ausmaß dieser Fehlentwicklung wird in dem folgenden Artikel zusammengefasst:

Mischler, G. (2025): Open Source hat im Bund keine Lobby, golem vom 04.07.2025.

Auch Unternehmen, NGOs und Privatpersonen sollten sich die Frage stellen, ob sie nicht die verfügbaren Open-Source-Alternativen für ihre eigene digitale Souveränität nutzen sollten.

Wir haben schon vor mehreren Jahren mit diesen Schritten angefangen. Wir nutzen NEXCLOUD statt Microsoft Cloud, OpenProject statt MS Project, NEXCLOUD TALK statt Teams, Nextcloud Office statt Microsoft Office, etc. Darüber hinaus verwenden wir auch Open Source AI (LocalAI). Damit bleiben alle Daten auf unseren Servern.

Sprechen Sie mich bei Fragen gerne an.

Digitale Souveränität: Was macht ihr denn so mit eurer Nextcloud? Antwort: Immer mehr!

Screenshot unserer Nextcloud-Startseite

Digitale Abhängigkeit kann für Personen, Organisationen oder ganze Gesellschaften kritisch sein. In Zeiten der Trump-Administration und der massiven Marktbeherrschung bei Software, Cloud-Anwendungen und Künstlicher Intelligenz durch US-amerikanische Tech-Konzerne wird es Zeit, auf allen Ebenen über Digitale Souveränität nachzudenken, und entsprechend zu handeln.

Zum Beispiel mit: Sovereign Workplace: Der unabhängige Arbeitsplatz auf integrierter Open Source Basis. Weiterhin wird vielen Verwaltungen in der Zwischenzeit klar, wie viel Geld an Rahmenverträgen, Lizenzen und Software an Big-Tech gezahlt werden muss. Es sind 13,6 Milliarden Euro pro Jahr (Quelle: Golem 04.07.2025).

In der Zwischenzeit gibt es viele Open Source Anwendungen die als Alternativen zur Verfügung stehen. Das dänische Digitalministerium ersetzt beispielsweise Microsoft Office durch Libre Office, Schleswig-Holstein setzt in der Verwaltung auf Nextcloud usw. usw.

Wir haben diese Entwicklung schon vor Jahren kommen sehen, und uns langsam aber sicher ein eigenes Open-Source-Ökosystem zusammengestellt, das wir immer stärker nutzen und ausbauen – Schritt für Schritt.

(1) Zunächst haben wir Nextcloud auf unseren Servern installiert. Damit konnten wir die bekannten Microsoft-Anwendungen, inkl. MS-Teams (jetzt mit Nextcloud Talk), Whiteboard, usw. ersetzen. Dateien können auch kollaborativ, also gemeinsam, bearbeitet werden. Siehe dazu beispielsweise auch Google Drive im Vergleich zu Nextcloud. Alle Möglichkeiten der Nextcloud finden Sie unter https://nextcloud.com/.

(2) Anschließend haben wir OpenProject auf unseren Servern installiert und mit unserer Nextcloud verknüpft. Wir können damit Plangetriebenes Projektmanagement, Hybrides und Agiles Projektmanagement abbilden. Die Integration mit unserer Nextcloud bietet die Möglichkeit, aus OpenProject heraus die komplette Dateiverwaltung in Nextcloud zu verwalten: Projektarbeit mit Nextcloud: Dateien kollaborativ organisieren und bearbeiten.

(3) Danach haben wir den Nextcloud-Assistenten integriert, sodass wir in jeder Nextcloud-Anwendung den Assistenten mit seinen verschiedenen Funktionen nutzen können; inkl. eines Chats mit hinterlegter lokaler Künstlichen Intelligenz – LocalAI (Siehe Punkt 5).

(4) Mit Nextcloud Flow können wir Abläufe automatisieren. Zunächst natürlich Routineabläufe, und wenn es komplexer wird mit KI-Agenten (Siehe Punkt 6).

(5) Eine weitere wichtige Ergänzung war dann LocalAI, das uns lokale KI-Anwendungen auf unserem Server ermöglicht – eingebunden in den Nextcloud-Assistenten (Siehe Punkt 3) Alle Daten bleiben auch hier auf unseren Servern.

(6) Aktuell arbeiten und testen wir KI-Agenten auf Open-Source-Basis. Dabei verknüpfen wir über Ollama eine ausgewählte Trainingsdatenbank (Large Language Model oder Small Language Model – alles natürlich Open Source AI) mit unseren eigenen Daten, die in unserer Nextcloud zur Verfügung stehen. Dafür verwenden wir aktuell Langflow, das auch auf unserem Servern installiert ist – auch diese Daten bleiben alle bei uns.

(…..) und das ist noch lange nicht das Ende der Möglichkeiten. Sprechen Sie uns gerne an, wenn Sie zu den genannten Punkten Fragen haben.

Digitale Souveränität: Die Initiative AI for Citizens

Website: https://mistral.ai/news/ai-for-citizens

Immer mehr Privatpersonen, Organisationen, Verwaltungen usw. überlegen, wie sie die Möglichkeiten der Künstlichen Intelligenz nutzen können. Dabei gibt es weltweit drei grundsätzlich unterschiedliche Richtungen: Der US-amerikanische Ansatz (Profit für wenige Unternehmen), der chinesische Ansatz (KI für die politische Partei) und den europäischen Ansatz, der auf etwas Regulierung setzt, ohne Innovationen zu verhindern. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Es freut mich daher sehr, dass es in Europa immer mehr Initiativen gibt, die Künstliche Intelligenz zum Wohle von Bürgern und der gesamte Gesellschaft anbieten möchten – alles Open Source. Das in 2023 gegründete Unternehmen Mistral AI hat so einen Ansatz, der jetzt in der Initiative AI for Citizens eine weitere Dynamik bekommt, und einen Gegenentwurf zu den Angeboten der bekannten Tech-Giganten darstellt:

“Empowering countries to use AI to transform public action and catalyze innovation for the benefit of their citizens” (Quelle).

Dabei listet die Website noch einmal ausführlich die Nachteile der “One size fits all AI” auf, die vielen immer noch nicht bewusst sind.

Informieren Sie sich über die vielen Chancen, Künstliche Intelligenz offen und transparent zu nutzen und minimieren Sie die Risiken von KI-Anwendungen, indem Sie offene und transparente Trainingsmodelle (Large Language Models; Small Language Models) und KI-Agenten nutzen. Siehe dazu auch

Das Kontinuum zwischen Closed Source AI und Open Source AI

Open Source AI: Warum sollte Künstliche Intelligenz demokratisiert werden?

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

Künstliche Intelligenz: 40% der Projekte zu Agentic AI werden wohl bis Ende 2027 eingestellt (Gartner)

Die Überschrift ist reißerisch und soll natürlich Aufmerksamkeit generieren. Dabei stellt man sich natürlich gleich die Frage: Wie kommt das? Geschickt ist, dass Gartner selbst die Antwort gibt:

“Over 40% of agentic AI projects will be canceled by the end of 2027, due to escalating costs, unclear business value or inadequate risk controls, according to Gartner, Inc.” (Gartner vom 25.06.2025).

Es ist nun wirklich nicht ungewöhnlich, dass in der ersten Euphorie zu Agentic AI alles nun wieder auf ein sinnvolles und wirtschaftliches Maß zurückgeführt wird. Dennoch haben Unternehmen, die entsprechende Projekte durchgeführt haben, wertvolles (Erfahrungs-)Wissen generiert.

Schauen wir uns in diesem Zusammenhang den bekannten Gartner Hype Cycle 2025 an, so können wir sehen, dass AI Agents ihren “Peak of Inflated Expectations” erreicht haben, und es nun in das Tal “Through of Desillusionment” geht. Dabei wird in dem oben genannten Artikel natürlich auch darauf hingewiesen, dass Gartner gerne beratend behilflich ist, Agentic AI wirtschaftlicher und besser zu gestalten. Honi soit qui mal y pense.

Dennoch können gerade Kleine und Mittlere Unternehmen (KMU) von dieser Entwicklung profitieren, indem sie bewusst und sinnvoll KI Agenten nutzen. Am besten natürlich in Zusammenhang mit Open Source AI. Komisch ist, dass Open Source AI in dem Gartner Hype Cycle gar nicht als eigenständiger Begriff vorkommt. Honi soit qui mal y pense.

Künstliche Intelligenz: 99% der Unternehmensdaten sind (noch) nicht in den Trainingsdaten der LLMs zu finden

Wenn es um allgemein verfügbare Daten aus dem Internet geht, können die bekannten Closed Source KI-Modelle erstaunliche Ergebnisse liefern. Dabei bestehen die genutzten Trainingsdaten der LLMs (Large Language Models) oft aus den im Internet verfügbaren Daten – immer öfter allerdings auch aus Daten, die eigentlich dem Urheberrecht unterliegen, und somit nicht genutzt werden dürften.

Wenn es um die speziellen Daten einer Branche oder eines Unternehmens geht, sind deren Daten nicht in diesen Trainingsdaten enthalten und können somit bei den Ergebnissen auch nicht berücksichtigt werden. Nun könnte man meinen, dass das kein Problem darstellen sollte, immerhin ist es ja möglich ist, die eigenen Daten für die KI-Nutzung zur Verfügung zu stellen – einfach hochladen. Doch was passiert dann mit diesen Daten?

Immer mehr Unternehmen, Organisationen und Verwaltungen sind bei diesem Punkt vorsichtig, da sie nicht wissen, was mit ihren Daten bei der KI-Nutzung durch Closed Source oder auch Closed Weighted Modellen passiert. Diese Modelle sind immer noch intransparent und daher wie eine Black Box zu bewerten. Siehe dazu Das Kontinuum zwischen Closed Source AI und Open Source AI oder Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

Wollen Sie wirklich IHRE Daten solchen Modellen zur Verfügung stellen, um DEREN Wettbewerbsfähigkeit zu verbessern?

“So here’s the deal: you’ve got data. That data you have access to isn’t part of these LLMs at all. Why? Because it’s your corporate data. We can assure you that many LLM providers want it. In fact, the reason 99% of corporate data isn’t scraped and sucked into an LLM is because you didn’t post it on the internet. (…) Are you planning to give it away and let others create disproportionate amounts of value from your data, essentially making your data THEIR competitive advantage OR are you going to make your data YOUR competitive advantage?” (Thomas et al. 2025).

Doch was ist die Alternative? Nutzen Sie IHRE Daten zusammen mit Open Source AI auf ihren eigenen Servern. Der Vorteil liegt klar auf der Hand: Alle Daten bleiben bei Ihnen.

Siehe dazu auch

LocalAI: KI-Modelle und eigene Daten kombinieren

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Ollama: AI Agenten mit verschiedenen Open Source Modellen entwickeln

Digitale Souveränität: Wo befinden sich deine Daten?

Künstliche Intelligenz: Vorteile von Small Language Models (SLMs)

Aktuell bekannte KI-Anwendungen rühmen sich seit Jahren, sehr große Mengen an Trainingsdaten (Large Language Models) zu verarbeiten. Der Tenor war und ist oft noch: Je größer die Trainingsdatenbank, um so besser.

In der Zwischenzeit weiß man allerdings, dass das so nicht stimmt und Large Language Models (LLMs) durchaus auch Nachteile haben. Beispielsweise ist die Genauigkeit der Daten ein Problem – immerhin sind die Daten oft ausschließlich aus dem Internet. Daten von Unternehmen und private Daten sind fast gar nicht verfügbar. Weiterhin ist das Halluzinieren ein Problem. Dabei sind die Antworten scheinbar plausibel, stimmen aber nicht.

Muddu Sudhaker hat diese Punkte in seinem Artikel noch einmal aufgeführt. Dabei kommt er zu dem Schluss, dass es in Zukunft immer mehr darauf ankommen wird, kleinere, speziellere Trainingsdatenbanken zu nutzen – eben Small Language Models (SLMs).

Muddu Sudhakar (2024): Small Language Models (SLMs): The Next Frontier for the Enterprise, Forbes, LINK

Große Vorteile der SLMs sieht der Autor natürlich einmal in der Genauigkeit der Daten und damit in den besseren Ergebnissen. Weiterhin sind SLMs natürlich auch kostensparender. Einerseits sind die Entwicklungskosten geringer, andererseits benötigt man keine aufwendige Hardware, um SLMs zu betreiben. Teilweise können solche Modelle auf dem eigenen PC, oder auf dem Smartphone betrieben werden.

Solche Argumente sind natürlich gerade für Kleine und Mittlere Unternehmen (KMU) interessant, die mit den geeigneten SLMs und ihren eigen, unternehmensinternen Daten ein interessantes und kostengünstiges KI-System aufbauen können.

Voraussetzung dafür ist für mich, dass alle Daten auf den eigenen Servern bleiben, was aktuell nur mit Open Source AI möglich ist. OpenAI mit ChatGPT ist KEIN Open Source AI.