InstructLab: A new community-based approach to build truly open-source LLMs

Screenshot https://instructlab.ai/

In vielen Blogbeiträgen habe ich darauf hingewiesen, dass es kritisch ist, Closed Sourced Modelle für KI-Anwendungen (GenAI) zu nutzen. Die hinterlegten Trainingsdaten können kritisch sein und auch das Hochladen eigener Daten sollte bei diesen Modellen möglichst nicht erfolgen. Siehe dazu Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

In der Zwischenzeit gibt es viele Large Language Models (LLMs), die Open Source basiert sind, und sich an der Definition von Open Source AI orientieren. Das reicht vielen Unternehmen allerdings nicht aus, da sie gerne ihre eigenen Daten mit den Möglichkeiten der LLMs kombiniert – und sicher – nutzen wollen. Siehe dazu Künstliche Intelligenz: 99% der Unternehmensdaten sind (noch) nicht in den Trainingsdaten der LLMs zu finden.

In der Zwischenzeit ist es mit Hilfe von InstructLab möglich, vorhandene LLMs mit eigenen Daten zu trainieren. Dabei handelt sich um eine Initiative von Redhat und IBM – weiterführende Informationen dazu finden Sie bei Hugging Fcae.

Wie funktioniert InstructLab? Das Prinzip ist relativ einfach: Ein bestehendes Modell (LLM) wird mit Hilfe von InstructLab und eigenen Daten erweitert, spezifiziert und trainiert – alles unter eigener Kontrolle und Open Source.

“InstructLab can augment models though skill recipes used to generate synthetik data for tuning. Experiments can be run locally on quantized version of these models” (InstructLab-Website).

In einem ausführlichen, deutschsprachigen artikel erklärt Redhat noch einmal die Zusammenhänge: “Unternehmen können die InstructLab-Tools zum Modellabgleich auch nutzen, um ihre eigenen privaten LLMs mit ihren Kompetenzen und ihrem Fachwissen zu trainieren” (Redhat vom 10.03.2025).

Es ist für mich entscheidend, dass diese Initiative Open Source basiert, nicht auf bestimmte Modelle beschränkt, und lokal angewendet werden kann.

Künstliche Intelligenz: Mit einem AI Router verschiedene Modelle kombinieren

An AI router that understands the capabilities of models in its library directs
a given inference request to the best model able to perform the task at hand (Thomas et al. 2025)

Wenn es um die bei der Anwendung von Künstlicher Intelligenz (GenAI) verwendeten Trainingsmodelle geht, stellt sich oft die Frage, ob ein großes Modell (LLM: Large Language Model) für alles geeignet ist – ganz im Sinne von “One size fits all”. Siehe dazu diesen Blogbeitrag zu den Vorteilen und Nachteilen dieser Vorgehensweise.

Eine andere Herangehensweise ist, mehrere spezialisierte kleinere Trainingsmodelle (SLM: Small Language Models) zu verwenden, die verschiedene Vorteile bieten. Siehe dazu Künstliche Intelligenz: Vorteile von Small Language Models (SLMs).

Neben den genannten Extremen gibt es noch Modelle, die dazwischen anzusiedeln sind, und daher als “midsized” bezeichnet werden können.

Diese drei Möglichkeiten sind beispielhaft in der Abbildung unter “Sample of model ecosystem” zusammengefasst. Erfolgt also eine neue Anfrage über den “New data point” an den AI Router, so kann der vorher trainierte AI Router das geeignete Trainingsmodell (Small, Midsized, Large) zuweisen.

Die Autoren (Thomas et al. 2025) konnten in verschiedenen Tests zeigen, dass ein guter Mix an geeigneten Modellen, zusammen mit einem gut trainierten AI Router bessere und wirtschaftlichere Ergebnisse erzielt.

Die Vorteile liegen auf der Hand: Sie sparen Geld, reduzieren die Latenz und helfen der Umwelt. Diese Punkte sind gerade für Kleine und Mittlere Unternehmen (KMU) interessant.

GPM (2025): Künstliche Intelligenz im Projektkontext – Studie

Es ist schon eine Binsenweisheit, dass Künstliche Intelligenz (GenAI) alle Bereiche der Gesellschaft mehr oder weniger berühren wird. Das ist natürlich auch im Projektmanagement so. Dabei ist es immer gut, wenn man sich auf verlässliche Quellen, und nicht auf Berater-Weisheiten verlässt.

Eine dieser Quellen ist die Gesellschaft für Projektmanagement e.V., die immer wieder Studien zu verschiedenen Themen veröffentlicht. In der Studie GPM (2025): Gehalt und Karriere im Projektmanagement. Sonderthema: Die Anwendung Künstlicher Intelligenz im Projektmanagement findet sich auf Seite 13 folgende Zusammenfassung:

Künstliche Intelligenz im Projektkontext
Künstliche Intelligenz (KI) wird im Bereich Projektmanagement in der Mehrheit der Unternehmen eingesetzt, allerdings in noch geringem Maße.
(1) KI-basierte Tools werden insgesamt eher selten genutzt, wenn sie zum Einsatz kommen, dann sind es hauptsächlich ChatGPT, Jira, MS Pilot oder eigenentwickelte Tools.
(2) Es zeichnet sich kein eindeutiger Projektmanagement-Bereich ab, in dem KI bevorzugt zum Einsatz kommt. Am deutlichsten noch in der Projektplanung und in der Projektinitiierung, am seltensten im Projektportfolio- und im Programmmanagement.
(3) Der Nutzen der KI wird tendenziell eher positiv gesehen, insbesondere als Unterstützung der alltäglichen Arbeit, zur Erleichterung der Arbeit im Projektmanagement und zur Erhöhung der Produktivität.
(4) Der Beitrag von KI zu einem höheren Projekterfolg wird von der Mehrheit der Befragten nicht gesehen – allerdings nur von einer knappen Mehrheit.
(5) Es besteht eine grundlegende Skepsis gegenüber KI, was verschiedene Leistungsparameter im Vergleich zum Menschen betrifft. Alle hierzu gestellten Fragen wie Fehleranfälligkeit, Genauigkeit, Konsistenz der Information oder Konsistenz der Services wurden mehrheitlich zu Gunsten des Menschen bewertet.
(6) Die überwiegende Mehrheit der befragten Projektmanagerinnen und Projektmanager teilt diverse Ängste gegenüber der KI nicht, wie z. B. diese werde Jobs vernichten oder dem Menschen überlegen sein.”
Quelle: GPM (2025). Anmerkung: Im Originaltext wurden Aufzählungszeichen verwendet. Um besser auf einzelnen Punkte einzugehen, habe ich diese nummeriert, was somit keine Art von Priorisierung darstellt.

An dieser Stelle möchte ich nur zwei der hier genannten Ergebnisse kommentieren:

Punkt (1): Es wird deutlich, dass hauptsächlich Closed Source Modelle verwendet werden. Möglicherweise ohne zu reflektieren, was mit den eigenen Daten bei der Nutzung passiert – gerade wenn auch noch eigene, projektspezifische Daten hochgeladen werden. Besser wäre es, ein Open Source basiertes KI-System und später Open Source basierte KI-Agenten zu nutzen. Dazu habe ich schon verschiedene Blogbeiträge geschrieben. Siehe dazu beispielhaft Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Punkt (6): Es geht bei der Nutzung von KI nicht immer um die “Vernichtung” (Was für ein schreckliches Wort) von Jobs, sondern darum, dass viele verschiedene Aufgaben (Tasks) in Zukunft von KI autonom bearbeitet werden können. Siehe dazu auch The Agent Company: KI-Agenten können bis zu 30% der realen Aufgaben eines Unternehmens autonom übernehmen.

Was unterscheidet Künstliche Intelligenz von Suchmaschinen?

Conceptual technology illustration of artificial intelligence. Abstract futuristic background

Man könnte meinen, dass Künstliche Intelligenz (GenAI) doch nur eine Weiterentwicklung bekannter Suchmaschinen ist, doch dem ist nicht so. In einem Paper wird alles noch ausführlicher beschrieben. Hier nur ein Auszug:

“The intermediation role played by AI systems is altogether new: where the role of search engines has traditionally been to surface the most relevant links to answers of the user’s query, AI systems typically expose directly an answer… For the large number of content producers whose sustainability relies on direct exposure to (or interactions with) the final end user, this lack of reliable exposure makes it unappealing to leave their content crawlable for AI-training purposes.” (Hazaël-Massieux, D. (2024): Managing exposure of Web content to AI systems | PDF.

Für viele Content-Anbieter ist die Vorgehensweise der GenAI-Modelle von großem Nachteil, da diese direkte Ergebnisse liefern, und die Interaktionen mit dem User (wie bei den bisher üblichen Suchmaschinen-Ergebnissen) entfallen können. Die bekannten GenAI-Modelle (Closed Source) nutzen einerseits die vorab antrainierten Daten und andererseits live content (summarize this page), und machen daraus ein Milliarden-Geschäft.

Demgegenüber stehen erste allgemeine Entwicklungen wie EU AI Act, Urheberrecht, Datenschutz usw., die allerdings nicht ausreichend sind, sich als Content-Anbieter (Person, Unternehmen, Organisation, Verwaltung usw.) vor der Vorgehensweise der Tech-Giganten zu schützen.

Es müssen neue, innovative Lösungen gefunden werden.

Dabei wäre es gut, wenn jeder Content-Anbieter mit Hilfe eines einfachen Verfahrens (Framework) entscheiden könnte, ob und wie sein Content für die Allgemeinheit, für Suchmaschinen, für KI-Modelle verwendet werden darf.

… und genau so etwas gibt es in ersten Versionen.

Über diese Entwicklungen schreibe ich in einem der nächsten Blog-Beiträge noch etwas ausführlicher.

Von GenAI zu Agentic AI bedeutet, eine andere Perspektive einzunehmen, und andere Kompetenzen zu entwickeln

WEF (2024): Navigating the AI Frontier. A Primer on the Evolution and Impact of AI Agents

Alle reden und schreiben über KI (Künstliche Intelligenz / AI: Artificial Intelligence) und meinen damit meistens GenAI. Bei den verschiedenen KI-Anwendungen geht es mehrheitlich darum, Abläufe mit ihren verschiedenen Tasks zu unterstützen. Siehe dazu beispielsweise Künstliche Intelligenz beeinflusst den gesamten Lebenszyklus der Software-Entwicklung. Ähnliches findet man auch bei anderen Branchen wie z.B. der Kommunikationsbranche usw.

Diese vielfältigen Möglichkeiten faszinieren Menschen und Organisationen so sehr, dass sie das auch bei den entsprechenden Kompetenzentwicklungen als einen der Schwerpunkte sehen. Hervorheben möchte ich hier beispielsweise das oft erwähnte Prompt-Engineering.

Betrachten wir allerdings neuere KI-Entwicklungen, so wird immer deutlicher, dass es in der nahen Zukunft immer mehr darum gehen wird, mit KI-Agenten (Agentic AI) umzugehen. Dabei verändern sich allerdings die Perspektiven auf die Nutzung von KI grundlegend. Der folgende Absatz zeigt das deutlich auf:

“Quite simply, today, most people use AI in a task-oriented workflow (for example, to finish a code stub or summarize a document), whereas agents are goal oriented. You give an AI agent a task, and it will get it done and even plan future actions without needing your explicit guidance or intervention. Working with agents requires a change in perspective: instead of designing an AI driven app to run some specific tasks, you use an agentic approach that focuses on outcomes and objectives. An agent will try to achieve a desired outcome and will figure out on its own which tasks are necessary” (Thomas, R.; Zikopoulos, P.; Soule, K. 2025).

Die in dem Zusammenhang mit KI thematisierten Kompetenzen waren und sind immer noch zu sehr auf den “task-oriented workflow” ausgerichtet. Dabei benötigen wird bei der eher “goal oriented”, also ergebnisorientierten (zielorientierten) Herangehensweise, andere Kompetenzen.

Ich bin gespannt, wie die vielen KI-Kompetenzmodelle diese Entwicklungen abfangen werden. Denn: Kaum ist das eher task-oriented Kompetenzmodell veröffentlicht, muss schon nachgebessert werden. In der Logik dieser Kompetenzmodelle wird es wohl bald eine Weiterentwicklung geben, die in Zukunft “AI Agentic” – Kompetenzen in den Mittelpunkt stellt, usw. usw. Ob das für Menschen und Organisationen einen guten (stabilen) Rahmen für ein modernes Kompetenzmanagement bietet?

Wie Sie als Leser meines Blogs wissen, stehe ich diesen KI-Kompetenzmodellen etwas kritisch gegenüber, da sie zu “Bindestrich”-Kompetenzen (Digitale Kompetenzen, Agile Kompetenzen, KI-Kompetenzen) führen, die sich in großen Teilen verändern müssen. Meines Erachtens ist es besser, allgemein von Kompetenzen von Selbstorganisationsdispositionen zu sprechen – und zwar auf den Ebenen Individuum, Gruppe, Organisation und Netzwerk – natürlich auch unter dem Aspekt der Nutzung von KI. Siehe dazu Kompetenzmanagement.

Künstliche Intelligenz beeinflusst den gesamten Lebenszyklus der Software-Entwicklung

High-level software development life cycle (McKinsey (2024): The gen AI skills revolution: Rethinking your talent strategy)

Wie in dem Beitrag von McKinsey (2024) ausführlich erläutert wird, beeinflusst Künstliche Intelligenz (GenAI) alle Schritte/Phasen der Softwareentwicklung. Drüber hinaus werden in Zukunft immer mehr KI-Agenten einzelne Tasks eigenständig übernehmen, oder sogar über Multi-Agenten-Systeme ganze Entwicklungsschritte.

Die Softwareentwicklung hat dazu beigetragen, dass Anwendungen der Künstlichen Intelligenz heute überhaupt möglich sind. Es kann allerdings sein, dass Künstliche Intelligenz viele Softwareentwickler und deren Unternehmen überflüssig macht.

Möglicherweise ist in Zukunft auch jeder Einzelne Mensch in der Lage, sich mit Künstlicher Intelligenz kleine erste Programme schreiben zu lassen – ohne dass Programmierkenntnisse erforderlich sind. Ganz im Sinne von Low Code, No Code und Open Source.

So eine Entwicklung kann als Reflexive Innovation bezeichnet werden: “Die Revolution frisst ihre eigenen Kinder” (Quelle). Siehe dazu ausführlicher Freund, R.; Chatzopoulos, C.; Lalic, D. (2011): Reflexive Open Innovation in Central Europe.

Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

Quelle: https://alia.gob.es/

Es ist schon erstaunlich, wie unreflektiert viele Privatpersonen, Organisationen oder auch Öffentliche Verwaltungen Künstliche Intelligenz (AI / GenAI) von den bekannten Tech-Unternehmen nutzen. Natürlich sind diese Closed Source AI Models, oder auch Open Weights Models, sehr innovativ und treiben durch immer mehr neue Funktionen die Anwender vor sich her. Viele kommen dabei gar nicht richtig zum Nachdenken. Möglicherweise ist das ja auch so gewollt….

Die Notwendigkeit, Open Source AI zu nutzen wird gerade im Hinblick auf die europäischen Rahmenbedingungen immer wichtiger. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Hinzu kommt noch, dass es immer mehr länderspezifische KI-Modelle gibt, die den sprachlichen Kontext, und damit die sprachlichen Besonderheiten besser abbilden. Die wichtigsten LLM (Closed Source AI) sind mit englischsprachigen Daten trainiert und übersetzen dann in die jeweilige Sprache. Das klappt zwar recht gut, doch fehlt es gerade bei Innovationen, oder kulturellen regionalen Besonderheiten, an der genauen Passung.

Die spanische Verwaltung hat nun die Initiative ALIA gestartet, die 100% öffentlich finanziert ist, und eine KI-Ressource für alle Spanisch sprechenden Menschen sein soll. Dazu gehören auch frei verfügbare AI Modelle (LLM) (…)

“(…) to generate ethical and trustworthy AI standards, with open-source and transparent models, guaranteeing the protection of fundamental rights, the protection of intellectual property rights and the protection of personal data, and developing a  framework of best practices in this field (Vasquez in OSOR 2025).

“ALIA es una iniciativa pionera en la Unión Europea que busca proporcionar una infraestructura pública de recursos de IA, como modelos de lenguaje abiertos y transparentes, para fomentar el impulso del castellano y lenguas cooficiales -catalán y valenciano, euskera y gallego- en el desarrollo y despliegue de la IA en el mundo” (ALIA Website)

Es freut mich zu sehen, wie die einzelnen europäischen Regionen oder Länder Initiativen starten, die die europäischen, oder auch regionalen Besonderheiten berücksichtigen – und das alles auf Open Source Basis. Siehe dazu auch

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.