
In vielen Blogbeiträgen habe ich darauf hingewiesen, dass es kritisch ist, Closed Sourced Modelle für KI-Anwendungen (GenAI) zu nutzen. Die hinterlegten Trainingsdaten können kritisch sein und auch das Hochladen eigener Daten sollte bei diesen Modellen möglichst nicht erfolgen. Siehe dazu Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.
In der Zwischenzeit gibt es viele Large Language Models (LLMs), die Open Source basiert sind, und sich an der Definition von Open Source AI orientieren. Das reicht vielen Unternehmen allerdings nicht aus, da sie gerne ihre eigenen Daten mit den Möglichkeiten der LLMs kombiniert – und sicher – nutzen wollen. Siehe dazu Künstliche Intelligenz: 99% der Unternehmensdaten sind (noch) nicht in den Trainingsdaten der LLMs zu finden.
In der Zwischenzeit ist es mit Hilfe von InstructLab möglich, vorhandene LLMs mit eigenen Daten zu trainieren. Dabei handelt sich um eine Initiative von Redhat und IBM – weiterführende Informationen dazu finden Sie bei Hugging Fcae.
Wie funktioniert InstructLab? Das Prinzip ist relativ einfach: Ein bestehendes Modell (LLM) wird mit Hilfe von InstructLab und eigenen Daten erweitert, spezifiziert und trainiert – alles unter eigener Kontrolle und Open Source.
“InstructLab can augment models though skill recipes used to generate synthetik data for tuning. Experiments can be run locally on quantized version of these models” (InstructLab-Website).
In einem ausführlichen, deutschsprachigen artikel erklärt Redhat noch einmal die Zusammenhänge: “Unternehmen können die InstructLab-Tools zum Modellabgleich auch nutzen, um ihre eigenen privaten LLMs mit ihren Kompetenzen und ihrem Fachwissen zu trainieren” (Redhat vom 10.03.2025).
Es ist für mich entscheidend, dass diese Initiative Open Source basiert, nicht auf bestimmte Modelle beschränkt, und lokal angewendet werden kann.
