InstructLab: A new community-based approach to build truly open-source LLMs

Screenshot https://instructlab.ai/

In vielen Blogbeiträgen habe ich darauf hingewiesen, dass es kritisch ist, Closed Sourced Modelle für KI-Anwendungen (GenAI) zu nutzen. Die hinterlegten Trainingsdaten können kritisch sein und auch das Hochladen eigener Daten sollte bei diesen Modellen möglichst nicht erfolgen. Siehe dazu Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

In der Zwischenzeit gibt es viele Large Language Models (LLMs), die Open Source basiert sind, und sich an der Definition von Open Source AI orientieren. Das reicht vielen Unternehmen allerdings nicht aus, da sie gerne ihre eigenen Daten mit den Möglichkeiten der LLMs kombiniert – und sicher – nutzen wollen. Siehe dazu Künstliche Intelligenz: 99% der Unternehmensdaten sind (noch) nicht in den Trainingsdaten der LLMs zu finden.

In der Zwischenzeit ist es mit Hilfe von InstructLab möglich, vorhandene LLMs mit eigenen Daten zu trainieren. Dabei handelt sich um eine Initiative von Redhat und IBM – weiterführende Informationen dazu finden Sie bei Hugging Fcae.

Wie funktioniert InstructLab? Das Prinzip ist relativ einfach: Ein bestehendes Modell (LLM) wird mit Hilfe von InstructLab und eigenen Daten erweitert, spezifiziert und trainiert – alles unter eigener Kontrolle und Open Source.

“InstructLab can augment models though skill recipes used to generate synthetik data for tuning. Experiments can be run locally on quantized version of these models” (InstructLab-Website).

In einem ausführlichen, deutschsprachigen artikel erklärt Redhat noch einmal die Zusammenhänge: “Unternehmen können die InstructLab-Tools zum Modellabgleich auch nutzen, um ihre eigenen privaten LLMs mit ihren Kompetenzen und ihrem Fachwissen zu trainieren” (Redhat vom 10.03.2025).

Es ist für mich entscheidend, dass diese Initiative Open Source basiert, nicht auf bestimmte Modelle beschränkt, und lokal angewendet werden kann.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!