Open LLMs for Transparent AI in Europe

Screenshot Open Euro LLM

Wie schon in dem Beitrag Digitale Souveränität: Europa, USA und China im Vergleich dargestellt, haben China, die USA und Europa unterschiedliche Herangehensweisen, mit Künstlicher Intelligenz umzugehen.

Es wundert daher nicht, dass sich die neue Regierung in den USA darüber beschwert, dass Europa die Entwicklung und Nutzung Künstlicher Intelligenz in Schranken regulieren will. Ich hoffe, Europa ist selbstbewusst genug, sich diesem rein marktwirtschaftlich ausgerichteten Vorgehen der USA zu widersetzen, ohne die Möglichkeiten einer Nutzung und Entwicklung von Künstlicher Intelligenz zu stark einzuschränken. Der Einsatz Künstlicher Intelligenz wird gravierende gesellschaftliche Veränderungen nach sich ziehen, sodass es auch erforderlich, gesellschaftlich auf diese Entwicklung zu antworten.

Neben China und den USA kann es Europa durchaus gelingen, beide Schwerpunkte (USA: Kapital getrieben, China: Politik getrieben) zur Nutzung von Künstliche Intelligenz in einem Hybriden Europäischen KI-Ansatz zu verbinden. Das wäre gesellschaftlich eine Innovation, die durchaus für andere Länder weltweit interessant sein könnte.

Open Euro LLM ist beispielsweise so eine Initiative, die durchaus vielversprechend ist. Wie in dem Screenshot zur Website zu erkennen ist, setzt man bei Open Euro LLM auf Offenheit und Transparenz, und auch auf europäische Sprachen in den Trainingsdatenbanken der Large Language Models (LLM). Beispielhaft soll hier der Hinweis auf Truly Open noch einmal herausgestellt werden:

Truly Open
including data, documentation, training and testing code, and evaluation metrics; including community involvement

In Zukunft wird es meines Erachtens sehr viele kleine, spezialisierte Trainingsdatenbanken (SLM: Small Language Models) geben, die kontextbezogen in AI-Agenten genutzt werden können. Wenn es um Kontext geht, muss auch die kulturelle Vielfalt Europas mit abgebildet werden. Dabei bieten sich europäische Trainingsdatenbanken an. Siehe dazu auch

CAIRNE: Non-Profit Organisation mit einer europäischen Perspektive auf Künstliche Intelligenz

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

AI Agents: Langflow (Open Source) auf unserem Server installiert

Ollama: AI Agenten mit verschiedenen Open Source Modellen entwickeln

Künstliche Intelligenz (KI oder AI: Artificial Intelligence) einzusetzen ist heute in vielen Organisationen schon Standard. Dabei nutzen immer noch viele die von den kommerziellen Anbietern angebotenen KI-Systeme. Dass das kritisch sein kann, habe ich schon in vielen Blogbeiträgen erläutert.

Wir wollen einen anderen Weg, aufzeigen, der die Digitale Souveränität für Organisationen und Privatpersonen ermöglicht: Open Source AI und eine Open Source Kollaborationsplattform. Siehe dazu Von der digitalen Abhängigkeit zur digitalen Souveränität.

Im ersten Schritt haben wir unsere NEXTCLOUD über einen ASSISTENTEN mit Künstlicher Intelligenz verknüpft, wobei alle Daten auf unserem Server bleiben. Siehe LocalAI (Free Open Source Software): Chat mit KI über den Nextcloud-Assistenten.

Im zweiten Schritt haben wir für die Entwicklung von AI-Agenten Langflow (Open Source) auf unserem Server installiert. Dabei ist es möglich, ChatGPT von OpenAI, oder über Ollama sehr viele unterschiedliche Open Source Modelle zu nutzen. Wir wollen natürlich den zweiten Weg gehen und haben daher Ollama auf unserem Server installiert.

Ollama Startseite auf unserem Server: Eigener Screenshot

In der Abbildung ist zu sehen, dass wir für den ersten Test zunächst vier Modelle installiert haben, inkl. DeepSeek-R1 und LLama 3.2. Demnächst werden wir noch weitere Modelle installieren, die wir dann in Langflow integrieren, um AI-Agenten zu entwickeln. In den kommenden Wochen werden wir über die Erfahrungen berichten.

AI Agents: Langflow (Open Source) auf unserem Server installiert

Das nächste große Ding in der KI-Entwicklung ist der Einsatz von KI-Agenten (AI Agents). Wie schon in vielen Blogbeiträgen erwähnt, gehen wir auch hier den Weg dafür Open Source zu verwenden. Bei der Suche nach entsprechenden Möglichkeiten bin ich recht schnell auf Langflow gestoßen. Die Vorteile lagen aus meiner Sicht auf der Hand:

(1) Komponenten können per Drag&Drop zusammengestellt werden.
(2) Langflow ist Open Source und kann auf unserem eigenen Server installiert werden. Alle Daten bleiben somit auf unserem Server.

Die Abbildung zeigt einen Screenshot von Langflow – installiert auf unserem Server.

Auf der linken Seite der Abbildung sind viele verschiedene Komponenten zu sehen, die in den grau hinterlegten Bereich hineingezogen werden können. Per Drag&Drop können INPUT-Komponenten und OUTPUT-Format für ein KI-Modell zusammengestellt – konfiguriert – werden. Wie weiterhin zu erkennen, ist standardmäßig OpenAI als KI-Modell hinterlegt. Für die Nutzung wird der entsprechende API-Schlüssel eingegeben.

Mein Anspruch an KI-Agenten ist allerdings, dass ich nicht OpenAI mit ChatGPT nutzen kann, sondern auf unserem Server verfügbare Trainingsdaten von Large Language Models (LLM) oder Small Language Models (SML), die selbst auch Open Source AI sind. Genau diesen Knackpunkt haben wir auch gelöst. Weitere Informationen dazu gibt es in einem der nächsten Blogbeiträge. Siehe in der Zwischenzeit auch

Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Digitale Souveränität: Europa, USA und China im Vergleich

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Eigener Screenshot

Künstliche Intelligenz (KI) wirkt schon heute – und in Zukunft noch viel mehr – in alle Bereiche der Gesellschaft. Die Frage ist allerdings, wie Künstliche Intelligenz (AI: Artificial Intelligence) genutzt wird.

Ein Weg ist dabei, sich von den Vorgaben der eher geschlossenen KI-Systeme treiben zu lassen. Das hat durchaus Vorteile, allerdings auch Nachteile. Siehe dazu ausführlicher Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Wir versuchen daher einen alternativen Weg aufzuzeigen, und auch umzusetzen. Dabei setzen wir auf die lokale Verarbeitung der Daten und auf die Nutzung von Open Source AI.

Dazu haben wir LocalAI (LokalKI) auf unserem Server installiert. Wie der Abbildung zu entnehmen ist, stehen uns aktuell 713 frei verfügbare Modelle zur Verfügung, die unterschiedlich genutzt werden können:

Zunächst ist es möglich, einzelne Modelle auszuwählen und mit Eingaben (Texte) zu testen. Dabei können Sie schon erkennen, welche Modelle für welche Anwendungen geeignet sind. Denn: Es wird in Zukunft immer mehr darauf ankommen, die geeigneten (kleineren) Modelle für die jeweiligen Prozessschritte im Unternehmen, oder privat zu nutzen.

Weiterhin können wir jedes der Modelle auch in NEXTCLOD über den NEXTCLOUD-ASSISTENTEN und der Funktion CHAT MIT KI nutzen. Siehe dazu LocalAI (Free Open Source Software): Chat mit KI über den Nextcloud-Assistenten.

Der Vorteil liegt auf der Hand: Mit LocalAI bleiben alle Daten auf unserem Server. Ein nicht zu unterschätzender Punkt – heute, und viel stärker noch in Zukunft.

Lokale KI-Anwendungen: Erster Test mit dem Modell Llama 3.2

Screenshot von unserer lokalen KI-Anwendung (LokalKI)

Wie Sie wissen, haben wir auf einem Server die Möglichkeit eingerichtet, KI-Modelle lokal auszuwählen und zu testen, bzw. zu nutzen – LokalKI oder LocalAI. Siehe dazu Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet.

Die verschiedenen Modelle können dazu vorab ausgewählt werden. Für diesen Test habe ich Llama 3.2 ausgewählt, was in der Abbildung zu erkennen ist. Der folgende einfache Prompt wurde im Textfeld (Unten in der Abbildung) von mir eingegeben:

Prompt (Blau hinterlegt): Du bist Projektmanager des Projekts Website. Erstelle eine Übersicht zu möglichen Stakeholder in Tabellenform. Ausgabe in einem Worddokument.

Das Ergebnis (Grün hinterlegt) kann sich durchaus sehen lassen. Die erste Übersicht zu möglichen Stakeholdern könnte genutzt und noch ein wenig angepasst werden.

Die Aufforderung, eine Tabelle in einer Worddatei zu erstellen wurde ignoriert, da das wohl in dieser Modell-Version nicht möglich ist. Das Ergebnis könnte ich natürlich selbst einfach in einer Worddatei kopieren.

Die Antwortzeit war relativ kurz was mich durchaus überrascht hat.

Insgesamt ist das Ergebnis natürlich noch nicht so, wie man das von ChatGPT usw. gewohnt ist, doch hier haben wir den Vorteil, dass alle Daten der KI-Anwendung auf unserem Server bleiben – auch wenn wir z.B. interne Dokumente hochladen.

Künstliche Intelligenz und Open Innovation

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Zunächst sollten Sie sich noch einmal klar machen, wie sich Closed Innovation und Open Innovation unterscheiden. Wie so oft, gibt es nicht nur die beiden Pole, sondern ein Innovations-Kontinuum (Roth 2008). Weiterhin finden Sie in dem Beitrag Künstliche Intelligenz im Innovationsprozess von Organisationen Hinweise dazu, welche Vorteile, bzw. Nachteile es geben kann, wenn für jeden Schritt im Innovationsprozess eines der bekannten KI-Modelle wie ChatGPT, Gemeni etc. genutzt wird.

In diesem Beitrag geht es mir darum aufzuzeigen, wie Künstliche Intelligenz bei Open Innovation genutzt werden kann. Wie der folgenden Tabelle zu entnehmen ist, kann zwischen der Verbesserung von Open Innovation durch KI (OI-Enhancing AI), einer Ermöglichung von Open Innovation durch KI (OI-Enabling AI) und der Ersetzung von Open Innovation durch KI (OI-Peplacing AI) unterschiedenen werden. Die jeweils genannten Beispiele zeigen konkrete Einsatzfelder.

DescriptionExamples
OI-Enhancing AIAI that enhances established forms of open innovation by utilizing the advantages of AI complemented with human involvementInnovation search
Partner search
Idea evaluation
Resource utilization
OI-Enabling AIAI that enables new forms of open innovation, based upon AI’s potential to coordinate and/or generate innovationAI-enabled markets
AI-enabled open business models
Federated learning
OI-Replacing AIAI that replaces or significantly reshapes established forms of open innovationAI ideation
Synthetic data
Multi-agent systems
Quelle: Holgersson  et al. (2024)

Alle drei Möglichkeiten – mit den jeweils genannten Beispielen – können von einem KI-Modell (z.B. ChatGPT oder Gemeni etc.) der eher kommerziell orientierten Anbieter abgedeckt werden. Dieses Vorgehen kann als One Sizes Fits All bezeichnet werden.

Eine andere Vorgehensweise wäre, verschiedene spezialisierte Trainingsmodelle (Large Language Models) für die einzelnen Prozessschritte einzusetzen. Ein wesentlicher Vorteil wäre, dass solche LLM viel kleiner und weniger aufwendig wären. Das ist gerade für Kleine und Mittlere Unternehmen (KMU) von Bedeutung.

Nicht zuletzt kann auch immer mehr leistungsfähige Open Source AI eingesetzt werden. Dabei beziehe ich mich auf die zuletzt veröffentlichte Definition zu Open Source AI. Eine Erkenntnis daraus ist: OpenAI ist kein Open Source AI. Die zuletzt veröffentlichten Modelle wie TEUKEN 7B oder auch Comon Corpus können hier beispielhaft für “wirkliche” Open source AI genannt werden.

Weiterhin speilen in Zukunft AI Agenten – auch Open Source – eine immer wichtigere Rolle.

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

Adobe: AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Die bekannten KI-Anwendungen (AI Apps) wie ChatGPT, Gemini usw. dominieren den Markt und setzen durch schnelle Neuerungen (Updates) Standards bei der Performance. Solche Angebote können als closed-source Large Language Models (LLMs) bezeichnet werden. Die Nutzung wird dabei durch wenig Transparenz bei den verwendeten Daten und durch immer mehr kostenpflichtige Angebote “erkauft”.

Diese schnelle Abhängigkeit von der jeweiligen Funktionsweise der verwendeten KI-Apps führt bei einem Wechsel – beispielsweise zu Open Source AI – zu erhöhten Switching Costs. Diesen Effekt nutzen die kommerziellen Anbieter, um ihr Geschäftsmodell weiter zu etablieren und zu kommerzialisieren.

Open Source AI (Definition) bedeutet u.a. die Transparenz bei den Trainingsdaten zu schaffen, und den Zugang für jeden zu ermöglichen. Meine Auffassung ist, dass Open Source AI in Zukunft für Privatpersonen, Organisationen und demokratische Gesellschaften besser ist. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Diese Ansicht wird auch von wissenschaftlichen Forschungen zu dem Thema gestützt. Eine aktuelle Veröffentlichung von Manchanda et al. (2024) beschreibt die Zusammenhänge wie folgt:

Closed-source LLMs continue to lead in performance, leveraging proprietary datasets and significant computational investments to excel in tasks requiring advanced generative abilities, multi-step reasoning, and broad generalization. However, their success comes at the cost of limited transparency and restricted accessibility, which creates challenges for external validation and replication.

The closed-source approach also consolidates resources and technological power within a few institutions. In so doing, it poses barriers to equitable AI development and raising concerns about reproducibility of outcomes and organizational accountability. By contrast, open-source LLMs emphasize accessibility and collaborative development. While these models often trail closed-source systems in absolute performance, they have made significant progress in narrowing the gap through methods such as Low-Rank Adaptation (LoRA) and quantization. These strategies enable efficient, competitive outcomes even in resource-constrained environments. By utilizing diverse datasets across languages and contexts, open-sourcemodels demonstrate their capacity to address realworld challenges with inclusivity. This democratic ethos has already empowered researchers and developers globally, and is likely to continue to do so” (Manchanda et al 2024).

Siehe dazu ausführlicher

Open Source AI Definition

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Quelle: Link

In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).

Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

In dem Beitrag Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. hatte ich schon im August 2024 darauf hingewiesen, dass die Open Source Initiative (OSI) an einer Definition arbeitet die klärt, was unter Open Source AI zu verstehen ist.

Das ist deshalb besonders wichtig, da beispielsweise OpenAI sich eher zu einem von Microsoft dominierten Geschäftsmodell entwickelt. Auch LLama von Meta ist nicht wirklich Open Source, da einige wichtige Kriterien von Open Source AI nicht erfüllt sind. Meta verwendet dennoch in seinen Marketingaktivitäten bewusst den Begriff “Open Source” – hony soit qui mal y pense. Die am 21.10.2024 veröffentlichte Version von Open Source AI ist ein Release Candidate 2 (RC2):

An Open Source AI is an AI system made available under terms and in a way that grant the freedoms to:

Use the system for any purpose and without having to ask for permission.
Study how the system works and inspect its components.
Modify the system for any purpose, including to change its output.
Share the system for others to use with or without modifications, for any purpose.

These freedoms apply both to a fully functional system and to discrete elements of a system. A precondition to exercising these freedoms is to have access to the preferred form to make modifications to the system (Quelle).

Alle Large Language Models (LLM), die für Anwendungen der Künstlichen Intelligenz (Artificial Intelligence) genutzt werden, sollten also diesen Anforderungen genügen. Alleine der erste Eindruck zeigt schon, dass dies bei den meisten LLM nicht der Fall ist. Es wird Zeit, dass sich die aktuellen Anbieter nicht mehr mit dem Attribut “Open Source” schmücken können.