Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

Quelle: https://alia.gob.es/

Es ist schon erstaunlich, wie unreflektiert viele Privatpersonen, Organisationen oder auch Öffentliche Verwaltungen Künstliche Intelligenz (AI / GenAI) von den bekannten Tech-Unternehmen nutzen. Natürlich sind diese Closed Source AI Models, oder auch Open Weights Models, sehr innovativ und treiben durch immer mehr neue Funktionen die Anwender vor sich her. Viele kommen dabei gar nicht richtig zum Nachdenken. Möglicherweise ist das ja auch so gewollt….

Die Notwendigkeit, Open Source AI zu nutzen wird gerade im Hinblick auf die europäischen Rahmenbedingungen immer wichtiger. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Hinzu kommt noch, dass es immer mehr länderspezifische KI-Modelle gibt, die den sprachlichen Kontext, und damit die sprachlichen Besonderheiten besser abbilden. Die wichtigsten LLM (Closed Source AI) sind mit englischsprachigen Daten trainiert und übersetzen dann in die jeweilige Sprache. Das klappt zwar recht gut, doch fehlt es gerade bei Innovationen, oder kulturellen regionalen Besonderheiten, an der genauen Passung.

Die spanische Verwaltung hat nun die Initiative ALIA gestartet, die 100% öffentlich finanziert ist, und eine KI-Ressource für alle Spanisch sprechenden Menschen sein soll. Dazu gehören auch frei verfügbare AI Modelle (LLM) (…)

“(…) to generate ethical and trustworthy AI standards, with open-source and transparent models, guaranteeing the protection of fundamental rights, the protection of intellectual property rights and the protection of personal data, and developing a  framework of best practices in this field (Vasquez in OSOR 2025).

“ALIA es una iniciativa pionera en la Unión Europea que busca proporcionar una infraestructura pública de recursos de IA, como modelos de lenguaje abiertos y transparentes, para fomentar el impulso del castellano y lenguas cooficiales -catalán y valenciano, euskera y gallego- en el desarrollo y despliegue de la IA en el mundo” (ALIA Website)

Es freut mich zu sehen, wie die einzelnen europäischen Regionen oder Länder Initiativen starten, die die europäischen, oder auch regionalen Besonderheiten berücksichtigen – und das alles auf Open Source Basis. Siehe dazu auch

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Das Kontinuum zwischen Closed Source AI und Open Source AI

In dem Beitrag AI: Was ist der Unterschied zwischen Open Source und Open Weights Models? hatte ich schon einmal darauf hingewiesen, dass es zwischen den Polen Closed Source AI und Open Source AI ein Kontinuum weiterer Möglichkeiten gibt.

Die Grafik illustriert den Zusammenhang noch einmal anhand der zwei Dimensionen Degree of Openness und Completeness. Man sieht hier deutlich, dass der Firmenname OpenAI dazu führen kann, z.B. ChatGPT von OpenAI als Open Source AI zu sehen, obwohl es komplett intransparent ist und somit in die Kategorie Closed Source AI gehört. Die Open Weights Models liegen irgendwo zwischen den beiden Polen und machen es nicht einfacher, wirkliche Open Source AI zu bestimmen.

Eine erste Entscheidungshilfe kann die Definition zu Open Source AI sein, die seit 2024 vorliegt. Anhand der (recht wenigen) Kriterien kann man schon eine erste Bewertung der Modelle vornehmen.

In der Zwischenzeit hat sich auch die Wissenschaft dem Problem angenommen und erste Frameworks veröffentlicht. Ein erstes Beispiel dafür ist hier zu finden:

White et al. (2024): The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence | Quelle).

LocalAI: Das Open Source Modell olmOCR installiert

Eigener Screenshot

Wie schon in mehreren Blogbeiträgen erläutert, haben wir das Ziel, einen souveränen Arbeitsplatz zu gestalten, bei dem u.a. auch Künstliche Intelligenz so genutzt werden kann, dass alle eingegebenen und generierten Daten auf unserem Server bleiben.

Dazu haben wir LocalAI (Open Source) auf unserem Server installiert. Damit können wir aktuell aus mehr als 700 frei verfügbaren KI-Modellen je nach Bedarf auswählen. Zu beachten ist hier, dass wir nur Open Source AI nutzen wollen. Siehe dazu auch AI: Was ist der Unterschied zwischen Open Source und Open Weights Models?

Bei den verschiedenen Recherchen sind wir auch auf OLMo gestoßen. OLMo 2 ist eine LLM-Familie (Large Language Models), die von Ai2 – einer Not for Profit Organisation – entwickelt wurde und zur Verfügung gestellt wird:

“OLMo 2 is a family of fully-open language models, developed start-to-finish with open and accessible training data, open-source training code, reproducible training recipes, transparent evaluations, intermediate checkpoints, and more” (Source: https://allenai.org/olmo).

Unter den verschiedenen Modellen haben wir uns die sehr spezielle Version allenai_olmocr-7b-0225 in unserer LocalAI installiert – siehe Abbildung.

“olmOCR is a document recognition pipeline for efficiently converting documents into plain text” (ebd.)

Siehe dazu auch Efficient PDF Text Extraction with Vision Language Models.

Selbstverständlich werden wir demnächst auch noch andere Möglichkeiten aus der OLMo-Familie testen und Erfahrungen sammeln.

Daten als Ressource: Um welche Kategorien von Daten geht es?

Wir sind uns alle einig, dass Daten eine bedeutende Ressource für einzelne Personen, Unternehmen, Organisationen und ganze Gesellschaften darstellen. Einerseits müssen Daten offen verfügbar sein, andererseits allerdings auch geschützt werden. Insofern macht es Sinn, verschiedene Kategorien für Daten zu unterscheiden:

Open data: data that is freely accessible, usable and shareable without restrictions, typically under an open license or in the Public Domain36 (for example, OpenStreetMap data);
Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed”
(Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

Es zeigt sich, dass es viele frei verfügbare Daten gibt, doch auch Daten, die geschützt werden sollten.

Die amerikanischen Tech-Konzerne möchten alle Daten für ihre Trainingsdatenbanken (LLM: Large Language Models) kostenlos nutzen können. Das Ziel ist hier, die maximale wirtschaftliche Nutzung im Sinne einiger weniger Großkonzerne. Dabei sind die Trainingsdaten der bekannten KI-Modelle wie ChatGPT etc. nicht bekannt/transparent. Die Strategie von Big-Tech scheint also zu sein,: Alle Daten “abgreifen” und seine eigenen Daten und Algorithmen zurückhalten. Ein interessantes Geschäftsmodell, dass sehr einseitig zu sein scheint.

Bei der chinesische Perspektive auf Daten liegt der Schwerpunkt darauf, mit Hilfe aller Daten politische Ziele der Einheitspartei zu erfüllen. Daran müssen sich alle Bürger und die Unternehmen – auch die KI-Unternehmen – halten.

In Europa versuchen wir einen hybriden Ansatz zu verfolgen. Einerseits möchten wir in Europa Daten frei zugänglich machen, um Innovationen zu fördern. Andererseits wollen wir allerdings auch, dass bestimmte Daten von Personen, Unternehmen, Organisationen und Öffentlichen Verwaltungen geschützt werden.

An dieser Stelle versucht die aktuelle amerikanische Regierung, Druck auf Europa auszuüben, damit Big-Tech problemlos an alle europäischen Daten kommen kann. Ob das noch eine amerikanische Regierung ist, oder nicht schon eine kommerziell ausgerichtete Administration wird sich noch zeigen. Das letzte Wort werden wohl die Gerichte in den USA haben.

Ich hoffe, dass wir in Europa unseren eigenen Weg finden, um offene Daten in großem Umfang verfügbar zu machen, und um gleichzeitig den Schutz sensibler Daten zu gewährleisten.

Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

LocalAI: KI-Modelle und eigene Daten kombinieren

NEXTCLOUD ASSISTENT – Eigener Screenshot

Wenn Sie die bekannten Trainingsmodelle (LLM: Large Language Modells) bei ChatGPT (OpenAI), Gemini (Google) usw. nutzen, werden Sie sich irgendwann als Privatperson, oder auch als Organisation Fragen, was mit ihren eingegebenen Texten (Prompts) oder auch Dateien, Datenbanken usw. bei der Verarbeitung Ihrer Anfragen und Aufgaben passiert.

Antwort: Das weiß keiner so genau, da die KI-Modelle nicht offen und transparent sind.

Ein wirklich offenes und transparentes KI-Modell orientiert sich an den Vorgaben für solche Modelle, die in der Zwischenzeit veröffentlicht wurden. Siehe dazu beispielsweise Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Um die eigene Souveränität über unsere Daten zu erlangen, haben wir seit einiger Zeit angefangen, uns Stück für Stück von kommerziellen Anwendungen zu lösen. Angefangen haben wir mit NEXTCLOUD, das auf unserem eigenen Server läuft. NEXTCLOUD Hub 9 bietet die Möglichkeiten, die wir alle von Microsoft kennen.

Dazu kommt in der Zwischenzeit auch ein NEXTCLOUD-Assistent, mit dem wir auch KI-Modelle nutzen können, die auf unserem Serverlaufen. Dieses Konzept einer LOCALAI – also einer lokal angewendeten KI – ist deshalb sehr interessant, da wir nicht nur große LLM hinterlegen, sondern auch fast beliebig viele spezialisierte kleinere Trainingsmodelle (SML: Small Language Models) nutzen können. Siehe dazu Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet.

In dem Blogbeitrag LocalAI (Free Open Source Software): Chat mit KI über den Nextcloud-Assistenten haben wir dargestellt, wie im NEXTCLOUD Assistenten mit einer lokalen KI gearbeitet werden kann.

Wie in der Abbildung zu sehen, können wir mit dem NEXTCLOUD Assistenten auch Funktionen nutzen, und auch eigene Dateien hochladen. Dabei werden die Dateien auch mit Hilfe von dem jeweils lokal verknüpften lokalen KI-Modell bearbeitet. Alle Daten bleiben dabei auf unserem Server – ein unschätzbarer Vorteil.

Die Kombination von LOCALAI mit eigenen Daten auf dem eigenen Server macht dieses Konzept gerade für Kleine und Mittlere Unternehmen (KMU) interessant.

Locale KI-Anwendung: Erster Test mit dem Modell LLama 3.3 70B

Eigener Screenshot

Wie Sie wissen, haben wir auf unserem Server die Möglichkeit eingerichtet, KI-Modelle lokal auszuwählen und zu testen, bzw. zu nutzen – LokalKI oder LocalAI. Siehe dazu Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet.

Die verschiedenen Modelle können dazu vorab ausgewählt werden. Für diesen Test habe ich Llama 3.3 70B ausgewählt, was in der Abbildung zu erkennen ist. LLama 3.3 ist ein nur textbasiertes Modell, das den Vorteil hat, deutlich weniger Rechenaufwand zu benötigen, als z.B. LLama 3.1 405B.

Die Eingabetext wird unten in dem dunkelgrau hinterlegten Feld eingetragen und erscheint dann in dem blau hinterlegten Feld.

Eingabe: Welche Prozessschritte gehören zu einem Innovationsprozess?

Das Ergebnis (Grün hinterlegt) kann sich für den ersten kleinen Test sehen lassen. Die Prozessschritte sind genannt und erläutert.

Die Antwortzeit war relativ kurz, was bei der Modellgröße von 70B durchaus überrascht. Immerhin haben wir keine besondere Rechenleistung installiert.

Der Vorteil ist auch hier: Alle Daten der KI-Anwendung bleiben auf unserem Server .

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Eigener Screenshot

Künstliche Intelligenz (KI) wirkt schon heute – und in Zukunft noch viel mehr – in alle Bereiche der Gesellschaft. Die Frage ist allerdings, wie Künstliche Intelligenz (AI: Artificial Intelligence) genutzt wird.

Ein Weg ist dabei, sich von den Vorgaben der eher geschlossenen KI-Systeme treiben zu lassen. Das hat durchaus Vorteile, allerdings auch Nachteile. Siehe dazu ausführlicher Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Wir versuchen daher einen alternativen Weg aufzuzeigen, und auch umzusetzen. Dabei setzen wir auf die lokale Verarbeitung der Daten und auf die Nutzung von Open Source AI.

Dazu haben wir LocalAI (LokalKI) auf unserem Server installiert. Wie der Abbildung zu entnehmen ist, stehen uns aktuell 713 frei verfügbare Modelle zur Verfügung, die unterschiedlich genutzt werden können:

Zunächst ist es möglich, einzelne Modelle auszuwählen und mit Eingaben (Texte) zu testen. Dabei können Sie schon erkennen, welche Modelle für welche Anwendungen geeignet sind. Denn: Es wird in Zukunft immer mehr darauf ankommen, die geeigneten (kleineren) Modelle für die jeweiligen Prozessschritte im Unternehmen, oder privat zu nutzen.

Weiterhin können wir jedes der Modelle auch in NEXTCLOD über den NEXTCLOUD-ASSISTENTEN und der Funktion CHAT MIT KI nutzen. Siehe dazu LocalAI (Free Open Source Software): Chat mit KI über den Nextcloud-Assistenten.

Der Vorteil liegt auf der Hand: Mit LocalAI bleiben alle Daten auf unserem Server. Ein nicht zu unterschätzender Punkt – heute, und viel stärker noch in Zukunft.

LocalAI (Free Open Source Software): Chat mit KI über den Nextcloud-Assistenten

LocalAI: Chat mit KI über den Nextcloud Assistenten

Wie Sie wissen, haben wir eine lokale KI (LokalKI) oder LocalAI installiert. Siehe dazu Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet.

In unserer Kollaborationsplattform Nextcloud (Open Source) kann an jeder beliebigen Stelle der Nextcloud-Assistent aufgerufen werden. Wie in der Abbildung zu sehen ist, ergeben sich hier viele Möglichkeiten, die auch mit lokalen Large Language Models (LLM) verknüpft sind.

In dem Beispiel ist CHAT MIT KI angewählt. Diese Funktion ist in unserer LocalAI mit Llama 3.2 (LLM) verknüpft.

Als Prompt habe ich zum Test einfach “Erstelle eine Liste mit Stakeholdern für das Projekt Website” eingegeben.

Es kam zu einer Nachfrage, die ich beantwortet habe. Anschließend wurde eine durchaus brauchbare Liste möglicher Stakeholder für ein Projekt “Website” ausgegeben.

Nach verschiedenen kleinen Einstellungen am Server waren die Antwortzeiten sehr gut.

Der große Vorteil bei dieser Arbeitsweise ist allerdings: Alle Daten bleiben auf unserem Server – LocalAI eben.

Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet

Quelle: Eigener Screenshot

In verschiedenen Blogbeiträgen hatte ich darauf hingewiesen, dass es für Organisationen in Zukunft immer wichtiger wird, die digitale Abhängigkeiten von kommerziellen IT-/AI-Anbietern zu reduzieren – auch bei der Anwendung von Künstlicher Intelligenz (AI: Artificial Intelligence), da die Trainingsdatenbanken der verschiedenen Anbieter

(1) nicht transparent sind,
(2) es zu Urheberrechtsverletzungen kommen kann,
(3) und nicht klar ist, was mit den eigenen eingegeben Daten, z.B. über Prompts oder hochgeladenen Dateien, passiert.

Siehe dazu auch Digitale Souveränität: Europa, USA und China im Vergleich. Nicht zuletzt werden die Kosten für die KI-Nutzung immer höher – beispielsweise bei Microsoft und der Nutzung des KI-Assistenten Copilot: KI treibt Microsoft-365-Preise in die Höhe (golem vom 17.01.2025).

Es ist natürlich leicht, darüber zu schreiben und die Dinge anzuprangern, schwieriger ist es, Lösungen aufzuzeigen, die die oben genannten Punkte (1-3) umgehen. Zunächst einmal ist die Basis von einer Lösung Free Open Source Software (FOSS). Eine FOSS-Alternative zu OpenAI, Claude usw. haben wir auf einem Server installiert und die ersten drei Modelle installiert. Was bedeutet das?

Wenn wir in einem Chat einen Prompt (Text, Datei..) eingeben, greift das System auf das ausgewählte Modell (LLM: Large Language Model) zu, wobei die Daten (Eingabe, Verarbeitung, Ausgabe) alle auf unserem Server bleiben.

Wie in der Abbildung zu sehen ist, haben wir neben Llama 3.2 auch Teuken 7B hinterlegt. Gerade Teuken 7B basiert auf einem europäischen Ansatz für eine Trainingsdatenbank (LLM) in 24 Sprachen der Europäischen Union. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Wir werden diese Modelle in der nächsten Zeit testen und unsere Erkenntnisse in Blogbeiträgen darstellen.

Buyl et al. (2024): Large Language Models Reflect the Ideology of their Creators

In dem Blogbeitrag Digitale Souveränität: Europa, USA und China im Vergleich wird deutlich gemacht, dass Europa, die USA und China unterschiedliche Ansätze bei dem Thema Digitale Souveränität haben. Diese grundsätzlichen Unterschiede zeigen sich auch in den vielen Large Language Models (Trainingsdatenbanken), die für KI-Anwendungen benötigt werden.

Es wundert daher nicht, dass in dem Paper Buyl et al. (2024): Large Language Models Reflect The Ideology of their Creators folgende Punkte hervorgehoben werden:

“The ideology of an LLM varies with the prompting language.”

In dem Paper geht es um die beiden Sprachen Englisch und Chinesisch für Prompts, bei denen sich bei den Ergebnissen Unterschiede gezeigt haben.

“An LLM’s ideology aligns with the region where it was created.”

Die Region spielt für die LLMs eine wichtige Rolle. China und die USA dominieren hier den Markt.

“Ideologies also vary between western LLMs.”

Doch auch bei den “westlichen LLMs” zeigen sich Unterschiede, die natürlich jeweils Einfluss auf die Ergebnisse haben, und somit auch manipulativ sein können.

Die Studie zeigt wieder einmal, dass es für einzelne Personen, Gruppen, Organisationen oder auch Gesellschaften in Europa wichtig ist, LLMs zu nutzen, die die europäischen Sprachen unterstützen, und deren Trainingsdaten frei zur Verfügung stehen. Das gibt es nicht? Doch das gibt es – siehe dazu

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Open Source: Nextcloud-Assistent und Künstliche Intelligenz (KI).