Die Grafik illustriert den Zusammenhang noch einmal anhand der zwei Dimensionen Degree of Openness und Completeness. Man sieht hier deutlich, dass der Firmenname OpenAI dazu führen kann, z.B. ChatGPT von OpenAI als Open Source AI zu sehen, obwohl es komplett intransparent ist und somit in die Kategorie Closed Source AI gehört. Die Open Weights Models liegen irgendwo zwischen den beiden Polen und machen es nicht einfacher, wirkliche Open Source AI zu bestimmen.
Eine erste Entscheidungshilfe kann die Definition zu Open Source AI sein, die seit 2024 vorliegt. Anhand der (recht wenigen) Kriterien kann man schon eine erste Bewertung der Modelle vornehmen.
In der Zwischenzeit hat sich auch die Wissenschaft dem Problem angenommen und erste Frameworks veröffentlicht. Ein erstes Beispiel dafür ist hier zu finden:
White et al. (2024): The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency, and Usability in Artificial Intelligence | Quelle).
Wie schon in mehreren Blogbeiträgen erläutert, haben wir das Ziel, einen souveränen Arbeitsplatz zu gestalten, bei dem u.a. auch Künstliche Intelligenz so genutzt werden kann, dass alle eingegebenen und generierten Daten auf unserem Server bleiben.
Dazu haben wir LocalAI (Open Source) auf unserem Server installiert. Damit können wir aktuell aus mehr als 700 frei verfügbaren KI-Modellen je nach Bedarf auswählen. Zu beachten ist hier, dass wir nur Open Source AI nutzen wollen. Siehe dazu auch AI: Was ist der Unterschied zwischen Open Source und Open Weights Models?
Bei den verschiedenen Recherchen sind wir auch auf OLMo gestoßen. OLMo 2 ist eine LLM-Familie (Large Language Models), die von Ai2 – einer Not for Profit Organisation – entwickelt wurde und zur Verfügung gestellt wird:
“OLMo 2 is a family of fully-open language models, developed start-to-finish with open and accessible training data, open-source training code, reproducible training recipes, transparent evaluations, intermediate checkpoints, and more” (Source: https://allenai.org/olmo).
Unter den verschiedenen Modellen haben wir uns die sehr spezielle Version allenai_olmocr-7b-0225 in unserer LocalAI installiert – siehe Abbildung.
“olmOCR is a document recognition pipeline for efficiently converting documents into plain text” (ebd.)
Wir sind uns alle einig, dass Daten eine bedeutende Ressource für einzelne Personen, Unternehmen, Organisationen und ganze Gesellschaften darstellen. Einerseits müssen Daten offen verfügbar sein, andererseits allerdings auch geschützt werden. Insofern macht es Sinn, verschiedene Kategorien für Daten zu unterscheiden:
“Open data: data that is freely accessible, usable and shareable without restrictions, typically under an open license or in the Public Domain36 (for example, OpenStreetMap data); Public data: data that is accessible to anyone without authentication or special permissions (for example, Common Crawl data). Note that this data can degrade as web content becomes unavailable; Obtainable data: data that can be obtained or acquired through specific actions, such as licensing deals, subscriptions or permissions (for example, ImageNet data); Unshareable non-public data: data that is confidential or protected by privacy laws, agreements or proprietary rights and cannot be legally shared or publicly distributed” (Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).
Es zeigt sich, dass es viele frei verfügbare Daten gibt, doch auch Daten, die geschützt werden sollten.
Die amerikanischen Tech-Konzerne möchten alle Daten für ihre Trainingsdatenbanken (LLM: Large Language Models) kostenlos nutzen können. Das Ziel ist hier, die maximale wirtschaftliche Nutzung im Sinne einiger weniger Großkonzerne. Dabei sind die Trainingsdaten der bekannten KI-Modelle wie ChatGPT etc. nicht bekannt/transparent. Die Strategie von Big-Tech scheint also zu sein,: Alle Daten “abgreifen” und seine eigenen Daten und Algorithmen zurückhalten. Ein interessantes Geschäftsmodell, dass sehr einseitig zu sein scheint.
Bei der chinesische Perspektive auf Daten liegt der Schwerpunkt darauf, mit Hilfe aller Daten politische Ziele der Einheitspartei zu erfüllen. Daran müssen sich alle Bürger und die Unternehmen – auch die KI-Unternehmen – halten.
In Europa versuchen wir einen hybriden Ansatz zu verfolgen. Einerseits möchten wir in Europa Daten frei zugänglich machen, um Innovationen zu fördern. Andererseits wollen wir allerdings auch, dass bestimmte Daten von Personen, Unternehmen, Organisationen und Öffentlichen Verwaltungen geschützt werden.
An dieser Stelle versucht die aktuelle amerikanische Regierung, Druck auf Europa auszuüben, damit Big-Tech problemlos an alle europäischen Daten kommen kann. Ob das noch eine amerikanische Regierung ist, oder nicht schon eine kommerziell ausgerichtete Administration wird sich noch zeigen. Das letzte Wort werden wohl die Gerichte in den USA haben.
Ich hoffe, dass wir in Europa unseren eigenen Weg finden, um offene Daten in großem Umfang verfügbar zu machen, und um gleichzeitig den Schutz sensibler Daten zu gewährleisten.
Wenn Sie die bekannten Trainingsmodelle (LLM: Large Language Modells) bei ChatGPT (OpenAI), Gemini (Google) usw. nutzen, werden Sie sich irgendwann als Privatperson, oder auch als Organisation Fragen, was mit ihren eingegebenen Texten (Prompts) oder auch Dateien, Datenbanken usw. bei der Verarbeitung Ihrer Anfragen und Aufgaben passiert.
Antwort: Das weiß keiner so genau, da die KI-Modelle nicht offen und transparent sind.
Um die eigene Souveränität über unsere Daten zu erlangen, haben wir seit einiger Zeit angefangen, uns Stück für Stück von kommerziellen Anwendungen zu lösen. Angefangen haben wir mit NEXTCLOUD, das auf unserem eigenen Server läuft. NEXTCLOUD Hub 9 bietet die Möglichkeiten, die wir alle von Microsoft kennen.
Dazu kommt in der Zwischenzeit auch ein NEXTCLOUD-Assistent, mit dem wir auch KI-Modelle nutzen können, die auf unserem Serverlaufen. Dieses Konzept einer LOCALAI – also einer lokal angewendeten KI – ist deshalb sehr interessant, da wir nicht nur große LLM hinterlegen, sondern auch fast beliebig viele spezialisierte kleinere Trainingsmodelle (SML: Small Language Models) nutzen können. Siehe dazu Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet.
Wie in der Abbildung zu sehen, können wir mit dem NEXTCLOUD Assistenten auch Funktionen nutzen, und auch eigene Dateien hochladen. Dabei werden die Dateien auch mit Hilfe von dem jeweils lokal verknüpften lokalen KI-Modell bearbeitet. Alle Daten bleiben dabei auf unserem Server – ein unschätzbarer Vorteil.
Die Kombination von LOCALAI mit eigenen Daten auf dem eigenen Server macht dieses Konzept gerade für Kleine und Mittlere Unternehmen (KMU) interessant.
Die verschiedenen Modelle können dazu vorab ausgewählt werden. Für diesen Test habe ich Llama 3.3 70B ausgewählt, was in der Abbildung zu erkennen ist. LLama 3.3 ist ein nur textbasiertes Modell, das den Vorteil hat, deutlich weniger Rechenaufwand zu benötigen, als z.B. LLama 3.1 405B.
Die Eingabetext wird unten in dem dunkelgrau hinterlegten Feld eingetragen und erscheint dann in dem blau hinterlegten Feld.
Eingabe: Welche Prozessschritte gehören zu einem Innovationsprozess?
Das Ergebnis (Grün hinterlegt) kann sich für den ersten kleinen Test sehen lassen. Die Prozessschritte sind genannt und erläutert.
Die Antwortzeit war relativ kurz, was bei der Modellgröße von 70B durchaus überrascht. Immerhin haben wir keine besondere Rechenleistung installiert.
Der Vorteil ist auch hier: Alle Daten der KI-Anwendung bleiben auf unserem Server .
Künstliche Intelligenz (KI) wirkt schon heute – und in Zukunft noch viel mehr – in alle Bereiche der Gesellschaft. Die Frage ist allerdings, wie Künstliche Intelligenz (AI: Artificial Intelligence) genutzt wird.
Wir versuchen daher einen alternativen Weg aufzuzeigen, und auch umzusetzen. Dabei setzen wir auf die lokale Verarbeitung der Daten und auf die Nutzung von Open Source AI.
Dazu haben wir LocalAI (LokalKI) auf unserem Server installiert. Wie der Abbildung zu entnehmen ist, stehen uns aktuell 713 frei verfügbare Modelle zur Verfügung, die unterschiedlich genutzt werden können:
Zunächst ist es möglich, einzelne Modelle auszuwählen und mit Eingaben (Texte) zu testen. Dabei können Sie schon erkennen, welche Modelle für welche Anwendungen geeignet sind. Denn: Es wird in Zukunft immer mehr darauf ankommen, die geeigneten (kleineren) Modelle für die jeweiligen Prozessschritte im Unternehmen, oder privat zu nutzen.
Der Vorteil liegt auf der Hand: Mit LocalAI bleiben alle Daten auf unserem Server. Ein nicht zu unterschätzender Punkt – heute, und viel stärker noch in Zukunft.
In unserer Kollaborationsplattform Nextcloud (Open Source) kann an jeder beliebigen Stelle der Nextcloud-Assistent aufgerufen werden. Wie in der Abbildung zu sehen ist, ergeben sich hier viele Möglichkeiten, die auch mit lokalen Large Language Models (LLM) verknüpft sind.
In dem Beispiel ist CHAT MIT KI angewählt. Diese Funktion ist in unserer LocalAI mit Llama 3.2 (LLM) verknüpft.
Als Prompt habe ich zum Test einfach “Erstelle eine Liste mit Stakeholdern für das Projekt Website” eingegeben.
Es kam zu einer Nachfrage, die ich beantwortet habe. Anschließend wurde eine durchaus brauchbare Liste möglicher Stakeholder für ein Projekt “Website” ausgegeben.
Nach verschiedenen kleinen Einstellungen am Server waren die Antwortzeiten sehr gut.
Der große Vorteil bei dieser Arbeitsweise ist allerdings: Alle Daten bleiben auf unserem Server – LocalAI eben.
In verschiedenen Blogbeiträgen hatte ich darauf hingewiesen, dass es für Organisationen in Zukunft immer wichtiger wird, die digitale Abhängigkeiten von kommerziellen IT-/AI-Anbietern zu reduzieren – auch bei der Anwendung von Künstlicher Intelligenz (AI: Artificial Intelligence), da die Trainingsdatenbanken der verschiedenen Anbieter
(1) nicht transparent sind, (2) es zu Urheberrechtsverletzungen kommen kann, (3) und nicht klar ist, was mit den eigenen eingegeben Daten, z.B. über Prompts oder hochgeladenen Dateien, passiert.
Es ist natürlich leicht, darüber zu schreiben und die Dinge anzuprangern, schwieriger ist es, Lösungen aufzuzeigen, die die oben genannten Punkte (1-3) umgehen. Zunächst einmal ist die Basis von einer Lösung Free Open Source Software (FOSS). Eine FOSS-Alternative zu OpenAI, Claude usw. haben wir auf einem Server installiert und die ersten drei Modelle installiert. Was bedeutet das?
Wenn wir in einem Chat einen Prompt (Text, Datei..) eingeben, greift das System auf das ausgewählte Modell (LLM: Large Language Model) zu, wobei die Daten (Eingabe, Verarbeitung, Ausgabe) alle auf unserem Server bleiben.
In dem Blogbeitrag Digitale Souveränität: Europa, USA und China im Vergleich wird deutlich gemacht, dass Europa, die USA und China unterschiedliche Ansätze bei dem Thema Digitale Souveränität haben. Diese grundsätzlichen Unterschiede zeigen sich auch in den vielen Large Language Models (Trainingsdatenbanken), die für KI-Anwendungen benötigt werden.
Es wundert daher nicht, dass in dem Paper Buyl et al. (2024): Large Language Models Reflect The Ideology of their Creators folgende Punkte hervorgehoben werden:
“The ideology of an LLM varies with the prompting language.”
In dem Paper geht es um die beiden Sprachen Englisch und Chinesisch für Prompts, bei denen sich bei den Ergebnissen Unterschiede gezeigt haben.
“An LLM’s ideology aligns with the region where it was created.”
Die Region spielt für die LLMs eine wichtige Rolle. China und die USA dominieren hier den Markt.
“Ideologies also vary between western LLMs.”
Doch auch bei den “westlichen LLMs” zeigen sich Unterschiede, die natürlich jeweils Einfluss auf die Ergebnisse haben, und somit auch manipulativ sein können.
Die Studie zeigt wieder einmal, dass es für einzelne Personen, Gruppen, Organisationen oder auch Gesellschaften in Europa wichtig ist, LLMs zu nutzen, die die europäischen Sprachen unterstützen, und deren Trainingsdaten frei zur Verfügung stehen. Das gibt es nicht? Doch das gibt es – siehe dazu
Bei den verschiedenen kommerziellen Anwendungen ist es fast schon Standard, dass Assistenten eingeblendet und angewendet werden, um Künstliche Intelligenz in den jeweiligen Prozess oder Task zu nutzen. Dabei ist immer noch weitgehend unklar, welche Trainingsdaten bei den verschiedenen Trainingsdatenbanken (LLM: Large Language Models) genutzt werden, und was beispielsweise mit den jeweils eigenen Eingaben (Prompts) passiert. Nicht zuletzt werden sich die kommerziellen Anbieter die verschiedenen Angebote mittelfristig auch gut bezahlen lassen.
Es kann daher nützlich sein, Open Source AI zu nutzen.
Praktisch kann das mit NEXTCLOUD und dem darin enthaltenen Nextcloud-Assistenten umgesetzt werden. Jede Funktion (Abbildung) kann man mit einer Traingsdatenbank verbinden, die wirklich transparent und Open Source ist. Solche Trainingsdatenbanken stehen beispielsweise bei Hugging Face zur Verfügung. Darüber hinaus bleiben alle Daten auf dem eigenen Server – ein heute unschätzbarer Wert . Wir werden diesen Weg weitergehen und in Zukunft dazu noch verschiedene Blogbeiträge veröffentlichen. Siehe dazu auch