Künstliche Intelligenz: Für agglutinierende Sprachen wie Ungarisch, Baskisch, etc. reichen die üblichen KI-Modelle nicht aus

Image by István Asztalos from Pixabay

In früheren Beiträgen hatte ich schon darauf hingewiesen, dass der Großteil der Trainingsdaten der bekannten KI-Modelle aus englischsprachigen (chinesischen) Elementen zusammengesetzt sind. Das Open Source AI-Modell für Europa Teuken 7B hat hier angesetzt, und enthält daher mehr als 50% non englisch data.

Es stellt sich dabei natürlich auch die Frage, warum es so wichtig ist, Trainingsdaten in den jeweiligen (europäischen) Sprachen zu haben. Dazu habe ich eine Erläuterung zur ungarischen, bzw. finnischen Sprache gefunden:

„The current landscape is dominated by models pretrained on vast corpora composed predominantly of English and a few other high-resource languages, creating a significant performance and resource disparity for less-resourced linguistic communities (Zhong et al. 2025). For medium-resource languages such as Hungarian, a Finno-Ugric language characterized by its agglutinative nature and rich morphology, this gap is particularly pronounced. Off-the-shelf multilingual models often exhibit suboptimal performance due to insufficient representation in training data and tokenizers that are ill-suited to language specific morphology. This is particularly the case for open-source models, which visibly struggle with Hungarian grammar“ (Cesibi et al. 2026).

Die hier angesprochenen Agglutinierenden Sprachen (Wikipedia) sind gar nicht so selten. Neben der hier angesprochenen ungarischen Sprache, sind das auch Finnisch, Baskisch, Japanisch, Türkisch usw. Schauen Sie sich dazu bitte die angegebene Wikipedia-Seite an, Sie werden überrascht sein.

Für all diese Sprachen macht es also Sinn, spezifische Trainingsdaten in der jeweiligen Sprache, inkl. der jeweiligen Besonderheiten zu entwickeln. In der Zwischenzeit ist dieser Trend auch deutlich zu beobachten, nicht nur bei den Agglutinierenden Sprachen.

Diese speziellen KI-Modelle können gerade für kultur-, sprachen- und kontextbezogene Innovationen geeignet sein. Siehe dazu auch

Open EuroLLM: Ein Modell Made in Europe – eingebunden in unsere LocalAI

Künstliche Intelligenz: Das polnische Sprachmodell PLLuM

Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

Künstliche Intelligenz: Das polnische Sprachmodell PLLuM

Es ist schon erstaunlich, wie dynamisch sich in Europa länderspezifische Large Language Models (LLMs) und europäische LLMs entwickeln.

In 2024 wurde beispielsweise Teuken 7B veröffentlicht, über das wir in unserem Blog auch berichtet hatten. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Weiterhin wurde Open EuroLLM veröffentlicht, ein „Large language Model made in Europe built to support all official 24 EU languages„. Die generierten Modelle sind Multimodal, Open Source, High Performance und eben Multilingual.

Zusätzlich zur europäischen Ebene gibt es allerdings auch immer mehr spezielle, länderspezifische Large Language Models (LLMs), wie das in 2025 veröffentlichte PLLuM ((Polish Large Language Model). Ich möchte an dieser Stelle drei wichtige Statements wiedergeben, die auf der Website zu finden sind:

Polnische Sprachunterstützung
Ein wichtiges Element dieses Projekts ist die Entwicklung eines umfassenden und vielfältigen Datensatzes, der die Komplexität der polnischen Sprache widerspiegelt.

Die polnische Sprachunterstützung geht darauf ein, dass die üblichen proprietären LLM überwiegend in englischer (chinesischer) Sprache trainiert wurden, und dann entsprechende Übersetzungen liefern. Diese sind für den Alltagsgebrauch durchaus nützlich, doch wenn es um die kulturellen, kontextspezifischen Nuancen einer Sprache geht, reichen diese großen KI-Modelle der Tech-Konzerne nicht aus.

Offene Zusammenarbeit und einfache Bedienung
Das PLLuM-Modell wird unter einer offenen Lizenz veröffentlicht. Die Modelle können über die Huggingface -Plattform heruntergeladen werden. Eine grafische Benutzeroberfläche (GUI) in Form eines Chats ist ebenfalls verfügbar.

Das PLLuM-Modell setzt auf Offenheit, Transparenz und einfache Bedienung. Es versteht sich daher von selbst, dass die Modelle bei Huggingface zur Verfügung stehen und genutzt werden können. Probieren Sie den Chat einfach einmal aus:

Sicherheit und Ethik
Wir stellen sicher, dass unser Modell sicher und frei von schädlichen und falschen Inhalten ist, was für seinen Einsatz in der öffentlichen Verwaltung von entscheidender Bedeutung ist.

Nicht zuletzt sind Sicherheit und Ethik wichtige Eckpunkte für das polnische Modell. Es unterscheidet sich dadurch von den bekannten großen KI-Modellen der Tech-Konzerne. Siehe dazu auch Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

Interessant ist auch, dass auf der PLLuM-Website darauf hingewiesen wird, dass man durch diese KI-Modelle auch Innovationen fördern möchte. Wieder ein direkter Bezug zwischen Open Source AI und Innovationen.

Vertrauen Sie daher besser wirklichen Open Source AI – Anwendungen: Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Wir behandeln oftmals Menschen wie Roboter und Künstliche Intelligenz wie Kreative

In den letzten Jahren wird immer deutlicher, dass Künstliche Intelligenz unser wirtschaftliches und gesellschaftliches Leben stark durchdringen wird. Dabei scheint es so zu sein, dass die Künstliche Intelligenz der Menschlichen Intelligenz weit überlegen ist. Beispielsweise kann Künstliche Intelligenz (GenAI) äußerst kreativ sein, was in vielfältiger Weise in erstellten Bildern oder Videos zum Ausdruck kommt. In so einem Zusammenhang behandeln wir Künstliche Intelligenz (AI: Artificial Intelligence) wie Kreative und im Gegensatz dazu Menschen eher wie Roboter. Dazu habe ich folgenden Text gefunden:

„We are treating humans as robots and ai as creatives. it is time to flip the equation“ (David de Cremer in Bornet et al. 2025).

David de Cremer ist der Meinung, dass wir die erwähnte „Gleichung“ umstellen sollten. Dem kann ich nur zustimmen, denn das aktuell von den Tech-Giganten vertretene Primat der Technik über einzelne Personen und sogar ganzen Gesellschaften sollte wieder auf ein für alle Beteiligten gesundes Maß reduziert werden. Damit meine ich, dass die neuen technologischen Möglichkeiten einer Künstlichen Intelligenz mit den Zielen von Menschen/Gesellschaften und den möglichen organisatorischen und sozialen Auswirkungen ausbalanciert sein sollten.

Der japanische Ansatz einer Society 5.0 ist hier ein sehr interessanter Ansatz. Auch in Europa gibt es Entwicklungen, die in diese Richtung gehen: Beispielsweise mit den Möglichkeiten von EuroLLM, einem Europäischen Large Language Model (LLM) auf Open Source Basis. Siehe dazu auch Open EuroLLM: Ein Modell Made in Europe – eingebunden in unsere LocalAI.

Open EuroLLM: Ein Modell Made in Europe – eingebunden in unsere LocalAI

Eigener Screenshot: Installation von Open Euro LLM 9B Instruct in unserer LocalAI

Es ist schon erstaunlich, wie dynamisch sich länderspezifische (Polen, Spanien, Schweden usw.) Large Language Models (LLMs) und europäische LLMs entwickeln. In 2024 wurde Teuken 7B veröffentlicht, über das wir in unserem Blog auch berichtet hatten. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data. Weiterhin haben wir damals auch schon Teuken 7B in unsere LocalAI integriert.

Nun also Open EuroLLM, ein Large language Model made in Europe built to support all official 24 EU languages. Die generierten Modelle sind Multimodal, Open Source, High Performance und eben Multilingual. Interessant dabei ist, dass damit Innovation angestoßen werden sollen.

Das große Modell eurollm-9b-instruct haben wir in unserer LocalAI installiert. Die Abbildung zeigt den Installationsprozess. Ich bin sehr gespannt darauf, wie sich das Modell in unserer LocalAI im Vergleich zu anderen Modellen schlägt. Möglicherweise werden wir auch noch einmal das kleine Modell 1.7B installieren, das auf Huggingface verfügbar ist.

Alle Modelle, die wir in unserer LocalAI installieren, können wir auch je nach Anwendung in unserer Nextcloud über den Nextcloud Assistenten und der Funktion „Chat mit KI“ nutzen. Dabei bleiben alle generierten Daten auf unserem Server – ganz im Sinne einer Digitalen Souveränität.