Künstliche Intelligenz: Für agglutinierende Sprachen wie Ungarisch, Baskisch, etc. reichen die üblichen KI-Modelle nicht aus

Image by István Asztalos from Pixabay

In früheren Beiträgen hatte ich schon darauf hingewiesen, dass der Großteil der Trainingsdaten der bekannten KI-Modelle aus englischsprachigen (chinesischen) Elementen zusammengesetzt sind. Das Open Source AI-Modell für Europa Teuken 7B hat hier angesetzt, und enthält daher mehr als 50% non englisch data.

Es stellt sich dabei natürlich auch die Frage, warum es so wichtig ist, Trainingsdaten in den jeweiligen (europäischen) Sprachen zu haben. Dazu habe ich eine Erläuterung zur ungarischen, bzw. finnischen Sprache gefunden:

„The current landscape is dominated by models pretrained on vast corpora composed predominantly of English and a few other high-resource languages, creating a significant performance and resource disparity for less-resourced linguistic communities (Zhong et al. 2025). For medium-resource languages such as Hungarian, a Finno-Ugric language characterized by its agglutinative nature and rich morphology, this gap is particularly pronounced. Off-the-shelf multilingual models often exhibit suboptimal performance due to insufficient representation in training data and tokenizers that are ill-suited to language specific morphology. This is particularly the case for open-source models, which visibly struggle with Hungarian grammar“ (Cesibi et al. 2026).

Die hier angesprochenen Agglutinierenden Sprachen (Wikipedia) sind gar nicht so selten. Neben der hier angesprochenen ungarischen Sprache, sind das auch Finnisch, Baskisch, Japanisch, Türkisch usw. Schauen Sie sich dazu bitte die angegebene Wikipedia-Seite an, Sie werden überrascht sein.

Für all diese Sprachen macht es also Sinn, spezifische Trainingsdaten in der jeweiligen Sprache, inkl. der jeweiligen Besonderheiten zu entwickeln. In der Zwischenzeit ist dieser Trend auch deutlich zu beobachten, nicht nur bei den Agglutinierenden Sprachen.

Diese speziellen KI-Modelle können gerade für kultur-, sprachen- und kontextbezogene Innovationen geeignet sein. Siehe dazu auch

Open EuroLLM: Ein Modell Made in Europe – eingebunden in unsere LocalAI

Künstliche Intelligenz: Das polnische Sprachmodell PLLuM

Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

UNESCO (2025): AI and the future of education

Ausschnitt von der Titelseite

Es ist deutlich zu erkennen, dass die Entwicklungen im Bereich der Künstlichen Intelligenz Auswirkungen auf den Bildungssektor haben. Die Frage ist nur, ob die sich daraus entstehenden Fragen nur aus der Perspektive von Tech-Unternehmen beantwortet werden sollten. Es ist meines Erachtens in diesem Zusammenhang gut, dass sich die UNESCO diesem Thema ausgewogen und unter einer globalen Perspektive angenommen hat.

UNESCO (2025): AI and the future of education. Disruptions, dilemmas and directions | LINK

Gleich im einleitenden Summary weist die UNESCO darauf hin, dass ein Drittel der Weltbevölkerung offline ist. Das wiederum hat Auswirkungen darauf, welches Wissen, welche Werte und welche Sprachen in den KI-Systemen, und somit auch in der KI-unterstützten Bildung, dominieren.

„Artificial intelligence (AI) is reshaping the way we learn, teach and make sense of the world around us, but it is doing so unequally. While one-third of humanity remains offline, access to the most cutting-edge AI models is reserved for those with subscriptions, infrastructure and linguistic advantage. These disparities not only restrict who can use AI, but also determine whose knowledge, values and languages dominate the systems that increasingly influence education. This anthology explores the philosophical, ethical and pedagogical dilemmas posed by disruptive influence of AI in education“ (UNESCO 2025).