Künstliche Intelligenz: Für agglutinierende Sprachen wie Ungarisch, Baskisch, etc. reichen die üblichen KI-Modelle nicht aus

Image by István Asztalos from Pixabay

In früheren Beiträgen hatte ich schon darauf hingewiesen, dass der Großteil der Trainingsdaten der bekannten KI-Modelle aus englischsprachigen (chinesischen) Elementen zusammengesetzt sind. Das Open Source AI-Modell für Europa Teuken 7B hat hier angesetzt, und enthält daher mehr als 50% non englisch data.

Es stellt sich dabei natürlich auch die Frage, warum es so wichtig ist, Trainingsdaten in den jeweiligen (europäischen) Sprachen zu haben. Dazu habe ich eine Erläuterung zur ungarischen, bzw. finnischen Sprache gefunden:

„The current landscape is dominated by models pretrained on vast corpora composed predominantly of English and a few other high-resource languages, creating a significant performance and resource disparity for less-resourced linguistic communities (Zhong et al. 2025). For medium-resource languages such as Hungarian, a Finno-Ugric language characterized by its agglutinative nature and rich morphology, this gap is particularly pronounced. Off-the-shelf multilingual models often exhibit suboptimal performance due to insufficient representation in training data and tokenizers that are ill-suited to language specific morphology. This is particularly the case for open-source models, which visibly struggle with Hungarian grammar“ (Cesibi et al. 2026).

Die hier angesprochenen Agglutinierenden Sprachen (Wikipedia) sind gar nicht so selten. Neben der hier angesprochenen ungarischen Sprache, sind das auch Finnisch, Baskisch, Japanisch, Türkisch usw. Schauen Sie sich dazu bitte die angegebene Wikipedia-Seite an, Sie werden überrascht sein.

Für all diese Sprachen macht es also Sinn, spezifische Trainingsdaten in der jeweiligen Sprache, inkl. der jeweiligen Besonderheiten zu entwickeln. In der Zwischenzeit ist dieser Trend auch deutlich zu beobachten, nicht nur bei den Agglutinierenden Sprachen.

Diese speziellen KI-Modelle können gerade für kultur-, sprachen- und kontextbezogene Innovationen geeignet sein. Siehe dazu auch

Open EuroLLM: Ein Modell Made in Europe – eingebunden in unsere LocalAI

Künstliche Intelligenz: Das polnische Sprachmodell PLLuM

Open Source AI: Veröffentlichung der ALIA AI Modelle für ca. 600 Millionen Spanisch sprechender Menschen weltweit

Künstliche Intelligenz: Das polnische Sprachmodell PLLuM

Es ist schon erstaunlich, wie dynamisch sich in Europa länderspezifische Large Language Models (LLMs) und europäische LLMs entwickeln.

In 2024 wurde beispielsweise Teuken 7B veröffentlicht, über das wir in unserem Blog auch berichtet hatten. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Weiterhin wurde Open EuroLLM veröffentlicht, ein „Large language Model made in Europe built to support all official 24 EU languages„. Die generierten Modelle sind Multimodal, Open Source, High Performance und eben Multilingual.

Zusätzlich zur europäischen Ebene gibt es allerdings auch immer mehr spezielle, länderspezifische Large Language Models (LLMs), wie das in 2025 veröffentlichte PLLuM ((Polish Large Language Model). Ich möchte an dieser Stelle drei wichtige Statements wiedergeben, die auf der Website zu finden sind:

Polnische Sprachunterstützung
Ein wichtiges Element dieses Projekts ist die Entwicklung eines umfassenden und vielfältigen Datensatzes, der die Komplexität der polnischen Sprache widerspiegelt.

Die polnische Sprachunterstützung geht darauf ein, dass die üblichen proprietären LLM überwiegend in englischer (chinesischer) Sprache trainiert wurden, und dann entsprechende Übersetzungen liefern. Diese sind für den Alltagsgebrauch durchaus nützlich, doch wenn es um die kulturellen, kontextspezifischen Nuancen einer Sprache geht, reichen diese großen KI-Modelle der Tech-Konzerne nicht aus.

Offene Zusammenarbeit und einfache Bedienung
Das PLLuM-Modell wird unter einer offenen Lizenz veröffentlicht. Die Modelle können über die Huggingface -Plattform heruntergeladen werden. Eine grafische Benutzeroberfläche (GUI) in Form eines Chats ist ebenfalls verfügbar.

Das PLLuM-Modell setzt auf Offenheit, Transparenz und einfache Bedienung. Es versteht sich daher von selbst, dass die Modelle bei Huggingface zur Verfügung stehen und genutzt werden können. Probieren Sie den Chat einfach einmal aus:

Sicherheit und Ethik
Wir stellen sicher, dass unser Modell sicher und frei von schädlichen und falschen Inhalten ist, was für seinen Einsatz in der öffentlichen Verwaltung von entscheidender Bedeutung ist.

Nicht zuletzt sind Sicherheit und Ethik wichtige Eckpunkte für das polnische Modell. Es unterscheidet sich dadurch von den bekannten großen KI-Modellen der Tech-Konzerne. Siehe dazu auch Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

Interessant ist auch, dass auf der PLLuM-Website darauf hingewiesen wird, dass man durch diese KI-Modelle auch Innovationen fördern möchte. Wieder ein direkter Bezug zwischen Open Source AI und Innovationen.

Vertrauen Sie daher besser wirklichen Open Source AI – Anwendungen: Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Loyal Agents – it all starts with trust

Website: https://loyalagents.org/

KI-Agenten sind aktuell in aller Munde. Gerade in Software-Unternehmen wurde schon früh damit angefangen, Agenten zu nutzen: KI-Agenten können bis zu 30% der realen Aufgaben eines Unternehmens autonom übernehmen.

Im Außenverhältnis, z.B. mit Kunden , wird es schon schwieriger, KI-Agenten einzusetzen, da hier weitergehende Herausforderungen zu bewältigen sind. Es wundert daher nicht, dass es an dieser Stelle Forschungsbedarf gibt.

In dem Projekt Loyal Agents arbeiten dazu beispielsweise das Stanford Digital Economy Lab und Consumer Report zusammen. Worum es ihnen geht, haben sie auf der Website Loyal Agents so formuliert:

„Agentic AI is transforming commerce and services; agents are negotiating, transacting and making decisions with growing autonomy and impact. While agents can amplify consumer power, there is also risk of privacy breaches, misaligned incentives, and manipulative business practices. Trust and security are essential for consumers and businesses alike“ (ebd.).

Dass Vertrauen und Sicherheit eine besonders wichtige Bedeutung in den Prozessen mit der Beteiligung von KI-Agenten haben, wird hier noch einmal deutlich – It all starts with Trust. Ähnliche Argumente kommen von Bornet, der sich für Personalized AI Twins ausspricht:

Personal AI Twins represent a profound shift from generic to deeply personalized agents. Unlike today´s systems that may maintain the memory of past interactions but remain fundamentally the same for all users, true AI twins will deeply internalize an individual´s thinking patterns, values, communication style, and domain expertise“ (Bornet et al. 2025).

Möglicherweise können einzelne Personen in Zukunft mit Hilfe von Personalized AI Twins oder Loyal Agents ihre eigenen Ideen besser selbst entwickeln, oder sogar als Innovationen in den Markt bringen. Dabei empfiehlt sich aus meiner Sicht die Nutzung von Open Source AI – ganz im Sinne einer Digitalen Souveränität und im Sinne von Open User Innovation nach Eric von Hippel. Siehe dazu auch

Eric von Hippel (2017): Free Innovation

Von Democratizing Innovation zu Free Innovation

Open Source AI: SERA – Open Coding Agents at low cost

Source: https://allenai.org/blog/open-coding-agents

Das Ai2 Institut hat immer wieder interessante KI-Modelle auf Open Source Basis veröffentlicht. Unter anderem sind das die OLMO 3 – Familien oder auch MOLMO mit Schwerpunkt auf Videos. Mit der SERA ist es nun möglich, Open Coding Agents zu stellen, und das zu geringen Kosten.

„Today we’re releasing not just a collection of strong open coding models, but a training method that makes building your own coding agent for any codebase – for example, your personal codebase or an internal codebase at your organization – remarkably accessible for tasks including code generation, code review, debugging, maintenance, and code explanation. (…) The challenge: specializing agents to your data“ (Source: https://allenai.org/blog/open-coding-agents).

Die Modellfamilie (8B bis 32B) steht selbstverständlich auf Huggingface zur Verfügung, und kann auf eigenen Servern genutzt werden. Ganz im Sinne von Open Source AI und Digitalen Souveränität.

Open Source AI: Molmo 2 mit Schwerpunkt auf Videos

Auf die Omo 3 Familie von AI2 hatte ich ja schon in dem Beitrag vom 06.12.205 hingewiesen. Es geht dabei um frei verfügbare KI-Modelle, die auf der Website im Playground getestet, oder auch auf dem eigenen Server genutzt werden können.

Im Dezember 2025 wurde darüber hinaus auch noch die Modell-Familie Molmo 2 mit dem veröffentlicht. Der besondere Schwerpunkt der Modell-Familie sind Videos:

Molmo 2 (8B) is Qwen 3-based and our best overall model for video grounding and QA. 

Molmo 2 (4B) – also Qwen 3-based – is optimized for efficiency. 

Molmo 2-O (7B) is built on Olmo, offering a fully open end-to-end model flow including the underlying LLM. This Olmo-backed variant is particularly useful for researchers who want full control over every part of the stack—vision encoder, connector, and language model.

Die verschiedenen Modelle bieten auch wieder die Möglichkeit, je nach technischer Ausstattung, diese auf den eigenen Servern, oder im Playground zu testen – probieren Sie es doch einfach einmal aus.

Alle Modelle von AI2 sind Open Soirce AI – ganz im Sinner einer Digitalen Souveränität.

Von KI-Agenten zu Personalized AI Twins

Die aktuelle Diskussion zu Künstlicher Intelligenz befasst sich u.a. mit den Möglichkeiten generativer Künstlicher Intelligenz (GenAI) und den Entwicklungen bei KI-Agenten (AI Agents). KI-Agenten können in Zukunft viele Tätigkeiten/Jobs in Organisationen übernehmen, und so deren Effektivität und Effizienz steigern.

Solche Entwicklungen sind allerdings nicht alleine auf Organisationen begrenzt. Auf der individuellen, persönlichen Ebene entwickeln sich KI-Agenten immer mehr zu persönlichen Agenten, oder sogar zu Personal AI Twins:

Personal AI Twins represent a profound shift from generic to deeply personalized agents. Unlike today´s systems that may maintain the memory of past interactions but remain fundamentally the same for all users, true AI twins will deeply internalize an individual´s thinking patterns, values, communication style, and domain expertise“ (Bornet et al. 2025).

Die hier angesprochene Entwicklung von generischen KI-Agenten zu personalisierten KI-Agenten (personal ai twins) ist bemerkenswert. Es stellt sich natürlich gleich die Frage, ob eine Person solche Personal AI Twins nur für ihre Arbeit, oder auch für alle ihre Aktivitäten nutzen möchte. Dabei kommt es immer wieder zu Überschneidungen zwischen der beruflichen Domäne und den privaten Kontexten.

Möglicherweise können einzelne Personen in Zukunft mit Hilfe von Personalized AI Twins ihre eigenen Ideen besser selbst entwickeln oder sogar als Innovationen in den Markt bringen. Dabei empfiehlt sich aus meiner Sicht die Nutzung von Open Source AI – ganz im Sinne einer Digitalen Souveränität und im Sinne von Open User Innovation nach Eric von Hippel. Siehe dazu auch

Eric von Hippel (2017): Free Innovation

Von Democratizing Innovation zu Free Innovation

IPMA Leitfaden zum ethischen Einsatz Künstlicher Intelligenz im Projektmanagement

Quelle: Link (PDF)

Es liegt natürlich auf der Hand die für die bestehenden projektmanagement-Standards und Vorgehensmodelle Künstliche Intelligenz einzusetzen. Interessant dabei ist, dass das weltweit führende Institut empfiehlt, ethisch vorzugehen und dazu noch einen Leitfaden herausgebracht hat.

IPMA (2025): IPMA Guidelines on Applying AI in Project Management. Moving the profession forward by acting ethically! | PDF

Auf knapp 30 Seiten wird der Bezug zum professionellen Projektmanagement hergestellt und hervorgehoben, anhand welcher Kriterien Künstliche Intelligenz beurteilt werden sollten (ebd.):

„Selecting the right AI tools is a critical step for project managers. Commercially available AI tools vary in functionality, quality, and ethical considerations. When selecting and using these tools, project managers should evaluate them based on the following criteria:
» Alignment with Project Goals
» Vendor Transparency:
» Ethical and Social Impact:
» Adaptability and Scalability

Wenn Projektmanager weltweit diese Hinweise beachten, so kommen aus meiner Sicht die häufig genutzten, kommerziellen KI-Apps wie ChatGPT, Grok, Gemini etc. nicht infrage, da sie die Punkte „Vendor Transparency“ (Transparent der Anbieter) und „Ethical and Social Impact“ (Ethische und Soziale Auswirkungen) nicht, oder nur wenig berücksichtigen.

Aus meiner Sicht kommen daher hauptsächlich KI-Apps infrage, die der Open Source AI – Definition entsprechen. – ganz im Sinne einer Digitalen Souveränität. Siehe dazu auch

Das Kontinuum zwischen Closed Source AI und Open Source AI

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

Warum öffnet OpenAI mit GPT OSS die Tür zu Open Source?

Quelle; https://openai.com/de-DE/index/introducing-gpt-oss/

In dem Kontinuum der KI-Modelle sind die Übergänge zwischen den Polen fließend. Immer mehr große Modelle bieten daher neben den Closed Models (Proprietäre Modelle) sogenannte Open Weights Modelle an.

OpenAI hat am 05.08.2025 GPT OSS veröffentlicht, das in der kleinsten Version mit 20B z.B. über Huggingface genutzt werden kann. Grundsätzlich erscheint diese Öffnung gut zu sein. Der Beitrag OpenAI Cracks The Door With GPT OSS vom 11.08.2025 geht darauf detaillierter ein. Ich möchte dazu folgende Punkte anmerken:

(1) OpenAI suggerierte bei der Gründung mit dem Namen, dass man sich den Open Source Werten verpflichtet fühlt. Seit 2019 ist OpenAI allerdings vorwiegend ein kommerzielles Unternehmen, das den Firmennamen für geschicktes Marketing nutzt.

(2) Der Modellname GPT OSS weist zunächst darauf hin, dass es sich um Open Source Software (OSS) handelt, was grundsätzlich zu begrüßen ist.

(3) Möglicherweise werden viele GTP OSS mit Open Source AI verwechseln, was möglicherweise auch gewollt ist. Ansonsten hätte das Unternehmen auch einen anderen Namen verwenden können.

(4) Bei GPT OSS handelt es sich nicht um Open Source AI, sondern um einen Open Weight Model: „Among the Big AI companies, attitudes towards openness vary. Some, like OpenAI or Anthropic, do not release any of their models openly. Others, like Meta, Mistral or Google, release some of their models. These models — for example, Llama, Mistral or Gemma — are typically shared as open weights models“ (Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

(5) Dabei ist zu beachten, dass man sich mit proprietärer Künstlicher Intelligenz (KI) immer noch die Denkwelt der Eigentümer einkauft.

Siehe dazu auch

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

Buyl et al. (2024): Large Language Models Reflect the Ideology of their Creators

Künstliche Intelligenz, Agiles Manifest, Scrum und Kanban

Bei Künstlicher Intelligenz denken aktuell die meisten an die KI-Modelle der großen Tech-Konzerne. ChatGPT, Gemini, Grok etc sind in aller Munde und werden immer stärker auch in Agilen Organisationen eingesetzt. Wie in einem anderen Blogbeitrag erläutert, sind in Agilen Organisationen Werte und Prinzipien mit ihren Hebelwirkungen die Basis für Praktiken, Methoden und Werkzeuge. Dabei beziehen sich viele, wenn es um Werte und Prinzipien geht, auf das Agile Manifest, und auf verschiedene Vorgehensmodelle wie Scrum und Kanban. Schauen wir uns einmal kurz an, was hier jeweils zum Thema genannt wird:

Agiles Manifest: Individuen und Interaktionen mehr als Prozesse und Werkzeuge
In der aktuellen Diskussion über die Möglichkeiten von Künstlicher Intelligenz werden die Individuen eher von den technischen Möglichkeiten (Prozesse und Werkzeuge) getrieben, wobei die Interaktion weniger zwischen den Individuen, sondern zwischen Individuum und KI-Modell stattfindet. Siehe dazu auch Mensch und Künstliche Intelligenz: Engineering bottlenecks und die fehlende Mitte.

SCRUM: Die Werte Selbstverpflichtung, Fokus, Offenheit, Respekt und Mut sollen durch das Scrum Team gelebt werden
Im Scrum-Guide 2020 wird erläutert, was die Basis des Scrum Frameworks ist. Dazu sind die Werte genannt, die u.a. auch die Offenheit thematisieren, Ich frage mich allerdings, wie das möglich sein soll, wenn das Scrum Team proprietäre KI-Modelle wie ChatGPT, Gemini, Grok etc. nutzt, die sich ja gerade durch ihr geschlossenes System auszeichnen? Siehe dazu auch Das Kontinuum zwischen Closed Source AI und Open Source AI.

KANBAN basiert auf folgenden Werten: Transparenz, Balance, Kooperation, Kundenfokus, Arbeitsfluss, Führung, Verständnis, Vereinbarung und Respekt.
Bei den proprietären KI-Modellen ist die hier angesprochene Transparenz kaum vorhanden. Nutzer wissen im Detail nicht, mit welchen Daten das Modell trainiert wurde, oder wie mit eingegebenen Daten umgegangen wird, etc.

In einem anderen Blogbeitrag hatte ich dazu schon einmal darauf hingewiesen, dass man sich mit proprietärer Künstlicher Intelligenz (KI) auch die Denkwelt der Eigentümer einkauft.

Um agile Arbeitsweisen mit Künstlicher Intelligenz zu unterstützen, sollte das KI-Modell den genannten Werten entsprechen. Bei entsprechender Konsequenz, bieten sich also KI-Modelle an, die transparent und offen sind. Genau an dieser Stelle wird deutlich, dass das gerade die KI-Modelle sind, die der Definition einer Open Source AI entsprechen – und davon gibt es in der Zwischenzeit viele. Es wundert mich daher nicht, dass die Open Source Community und die United Nations die gleichen Werte teilen.

Es liegt an uns, ob wir uns von den Tech-Giganten weiter in eine immer stärker werdende Abhängigkeit treiben lassen, oder andere Wege gehen – ganz im Sinne einer Digitalen Souveränität. Siehe dazu auch Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Künstliche Intelligenz: Die neue Olmo3 Modell-Familie

https://allenai.org/

Auf die Olmo Modell Familie hatte ich diesen Blogbeitrag schon einmal hingewiesen: Mit der Olmo2 Modell-Familie offene Forschung an Sprachmodellen vorantreiben. Es handelt sich dabei um Modelle, die vom Ai2 Institut entwickelt und veröffentlicht werden. Ziel des Instituts ist es, neben der Offenheit der Modelle auch einen Beitrag zur Lösung der gesellschaftlichen Herausforderungen zu leisten. Im November 2025 ist die Olmo3 Modell-Familie veröffentlicht worden:

Olmo 3-Think (7B, 32B)–our flagship open reasoning models for advanced experiments, surfacing intermediate thinking steps.

Olmo 3-Instruct (7B)–tuned for multi-turn chat, tool use, and function/API calling.

Olmo 3-Base (7B, 32B)–strong at code, reading comprehension, and math; our best fully open base models and a versatile foundation for fine-tuning.

Die Modelle sind bei Huggingface frei verfügbar und können in einem Playground getestet werden.