Künstliche Intelligenz: Wie hängen Modelle, Agenten und Tools zusammen?

General agent architecture and components (Wiesinger et al. (2024): Agents)

In der letzten Zeit kommt immer mehr der Begriff AI Agent – oder auch Gen AI Agent – auf. Mit Hilfe der Abbildung möchte ich die Zusammenhänge der verschiedenen Komponenten erläutern.

Die Modelle (Model), oft als Language Models, Small Language Models oder Large Language Models (LLM) bezeichnet, enthalten eine sehr große Menge an Trainingsdaten. Dabei können Open Source AI Models, Open Weights Models und Closed AI Models unterschieden werden. An dieser Stelle merkt man schon, wie wichtig die Auswahl eines geeigneten Modells ist. Diese Modelle sind üblicherweise nicht auf typische Tools oder Kombinationen von Tools trainiert. Oftmals wird dieser Teil dann mit Hilfe von immer detaillierteren Eingaben (Prompts, Dateien etc.) des Users spezifiziert.

Die Beschränkungen von Modellen bei der Interaktion mit der “äußeren Welt” kann durch geeignete Tools erweitert werden. Dazu können spezielle Datenbanken, API-Schnittstellen usw. genutzt werden. Siehe dazu auch RAG: KI-Basismodelle mit eigener Wissensbasis verknüpfen.

Der AI Agent orchestriert nun alle Komponenten, wie die Eingabe des Users, das jeweilige Modell (oder sogar mehrere), die Tools und gibt das Ergebnis (Output) für den User in der gewünschten Form aus.

Die Möglichkeit, AI Agenten zu erstellen, bieten in der Zwischenzeit viele kommerzielle KI-Anbieter an. Wir gehen demgegenüber den Weg, Open Source AI auf unserem Server zu installieren und zu nutzen:

AI Agenten konfigurieren wir mit Langflow (Open Source). Dabei können wir in Langflow auf sehr viele Open Source AI Modelle über Ollama (Open Source) zugreifen, und vielfältige Tools integrieren. Alle Daten bleiben dabei auf unserem Server.

AI Agents: Langflow (Open Source) auf unserem Server installiert

Das nächste große Ding in der KI-Entwicklung ist der Einsatz von KI-Agenten (AI Agents). Wie schon in vielen Blogbeiträgen erwähnt, gehen wir auch hier den Weg dafür Open Source zu verwenden. Bei der Suche nach entsprechenden Möglichkeiten bin ich recht schnell auf Langflow gestoßen. Die Vorteile lagen aus meiner Sicht auf der Hand:

(1) Komponenten können per Drag&Drop zusammengestellt werden.
(2) Langflow ist Open Source und kann auf unserem eigenen Server installiert werden. Alle Daten bleiben somit auf unserem Server.

Die Abbildung zeigt einen Screenshot von Langflow – installiert auf unserem Server.

Auf der linken Seite der Abbildung sind viele verschiedene Komponenten zu sehen, die in den grau hinterlegten Bereich hineingezogen werden können. Per Drag&Drop können INPUT-Komponenten und OUTPUT-Format für ein KI-Modell zusammengestellt – konfiguriert – werden. Wie weiterhin zu erkennen, ist standardmäßig OpenAI als KI-Modell hinterlegt. Für die Nutzung wird der entsprechende API-Schlüssel eingegeben.

Mein Anspruch an KI-Agenten ist allerdings, dass ich nicht OpenAI mit ChatGPT nutzen kann, sondern auf unserem Server verfügbare Trainingsdaten von Large Language Models (LLM) oder Small Language Models (SML), die selbst auch Open Source AI sind. Genau diesen Knackpunkt haben wir auch gelöst. Weitere Informationen dazu gibt es in einem der nächsten Blogbeiträge. Siehe in der Zwischenzeit auch

Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Digitale Souveränität: Europa, USA und China im Vergleich

Künstliche Intelligenz: Von AI Agenten und Multi Agenten Systemen

WEF (2024): Navigating the AI Frontier. A Primer on the Evolution and Impact of AI Agents

Aktuell drehen sich die Diskussionen bei der Nutzung von Künstlicher Intelligenz (AI: Artificial Intelligence) hauptsächlich noch um die genutzten LLM: Large Language Models (Trainingsdatenbanken), und darum, ob diese eher closed-source oder open-source sein sollten. Wie in der Abbildung zu sehen ist, zeichnet sich darüber hinaus schon ein weiterer großer Trend ab: AI Agenten.

“Based on the definition of the International Organization for Standardization, an AI agent can be broadly defined as an entity that senses percepts (sound, text, image, pressure etc.) using sensors and responds (using effectors) to its environment. AI agents generally have the autonomy (defined as the ability to operate independently and make decisions without constant human intervention) and authority (defined as the granted permissions and access rights to perform specific actions within defined boundaries) to take actions to achieve a set of specified goals, thereby modifying their environment” (WEF 2024).

Neben den Large Language Models (LLM) kommen somit bei AI Agenten u.a. auch noch Daten von Sensoren und möglicherweise menschliches Feedback hinzu. Daraus ergeben sich ganz neue Möglichkeiten bei komplexen Problemlösunmgsprozessen.

Natürlich können AI Agenten Typen unterschieden werden, beispielsweise in deterministic und non-deterministic etc. Auch kann ein AI Agenten System aus ganz verschiedenen AI Agenten entstehen. Diese wenigen Hinweise zeigen schon auf, welche vielversprechenden neuen Möglichkeiten/Anwendungen sich ergeben können. Natürlich immer unter der Prämisse der Transparenz und Offenheit, um Missbrauch zu verhindern. Es liegt für mich daher auf der Hand. sich mit Open Source AI Agenten zu befassen.