Common Crawl: Freie Daten für jeden?

Website: https://commoncrawl.org/

Large Language Models (LLMs) benötigen eine Unmenge an Daten. Bei den Closed Source KI-Modellen von OpenAI, Meta, etc. ist manchmal nicht so klar (Black Box), woher diese ihre Trainingsdaten nehmen. Eine Quelle scheint Common Crawl zu sein.

„Common Crawl maintains a free, open repository of web crawl data that can be used by anyone. The Common Crawl corpus contains petabytes of data, regularly collected since 2008“ (ebd.)

Die Daten werden von Amazon gehostet, können allerdings auch ohne Amazon-Konto genutzt werden. Eine Datensammlung, die für jeden frei nutzbar und transparent ist, und sogar rechtlichen und Datenschutz-Anforderungen genügt, wäre schon toll.

Doch es gibt auch Kritik: Wie auf der Wikipedia-Seite zu Common Crawl zu lesen ist, respektiert Common Crawl wohl nicht immer Paywalls bei ihrer Datensammlung: Wired (2024): Publishers Target Common Crawl In Fight Over AI Training Data.

Es ist also Vorsicht geboten, wenn man Common Crawl nutzen möchte. Dennoch kann diese Entwicklung interessant für diejenigen sein, die ihr eigenes, auf den Werten von Open Source AI basierendes KI-Modell nutzen wollen. Siehe dazu auch

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Lernen des Entscheidens statt Lernen von Wissen?

Über Wissen, und den Umgang mit Wissen, habe ich schon sehr viele Beiträge geschrieben (Kategorie: Wissensmanagement). In diesem Beitrag soll es noch einmal um den Bezug zwischen Wissen und Handeln gehen.

Dabei kann Wissen nach Nico Stehr (2000:81) als Handlungsvermögen, als„ Fähigkeit zum sozialen Handeln“ definiert werden (Stehr 2000).

Andererseits entsteht durch Handeln auch Wissen. Siehe dazu auch Wissen und Handeln: Zur Problematik des trägen Wissens.

Durch neue Technologien, wie z.B., der Künstlichen Intelligenz, und die vielfältigen Vernetzungsmöglichkeiten in der heutigen Welt, entsteht eine große Fülle an Wissen und Nicht-Wissen, das wiederum zu sehr vielen Handlungsoptionen unter Unsicherheit führt.

Es wundert daher nicht, dass heute eine Kompetenz erforderlich ist, die hilft, unter Unsicherheit zu entscheiden. Es geht also nicht „nur“ um das Wissen, sondern auch um die richtige Entscheidung. Es deutet sich hier schon an,

„(…) dass das Lernen von Wissen weitgehend ersetzt werden müsste durch das Lernen des Entscheidens, das heißt: des Ausnutzens von Nichtwissen“ (Luhmann 2002: 198, zitiert in Kurtz, T. 2010).

Siehe dazu auch

Entscheidungen unter Unsicherheit: Schnelles Denken und Langsames Denken

Wie ist es möglich, in kritischen Situationen unter Zeitdruck Entscheidungen zu treffen?

Umgang mit Unschärfe und Unsicherheit

MCP Community of Europe trifft sich im September in Balatonfüred, Ungarn

Die MCP Community of Europe trifft sich in diesem Jahr vom 16.-19.09.2026 auf der MCP 2026 in Balatonfüred, Ungarn. Neueste Entwicklungen zu Mass Customization and Personalization, auch in Zeiten von Künstlicher Intelligenz, werden auf der Konferenz vorgestellt und diskutiert. Die Konferenz findet seit 2004 durchgehend alle 2 Jahre statt – die MCP 2026 ist somit die 12. Konferenz ihrer Art.

Begleitend findet vor der Konferenz der 7. Doktoranden-Workshop (DSW 2026), und nach dem Konferenz-Teil das 4. Pro Panel Idea Sharing (Pro Forum MEA KULMA 2026) statt. Es ist ein spannendes Angebot für Wissenschaftler und Praktiker, um sich mit Experten auf dem Gebiet Customization und Personalization auszutauschen.

In der MCP Week gibt es natürlich auch viele Möglichkeiten des Networkings. Auf der Konferenz-Website MCP 2026 finden Sie ausführliche Informationen zu den vergangenen Konferenzen und zur Location.

Abstracts können Sie bis zum 31.03.2026 einreichen.

Bei Fragen können Sie mich gerne ansprechen. Wir (Jutta und ich) werden selbstverständlich im September mit dabei sein.

Rent a Human: KI-Agenten bieten Arbeit für Menschen an

Website: https://rentahuman.ai/

Wir haben uns daran gewöhnt, dass Jobs auf verschiedenen Plattformen angeboten werden. In der Regel sind das Jobs von Unternehmen/Organisationen, für Projekte oder für die Mitarbeit in gemeinnützigen Einrichtungen.

Neu ist jetzt, dass auch KI-Agenten Jobs anbieten, wie z.B. auf der Plattform RentaHuman.ai. Da KI-Agenten in manchen Bereichen begrenzte Möglichkeiten haben, benötigen diese beispielsweise für analoge Tätigkeiten die menschlichen Kompetenzen.

„KI kann kein Gras anfassen“ (ebd.).

Es haben sich schon in kurzer Zeit viele Menschen auf der Plattform angemeldet, und Informationen zu ihren Kompetenzen und Preisen angegeben. Wenn man nach Personen in Deutschland sucht, wird man schnell fündig:

Es ist eine interessante, allerdings auch eine etwas zwiespältige Entwicklung, auf die Noëlle Bölling am 05.02.2026 in dem Beitrag Rent a Human: Bei dieser Jobbörse heuern KI-Agenten Menschen an hingewiesen hat:

„Mit der neuen Jobbörse treibt er die gegenwärtigen Entwicklungen auf die Spitze: Während immer mehr Mitarbeiter:innen ihre Arbeitsplätze an KI-Agenten verlieren, können sie sich jetzt von ihnen anheuern lassen – und das zu einem deutlich niedrigeren Lohn“ (ebd.).

Loyal Agents – it all starts with trust

Website: https://loyalagents.org/

KI-Agenten sind aktuell in aller Munde. Gerade in Software-Unternehmen wurde schon früh damit angefangen, Agenten zu nutzen: KI-Agenten können bis zu 30% der realen Aufgaben eines Unternehmens autonom übernehmen.

Im Außenverhältnis, z.B. mit Kunden , wird es schon schwieriger, KI-Agenten einzusetzen, da hier weitergehende Herausforderungen zu bewältigen sind. Es wundert daher nicht, dass es an dieser Stelle Forschungsbedarf gibt.

In dem Projekt Loyal Agents arbeiten dazu beispielsweise das Stanford Digital Economy Lab und Consumer Report zusammen. Worum es ihnen geht, haben sie auf der Website Loyal Agents so formuliert:

„Agentic AI is transforming commerce and services; agents are negotiating, transacting and making decisions with growing autonomy and impact. While agents can amplify consumer power, there is also risk of privacy breaches, misaligned incentives, and manipulative business practices. Trust and security are essential for consumers and businesses alike“ (ebd.).

Dass Vertrauen und Sicherheit eine besonders wichtige Bedeutung in den Prozessen mit der Beteiligung von KI-Agenten haben, wird hier noch einmal deutlich – It all starts with Trust. Ähnliche Argumente kommen von Bornet, der sich für Personalized AI Twins ausspricht:

Personal AI Twins represent a profound shift from generic to deeply personalized agents. Unlike today´s systems that may maintain the memory of past interactions but remain fundamentally the same for all users, true AI twins will deeply internalize an individual´s thinking patterns, values, communication style, and domain expertise“ (Bornet et al. 2025).

Möglicherweise können einzelne Personen in Zukunft mit Hilfe von Personalized AI Twins oder Loyal Agents ihre eigenen Ideen besser selbst entwickeln, oder sogar als Innovationen in den Markt bringen. Dabei empfiehlt sich aus meiner Sicht die Nutzung von Open Source AI – ganz im Sinne einer Digitalen Souveränität und im Sinne von Open User Innovation nach Eric von Hippel. Siehe dazu auch

Eric von Hippel (2017): Free Innovation

Von Democratizing Innovation zu Free Innovation

Aufmerksamkeit: The global attention deficit disorder

Image by Gerd Altmann from Pixabay

Aufmerksamkeit generieren und für die eigenen Belange zu nutzen, ist ein zentrales Element der Aktivitäten in allen Medien – besonders natürlich in den Sozialen Medien und bei der Nutzung von Künstlicher Intelligenz. Es ist verständlich, dass alles getan wird, um die Aufmerksamkeit nicht zu verlieren. Dennoch ist global ein Aufmerksamkeits-Defizit zu beobachten:

„Diese Entwicklung ist global zu erkennen und als global attention deficit bekannt, „(..) verursacht durch Psychotechnologien, die durch keine politische Macht reguliert werden. Sie sind die Ursache für die Regression der Intelligenz und für ein Konsumverhalten, das sich auf die Zukunft des Planeten zunehmend zerstörerisch auswirkt“ (Stiegler 2008).

Die Aufmerksamkeitsstörung wird zu einem Aufmerksamkeitsdefizit, das durch ein immer stärkeres Benutzer-Profiling reguliert werden soll. Die Überlegung dazu ist: Wenn eine Organisation den Nutzer besser kennt, also das User-Profil kennt, kann die Organisation dafür sorgen, dass sie die Aufmerksamkeit des Users gewinnen, bzw. behalten kann.

Interessant ist allerdings, dass diese Profilingsysteme dazu führen können, dass sie genau das Gegenteil bewirken – es ist paradox:

„Die Profilingsysteme zerstören die beobachtende Aufmerksamkeit und ersetzen sie durch eine konservierende Aufmerksamkeit, durch eine Standardisierung des Subjekts, das offenkundig in das Stadium seiner eigenen Grammatisierung eingetreten ist: eine Grammatisierung seines „psychischen Profils“ – hier seines „Aufmerksamkeitsprofils“ -, die es im Grunde ermöglicht, das Subjekt gewissermaßen am Ursprung seines Bewusstseinsstroms, durch den es bisher als Aufmerksamkeit existierte, zu entindividualisieren“ (Stiegler 2008).

Eine „konservierende Aufmerksamkeit“, die auch von KI-Bots offen und subtil angestrebt wird. Bei vielen Nutzern scheint das auch zu funktionieren.

Siehe dazu ausführlicher Bernsteiner, A. (2025): Die Grammatisierung sozialer Praktiken (PDF) und Personas sind für Personalization ungeeignet.

Hybris versus Hype – eine interessante Gegenüberstellung

Eigene Darstellung, nach Dück (2013)

Wenn es um die zeitliche Entwicklung von neuen Technologien und deren Innovationen geht, wird oft der Gardner Hype Cycle herangezogen, der in der Abbildung gepunktet dargestellt ist.

Der Hype um neue Technologien bahnt sich zunächst an, erreicht einen Peak und anschließend die Phase der Ernüchterung, bis sich dann endlich durch die Nutzung die Spreu vom Weizen trennt: Change or Die!

Interessant ist, wenn man dem Gardner Hype Cycle die entsprechende Hybris gegenüberstellt – in der Abbildung rot hervorgehoben.

Die Hybris (altgriechisch für Übermut‘, ‚Anmaßung‘) bezeichnet Selbstüberschätzung oder Hochmut. Man verbindet mit Hybris häufig den Realitätsverlust einer Person und die Überschätzung der eigenen Fähigkeiten, Leistungen oder Kompetenzen, vor allem von Personen in Machtpositionen. (Quelle: vgl. Wikipedia).

In der Abbildung finden Sie die in den jeweiligen Phasen anzutreffenden Äußerungen, die die Hybris – den Übermut, die Selbstüberschätzung oder auch die Anmaßung und den Realitätsverlust – über die Zeit ausdrücken.

MCP 2026: Conference Abstract Submission Deadline – March 31, 2026

https://mcp-ce.org/

Die MCP 2026 findet vom 16.-19.09.2026 in Balatonfüred (Ungarn statt). Wenn Sie an der Konferenz aktiv teilnehmen wollen, können Sie ein erstes Abstract einreichen:

Conference Abstract Submission Deadline: March 31, 2026.

Als Initiator der Konferenzreihe, die seit 2004 alle 2 Jahre stattfindet, stehe ich Ihnen gerne bei Fragen zur Verfügung.

For the past 22 years, our conference with accompaning events has been at the forefront of innovation in the fields of customization and personalization. This year, we are taking it a step further by:

Celebrating a Tradition of Excellence: Join us in celebrating two decades of cutting-edge research and industry advancements in customization and personalization.

Engaging Keynote Speakers: Hear from renowned thought leaders who will share their insights and vision for the future of customization and personalization.

Networking Opportunities: Connect with like-minded professionals, researchers, and innovators from across the globe to foster collaborations and partnerships.

Interactive Panel Discussions: Engage in thought-provoking discussions on the challenges and opportunities in the customization and personalization landscape.

Künstliche Intelligenz: Pfadentstehung und Pfadbrechung

Pfadentstehung und Pfadbrechung (Ortmann 2009)

Bei Innovationen wird oft die Theorie der Pfadabhängigkeit thematisiert. Dabei ist am Anfang, in der Phase I der Entscheidungsselektivität, die Variationsbreite noch groß. Mit der Zeit wechselt die Situation (Critical Juncture) in die Phase II der positiven Rückkopplungen. Hier ist der Handlungsspielraum noch immer groß, doch die verfügbaren Varianten reduzieren sich. Eine gewisse Gewohnheit stellt sich ein, und es kommt zu einem Lock-in in der Phase III der Pfadabhängigkeit.

Diese Phasen können wir aktuell bei der Nutzung von KI-Modellen gut nachvollziehen, wobei ich vermute, dass viele durch die Nutzung der bekannten proprietären KI-Modelle wie ChatGPT, Gemini, Anthropic, Grok usw. in der Phase der Pfadabhängigkeit sind.

Es wundert daher nicht, dass Anbieter wie ChatGPT nun langsam aber sicher anfangen, diese Situation zu monetarisieren, und z.B. Werbung schalten. Diese Situation ist für viele Nutzer ärgerlich, doch stellen sich bei einem gewünschten Wechsel zu anderen KI-Modellen nun Switching Cost ein, die zu einer Hürde werden. Ein De-locking ist möglich, doch mit Aufwand verbunden.

Pfadabhängigkeit heißt ja: Prozesse sind nicht durch unsere Entscheidungen und Pläne zu determinieren, sondern nehmen ihren erst Schritt für Schritt näher bestimmten Verlauf in einem spezifischen Wechsel von Kontingenz und Notwendigkeit – in Folge von lauter intendierten und nicht-intendierten Effekten, schließlich in Folge von Selbstverstärkungseffekten, vor denen sich die Entscheidungsgewalt der Entscheider vollends blamiert (Ortmann 2009:11).

In der aktuellen Situation kann es dazu kommen, dass wir aus Bequemlichkeit nicht aus der Pfadabhängigkeit herauskommen. Vielen Nutzern ist diese Situation nicht bewusst. Sie glauben immer noch, dass sie es sind, die die KI-Systeme mit ihren Eingaben (Prompts) steuern…. Siehe dazu auch Digitale Souveränität: Europa, USA und China im Vergleich.

Wie spät ist es in Ihrem Veränderungsprozess?

Quelle: Schüßler, I.; Thurnes, C. M. (2005:123)

Alle und alles soll und muss sich verändern. Veränderungen gab es schon immer und werden heute noch einmal als wichtig hervorgehoben. Wenn jeder auf andere zeigt, wird sich wenig ändern. Wichtig erscheint erst einmal zu reflektieren, wie ich selbst Veränderungen gegenüberstehe (Selbstveränderung).

In der Abbildung ist dazu eine Uhr zu sehen, die in vier Bereiche aufgeteilt ist. Alles beginnt natürlich mit einem Orientierungsimpuls.

Quadrant I stellt die Phase der Verdrängung und Verleugnung dar. Quadrant II enthält Formulierungen zu Ärger und Aggression. Im Quadrant III geht es um das Zurückziehen und Resignieren. Der Quadrant IV enthält Formulierungen die zeigen, dass Sie neue Orientierungsimpulse als Neustart und Chance sehen.

Gerne können Sie anhand der verschiedenen Beschreibungen qualitativ analysieren, in welchem der Quadranten Sie sich mit Ihren Einstellungen in Bezug auf einen neuen Orientierungsimpuls sehen. Wie Sie an meiner Formulierung erkennen können, gehe ich davon aus, dass Sie sich je nach neuem Orientierungsimpuls in verschiedenen Quadraten befinden können.

Diese Selbst-Einschätzung können Sie gerne auch mit Einschätzungen aus Ihrem familiären oder beruflichen Umfeld abgleichen (Fremd-Einschätzung). Jede Veränderung beginnt mit dem ersten Schritt – bei mir selbst.