KI und Open Data: Common Corpus mit mehr als 1 Millionen Downloads

Quelle: Link

Über Open Data und Open Source Ai habe ich in dem Beitrag Open Data and Open Source AI – a perfect match geschrieben. Eine besondere Rolle nimmt in dem Zusammenhang Common Corpus ein,

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

„Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)“ (Source).

In der Zwischenzeit wurde Common Corpus schon mehr als 1 Millionen Mal heruntergeladen. Der starke Anstieg der Downloads zeigt eine relative Verschiebung auf dem KI-Markt, denn immer mehr Marktteilnehmer suchen nach Open Data, die sie frei nutzen können.

„Open-Source-Datensätze wie das Common Corpus bieten hier eine Lösung. Sie ermöglichen es Forschern und Unternehmen, auf eine breite Palette von Daten zuzugreifen, ohne sich über komplexe Lizenzfragen oder potenzielle Urheberrechtsverletzungen Gedanken machen zu müssen“ ( Common Corpus übertrifft eine Million Downloads und hebt Bedeutung von Open Data für KI hervor, Mindverse vom 12.03.2026).

Langsam aber sicher wollen immer mehr KI-Nutzer Künstliche Intelligenz gesellschaftlich verantwortungsvoll nutzen – ganz im Sinne einer Digitalen Souveränität.

Vom AI-Hype über eine AI-Hybris zu AI CON

https://thecon.ai/

Es ist an der Zeit, die Entwicklungen bei Artificial Intelligence (Künstlicher Intelligenz) auch einmal etwas kritischer zu beleuchten. Zwei Forscher aus den Bereichen der Sprach- und Sozialwissenschaften haben das in ihrem Buch getan:

Bender, E. M.; Hanna, A. (2025): The AI CON. How To fight Big Tech´s Hype And Create The Future We Want | Link.

Um das Buch mit seinen Ansichten besser verstehen zu können lohnt es sich, kurz auf in die Anfänge von Artificial Intelligence zurückzuschauen. Den Begriff „Artificial Intelligence“ prägte McCarthy für den Dartmouth Workshop im Jahr 1956. Darüber hinaus hat Minsky im gleichen Jahr sein einflussreiches Paper zu Heuristic Aspects of the Artificial Intelligence Problem veröffentlicht. Seit dieser Zeit hat die Entwicklung von Artificial Intelligence immer dynamischer zugenommen.

Die Dynamik ist seit 70 Jahren auch geprägt von militärischen Anforderungen und von Investoren, die in Artificial Intelligence eine sehr lukrative Story sehen, die uns erzählt, dass Maschinen (Artificial Intelligence) im Vergleich zu Menschen in allen Bereichen besser sind, bzw. sein werden. Denn: Wenn etwas heute noch nicht klappen sollte, dann wird es mit besseren Maschinen bestimmt in der Zukunft funktionieren – so zumindest die Story. Man muss eben daran glauben…

Dieses Narrativ hilft natürlich die enormen Investitionen zu schützen, und weiterhin viel Geld zu verdienen. Doch stellen sich immer mehr Personen – und ganze Gesellschaften – in der Zwischenzeit die Frage, ob diese Erzählung stimmt, und ob diese Entwicklungen gut für die Menschen sind. Manche argumentieren, dass es sich bei dem allseits propagierten AI-Hype ehr um eine AI-Hybris handelt:

Die Hybris (altgriechisch für Übermut‘, ‚Anmaßung‘) bezeichnet Selbstüberschätzung oder Hochmut. Man verbindet mit Hybris häufig den Realitätsverlust einer Person und die Überschätzung der eigenen Fähigkeiten, Leistungen oder Kompetenzen, vor allem von Personen in Machtpositionen. (Quelle: vgl. Wikipedia).

Wenn Sie sich diese ganzen Punkte noch einmal vergegenwärtigen, kommen Sie möglicherweise auch zu dem Schluss, dass man gegen das etablierte Narrativ etwas unternehmen sollte/muss. Genau das haben die beiden Autoren mit ihrem Buch gemacht.

Um es noch einmal deutlich zu machen: Es geht nicht darum, Artificial Intelligence zu „verteufeln“, sondern darum, die Möglichkeiten von Artificial Intelligence im Rahmen von Werten und Grundrechten für Menschen zu nutzen.

Seit mehreren Jahren gehen wir auch positiv kritisch mit den Möglichkeiten und den Risiken von Artificial Intelligence um – ganz im Sinne einer Digitalen Souveränität.

Divergentes und konvergentes Denken mit KI unterstützen

Typischer Stage-Gate Ideenverfeinerungs- und Auswahlprozess (CEN/TS 16555-2014)

Für den kreativen Prozess, bzw. den Problemlösungsprozess, sind grundsätzlich zwei Denkstile erforderlich (Hornung/Patzak 2011):

Divergentes Denken (divergent: „auseinandergehend, ausschweifend, verzweigend“): die Gedanken schweifen lassen, in die Breite gehendes Denken, den Gedanken freien Lauf lassen, eine Ausweitung des Suchraumes.

Konvergentes Denken (konvergent: „zusammenlaufend, zusammenführend“): die Gedanken auf einen Punkt bringen, einem Ziel zuführen, eine Einengung des Suchraumes, vorsehen von Randbedingungen und Beschränkungen.

Divergentes und Konvergentes Denken sind im Ideenverfeinerungs- und Auswahlprozess gefragt (Abbildung).

Die jeweiligen Schritte können heute gut mit Künstlicher Intelligenz unterstützt werden. Es stellen sich dabei folgend Fragen:

Welches KI-Modell soll verwendet werden? Eher ein Modell, oder mehrere, spezialisierte Modelle? Siehe dazu Von „One Size Fits All“ über Variantenvielfalt in die Komplexitätsfalle?

Soll es ein proprietäres KI-Modell sein, oder doch besser ein Open Source AI Modell? Siehe dazu Das Kontinuum zwischen Closed Source AI und Open Source AI.

Welche Daten sollen verwendet werden? Sollen relativ wahllos Daten aus den Netz genutzt werden? Das kann zu rechtlichen Problemen führen. Oder sollen frei verfügbare (Open Data) Daten und eigene Daten aus der Organisation genutzt werden?

Bei der Beantwortung der jeweiligen Fragen merkt man sehr schnell, dass Open Data und Open Source AI ein perfect match bilden.

Natürlich kann der Prozess auch weiter geöffnet werden, wobei sich zwei Ansätze anbieten: Einmal ist es der Open Innovation Ansatz von Henry Chesbrough, der von offeneren Innovationsprozessen in Unternehmen ausgeht und somit auf das jeweilige Business Model zielt.

Andererseits kann ein persönlicher offener Innovationsprozess, also Open User Innovation nach Henry Chesbrough gemeint sein. Siehe dazu Henry Chesbrough über die Zukunft von Open Innovation.

Innovationen: Dark horses – „Verrückte“ Prototypen

Image by Reis from Pixabay

Wenn es um Ideen geht, ist der Raum für Kreativität oftmals noch nicht so stark begrenzt. Insofern kann es sein, dass in dieser Phase des Innovationsprozesses auch schon einmal „ganz verrückte“ Vorschläge für Prototypen aufkommen. Diese werden auch dark horses genannt – ein Element aus dem Design Thinking.

Der Begriff „dark horses“ soll wohl aus dem Pferderennen stammen. Dort sagt man, dass schwarze Pferde nicht gewinnen. Allerdings falls Sie dann doch gewinnen sollten, ist der Gewinn umso höher. Übertragen auf Innovationen bedeutet das :

Dark horses: Mitunter enthüllen einige besonders ungewöhnliche Lösungsansätze ihr wahres Potential zu diesem Zeitpunkt noch nicht. Weiterverfolgt besitzen gerade solche sogenannten „dark horses“ jedoch das Zeug zu wirklich radikalen Innovationen. Dennoch kann es hilfreich sein, zunächst weniger ambitionierte Lösungsansätze zu verfolgen. Ist eine erste Lösung ausgearbeitet, gibt das die nötige Sicherheit, auch verrückte Ideen weiterzutreiben (Ideen & Management 01/2016).

Da die scheinbar etwas „verrückten Ideen“ mit einem eher größeren Risiko einhergehen, wird also empfohlen, zunächst mit anderen Ideen Erfahrungen zu sammeln.

Dieser risikominimierende Ansatz ist zwar verständlich, doch kommt es in der heutigen Zeit immer mehr darauf an, solche eher radikalen Ideen schnell in radikale Innovationen zu überführen. Oft sind dafür auch gar nicht so große Ressourcen nötig.

In Zeiten von Künstlicher Intelligenz und Additive Manufacturing gibt es sehr viele neue Optionen, Prototypen mit relativ wenig Aufwand und in kurzer zeit herzustellen.

Es sind die Unternehmenskultur oder das unternehmerische Mindset, die den Schritt blockieren. Doch: Irgendwann kommt auch der Wettbewerber, oder ein anderer Marktteilnehmer auf die Idee, und bringt die Innovation in den Markt.

Innovationen: Integrales Denken und Handeln

Ein integrales Denken und Handeln von Innovationsmanagern besteht darin, verschiedene Perspektiven zu verbinden (Servatius/Piller 2014:29)

Gerade wenn es um Innovationen geht, ist es wichtig, verschiedene Dimensionen zu integrieren. Bezogen auf das integrale Denken und Handeln von Innovationsmanagern sind zwei grundlegende Perspektiven und ihre Polaritäten von besonderer Bedeutung:

(1) die Perspektive der Denkmuster mit Analyse und Rationalität auf der einen und Intuition und Emotion auf der anderen Seite sowie

(2) die Perspektive der Innovationswertschöpfung in Form von wissenschaftlich-technischen Problemlösungen und einer Befriedigung des Kundenbedarfs im Markt.

Die Abbildung zeigt, welche unterschiedlichen Handlungsfelder sich für Innovationsmanager aus diesen Perspektiven ergeben – von der Technologie- und Marktanalyse über die Intuition von Erfindern bis zur Empathie gegenüber Kunden (Servati-
us/Piller 2014:29).

Gerade in Zeiten der Nutzung von Künstlicher Intelligenz im Innovationsprozess können Emotion (Empathie) und Intuition Alleinstellungsmerkmale darstellen.

Open Data and Open Source AI – a perfect match

Grafik mit Mistral Le Chat generiert

Alle KI-Anwendungen basieren darauf, dass Daten zur Verfügung stehen. Bei den bekannten proprietären Anbietern ist die Herkunft der Daten, und der Umgang mit den Daten oft nicht transparent. Diese KI-Modelle werden daher auch Closed AI Models genannt.

Demgegenüber gibt es die (wirklichen) Open Source KI-Modelle, die sich an der Definition von Open Source AI orientieren, somit transparent sind, wie Mistral AI auch in Europe gehostet werden, und der DSGVO entsprechen.

Solche Modelle können auf viele frei verfügbaren Daten (Open Data) in Europa, Deutschland, ja sogar aus Ihrer Region zurückgreifen. Für Einzelpersonen und für Kleine und Mittlere Unternehmen (KMU) ist das wichtig, um keine rechtlichen Probleme bei der KI-Anwendung zu bekommen.

Ein guter Einstieg ist European Data – Das offizielle Portal für Daten zu Europa.

Dort kann man für jedes Land analysieren, welche Datensätze zur Verfügung stehen. In der folgenden Abbildung ist zu erkennen, dass für Deutschland 855.325 Datensätze (Stand: 05.04.2026) vorliegen..

Quelle: European Data

Auf der Seite können Sie weiter auswählen und so die Datensätze (Open Data) recherchieren, die Sie für Ihre Anwendungen (Innovationen) im Unternehmen oder auch für sich selbst nutzen wollen.

Die Datensätze können dann in KI-Modelle eingebunden werden. Wir schlagen natürlich vor, Open Source KI zu verwenden, beispielsweise Mistral 3 Modellfamilie. Siehe dazu auch meine verschiedenen Blogbeiträge zu Mistral AI.

Open Data and Open Source AI – a perfect match. Ganz im Sinne einer Digitalen Souveränität.

Energiesicherheit, Open Source und Künstliche Intelligenz

Image by andreas160578 from Pixabay

Die beiden Kriege in der Ukraine und im Iran haben wieder einmal deutlich gemacht, wie Abhängig wir in Europa von der Lieferung fossiler Energie sind. Dabei haben wir gerade in den letzten 5-10 Jahren deutliche Fortschritte bei der Energiesicherheit gemacht. Beispielsweise hatten erneuerbare Energien in Deutschland Anfang 2026 einen 60%- Anteil an der Bruttostromerzeugung (Bundesministerium für Wirtschaft und Energie).

Im europäischen Raum mit seinen vernetzten Energiestrukturen kommt es nun immer stärker darauf an, die unterschiedlichen Netze sicher zu steuern, ohne auch hier wieder in eine technologische Abhängigkeit zu geraten. Das Fraunhofer Institut entwickelt hierzu die SCADA Plattform und setzt dabei bewusst auf Open Source.

Um Anomalien europaweit frühzeitig erkennen und beheben zu können, entwickeln die Forschenden eine Open-Source-Plattform zur Datenerfassung, Fernüberwachung und Steuerung von Energienetzen. Experten sprechen von einer SCADA Plattform, kurz für »Supervisory Control and Data Acquisition Platform«. (…) Die Open-Source Software ist quasi der Werkzeugkasten, mit dem das KI-Modell trainiert und später betrieben wird.
Quelle: Auf zu sicherer Energie, Fraunhofer-Magazin 1 | 2026 (PDF).

Es ist bezeichnend, dass auch in der Energieversorgung auf Open Source Lösungen gesetzt wird, und dass diese dann Basis für die Anwendung Künstlicher Intelligenz sein wird. Ich würde mir wünschen, dass auch Open Source KI verwendet wird, da diese offen und transparent sind, und unsere Daten schützen. Ganz im Sinne einer Digitalen Souveränität.

MCP Conference 2026 – Abstract Deadline Extended to April 15th

https://mcp-ce.org/

Die internationale Konferenz zu Mass Customization and Personalization MCP 2026 findet alle 2 Jahre statt. Diesmal trifft sich die Community im September n Balatonfüred (Ungarn). Gerne können Sie noch bis zum 15.04.2026 ein Abstract einreichen:

Die Abstract submission deadline wurde nun vom 31.03.2026 auf den 15.04.2026 verschoben.

Event overview:

12th International Conference on MCP (The Core Science)

7th Doctoral Students Workshop (The Next Generation)

4th Professionals Panels & MEA KULMA Festival (The Industry Bridge)

Join us at the Danubius Hotel Marina. The future is setting sail — make sure you are on board!

Wir werden mit dabei sein. Bei Fragen zur Konferenz können Sie sich gerne bei mir melden.

Mit ´Transformation von Deutungsmuster´ Widerstände gegen Innovationen überwinden

Bedenken und Einwände gegen Produktinnovationen (Kerka/Kriegesmann 2007)

In der Abbildung sind beispielhaft Bedenken und Einwände zu sehen, die so – oder so ähnlich – zu hören sind, wenn Produktinnovationen angestoßen werden. Ich bin sicher, Sie haben solche Äußerungen auch schon oft gehört, sogar schon bei den ersten Ideen.

„Eine neue Idee ist zerbrechlich. Sie kann durch höhnisches Lächeln oder Gähnen getötet werden. Sie kann durch einen Witz erdolcht oder durch Stirnrunzeln bei der falschen Person vor lauter Sorgen in den Tod getrieben werden“ Charles Brower, Ex-CEO von BBDO.

Es scheint normal zu sein, neue Ideen und Innovationen erst einmal abzulehnen. Dieses Verhalten kann ganz gut mit dem relativ stabilen Deutungsmuster von Erwachsenen erklärt werden, das transformiert werden muss. Solche Prozesse findet man als Kernelement in der Erwachsenenbildung, wo Lernen als Transformation von Deutungsmustern verstanden wird.

Deutunslernen: Transformation von subjektiven Deutungen und Konstrukten durch die Initiierung von selbstorganisierten Suchbewegungen und eigenständigen Aneignungsprozessen der Erwachsenen – vgl. dazu Arnold, R. (1995): Deutungslernen in der Erwachsenenbildung. Grundlinien und Illustrationen zu einem konstruktivistischen Lernbegriff, in Zeitschrift für Pädagogik 42 (1996) 5, S. 719-730 | PDF.

Neben den bekannten Ansätzen, mit Widerständen im Innovationsprozess umzugehen (z.B. mit dem Promotorenmodell von Witte), ist die Perspektive der Erwachsenenbildung im Innovationsprozess für viele neu, und wird damit selbst zu einem innovativen Ansatz.

Siehe dazu auch Digitale und ökologische Transformation bedeutet auch eine Transformation von Deutungsmustern.

Innovatives Denken mit Künstlicher Intelligenz unterstützen

Legende
(CEN TS 16555-2014):

1 Sammeln von Informationen
2 Erzeugen von Lösungen
3 Rasches Lernen
4 Bewertung
5 Synthese und Outputs
6 Ergebnisse

Unternehmen setzen für ihren Innovationsprozess Künstliche Intelligenz ein. Auf der individuellen Ebene ist das natürlich auch möglich. Beispielsweise kann Künstliche Intelligenz das eigene innovative Denken unterstützen. Die Abbildung zeigt dazu die insgesamt sechs Schritte – vom Sammeln von Informationen (1) bis zu den Ergebnissen (6).

In jedem einzelnen Schritt sollten Sie überlegen, ob Sie nur ein KI-Modell verwenden wollen, oder ob es nicht besser ist, spezielle KI-Modelle zu nutzen. Siehe dazu auch KI-Modelle: Von „One Size Fits All“ über Variantenvielfalt in die Komplexitätsfalle?

Weiterhin sollten Sie sich überlegen, ob Sie die bekannten proprietären KI-Modelle für ihre innovativen Ideen nutzen wollen. Denken Sie bitte daran, dass diese wenig transparent sind und Sie nicht genau wissen, was mit ihren Ideen passiert. Siehe dazu auch Das Kontinuum zwischen Closed Source AI und Open Source AI.

Unser Vorschlag ist daher, dass Sie zur Unterstützung ihres innovativen Denkens, in jedem Schritt Open Source KI-Modelle nutzen. Dass kann MISTRAL LE CHAT als Alternative zu ChatGPT etc, ein Modell wie Mistral AI für alle Schritte, oder auch ein Konzept mit unterschiedlichen Modellen sein, die Sie auf Huggingface finden können.

Natürlich ist es auch möglich, für die oben genannten Schritte einen, oder mehrere KI-Agenten zu nutzen – natürlich möglichst auch Open Source basiert.

Überlegen Sie abschließend noch, ob Sie alles auf ihrem Laptop, oder auf einem eignen Server laufen lassen können. Damit hätten Sie die Kontrolle über ihre Ideen.

„Erst ignorieren sie dich, dann lachen sie über dich, dann bekämpfen sie dich, dann hast du gewonnen“ Mahatma Gandhi.

Sie können dann immer noch selbst entscheiden, ob Sie Ihre Ergebnisse mit anderen teilen, oder diese sogar Unternehmen anbieten wollen.

Alles im Sinne einer eigenen Digitalen Souveränität.