Mit Cloudfare unbefugtes Scraping und Verwenden von Originalinhalten stoppen

Image by Werner Moser from Pixabay

In den letzten Jahren haben die bekannten KI-Tech-Unternehmen viel Geld damit verdient, Daten aus dem Internet zu sammeln und als Trainingsdaten für Large Language Models (LLMs) zu nutzen. Dabei sind diese Unternehmen nicht gerade zimperlich mit Datenschutz oder auch mit Urheberrechten umgegangen.

Es war abzusehen, dass es gegen dieses Vorgehen Widerstände geben wird. Neben den verschiedenen Klagen von Content-Erstellern wie Verlagen, Filmindustrie usw. gibt es nun immer mehr technische Möglichkeiten, das unberechtigte Scraping und Verwenden von Originalinhalten zu stoppen. Ein kommerzielles Beispiel dafür ist Cloudfare. In einer Pressemitteilung vom 01.07.2025 heißt es:

San Francisco (Kalifornien), 1. Juli 2025 – Cloudflare, Inc. (NYSE: NET), das führende Unternehmen im Bereich Connectivity Cloud, gibt heute bekannt, dass es nun als erster Anbieter von Internetinfrastruktur standardmäßig KI-Crawler blockiert, die ohne Erlaubnis oder finanziellen Ausgleich auf Inhalte zugreifen. Ab sofort können Eigentümerinnen und Eigentümer von Websites bestimmen, ob KI-Crawler überhaupt auf ihre Inhalte zugreifen können, und wie dieses Material von KI-Unternehmen verwertet werden darf” (Source: Cloudfare).

Siehe dazu auch Cloudflare blockiert KI-Crawler automatisch (golem vom 01.07.2025). Ich kann mir gut vorstellen, dass es in Zukunft viele weitere kommerzielle technische Möglichkeiten geben wird, Content freizugeben, oder auch zu schützen.

Das ist zunächst einmal gut, doch sollte es auch Lösungen für einzelne Personen geben, die sich teure kommerzielle Technologie nicht leisten können oder wollen. Beispielsweise möchten wir auch nicht, dass unsere Blogbeiträge einfach so für Trainingsdaten genutzt werden. Obwohl wir ein Copyright bei jedem Beitrag vermerkt haben, wissen wir nicht, ob diese Daten als Trainingsdaten der LLMs genutzt werden, da die KI-Tech-Konzerne hier keine Transparenz zulassen. Siehe dazu auch Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Dazu gibt es eine weitere interessante Entwicklung, die ich in dem Beitrag Creative Commons: Mit CC Signals Content für Künstliche Intelligenz freigeben – oder auch nicht erläutert habe.

Digitale Souveränität: Was macht ihr denn so mit eurer Nextcloud? Antwort: Immer mehr!

Screenshot unserer Nextcloud-Startseite

Digitale Abhängigkeit kann für Personen, Organisationen oder ganze Gesellschaften kritisch sein. In Zeiten der Trump-Administration und der massiven Marktbeherrschung bei Software, Cloud-Anwendungen und Künstlicher Intelligenz durch US-amerikanische Tech-Konzerne wird es Zeit, auf allen Ebenen über Digitale Souveränität nachzudenken, und entsprechend zu handeln.

Zum Beispiel mit: Sovereign Workplace: Der unabhängige Arbeitsplatz auf integrierter Open Source Basis. Weiterhin wird vielen Verwaltungen in der Zwischenzeit klar, wie viel Geld an Rahmenverträgen, Lizenzen und Software an Big-Tech gezahlt werden muss. Es sind 13,6 Milliarden Euro pro Jahr (Quelle: Golem 04.07.2025).

In der Zwischenzeit gibt es viele Open Source Anwendungen die als Alternativen zur Verfügung stehen. Das dänische Digitalministerium ersetzt beispielsweise Microsoft Office durch Libre Office, Schleswig-Holstein setzt in der Verwaltung auf Nextcloud usw. usw.

Wir haben diese Entwicklung schon vor Jahren kommen sehen, und uns langsam aber sicher ein eigenes Open-Source-Ökosystem zusammengestellt, das wir immer stärker nutzen und ausbauen – Schritt für Schritt.

(1) Zunächst haben wir Nextcloud auf unseren Servern installiert. Damit konnten wir die bekannten Microsoft-Anwendungen, inkl. MS-Teams (jetzt mit Nextcloud Talk), Whiteboard, usw. ersetzen. Dateien können auch kollaborativ, also gemeinsam, bearbeitet werden. Siehe dazu beispielsweise auch Google Drive im Vergleich zu Nextcloud. Alle Möglichkeiten der Nextcloud finden Sie unter https://nextcloud.com/.

(2) Anschließend haben wir OpenProject auf unseren Servern installiert und mit unserer Nextcloud verknüpft. Wir können damit Plangetriebenes Projektmanagement, Hybrides und Agiles Projektmanagement abbilden. Die Integration mit unserer Nextcloud bietet die Möglichkeit, aus OpenProject heraus die komplette Dateiverwaltung in Nextcloud zu verwalten: Projektarbeit mit Nextcloud: Dateien kollaborativ organisieren und bearbeiten.

(3) Danach haben wir den Nextcloud-Assistenten integriert, sodass wir in jeder Nextcloud-Anwendung den Assistenten mit seinen verschiedenen Funktionen nutzen können; inkl. eines Chats mit hinterlegter lokaler Künstlichen Intelligenz – LocalAI (Siehe Punkt 5).

(4) Mit Nextcloud Flow können wir Abläufe automatisieren. Zunächst natürlich Routineabläufe, und wenn es komplexer wird mit KI-Agenten (Siehe Punkt 6).

(5) Eine weitere wichtige Ergänzung war dann LocalAI, das uns lokale KI-Anwendungen auf unserem Server ermöglicht – eingebunden in den Nextcloud-Assistenten (Siehe Punkt 3) Alle Daten bleiben auch hier auf unseren Servern.

(6) Aktuell arbeiten und testen wir KI-Agenten auf Open-Source-Basis. Dabei verknüpfen wir über Ollama eine ausgewählte Trainingsdatenbank (Large Language Model oder Small Language Model – alles natürlich Open Source AI) mit unseren eigenen Daten, die in unserer Nextcloud zur Verfügung stehen. Dafür verwenden wir aktuell Langflow, das auch auf unserem Servern installiert ist – auch diese Daten bleiben alle bei uns.

(…..) und das ist noch lange nicht das Ende der Möglichkeiten. Sprechen Sie uns gerne an, wenn Sie zu den genannten Punkten Fragen haben.

Digitale Souveränität: Die Initiative AI for Citizens

Website: https://mistral.ai/news/ai-for-citizens

Immer mehr Privatpersonen, Organisationen, Verwaltungen usw. überlegen, wie sie die Möglichkeiten der Künstlichen Intelligenz nutzen können. Dabei gibt es weltweit drei grundsätzlich unterschiedliche Richtungen: Der US-amerikanische Ansatz (Profit für wenige Unternehmen), der chinesische Ansatz (KI für die politische Partei) und den europäischen Ansatz, der auf etwas Regulierung setzt, ohne Innovationen zu verhindern. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Es freut mich daher sehr, dass es in Europa immer mehr Initiativen gibt, die Künstliche Intelligenz zum Wohle von Bürgern und der gesamte Gesellschaft anbieten möchten – alles Open Source. Das in 2023 gegründete Unternehmen Mistral AI hat so einen Ansatz, der jetzt in der Initiative AI for Citizens eine weitere Dynamik bekommt, und einen Gegenentwurf zu den Angeboten der bekannten Tech-Giganten darstellt:

“Empowering countries to use AI to transform public action and catalyze innovation for the benefit of their citizens” (Quelle).

Dabei listet die Website noch einmal ausführlich die Nachteile der “One size fits all AI” auf, die vielen immer noch nicht bewusst sind.

Informieren Sie sich über die vielen Chancen, Künstliche Intelligenz offen und transparent zu nutzen und minimieren Sie die Risiken von KI-Anwendungen, indem Sie offene und transparente Trainingsmodelle (Large Language Models; Small Language Models) und KI-Agenten nutzen. Siehe dazu auch

Das Kontinuum zwischen Closed Source AI und Open Source AI

Open Source AI: Warum sollte Künstliche Intelligenz demokratisiert werden?

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

Künstliche Intelligenz: 40% der Projekte zu Agentic AI werden wohl bis Ende 2027 eingestellt (Gartner)

Die Überschrift ist reißerisch und soll natürlich Aufmerksamkeit generieren. Dabei stellt man sich natürlich gleich die Frage: Wie kommt das? Geschickt ist, dass Gartner selbst die Antwort gibt:

“Over 40% of agentic AI projects will be canceled by the end of 2027, due to escalating costs, unclear business value or inadequate risk controls, according to Gartner, Inc.” (Gartner vom 25.06.2025).

Es ist nun wirklich nicht ungewöhnlich, dass in der ersten Euphorie zu Agentic AI alles nun wieder auf ein sinnvolles und wirtschaftliches Maß zurückgeführt wird. Dennoch haben Unternehmen, die entsprechende Projekte durchgeführt haben, wertvolles (Erfahrungs-)Wissen generiert.

Schauen wir uns in diesem Zusammenhang den bekannten Gartner Hype Cycle 2025 an, so können wir sehen, dass AI Agents ihren “Peak of Inflated Expectations” erreicht haben, und es nun in das Tal “Through of Desillusionment” geht. Dabei wird in dem oben genannten Artikel natürlich auch darauf hingewiesen, dass Gartner gerne beratend behilflich ist, Agentic AI wirtschaftlicher und besser zu gestalten. Honi soit qui mal y pense.

Dennoch können gerade Kleine und Mittlere Unternehmen (KMU) von dieser Entwicklung profitieren, indem sie bewusst und sinnvoll KI Agenten nutzen. Am besten natürlich in Zusammenhang mit Open Source AI. Komisch ist, dass Open Source AI in dem Gartner Hype Cycle gar nicht als eigenständiger Begriff vorkommt. Honi soit qui mal y pense.

Künstliche Intelligenz: 99% der Unternehmensdaten sind (noch) nicht in den Trainingsdaten der LLMs zu finden

Wenn es um allgemein verfügbare Daten aus dem Internet geht, können die bekannten Closed Source KI-Modelle erstaunliche Ergebnisse liefern. Dabei bestehen die genutzten Trainingsdaten der LLMs (Large Language Models) oft aus den im Internet verfügbaren Daten – immer öfter allerdings auch aus Daten, die eigentlich dem Urheberrecht unterliegen, und somit nicht genutzt werden dürften.

Wenn es um die speziellen Daten einer Branche oder eines Unternehmens geht, sind deren Daten nicht in diesen Trainingsdaten enthalten und können somit bei den Ergebnissen auch nicht berücksichtigt werden. Nun könnte man meinen, dass das kein Problem darstellen sollte, immerhin ist es ja möglich ist, die eigenen Daten für die KI-Nutzung zur Verfügung zu stellen – einfach hochladen. Doch was passiert dann mit diesen Daten?

Immer mehr Unternehmen, Organisationen und Verwaltungen sind bei diesem Punkt vorsichtig, da sie nicht wissen, was mit ihren Daten bei der KI-Nutzung durch Closed Source oder auch Closed Weighted Modellen passiert. Diese Modelle sind immer noch intransparent und daher wie eine Black Box zu bewerten. Siehe dazu Das Kontinuum zwischen Closed Source AI und Open Source AI oder Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

Wollen Sie wirklich IHRE Daten solchen Modellen zur Verfügung stellen, um DEREN Wettbewerbsfähigkeit zu verbessern?

“So here’s the deal: you’ve got data. That data you have access to isn’t part of these LLMs at all. Why? Because it’s your corporate data. We can assure you that many LLM providers want it. In fact, the reason 99% of corporate data isn’t scraped and sucked into an LLM is because you didn’t post it on the internet. (…) Are you planning to give it away and let others create disproportionate amounts of value from your data, essentially making your data THEIR competitive advantage OR are you going to make your data YOUR competitive advantage?” (Thomas et al. 2025).

Doch was ist die Alternative? Nutzen Sie IHRE Daten zusammen mit Open Source AI auf ihren eigenen Servern. Der Vorteil liegt klar auf der Hand: Alle Daten bleiben bei Ihnen.

Siehe dazu auch

LocalAI: KI-Modelle und eigene Daten kombinieren

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Ollama: AI Agenten mit verschiedenen Open Source Modellen entwickeln

Digitale Souveränität: Wo befinden sich deine Daten?

Künstliche Intelligenz: Vorteile von Small Language Models (SLMs)

Aktuell bekannte KI-Anwendungen rühmen sich seit Jahren, sehr große Mengen an Trainingsdaten (Large Language Models) zu verarbeiten. Der Tenor war und ist oft noch: Je größer die Trainingsdatenbank, um so besser.

In der Zwischenzeit weiß man allerdings, dass das so nicht stimmt und Large Language Models (LLMs) durchaus auch Nachteile haben. Beispielsweise ist die Genauigkeit der Daten ein Problem – immerhin sind die Daten oft ausschließlich aus dem Internet. Daten von Unternehmen und private Daten sind fast gar nicht verfügbar. Weiterhin ist das Halluzinieren ein Problem. Dabei sind die Antworten scheinbar plausibel, stimmen aber nicht.

Muddu Sudhaker hat diese Punkte in seinem Artikel noch einmal aufgeführt. Dabei kommt er zu dem Schluss, dass es in Zukunft immer mehr darauf ankommen wird, kleinere, speziellere Trainingsdatenbanken zu nutzen – eben Small Language Models (SLMs).

Muddu Sudhakar (2024): Small Language Models (SLMs): The Next Frontier for the Enterprise, Forbes, LINK

Große Vorteile der SLMs sieht der Autor natürlich einmal in der Genauigkeit der Daten und damit in den besseren Ergebnissen. Weiterhin sind SLMs natürlich auch kostensparender. Einerseits sind die Entwicklungskosten geringer, andererseits benötigt man keine aufwendige Hardware, um SLMs zu betreiben. Teilweise können solche Modelle auf dem eigenen PC, oder auf dem Smartphone betrieben werden.

Solche Argumente sind natürlich gerade für Kleine und Mittlere Unternehmen (KMU) interessant, die mit den geeigneten SLMs und ihren eigen, unternehmensinternen Daten ein interessantes und kostengünstiges KI-System aufbauen können.

Voraussetzung dafür ist für mich, dass alle Daten auf den eigenen Servern bleiben, was aktuell nur mit Open Source AI möglich ist. OpenAI mit ChatGPT ist KEIN Open Source AI.

Künstliche Intelligenz: Würden Sie aus diesem Glas trinken?

Image by AIAC Interactive Agency from Pixabay

Das Bild zeigt ein Glas mit einer Flüssigkeit. Es ist allerdings nicht genau zu erkennen, um welchen Inhalt es sich handelt. Es könnte also sein, dass die Flüssigkeit gut für Ihre Gesundheit ist, oder auch nicht. Vertrauen Sie dieser Situation? Vertrauen Sie demjenigen, der das Glas so hingestellt hat?

Würden Sie aus diesem Glas trinken?

So ähnlich ist die Situation bei Künstlicher Intelligenz. Die Tech-Unternehmen veröffentlichen eine KI-Anwendung nach der anderen. Privatpersonen, Unternehmen, ja ganze Verwaltungen nutzen diese KI-Apps als Black Box, ohne z.B. zu wissen, wie die Daten in den Large Language Models (LLM) zusammengetragen wurden – um nur einen Punkt zu nennen.

Der Vergleich von dem Glas mit Künstlicher Intelligenz hinkt zwar etwas, doch erscheint mir die Analogie durchaus bemerkenswert, da der erste Schritt zur Anwendung von Künstlicher Intelligenz Vertrauen sein sollte.

Step 1: It All Starts with Trust
“Think about it: the glass is opaque, you can’t even see inside it! The water inside that glass could pure spring water, but it could also be cloudy and murky puddle water, or even contaminated water! If you couldn’t see inside that glass, would you still drink what’s inside it after adding tons of high-quality sugar and lemon to it? Probably not, so why would you do this with one of your company’s most previous assets—your data?” (Thomas et al. 2025).

Vertrauen Sie der Art von Künstlicher Intelligenz, wie sie von den etablierten Tech-Giganten angeboten wird? Solche Closed Source Modelle sind nicht wirklich transparent, und wollen es auch weiterhin nicht sein. Siehe dazu auch Das Kontinuum zwischen Closed Source AI und Open Source AI.

Vertrauen Sie besser wirklichen Open Source AI – Anwendungen: Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

All Our Ideas: Künstliche Intelligenz, Online-Umfragen und Crowdsourcing kombinieren

Quelle: https://all-our-ideas.citizens.is/domain/1/

Aktuell wird alles mit Künstlicher Intelligenz (AI: Artificial Intelligence) in Verbindung gebracht. Die Neukombination von bestehenden Ansätzen kann dabei zu interessanten Innovationen führen.

Die Website ALL Our Ideas verbindet beispielsweise Online-Umfragen mit Crowdsourcing und Künstlicher Intelligenz.

“All Our Ideas is an innovative tool that you can use for large-scale online engagements to produce a rank-ordered list of public input. This “Wiki Survey” tool combines the best of survey research with crowdsourcing and artificial intelligence to enable rapid feedback” (ebd.).

Ein kurzes Tutorial ist gleich auf der Website zu finden. Darin wird erläutert, wie Sie die Möglichkeiten selbst nutzen können. Starten Sie einfach mit einer eigenen Online-Umfrage.

Die Idee und das Konzept finde ich gut, da auch der Code frei verfügbar ist: Open Source Code. Damit kann alles auf dem eigenen Server installiert werden. Bei der Integration von KI-Modellen schlage ich natürlich vor, Open Source KI (Open Source AI) zu nutzen.

GWA Whitepaper (2025): Künstliche Intelligenz (KI) in der Kommunikationsbranche

Image by Alexa from Pixabay

Wie in dem Beitrag Künstliche Intelligenz beeinflusst den gesamten Lebenszyklus der Software-Entwicklung zu erahnen, wird Künstliche Intelligenz (KI) alle Prozesse in Organisationen beeinflussen.

Dass das auch die Medienbranche/Kreativbranche betrifft, sollte jedem klar sein, der in diesem Umfeld arbeitet. Es ist daher gut, dass der Gesamtverband Kommunikationsagenturen (GWA) in einem KI-Whitepaper 2025 viele Perspektiven zu dem Thema beschrieben hat. Darin findet sich auch der folgende Hinweis:

“Die Kreativbranche sollte sich aktiv für Open- Source-KI einsetzen und dabei Unterstützung von allen erhalten, die von kreativer Arbeit profitieren. Wir alle, auch Marken und Produktanbieter, profitieren von offenen Systemen, da diese ihre eigenen visuellen Konzepte und Produkte in Form von „Custom-Modellen“ integrieren können, wie es bereits mit „LoRA Models“ in Stable Diffusion und Flux möglich ist” (GWA KI-Whitepaper 2025).

In den fast 100 Seiten des Whitepapers wird der Gedanke leider nicht weiter erläutert. Es wäre gut gewesen, auf die inzwischen vorliegende Definition zu Open Source AI und auf das Das Kontinuum zwischen Closed Source AI und Open Source AI hinzuweisen, denn hier gibt es für die Branche noch sehr viele neue Möglichkeiten, die sich vom Mainstream der KI-Anwendungen unterscheiden.

Perspektiven auf Innovation: Von “eng” zu “erweitert” bis gesellschaftlich “zielgerichtet”

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Der Blick auf Innovation ist immer noch sehr eng (narrow) und geprägt von dem Ansatz Schumpeters aus dem Jahr 1934. Dabei geht es bei Innovationen darum, vorwiegend technische Ideen zu kommerzialisieren, also für den Markt nutzbar zu machen. Die Gesellschaft war und ist dabei Empfänger der neuen Produkte und Dienstleistungen.

Eine etwas breitere (broader) Sicht auf Innovation erweitert den ursprünglichen Ansatz, indem nicht rein technologische, sondern auch Konzepte (Business Model Innovation), soziale Innovationen usw. hinzukommen.

In der Zwischenzeit geht man bei der Betrachtung von Innovation noch einen Schritt weiter und stellt den gesellschaftlichen Zweck (purposive) in den Mittelpunkt. Im Zusammenspiel zwischen Wissenschaft, Technologie und Innovationen soll es dadurch zu gesellschaftlichen Transformationen kommen.

“Within narrow understandings of innovation, in which innovation is defined as the commercialisation of research, emphasis is placed on the roles of science, academia, industry, and national governments in supporting scientific and technical knowledge. Society is frequently viewed as passively adopting innovations introduced by science and large corporations (Joly, 2019). Conversely, according to broad-based understandings, innovation encompasses the entire process of conceiving and actualising a novel concept or idea; it is not limited to technological advancements (Godin & Lane 2013). (…) Moreover, according to purposive understandings, innovation should be transformative in nature and result in sustainable change” (Nordling, N. 2024).

Es geht heute also darum, mit Innovationen Probleme in der Gesellschaft, zum Wohle (eigene Bemerkung) der Menschen und seiner Umwelt zu lösen. Siehe dazu auch Worin unterscheiden sich Industry 5.0 und Society 5.0?

Wir sollten dazu kommen, Technologie – heute ist es die Künstliche Intelligenz – für die Gesellschaft einzusetzen, und nicht vorwiegend zum wirtschaftlichen Vorteil von einigen wenigen Tech-Konzernen, die die sozialen Folgen den Gesellschaften überlassen.

Dabei kommt es zu einer Friktion bei den beiden Geschwindigkeiten: Technik (KI) verändert sich in Sekunden, Gesellschaften – und mit ihnen das gesamte gesellschaftliche System – eher langsam. Wenn wir die Menschen mitnehmen wollen, sollte der Staat – und hier meine ich eher die Europäische Union – den Rahmen setzen, denn die Tech-Giganten werden sich nicht zurückhalten. Siehe dazu auch Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften