Mit Cloudfare unbefugtes Scraping und Verwenden von Originalinhalten stoppen

Image by Werner Moser from Pixabay

In den letzten Jahren haben die bekannten KI-Tech-Unternehmen viel Geld damit verdient, Daten aus dem Internet zu sammeln und als Trainingsdaten für Large Language Models (LLMs) zu nutzen. Dabei sind diese Unternehmen nicht gerade zimperlich mit Datenschutz oder auch mit Urheberrechten umgegangen.

Es war abzusehen, dass es gegen dieses Vorgehen Widerstände geben wird. Neben den verschiedenen Klagen von Content-Erstellern wie Verlagen, Filmindustrie usw. gibt es nun immer mehr technische Möglichkeiten, das unberechtigte Scraping und Verwenden von Originalinhalten zu stoppen. Ein kommerzielles Beispiel dafür ist Cloudfare. In einer Pressemitteilung vom 01.07.2025 heißt es:

San Francisco (Kalifornien), 1. Juli 2025 – Cloudflare, Inc. (NYSE: NET), das führende Unternehmen im Bereich Connectivity Cloud, gibt heute bekannt, dass es nun als erster Anbieter von Internetinfrastruktur standardmäßig KI-Crawler blockiert, die ohne Erlaubnis oder finanziellen Ausgleich auf Inhalte zugreifen. Ab sofort können Eigentümerinnen und Eigentümer von Websites bestimmen, ob KI-Crawler überhaupt auf ihre Inhalte zugreifen können, und wie dieses Material von KI-Unternehmen verwertet werden darf” (Source: Cloudfare).

Siehe dazu auch Cloudflare blockiert KI-Crawler automatisch (golem vom 01.07.2025). Ich kann mir gut vorstellen, dass es in Zukunft viele weitere kommerzielle technische Möglichkeiten geben wird, Content freizugeben, oder auch zu schützen.

Das ist zunächst einmal gut, doch sollte es auch Lösungen für einzelne Personen geben, die sich teure kommerzielle Technologie nicht leisten können oder wollen. Beispielsweise möchten wir auch nicht, dass unsere Blogbeiträge einfach so für Trainingsdaten genutzt werden. Obwohl wir ein Copyright bei jedem Beitrag vermerkt haben, wissen wir nicht, ob diese Daten als Trainingsdaten der LLMs genutzt werden, da die KI-Tech-Konzerne hier keine Transparenz zulassen. Siehe dazu auch Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Dazu gibt es eine weitere interessante Entwicklung, die ich in dem Beitrag Creative Commons: Mit CC Signals Content für Künstliche Intelligenz freigeben – oder auch nicht erläutert habe.

Copyright © 2025. All Rights Reserved.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..