Common Crawl: Freie Daten für jeden?

Website: https://commoncrawl.org/

Large Language Models (LLMs) benötigen eine Unmenge an Daten. Bei den Closed Source KI-Modellen von OpenAI, Meta, etc. ist manchmal nicht so klar (Black Box), woher diese ihre Trainingsdaten nehmen. Eine Quelle scheint Common Crawl zu sein.

„Common Crawl maintains a free, open repository of web crawl data that can be used by anyone. The Common Crawl corpus contains petabytes of data, regularly collected since 2008“ (ebd.)

Die Daten werden von Amazon gehostet, können allerdings auch ohne Amazon-Konto genutzt werden. Eine Datensammlung, die für jeden frei nutzbar und transparent ist, und sogar rechtlichen und Datenschutz-Anforderungen genügt, wäre schon toll.

Doch es gibt auch Kritik: Wie auf der Wikipedia-Seite zu Common Crawl zu lesen ist, respektiert Common Crawl wohl nicht immer Paywalls bei ihrer Datensammlung: Wired (2024): Publishers Target Common Crawl In Fight Over AI Training Data.

Es ist also Vorsicht geboten, wenn man Common Crawl nutzen möchte. Dennoch kann diese Entwicklung interessant für diejenigen sein, die ihr eigenes, auf den Werten von Open Source AI basierendes KI-Modell nutzen wollen. Siehe dazu auch

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

European alternatives for digital products

Screenshot: https://european-alternatives.eu/

Die aktuellen Entwicklungen zeigen unsere (europäische) digitale Abhängigkeit von amerikanischen Tech-Riesen. Ob es sich um Starlink, ein Unternehmen von Elon Musk, oder um OpenAI (dominiert von Microsoft), Amazon Cloud, Google usw. handelt, überall haben sich die amerikanischen Tech-Unternehmen in Europa durchgesetzt.

Immer mehr Privatpersonen, Unternehmen und Verwaltungen überlegen allerdings aktuell, ob es nicht besser ist, europäische Alternativen zu nutzen, um die genannte digitale Abhängigkeit zu reduzieren.

Die Website European alternatives for digital products hat nun angefangen, verschiedene europäische Alternativen zu den etablierten Angeboten aufzuzeigen. Die Übersicht ist nach verschiedenen Kategorien gegliedert. Die Website ist eine Initiative eines österreichischen Softwareentwicklers und steht erst am Anfang.

Insgesamt kann diese Website in die Initiative Sovereign Workplace eingeordnet werden, an dem wir uns auch schon länger orientieren. Dabei werden Vorschläge gemacht, welche Anwendungen auf Open Source Basis geeignet erscheinen.