Cloudflare blockiert KI-Bots, die Daten scrapen

Cloudflare hat eine Funktion eingeführt, mit der Websitebesitzer Bots mit künstlicher Intelligenz (KI) automatisch blockieren können, die unberechtigt Daten und Inhalte sammeln. Das US-Technologieunternehmen, das Online-Verkehrsmanagement und Cybersicherheitsdienste anbietet, ist nach eigenen Angaben „der erste Internet-Infrastrukturanbieter, der sogenannte KI- Crawler blockiert“. Dabei handelt es sich um automatisierte Tools, die große Datenmengen von Websites extrahieren, wie etwa Texte, Bilder und mehr. Diese Inhalte werden dann zum Trainieren von KI-Modellen verwendet.
Dieser Ansatz ist oft umstritten, insbesondere wenn die Datenerhebung ohne Vergütung für die Datennutzung erfolgt. So beschwerte sich Elon Musk 2023, dass KI-Unternehmen durch diese intensive Datenerhebung die Server von X überlasteten. Kürzlich verklagte das soziale Netzwerk Reddit Anthropic, weil das Unternehmen ohne Zustimmung oder Vergütung Informationen von 110 Millionen Nutzern sammelte , um KI-Modelle zu trainieren. In anderen Fällen haben KI-Unternehmen Inhaltslizenzvereinbarungen getroffen, um Rechtsstreitigkeiten zu vermeiden: OpenAI schloss einen solchen Vertrag mit News Corp, dem Eigentümer des Wall Street Journal und der Sun, zur Nutzung von Inhalten verschiedener Nachrichtenmarken.
Cloudflare erklärt in einer Erklärung, dass Websitebetreiber künftig „wählen können, ob KI-Crawler auf ihre Inhalte zugreifen dürfen und wie KI-Unternehmen diese nutzen dürfen“. In diesem Sinne müssen KI-Unternehmen klarstellen, welchen Zweck sie mit der Sammlung von Inhalten verfolgen, beispielsweise Training, Inferenz oder Forschung. „Dieses neue Tool ist der erste Schritt in eine nachhaltigere Zukunft, sowohl für Content-Ersteller als auch für KI-Innovatoren“, so das Unternehmen.
Jede neue Domäne, die sich für die Zusammenarbeit mit Cloudflare entscheidet, wird nun gefragt, ob sie KI-Bots zulassen möchte oder nicht.
„Wenn das Internet das KI-Zeitalter überleben soll, müssen wir den Verlagen die Kontrolle geben, die sie verdienen, und ein neues Wirtschaftsmodell schaffen, das für alle funktioniert“, sagte Matthew Prince, CEO von Cloudflare, in einer Erklärung. Der Geschäftsführer ist überzeugt, dass diese Tools zur Inhaltssammlung „ohne Grenzen“ funktionieren.
Rund 16 % des weltweiten Internetverkehrs laufen durch die Hände und technologischen Tools von Cloudflare.
Cloudflare erklärt außerdem, dass es die Unterstützung mehrerer Medienmarken für die Erstellung des Protokolls erhalten hat. Grundlage dafür war eine Anfrage nach Erlaubnis für diese KI-Bots, Daten von ihren jeweiligen Websites zu sammeln. Zu den Medienmarken gehören Associated Press, The Atlantic Magazine, Buzzfeed, Sky News und Condé Nast, das für Medien wie Vogue und Wired Magazine verantwortlich ist. Auch soziale Netzwerke wie Reddit und Pinterest sind dabei.
observador