Cloudflare vai bloquear bots de IA que extraem dados

A Cloudflare lançou uma funcionalidade que permite que os donos de sites bloqueiem de forma automática os bots de inteligência artificial (IA) que recolhem dados e conteúdo sem permissão. A tecnológica norte-americana, que disponibiliza serviços de gestão de tráfego online e cibersegurança, afirma que é “o primeiro fornecedor de infraestrutura de internet a bloquear” os chamados “AI crawlers“, ferramentas automatizadas para extrair grandes quantidades de dados de sites, como texto, imagem e muito mais. Estes conteúdos são, posteriormente, usados para treinar modelos de IA.
Este funcionamento é, muitas vezes, contestado, principalmente quando a recolha é feita sem compensação pelo uso dos dados. Por exemplo, em 2023, Elon Musk queixou-se que as empresas de IA estavam a sobrecarregar os servidores do X ao fazer esta recolha intensa de dados. Mais recentemente, a rede social Reddit decidiu processar a Anthropic pela recolha de informação de 110 milhões de utilizadores para o treino de modelos de IA, sem consentimento ou compensação. Noutros casos, as empresas de IA têm chegado a acordos de licenciamento de conteúdo para evitar litígios: a OpenAI assinou um acordo do género com a News Corp, a dona do Wall Street Journal e do The Sun, para usar conteúdos das várias marcas noticiosas.
Em comunicado, a Cloudflare explica que, a partir de agora, os donos de sites “vão poder escolher se querem que os AI crawlers acedam aos seus conteúdos e podem decidir como as empresas de IA podem usá-los”. Nesta lógica, as empresas de IA terão de deixar claro qual é o seu propósito com a recolha de conteúdo, como treino, inferência ou pesquisa. “Esta nova ferramenta é o primeiro passo para um futuro mais sustentável, tanto para os criadores de conteúdo como para os inovadores de IA”, diz a empresa.
Qualquer novo domínio que decida trabalhar com a Cloudflare vai, a partir de agora, ser questionado sobre se quer permitir os bots de IA ou não.
“Se a internet vai sobreviver à era da IA, precisamos de dar os publishers o controlo que merecem e criar um novo modelo económico que funcione para toda a gente”, diz em comunicado Matthew Prince, o CEO da Cloudflare. O executivo considera que estas ferramentas de recolha de conteúdos estão a trabalhar “sem limites”.
Cerca de 16% do tráfego global de internet passa pelas mãos e ferramentas tecnológicas da Cloudflare.
Além disso, a Cloudflare explica que recolheu o apoio de várias marcas de media para a criação do protocolo baseado num pedido de permissão para estes bots de IA irem recolher dados aos respetivos sites. A lista inclui a Associated Press, a revista The Atlantic, o site Buzzfeed, a Sky News e a Condé Nast, responsável por meios como a Vogue ou a revista Wired. Também estão incluídas redes sociais como o Reddit e o Pinterest.
observador