Dwa miliony holenderskich wiadomości usunięto z bazy danych AI

Problem dotyczy Common Crawl, tzw. scrapera, opracowanego przez amerykańską organizację non-profit, która tworzy kopie niezliczonych stron internetowych. Kopie te są dostępne bezpłatnie dla każdego, w tym do trenowania modeli sztucznej inteligencji.
Common Crawl zawiera obecnie 2,6 miliarda stron internetowych. Z tej kolekcji korzystają niemal wszystkie główne modele sztucznej inteligencji, w tym ChatGPT, Claude i Deepseek.
Wśród zeskrobanych stron internetowych znajdują się również dziesiątki tysięcy stron w języku holenderskim, od małych witryn po duże platformy informacyjne. Brein ustalił, że baza danych zawierała artykuły z holenderskich serwisów informacyjnych i gazet cyfrowych, między innymi, które zostały skopiowane bez zezwolenia.
Serwisy informacyjne stanowią istotne źródło informacji dla modeli językowych i chatbotów opartych na sztucznej inteligencji. Stanowi to również zagrożenie dla tych samych serwisów, ponieważ sztuczna inteligencja może zmniejszyć liczbę odwiedzających, co przekłada się na niższe przychody serwisów informacyjnych.
NDP Nieuwsmedia, stowarzyszenie branżowe firm informacyjnych, twierdzi, że firmy wykorzystujące sztuczną inteligencję „pasożytują na pracy dziennikarzy”, stosując tego typu narzędzia.
„To bardzo szkodliwe dla autorów i wydawców, że ich teksty są wykorzystywane bez pozwolenia” – powiedział Bastiaan van Ramshorst, dyrektor Brein, w wywiadzie dla RTL Z. „Dlatego w imieniu kilku wydawców zwróciliśmy się z prośbą o usunięcie tych artykułów z sieci”.
Według Van Ramshorsta, Common Crawl szybko odpowiedział na prośbę, ale minie trochę czasu, zanim wszystkie artykuły zostaną wyłączone. „To dlatego, że baza danych jest tak duża. To również utrudniało dokładne określenie, które artykuły się w niej znajdują”.
Fakt, że artykuły nie znajdują się już w tej bazie danych, nie oznacza, że w ogóle nie pojawią się w modelach sztucznej inteligencji. Istniejące modele już je przetworzyły i nie znikną z nich. Co więcej, firmy zajmujące się sztuczną inteligencją również tworzą własne scrapery, ale nie jest jasne, czy zawierają one dane chronione prawem autorskim.
„Jeśli taki model nie jest transparentny, bardzo trudno jest określić dane bazowe” – mówi Van Ramshorst. „Badajemy to, ale jest to dość czasochłonne”.
Jedynym promykiem nadziei jest to, że w przyszłym roku wejdzie w życie nowe prawo europejskie, ustawa o sztucznej inteligencji, która będzie wymagać od firm zajmujących się sztuczną inteligencją większej transparentności w kwestii źródeł pochodzenia produktów.
Oprócz doniesień i innych tekstów, do trenowania sztucznej inteligencji wykorzystuje się również muzykę. Ten film pokazuje, jak The Velvet Sundown gromadzi miliony odtworzeń, mimo że zespół w ogóle nie istnieje:
RTL Nieuws




