Selecteer taal

Dutch

Down Icon

Selecteer land

Spain

Down Icon

AI-chatbots hebben meer boeken nodig om te leren, en verschillende Amerikaanse bibliotheken gaan hen boeken uitlenen.

AI-chatbots hebben meer boeken nodig om te leren, en verschillende Amerikaanse bibliotheken gaan hen boeken uitlenen.

Alles wat we op internet hebben gehoord, was slechts het begin van de leer van kunstmatige intelligentie over de mensheid. Nu richten techbedrijven zich op een nog oudere bron van kennis : bibliotheekboekenplanken .

Bijna een miljoen boeken, gepubliceerd vanaf de 15e eeuw – en in 254 talen – maken deel uit van een collectie van Harvard University die onlangs met onderzoekers is gedeeld . Schatten van oude kranten en overheidsdocumenten, bewaard in de Boston Public Library, zullen binnenkort worden opgenomen.

Het openen van kluizen om toegang te krijgen tot eeuwenoude boeken kan een schat aan gegevens opleveren voor technologiebedrijven die te maken krijgen met rechtszaken van romanschrijvers, beeldend kunstenaars en anderen wiens creatieve werk ze zonder hun toestemming hebben gebruikt om AI-chatbots te trainen.

Publiek domein

"Het is een verstandige beslissing om te beginnen met informatie die in het publieke domein valt, omdat dat op dit moment minder controversieel is dan content waar nog auteursrecht op rust", aldus Burton Davis, plaatsvervangend algemeen adviseur van Microsoft.

Davis merkte op dat bibliotheken ook "enorme hoeveelheden interessante culturele, historische en taalkundige data" bevatten, die de afgelopen decennia ontbraken in het online commentaar waaruit AI-chatbots grotendeels hebben geleerd. De angst voor een informatietekort heeft AI-ontwikkelaars er ook toe aangezet om zich te wenden tot "synthetische" data, die door de chatbots zelf zijn gecreëerd en van lagere kwaliteit zijn.

Met de steun van onvoorwaardelijke giften van Microsoft en OpenAI, de maker van ChatGPT , werkt het in Harvard gevestigde Institutional Data Initiative samen met bibliotheken en musea over de hele wereld aan de manier waarop zij hun historische collecties AI-ready kunnen maken, op een manier die ook de gemeenschappen die zij bedienen ten goede komt.

"We proberen een deel van de macht die momenteel in handen is van AI terug te leggen bij deze instellingen", aldus Aristana Scourtas, die onderzoek leidt bij het Library Innovation Lab van Harvard Law School . "Bibliothecarissen zijn altijd al beheerders van data en informatie geweest."

Chatbots. Clarín Archief. Chatbots. Clarín Archief.

De zojuist door Harvard gepubliceerde dataset Institutional Books 1.0 bevat meer dan 394 miljoen gescande pagina's papier . Een van de oudste werken dateert uit de 15e eeuw: de handgeschreven reflecties van een Koreaanse schilder op de teelt van bloemen en bomen. De grootste concentratie werken is afkomstig uit de 19e eeuw, over onderwerpen zoals literatuur, filosofie, recht en landbouw – allemaal zorgvuldig bewaard en geordend door generaties bibliothecarissen.

Verbeter de nauwkeurigheid

Het belooft heel nuttig te zijn voor AI-ontwikkelaars die de nauwkeurigheid en betrouwbaarheid van hun systemen willen verbeteren.

"Veel van de data die in AI-trainingen worden gebruikt, komen niet uit originele bronnen", merkte Greg Leppert op, directeur van het data-initiatief en tevens Chief Technology Officer bij het Berkman Klein Center for Internet & Society van Harvard, een organisatie die zich richt op de studie van cyberspace. Deze boekencollectie omvat "tot en met de fysieke kopie die is gescand door de instellingen die deze materialen daadwerkelijk hebben verzameld", voegde hij eraan toe.

Voordat ChatGPT een commerciële hype in kunstmatige intelligentie veroorzaakte, waren de meeste AI-onderzoekers niet bijzonder geïnteresseerd in de herkomst van de tekstpassages die ze van Wikipedia, socialemediaforums zoals Reddit en soms enorme archieven met illegale boeken hadden geplukt. Ze hadden alleen nodig wat computerwetenschappers tokens noemen: data-eenheden die elk een fragment van een woord kunnen vertegenwoordigen.

Chatbots.REUTERS/Dado Ruvic/Illustratie Chatbots.REUTERS/Dado Ruvic/Illustratie

De nieuwe AI-trainingscollectie van Harvard bevat naar schatting 242 miljard tokens, een hoeveelheid die voor mensen moeilijk te bevatten is , maar nog steeds slechts een druppel op een gloeiende plaat is van wat er in de meest geavanceerde AI-systemen wordt gestopt. Zo heeft het moederbedrijf van Facebook, Meta, aangegeven dat de nieuwste versie van zijn uitgebreide AI-taalmodel is getraind met meer dan 30 biljoen tokens, geëxtraheerd uit tekst, afbeeldingen en video's.

Meta wordt ook geconfronteerd met een rechtszaak van comédienne Sarah Silverman en andere gepubliceerde auteurs die het bedrijf beschuldigen van het stelen van hun boeken uit ‘spookbibliotheken’ met gekopieerde werken.

Nu leggen de koninklijke bibliotheken, zij het met enig voorbehoud, hun voorwaarden op.

Schendingen van het auteursrecht

OpenAI, dat ook te maken heeft met een reeks rechtszaken wegens inbreuk op het auteursrecht, doneerde dit jaar 50 miljoen dollar aan een groep onderzoeksinstellingen, waaronder de 400 jaar oude Bodleian Library van de Universiteit van Oxford. Deze instellingen digitaliseren zeldzame boeken en gebruiken AI om ze te transcriberen.

Toen het bedrijf voor het eerst contact opnam met de Boston Public Library, een van de grootste in de Verenigde Staten, maakte de bibliotheek duidelijk dat alle informatie die ze digitaliseerden voor iedereen beschikbaar zou zijn , aldus Jessica Chapel, directeur digitale en online diensten.

"OpenAI had interesse in enorme hoeveelheden trainingsdata. Wij hebben interesse in enorme hoeveelheden digitale objecten. Dit lijkt dus een geval te zijn waarin interesses samenvallen ", aldus Chapel.

Digitalisering is duur. Zo heeft de bibliotheek van Boston zich bijvoorbeeld minutieus beziggehouden met het scannen en ordenen van tientallen Franstalige kranten uit New England, die eind 19e en begin 20e eeuw wijdverspreid werden onder Canadese immigrantengemeenschappen in Quebec. Nu deze tekst wordt gebruikt om AI te trainen, helpt het bij de financiering van projecten die bibliothecarissen sowieso willen uitvoeren.

Chatbots.REUTERS/Dado Ruvic/Illustratie Chatbots.REUTERS/Dado Ruvic/Illustratie

De collectie van Harvard werd al in 2006 gedigitaliseerd voor een andere technologiegigant, Google, in het kader van dat controversiële project om een ​​doorzoekbare online bibliotheek van meer dan 20 miljoen boeken te creëren.

Google heeft jarenlang rechtszaken van auteurs over zijn online bibliotheek, die veel nieuwere, auteursrechtelijk beschermde werken bevatte, afgeslagen . Uiteindelijk vond het bedrijf in 2016 een oplossing, toen het Amerikaanse Hooggerechtshof uitspraken van lagere rechtbanken bevestigde die claims van auteursrechtinbreuk hadden afgewezen.

95 jaar bescherming

Google heeft nu voor het eerst samengewerkt met Harvard om Google Books-boeken uit het publieke domein te halen en de weg vrij te maken voor het delen ervan met AI-ontwikkelaars. Auteursrechtbescherming in de Verenigde Staten duurt doorgaans 95 jaar, en langer voor geluidsopnamen.

Het nieuwe initiatief werd toegejuicht door dezelfde groep auteurs die Google aanklaagden vanwege het boekproject en die onlangs AI-bedrijven voor de rechter daagden.

"Veel van deze titels zijn alleen te vinden in de schappen van grote bibliotheken, en de creatie en het gebruik van deze dataset zal de toegang tot deze boeken en de kennis die ze bevatten vergroten", aldus Mary Rasenberger, directeur van de Writers Guild, in een verklaring. "Bovenal zal de creatie van een uitgebreide juridische dataset voor training de ontwikkeling van nieuwe AI-modellen democratiseren."

Foto van Google met twee pagina's met berichten voor Gemini, de chatbot met kunstmatige intelligentie (AI) van Google. EFE/Google Foto van Google met twee pagina's met berichten voor Gemini, de chatbot met kunstmatige intelligentie (AI) van Google. EFE/Google

Hoe nuttig dit allemaal zal zijn voor de volgende generatie AI-tools, valt nog te bezien . De data wordt namelijk gedeeld op het Hugging Face-platform, dat open-source AI-datasets en -modellen host die iedereen kan downloaden.

De boekencollectie is taalkundig diverser dan de typische databronnen van AI. Minder dan de helft van de delen is Engelstalig, hoewel Europese talen dominant blijven, met name Duits, Frans, Italiaans, Spaans en Latijn.

Immens cruciaal

Een verzameling boeken doordrenkt met 19e-eeuws gedachtegoed zou ook "immens cruciaal" kunnen zijn voor de pogingen van de tech-industrie om AI-agenten te bouwen die net zo goed kunnen plannen en redeneren als mensen, merkte Leppert op.

"Op de universiteit heb je veel lesmateriaal over wat redeneren inhoudt", merkte hij op. "Je hebt veel wetenschappelijke informatie over hoe je processen uitvoert en analyses uitvoert."

Tegelijkertijd is er ook veel verouderde data , van diskrediet gebrachte wetenschappelijke en medische theorieën tot racistische en koloniale verhalen.

"Als je met zo'n grote dataset werkt, komen er lastige kwesties op je af, zoals schadelijke inhoud en taalgebruik", aldus Kristi Mukk, coördinator van het Harvard Library Innovation Lab. Volgens haar probeert het initiatief richtlijnen te bieden om de risico's van datagebruik te beperken en zo "gebruikers te helpen hun eigen weloverwogen beslissingen te nemen en AI verantwoord te gebruiken".

Met informatie van The Associated Press.

Clarin

Clarin

Vergelijkbaar nieuws

Alle nieuws
Animated ArrowAnimated ArrowAnimated Arrow