Os chatbots de IA precisam de mais livros para aprender. Essas bibliotecas estão abrindo suas estantes

CAMBRIDGE, Massachusetts — Tudo o que já foi dito na internet foi apenas o começo do ensino da inteligência artificial sobre a humanidade. As empresas de tecnologia agora estão recorrendo a um repositório de conhecimento mais antigo: as bibliotecas.
Quase um milhão de livros publicados ainda no século XV — e em 254 idiomas — fazem parte de uma coleção da Universidade de Harvard que será disponibilizada a pesquisadores de IA na quinta-feira. Também serão disponibilizados em breve acervos de jornais antigos e documentos governamentais da biblioteca pública de Boston.
Arrombar os cofres de tomos centenários pode ser uma verdadeira mina de ouro para empresas de tecnologia que enfrentam processos judiciais movidos por romancistas vivos , artistas visuais e outros cujos trabalhos criativos foram coletados sem seu consentimento para treinar chatbots de IA.
“É uma decisão prudente começar com dados de domínio público porque eles são menos controversos agora do que conteúdo que ainda está protegido por direitos autorais”, disse Burton Davis, conselheiro geral adjunto da Microsoft.
Davis disse que as bibliotecas também possuem "quantidades significativas de dados culturais, históricos e linguísticos interessantes" que estão faltando nas últimas décadas de comentários online dos quais os chatbots de IA aprenderam principalmente.
Com o apoio de "doações irrestritas" da Microsoft e da OpenAI, fabricante do ChatGPT, a Institutional Data Initiative, sediada em Harvard, está trabalhando com bibliotecas ao redor do mundo para tornar suas coleções históricas prontas para IA de uma forma que também beneficie as bibliotecas e as comunidades que elas atendem.
“Estamos tentando transferir parte do poder deste momento atual da IA de volta para essas instituições”, disse Aristana Scourtas, que gerencia pesquisas no Laboratório de Inovação em Bibliotecas da Faculdade de Direito de Harvard. “Os bibliotecários sempre foram os guardiões dos dados e das informações.”
O conjunto de dados recém-lançado de Harvard, Institutional Books 1.0, contém mais de 394 milhões de páginas digitalizadas. Uma das obras mais antigas data do século XV — reflexões manuscritas de um pintor coreano sobre o cultivo de flores e árvores. A maior concentração de obras é do século XIX, sobre temas como literatura, filosofia, direito e agricultura, todas meticulosamente preservadas e organizadas por gerações de bibliotecários.
Promete ser uma bênção para desenvolvedores de IA que tentam melhorar a precisão e a confiabilidade de seus sistemas.
“Muitos dos dados utilizados no treinamento de IA não provêm de fontes originais”, disse o diretor executivo da iniciativa de dados, Greg Leppert, que também é tecnólogo-chefe do Centro Berkman Klein para Internet e Sociedade de Harvard. Esta coleção de livros remonta “à cópia física que foi digitalizada pelas instituições que efetivamente coletaram esses itens”, disse ele.
Antes do ChatGPT desencadear um frenesi comercial em IA, a maioria dos pesquisadores de IA não pensava muito sobre a procedência dos trechos de texto que extraíam da Wikipédia, de fóruns de mídia social como o Reddit e, às vezes, de repositórios profundos de livros pirateados. Eles só precisavam de muitos dos chamados tokens pelos cientistas da computação — unidades de dados, cada uma das quais pode representar um pedaço de uma palavra.
A nova coleção de treinamento de IA de Harvard tem cerca de 242 bilhões de tokens, uma quantidade difícil de ser compreendida por humanos, mas que ainda é apenas uma pequena parte do que está sendo alimentado nos sistemas de IA mais avançados. A Meta, empresa controladora do Facebook, por exemplo, afirmou que a versão mais recente de seu modelo de linguagem de IA foi treinada em mais de 30 trilhões de tokens extraídos de textos, imagens e vídeos.
A Meta também está lutando contra um processo movido pela comediante Sarah Silverman e outros autores publicados que acusam a empresa de roubar seus livros de "bibliotecas paralelas" de obras pirateadas.
Agora, com algumas reservas, as verdadeiras bibliotecas estão de pé.
A OpenAI, que também está lutando contra uma série de ações judiciais de direitos autorais , doou US$ 50 milhões este ano para um grupo de instituições de pesquisa, incluindo a Biblioteca Bodleiana de 400 anos da Universidade de Oxford, que está digitalizando textos raros e usando IA para ajudar a transcrevê-los.
Quando a empresa entrou em contato pela primeira vez com a Biblioteca Pública de Boston, uma das maiores dos EUA, a biblioteca deixou claro que qualquer informação digitalizada seria para todos, disse Jessica Chapel, chefe de serviços digitais e online.
“A OpenAI tinha interesse em grandes quantidades de dados de treinamento. Nós temos interesse em grandes quantidades de objetos digitais. Então, este é apenas um caso em que as coisas estão se alinhando”, disse Chapel.
A digitalização é cara. Por exemplo, a biblioteca de Boston tem se dedicado a digitalizar e selecionar dezenas de jornais em francês da Nova Inglaterra, amplamente lidos no final do século XIX e início do século XX pelas comunidades de imigrantes canadenses do Quebec. Agora que esses textos são usados como dados de treinamento, eles ajudam a financiar projetos que os bibliotecários já querem realizar.
“Deixamos bem claro que somos uma biblioteca pública”, disse Chapel. “Nossos acervos são de uso público, e tudo o que digitalizarmos como parte deste projeto será tornado público.”
O acervo de Harvard já foi digitalizado em 2006 para outro gigante da tecnologia, o Google, em seu controverso projeto de criar uma biblioteca on-line pesquisável com mais de 20 milhões de livros.
O Google passou anos resistindo a contestações judiciais de autores contra sua biblioteca online de livros, que incluía muitas obras mais recentes e protegidas por direitos autorais. A questão foi finalmente resolvida em 2016, quando a Suprema Corte dos EUA manteve decisões de instâncias inferiores que rejeitaram alegações de violação de direitos autorais.
Agora, pela primeira vez, o Google trabalhou com Harvard para recuperar volumes de domínio público do Google Livros e abrir caminho para sua liberação para desenvolvedores de IA. A proteção de direitos autorais nos EUA normalmente dura 95 anos , e mais para gravações sonoras.
Ainda não se sabe o quão útil tudo isso será para a próxima geração de ferramentas de IA, já que os dados serão compartilhados na quinta-feira na plataforma Hugging Face, que hospeda conjuntos de dados e modelos de IA de código aberto que qualquer pessoa pode baixar.
A coleção de livros é mais diversificada linguisticamente do que as fontes típicas de dados de IA. Menos da metade dos volumes está em inglês, embora as línguas europeias ainda predominem, especialmente alemão, francês, italiano, espanhol e latim.
Uma coleção de livros repleta de pensamentos do século XIX também pode ser "imensamente crítica" para os esforços da indústria de tecnologia para criar agentes de IA que possam planejar e raciocinar tão bem quanto os humanos, disse Leppert.
“Na universidade, você tem muita pedagogia sobre o que significa raciocinar”, disse Leppert. “Você tem muita informação científica sobre como executar processos e análises.”
Ao mesmo tempo, também há muitos dados desatualizados, desde teorias científicas e médicas desmascaradas até narrativas racistas.
"Quando você lida com um conjunto de dados tão grande, há algumas questões complicadas sobre conteúdo e linguagem prejudiciais", disse Kristi Mukk, coordenadora do Laboratório de Inovação da Biblioteca de Harvard, que disse que a iniciativa está tentando fornecer orientação sobre como mitigar os riscos do uso dos dados, para "ajudá-los a tomar suas próprias decisões informadas e usar a IA de forma responsável".
————
A Associated Press e a OpenAI têm um acordo de licenciamento e tecnologia que permite à OpenAI acesso a parte dos arquivos de texto da AP.
ABC News