Выберите язык

Russian

Down Icon

Выберите страну

Spain

Down Icon

Чат-ботам на основе искусственного интеллекта нужно больше книг для обучения, и несколько библиотек США предоставят им книги напрокат.

Чат-ботам на основе искусственного интеллекта нужно больше книг для обучения, и несколько библиотек США предоставят им книги напрокат.

Все, что мы слышали в Интернете, было только началом обучения искусственного интеллекта человечеству. Теперь технологические компании обращаются к еще более старому хранилищу знаний : книжным полкам библиотек .

Почти миллион книг, изданных еще в 15 веке — и на 254 языках — являются частью коллекции Гарвардского университета, которой недавно поделились с исследователями. Скоро туда будут включены сокровища старых газет и правительственных документов, хранящиеся в Бостонской публичной библиотеке.

Открытие хранилищ для доступа к многовековым фолиантам может означать получение огромного количества данных для технологических компаний , сталкивающихся с исками со стороны писателей, художников и других лиц, чьи творческие работы они использовали без их согласия для обучения чат-ботов с искусственным интеллектом.

Общественное достояние

«Это разумное решение — начать с информации, являющейся общественным достоянием, поскольку на данный момент она вызывает меньше споров, чем контент, на который все еще распространяется авторское право», — сказал Бертон Дэвис, заместитель генерального юрисконсульта Microsoft.

Дэвис отметил, что библиотеки также содержат «огромное количество интересных культурных, исторических и лингвистических данных», которые в последние десятилетия отсутствовали в онлайн-комментариях, из которых в основном учились чат-боты ИИ. Опасения по поводу исчерпания информации также заставили разработчиков ИИ обратиться к «синтетическим» данным, созданным самими чат-ботами и имеющими более низкое качество.

При поддержке неограниченных пожертвований от Microsoft и OpenAI (разработчика ChatGPT) гарвардская организация Institutional Data Initiative работает с библиотеками и музеями по всему миру над тем, как сделать их исторические коллекции готовыми к использованию ИИ таким образом, чтобы это также приносило пользу сообществам, которым они служат.

«Мы пытаемся вернуть часть власти, которая сейчас находится в руках ИИ, этим учреждениям», — сказала Аристана Скуртас, которая руководит исследованиями в Лаборатории библиотечных инноваций Гарвардской школы права . «Библиотекари всегда были хранителями данных и информации».

Чат-боты. Архив Clarín. Чат-боты. Архив Clarín.

Набор данных, который Гарвард только что выпустил, Institutional Books 1.0, содержит более 394 миллионов отсканированных страниц бумаги . Одна из старейших работ датируется 15 веком: рукописные размышления корейского художника о выращивании цветов и деревьев. Наибольшая концентрация работ относится к 19 веку, на такие темы, как литература, философия, право и сельское хозяйство — все они тщательно сохранены и организованы поколениями библиотекарей.

Улучшить точность

Это обещает быть очень полезным для разработчиков ИИ, пытающихся повысить точность и надежность своих систем.

«Многие данные, которые использовались в обучении ИИ, не исходят из первоисточников», — отметил Грег Лепперт, исполнительный директор инициативы по данным, который также является главным технологом в Гарвардском центре Беркмана Кляйна по Интернету и обществу, организации, занимающейся изучением киберпространства. Эта коллекция книг охватывает «вплоть до физической копии, которая была отсканирована учреждениями, которые фактически собрали эти материалы», — добавил он.

До того, как ChatGPT вызвал коммерческий ажиотаж в области искусственного интеллекта, большинство исследователей ИИ не особенно интересовались происхождением текстовых отрывков, которые они выцарапывали из Википедии, форумов социальных сетей, таких как Reddit, а иногда и из огромных хранилищ пиратских книг . Им просто нужно было то, что компьютерные специалисты называют токенами: единицами данных, каждая из которых может представлять фрагмент слова.

Чат-боты.REUTERS/Дадо Рувич/Иллюстрация Чат-боты.REUTERS/Дадо Рувич/Иллюстрация

Новая коллекция обучения ИИ Гарварда насчитывает около 242 миллиардов токенов, количество, которое людям трудно осмыслить , но это всего лишь капля в море того, что поступает в самые передовые системы ИИ. Например, материнская компания Facebook, Meta, заявила, что последняя версия ее обширной языковой модели ИИ была обучена на более чем 30 триллионах токенов, извлеченных из текста, изображений и видео.

Компания Meta также столкнулась с иском от комика Сары Сильверман и других опубликованных авторов, которые обвиняют компанию в краже их книг из «библиотек-призраков» пиратских произведений.

Теперь, с некоторыми оговорками, королевские библиотеки навязывают свои условия.

Нарушения авторских прав

Компания OpenAI, которая также столкнулась с серией исков о нарушении авторских прав, в этом году пожертвовала 50 миллионов долларов группе научно-исследовательских институтов, включая 400-летнюю Бодлианскую библиотеку Оксфордского университета, которая оцифровывает редкие книги и использует ИИ для их расшифровки.

Джессика Чапел, директор по цифровым и онлайн-услугам, рассказала, что когда компания впервые обратилась в Бостонскую публичную библиотеку, одну из крупнейших в США, библиотека дала понять, что любая оцифрованная ею информация будет доступна всем .

«OpenAI был заинтересован в огромных объемах обучающих данных. У нас есть интерес к огромным объемам цифровых объектов. Так что, похоже, это тот случай, когда интересы совпадают », — сказал Чапел.

Оцифровка стоит дорого. Например, Бостонская библиотека провела кропотливую работу по сканированию и организации десятков франкоязычных газет Новой Англии, которые широко распространялись в конце 19-го и начале 20-го веков среди канадских иммигрантских общин в Квебеке. Теперь, когда этот текст используется для обучения ИИ, он помогает финансировать проекты, которые библиотекари хотят реализовать в любом случае.

Чат-боты.REUTERS/Дадо Рувич/Иллюстрация Чат-боты.REUTERS/Дадо Рувич/Иллюстрация

Оцифровка коллекции Гарварда началась еще в 2006 году по заказу другого технологического гиганта Google в рамках его спорного проекта по созданию онлайн-библиотеки с возможностью поиска, содержащей более 20 миллионов книг.

Google потратила годы на отражение исков от авторов по поводу своей онлайн-библиотеки , которая включала множество новых работ, защищенных авторским правом. Наконец, решение было найдено в 2016 году, когда Верховный суд США поддержал решения нижестоящих судов, которые отклонили иски о нарушении авторских прав.

95 лет защиты

Теперь, впервые, Google сотрудничает с Гарвардом, чтобы извлечь тома Google Books из общественного достояния и проложить путь для их распространения среди разработчиков ИИ. Защита авторских прав в Соединенных Штатах обычно длится 95 лет, а для звукозаписей — дольше.

Новую инициативу приветствовала та же группа авторов, которая подала в суд на Google из-за ее книжного проекта, а совсем недавно подала в суд на компании, занимающиеся разработкой искусственного интеллекта.

«Многие из этих названий существуют только на полках крупных библиотек, и создание и использование этого набора данных расширит доступ к этим томам и знаниям, которые они содержат», — заявила Мэри Расенбергер, исполнительный директор Гильдии писателей, в своем заявлении. «Прежде всего, создание всеобъемлющего юридического набора данных для обучения демократизирует создание новых моделей ИИ».

Фотография предоставлена ​​Google, на которой показаны две страницы постов для Gemini, чат-бота с искусственным интеллектом (ИИ) от Google. EFE/Google Фотография предоставлена ​​Google, на которой показаны две страницы постов для Gemini, чат-бота с искусственным интеллектом (ИИ) от Google. EFE/Google

Насколько полезным все это окажется для следующего поколения инструментов ИИ, еще предстоит увидеть , поскольку данные размещены на платформе Hugging Face, где размещены открытые наборы данных и модели ИИ, которые может загрузить любой желающий.

Коллекция книг более лингвистически разнообразна, чем типичные источники данных AI. Менее половины томов на английском языке, хотя европейские языки остаются преобладающими, в частности немецкий, французский, итальянский, испанский и латынь.

Чрезвычайно важно

Лепперт отметил, что коллекция книг, пропитанная философией XIX века, также может оказаться «чрезвычайно важной» для попыток технологической отрасли создать агентов ИИ, которые смогут планировать и рассуждать так же хорошо, как люди.

«В университете у вас есть много учебных материалов о том, что означает рассуждение», — заметил он. «У вас есть много научной информации о том, как выполнять процессы и как проводить анализы».

В то же время существует и много устаревших данных : от дискредитированных научных и медицинских теорий до расистских и колониальных нарративов.

«Когда вы имеете дело с таким большим набором данных, возникают некоторые сложные вопросы, связанные с вредоносным контентом и языком», — сказала Кристи Мукк, координатор Лаборатории инноваций Гарвардской библиотеки, которая заявила, что инициатива стремится предоставить рекомендации по снижению рисков использования данных, тем самым «помогая пользователям принимать собственные обоснованные решения и ответственно использовать ИИ».

По информации Associated Press.

Clarin

Clarin

Похожие новости

Все новости
Animated ArrowAnimated ArrowAnimated Arrow