Локальное vs. облако: как использовать ИИ на компьютере без подключения к Интернету.
Будущее искусственного интеллекта не обязательно связано с облачными технологиями, а скорее с локальной обработкой данных, как и в случае с другими сервисами, которые мы запускаем на наших компьютерах. Мы уже несколько месяцев используем Lenovo P14 S , оснащённый процессором Qualcomm Snapdragon X Elite и нейросетевым процессором (NPU), что делает его одним из лучших компьютеров для обработки ИИ. Нам удалось поговорить с Альберто Руано, президентом Lenovo Spain, об этом новом поколении компьютеров, которые меняются в сторону ИИ. Одним из самых интересных моментов стал запуск моделей, подобных ChatGPT (в нашем случае LLaMA 3.2 от Meta), непосредственно на компьютере без подключения к интернету .
Руано ясно дал понять: «Будущее ПК — за искусственным интеллектом. Не просто умными помощниками, а возможностями, позволяющими работать локально, без отправки данных на серверы». Именно это мы и тестировали.
Этот опыт нас поразил. Используя такие приложения, как AnythingLLM, мы смогли полностью локально запускать языковые модели, даже интегрируя наши собственные базы данных с помощью функций RAG. Для тех, кто работает с конфиденциальной информацией, например, журналистов или юристов, эта возможность — настоящая революция: модели не нужно ничего отправлять в облако; всё остаётся на устройстве. Конфиденциальность гарантирована. Невероятно, что с помощью локальных моделей мы можем достичь уровня реагирования ChatGPT-40 , что значительная часть базы знаний человечества установлена на нашем компьютере, и что искусственный интеллект способен ответить практически на любой вопрос.
В наших тестах особенно блистали модели LLaMA 3.1 8B Chat с 8000 контекстных токенов (что эквивалентно 6000 или 7000 слов, которые можно включить в подсказку) и Phi 3.5 Mini Instruct с 4000 контекстных токенов (это примерно 3000 слов). Обе модели специально оптимизированы для работы на нейропроцессоре Snapdragon X Elite и напрямую интегрированы в AnythingLLM. В данном случае, поскольку модели были адаптированы Qualcomm для своего нейропроцессора, производительность была превосходной: быстрое время отклика и ощущение мгновенности, не уступающее любому облачному интерфейсу.
Использование нейросетевого процессора (NPU) не только повышает скорость вывода, но и значительно снижает расход заряда батареи, освобождая основной процессор для других задач. Таким образом, даже при постоянной работе с нашим ChatGPT мы можем наслаждаться практически целым днем автономной работы, что является именно тем, чего ищут пользователи: длительным временем автономной работы. Руано объясняет: «Цель — достичь времени автономной работы до 25 часов на некоторых моделях без значительного увеличения веса устройства».
Мы также попробовали запустить модели, не оптимизированные для нейропроцессора, например, новый Qwen 3 с 8 миллиардами параметров или Deepseek r11B последнего поколения. Здесь ситуация изменилась: они работали, но не так быстро, поскольку работали на центральном процессоре. В случае других моделей нам даже не удалось добиться их корректной загрузки из-за ограничений памяти; в других производительность была очень низкой, хотя и работоспособной, что весьма распространено без высокопроизводительного графического процессора.
Этот тест ясно показывает, что, хотя аппаратное обеспечение Qualcomm является многообещающим, ключевым моментом является наличие моделей, хорошо адаптированных к экосистеме, т. е. к ее NPU.
Видение Lenovo выходит за рамки аппаратного обеспечения. «Мы хотим, чтобы компьютеры были не просто рабочим инструментом; они должны быть частью взаимосвязанной экосистемы, адаптируемой к любой среде», — пояснил Руано. Это означает, что устройства способны понимать, обрабатывать данные и помогать вам в режиме реального времени, без необходимости постоянного подключения к интернету. Чип Qualcomm и такие инструменты, как AnythingLLM, приближают нас к более конфиденциальному, эффективному и персонализированному ИИ.
ABC.es