Local vs. nuvem: veja como usar IA em um computador sem conexão com a internet.
O futuro da inteligência artificial não passa necessariamente pela dependência da nuvem, mas sim pelo processamento local, tal como acontece com outros serviços que utilizamos nos nossos computadores. Estamos a utilizar um Lenovo P14 S há alguns meses, equipado com um Qualcomm Snapdragon X Elite e uma NPU que o coloca entre os melhores computadores para processamento de IA. Tivemos a oportunidade de falar com Alberto Ruano, presidente da Lenovo Espanha, sobre esta nova geração de computadores, que está a mudar para priorizar a IA. Uma das coisas mais interessantes tem sido executar modelos semelhantes ao ChatGPT – no nosso caso, o LLaMA 3.2 da Meta – diretamente no computador, sem necessidade de ligação à internet .
Ruano é claro: "O futuro do PC está na IA. Não apenas em assistentes inteligentes, mas em recursos que permitam trabalhar localmente, sem enviar dados para servidores." E é exatamente isso que estamos testando.
A experiência nos surpreendeu. Usando aplicativos como o AnythingLLM, conseguimos executar modelos de linguagem completamente localmente, integrando até mesmo nossos próprios bancos de dados usando funções RAG. Para quem lida com informações sensíveis, como jornalistas ou advogados, essa capacidade é revolucionária: o modelo não precisa enviar nada para a nuvem; tudo permanece no dispositivo. A privacidade é completa. É incrível que, com modelos locais, possamos atingir o nível de resposta do ChatGPT-40 , que tenhamos grande parte da base de conhecimento humano instalada em nosso computador e que a inteligência artificial seja capaz de responder praticamente qualquer pergunta.
Em nossos testes, os modelos que realmente se destacaram foram o LLaMA 3.1 8B Chat, com 8.000 tokens de contexto (o que equivale a 6.000 ou 7.000 palavras que podemos incluir no prompt), e o Phi 3.5 Mini Instruct, com 4.000 tokens de contexto (cerca de 3.000 palavras). Ambos são especificamente otimizados para rodar na NPU do Snapdragon X Elite e se integrar diretamente ao AnythingLLM. Neste caso, sendo modelos personalizados pela Qualcomm para sua NPU, o desempenho foi excelente: tempos de resposta rápidos e uma sensação de imediatismo que rivaliza com qualquer experiência em nuvem.
O uso da NPU não só melhora a velocidade de inferência, como também reduz significativamente o consumo de bateria e libera o processador principal para outras tarefas. Dessa forma, mesmo se estivermos constantemente usando nosso ChatGPT específico, ainda podemos aproveitar a bateria por quase um dia inteiro, que é exatamente o que os usuários buscam: longa duração. Ruano explica: "O objetivo é atingir uma duração de bateria de até 25 horas em certos modelos, sem aumentar significativamente o peso do dispositivo."
Também testamos modelos não otimizados para a NPU, como o novo Qwen 3 com 8 bilhões de parâmetros ou o Deepseek r11B de última geração. Aqui, a experiência muda: eles funcionam, mas não tão rapidamente, pois operam na CPU. No caso de outros modelos, nem conseguimos carregá-los corretamente devido a limitações de memória; em outros, o desempenho foi muito baixo, embora funcional, algo muito comum sem uma GPU de alto desempenho.
Este teste deixa claro que, embora o hardware da Qualcomm seja promissor, o fundamental é ter modelos bem adaptados ao ecossistema, ou seja, à sua NPU.
A visão da Lenovo vai além do hardware. "Queremos que os computadores sejam mais do que apenas uma ferramenta de trabalho; eles devem fazer parte de um ecossistema conectado, adaptável a qualquer ambiente", explicou Ruano. E isso significa dispositivos capazes de entender, processar e ajudar você em tempo real, sem precisar estar constantemente conectado à internet. O chip Qualcomm e ferramentas como o AnythingLLM nos aproximam um passo de uma IA mais privada, eficiente e pessoal.
ABC.es