Lokaal versus cloud: zo gebruik je AI op een computer zonder internetverbinding.
De toekomst van kunstmatige intelligentie (AI) draait niet per se om vertrouwen in de cloud, maar eerder om lokale verwerking, net als andere diensten die we op onze computers draaien. We gebruiken nu een paar maanden een Lenovo P14 S , uitgerust met een Qualcomm Snapdragon X Elite en een NPU die hem tot de beste computers voor AI-verwerking maakt. We hadden de gelegenheid om met Alberto Ruano, president van Lenovo Spanje, te spreken over deze nieuwe generatie computers, die steeds meer prioriteit geeft aan AI. Een van de meest interessante dingen is dat modellen die vergelijkbaar zijn met ChatGPT - in ons geval LLaMA 3.2 van Meta - direct op de computer kunnen draaien, zonder dat er een internetverbinding nodig is .
Ruano is duidelijk: "De toekomst van de pc ligt in AI. Niet alleen slimme assistenten, maar ook mogelijkheden waarmee je lokaal kunt werken, zonder gegevens naar servers te sturen." En dat is precies wat we hebben getest.
De ervaring verbaasde ons. Met applicaties zoals AnythingLLM konden we taalmodellen volledig lokaal draaien en zelfs onze eigen databases integreren met RAG-functies. Voor mensen die gevoelige informatie verwerken, zoals journalisten of advocaten, is deze mogelijkheid een game-changer: het model hoeft niets naar de cloud te sturen; alles blijft op het apparaat. De privacy is compleet. Het is ongelooflijk dat we met lokale modellen het responsniveau van ChatGPT-40 kunnen bereiken, dat we een groot deel van de menselijke kennis op onze computer hebben geïnstalleerd en dat kunstmatige intelligentie in staat is om vrijwel elke vraag te beantwoorden.
In onze tests waren de modellen die het meest uitblonken LLaMA 3.1 8B Chat, met 8.000 contexttokens (wat overeenkomt met 6.000 of 7.000 woorden die we in de prompt kunnen opnemen), en Phi 3.5 Mini Instruct, met 4.000 contexttokens (dat is ongeveer 3.000 woorden). Beide zijn speciaal geoptimaliseerd voor gebruik op de NPU van de Snapdragon X Elite en integreren direct in AnythingLLM. In dit geval, als modellen die door Qualcomm speciaal voor diens NPU zijn ontwikkeld, waren de prestaties uitstekend: snelle responstijden en een gevoel van directheid dat elke cloudervaring evenaart.
Het gebruik van de NPU verbetert niet alleen de inferentiesnelheid, maar vermindert ook aanzienlijk het batterijverbruik en maakt de hoofdprocessor vrij voor andere taken. Zo kunnen we, zelfs als we constant met onze specifieke ChatGPT spelen, nog steeds genieten van een batterijduur van bijna een hele dag, en dat is precies wat gebruikers zoeken: een lange batterijduur. Ruano legt uit: "Het doel is om op bepaalde modellen een batterijduur tot 25 uur te bereiken, zonder het apparaat aanzienlijk zwaarder te maken."
We hebben ook modellen geprobeerd die niet geoptimaliseerd zijn voor de NPU, zoals de nieuwe Qwen 3 met 8 miljard parameters of de nieuwste generatie Deepseek r11B. Hier is de ervaring anders: ze werken wel, maar niet zo snel, omdat ze op de CPU draaien. Bij andere modellen konden we ze niet eens goed laten laden vanwege geheugenbeperkingen; bij andere waren de prestaties erg laag, hoewel functioneel, iets wat heel gebruikelijk is zonder een krachtige GPU.
Uit deze test blijkt dat de hardware van Qualcomm weliswaar veelbelovend is, maar dat het vooral draait om modellen die goed zijn aangepast aan het ecosysteem, oftewel aan de NPU.
Lenovo's visie gaat verder dan hardware. "We willen dat computers meer zijn dan alleen een werkinstrument; ze moeten deel uitmaken van een verbonden ecosysteem, aanpasbaar aan elke omgeving", legde Ruano uit. En dat betekent apparaten die je in realtime kunnen begrijpen, verwerken en helpen, zonder dat je constant met het internet verbonden hoeft te zijn. De Qualcomm-chip en tools zoals AnythingLLM brengen ons een stap dichter bij meer private, efficiëntere en persoonlijke AI.
ABC.es