De nieuwe Phi-4 AI-modellen van Microsoft bieden grote prestaties in kleine pakketten

Meld u aan voor onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve content over toonaangevende AI-dekking. Meer informatie
Microsoft heeft een nieuwe klasse van zeer efficiënte AI-modellen geïntroduceerd die tekst, afbeeldingen en spraak tegelijkertijd verwerken en aanzienlijk minder rekenkracht vereisen dan bestaande systemen. De nieuwe Phi-4-modellen , die vandaag zijn uitgebracht, vertegenwoordigen een doorbraak in de ontwikkeling van kleine taalmodellen (SLM's) die mogelijkheden bieden die voorheen waren gereserveerd voor veel grotere AI-systemen.
Volgens het technische rapport van Microsoft presteren Phi-4-Multimodal , een model met slechts 5,6 miljard parameters, en Phi-4-Mini , met 3,8 miljard parameters, beter dan vergelijkbare concurrenten en evenaren of overtreffen ze zelfs de prestaties van modellen die twee keer zo groot zijn bij bepaalde taken .
"Deze modellen zijn ontworpen om ontwikkelaars te voorzien van geavanceerde AI-mogelijkheden", aldus Weizhu Chen, Vice President, Generative AI bij Microsoft. "Phi-4-multimodal, met zijn vermogen om spraak, visie en tekst tegelijkertijd te verwerken, opent nieuwe mogelijkheden voor het creëren van innovatieve en contextbewuste applicaties."
Deze technische prestatie komt op een moment dat ondernemingen steeds meer op zoek zijn naar AI-modellen die op standaardhardware of aan de ' edge ' kunnen draaien - rechtstreeks op apparaten in plaats van in clouddatacenters - om kosten en latentie te verminderen en tegelijkertijd de privacy van gegevens te behouden.
Wat Phi-4-Multimodal onderscheidt, is de nieuwe techniek van de ‘ mix van LoRA’s ’, waardoor tekst, afbeeldingen en spraakinvoer binnen één model verwerkt kunnen worden.
"Door de Mixture of LoRAs te benutten, breidt Phi-4-Multimodal multimodale mogelijkheden uit terwijl interferentie tussen modaliteiten wordt geminimaliseerd", aldus het onderzoeksrapport . "Deze aanpak maakt naadloze integratie mogelijk en zorgt voor consistente prestaties bij taken met tekst, afbeeldingen en spraak/audio."
Dankzij deze innovatie kan het model zijn sterke taalcapaciteiten behouden en tegelijkertijd beeld- en spraakherkenning toevoegen, zonder de prestatieverslechtering die vaak optreedt wanneer modellen worden aangepast voor meerdere invoertypen.
Het model heeft de toppositie op het Hugging Face OpenASR-klassement opgeëist met een woordfoutpercentage van 6,14%, waarmee het gespecialiseerde spraakherkenningssystemen zoals WhisperV3 overtreft. Het toont ook concurrerende prestaties op visuele taken zoals wiskundig en wetenschappelijk redeneren met afbeeldingen.
Ondanks zijn compacte formaat, toont Phi-4-Mini uitzonderlijke mogelijkheden in tekstgebaseerde taken. Microsoft meldt dat het model "beter presteert dan vergelijkbare modellen en op gelijke hoogte staat met modellen die twee keer zo groot zijn" in verschillende benchmarks voor taalbegrip.
Vooral de prestaties van het model op wiskunde- en coderingstaken zijn opmerkelijk. Volgens het onderzoeksartikel bestaat Phi-4-Mini uit 32 Transformer-lagen met een verborgen toestandsgrootte van 3.072 en omvat het aandacht voor groepsquery's om geheugengebruik voor generatie van lange contexten te optimaliseren.
In de GSM-8K-benchmark behaalde de Phi-4-Mini een score van 88,6%. Daarmee presteerde hij beter dan de meeste modellen met 8 miljard parameters. In de MATH-benchmark behaalde hij een score van 64%, aanzienlijk hoger dan concurrenten van vergelijkbare omvang.
"Voor de Math-benchmark presteert het model beter dan vergelijkbare modellen met grote marges, soms meer dan 20 punten. Het presteert zelfs beter dan de scores van twee keer grotere modellen", aldus het technische rapport.
Capacity , een AI-antwoordengine die organisaties helpt uiteenlopende datasets te verenigen, maakt al gebruik van de Phi-familie om de efficiëntie en nauwkeurigheid van hun platform te verbeteren.
Steve Frederickson, Head of Product bij Capacity, zei in een verklaring : "Van onze eerste experimenten waren we vooral onder de indruk van de Phi vanwege de opmerkelijke nauwkeurigheid en het gemak van implementatie, zelfs vóór de aanpassing. Sindsdien hebben we zowel de nauwkeurigheid als de betrouwbaarheid kunnen verbeteren, terwijl we de kosteneffectiviteit en schaalbaarheid die we vanaf het begin waardeerden, hebben behouden."
Capacity rapporteerde een kostenbesparing van 4,2x vergeleken met concurrerende workflows, terwijl dezelfde of betere kwalitatieve resultaten werden behaald voor preprocessing-taken.
Jarenlang werd AI-ontwikkeling aangestuurd door een unieke filosofie: groter is beter. Meer parameters, grotere modellen, grotere rekeneisen. Maar de Phi-4-modellen van Microsoft dagen die aanname uit en bewijzen dat kracht niet alleen om schaal draait, maar ook om efficiëntie.
Phi-4-Multimodal en Phi-4-Mini zijn niet ontworpen voor de datacenters van techgiganten, maar voor de echte wereld, waar computerkracht beperkt is, privacyzorgen van het grootste belang zijn en AI naadloos moet werken zonder een constante verbinding met de cloud. Deze modellen zijn klein, maar ze hebben gewicht. Phi-4-Multimodal integreert spraak-, beeld- en tekstverwerking in één systeem zonder in te leveren op nauwkeurigheid, terwijl Phi-4-Mini wiskunde-, coderings- en redeneerprestaties levert die vergelijkbaar zijn met modellen die twee keer zo groot zijn.
Het gaat er niet alleen om AI efficiënter te maken; het gaat erom het toegankelijker te maken. Microsoft heeft Phi-4 gepositioneerd voor brede acceptatie, door het beschikbaar te maken via Azure AI Foundry , Hugging Face en de Nvidia API Catalog . Het doel is duidelijk: AI die niet vastzit achter dure hardware of enorme infrastructuur, maar die kan werken op standaardapparaten, aan de rand van netwerken en in sectoren waar rekenkracht schaars is.
Masaya Nishimaki, directeur bij het Japanse AI-bedrijf Headwaters Co., Ltd., ziet de impact met eigen ogen. "Edge AI laat uitstekende prestaties zien, zelfs in omgevingen met onstabiele netwerkverbindingen of waar vertrouwelijkheid van het grootste belang is", zei hij in een verklaring . Dat betekent AI die kan functioneren in fabrieken, ziekenhuizen, autonome voertuigen - plaatsen waar realtime intelligentie vereist is, maar waar traditionele cloudgebaseerde modellen tekortschieten.
In de kern vertegenwoordigt Phi-4 een verschuiving in denken. AI is niet alleen een hulpmiddel voor degenen met de grootste servers en de diepste zakken. Het is een mogelijkheid die, als het goed is ontworpen, overal en voor iedereen kan werken. Het meest revolutionaire aan Phi-4 is niet wat het kan doen, maar waar het het kan doen.
Als u indruk wilt maken op uw baas, dan bent u bij VB Daily aan het juiste adres. Wij geven u de inside scoop over wat bedrijven doen met generatieve AI, van regelgevende verschuivingen tot praktische implementaties, zodat u inzichten kunt delen voor maximale ROI.
Lees ons privacybeleid
Bedankt voor uw inschrijving. Bekijk hier meer VB-nieuwsbrieven .
Er is een fout opgetreden.

venturebeat