Die neuen Phi-4-KI-Modelle von Microsoft bieten große Leistung in kleinen Paketen

Abonnieren Sie unsere täglichen und wöchentlichen Newsletter, um die neuesten Updates und exklusiven Inhalte zur branchenführenden KI-Berichterstattung zu erhalten. Mehr erfahren
Microsoft hat eine neue Klasse hocheffizienter KI-Modelle vorgestellt, die Text, Bilder und Sprache gleichzeitig verarbeiten und dabei deutlich weniger Rechenleistung benötigen als bestehende Systeme. Die heute veröffentlichten neuen Phi-4-Modelle stellen einen Durchbruch in der Entwicklung kleiner Sprachmodelle (SLMs) dar, die Funktionen bieten, die bisher viel größeren KI-Systemen vorbehalten waren.
Phi-4-Multimodal , ein Modell mit nur 5,6 Milliarden Parametern, und Phi-4-Mini mit 3,8 Milliarden Parametern übertreffen laut dem technischen Bericht von Microsoft ähnlich große Konkurrenten und erreichen oder übertreffen bei bestimmten Aufgaben sogar die Leistung von doppelt so großen Modellen.
„Diese Modelle sind darauf ausgelegt, Entwicklern erweiterte KI-Fähigkeiten zu bieten“, sagte Weizhu Chen, Vice President, Generative AI bei Microsoft. „Phi-4-multimodal mit seiner Fähigkeit, Sprache, Bild und Text gleichzeitig zu verarbeiten, eröffnet neue Möglichkeiten für die Entwicklung innovativer und kontextbezogener Anwendungen.“
Diese technische Errungenschaft kommt zu einem Zeitpunkt, an dem Unternehmen zunehmend nach KI-Modellen suchen, die auf Standardhardware oder am „ Edge “ – direkt auf Geräten und nicht in Cloud-Rechenzentren – ausgeführt werden können, um Kosten und Latenzzeiten zu reduzieren und gleichzeitig den Datenschutz zu wahren.
Was Phi-4-Multimodal auszeichnet, ist seine neuartige „ Mischung aus LoRAs “-Technik, die es ermöglicht, Text-, Bild- und Spracheingaben innerhalb eines einzigen Modells zu verarbeiten.
„Durch die Nutzung der Mischung von LoRAs erweitert Phi-4-Multimodal die multimodalen Fähigkeiten und minimiert gleichzeitig die Interferenzen zwischen den Modalitäten“, heißt es in der Forschungsarbeit . „Dieser Ansatz ermöglicht eine nahtlose Integration und gewährleistet eine konsistente Leistung bei Aufgaben mit Text, Bildern und Sprache/Audio.“
Durch diese Innovation behält das Modell seine leistungsstarken Sprachfunktionen bei und fügt gleichzeitig Bild- und Spracherkennung hinzu, ohne dass es zu Leistungseinbußen kommt, die häufig auftreten, wenn Modelle für mehrere Eingabetypen angepasst werden.
Das Modell hat mit einer Wortfehlerrate von 6,14 % die Spitzenposition auf der Hugging Face OpenASR-Bestenliste eingenommen und übertrifft damit spezialisierte Spracherkennungssysteme wie WhisperV3 . Es zeigt auch eine konkurrenzfähige Leistung bei visuellen Aufgaben wie mathematischem und wissenschaftlichem Denken mit Bildern.
Trotz seiner kompakten Größe zeigt Phi-4-Mini außergewöhnliche Fähigkeiten bei textbasierten Aufgaben. Laut Microsoft übertrifft das Modell bei verschiedenen Sprachverständnis-Benchmarks „Modelle ähnlicher Größe und liegt auf Augenhöhe mit doppelt so großen Modellen“.
Besonders bemerkenswert ist die Leistung des Modells bei Mathematik- und Programmieraufgaben. Laut Forschungsbericht besteht „Phi-4-Mini aus 32 Transformer-Schichten mit einer Größe von 3.072 verborgenen Zuständen“ und beinhaltet eine Gruppenabfrageaufmerksamkeit, um die Speichernutzung für die Generierung langer Kontexte zu optimieren.
Beim GSM-8K-Mathematik-Benchmark erreichte Phi-4-Mini eine Punktzahl von 88,6 % und übertraf damit die meisten 8-Milliarden-Parameter-Modelle, während es beim MATH-Benchmark 64 % erreichte und damit deutlich höher lag als ähnlich große Konkurrenten.
„Beim Mathematik-Benchmark übertrifft das Modell ähnlich große Modelle mit großem Abstand, manchmal mehr als 20 Punkte. Es übertrifft sogar die Ergebnisse doppelt so großer Modelle“, heißt es im technischen Bericht.
Capacity , eine KI-Antwort-Engine, die Unternehmen bei der Vereinheitlichung unterschiedlicher Datensätze unterstützt, hat die Phi-Familie bereits genutzt, um die Effizienz und Genauigkeit ihrer Plattform zu verbessern.
Steve Frederickson, Produktleiter bei Capacity, sagte in einer Stellungnahme : „Was uns bei unseren ersten Experimenten am Phi wirklich beeindruckt hat, war seine bemerkenswerte Genauigkeit und die einfache Bereitstellung, sogar vor der Anpassung. Seitdem konnten wir sowohl die Genauigkeit als auch die Zuverlässigkeit verbessern und dabei die Kosteneffizienz und Skalierbarkeit beibehalten, die wir von Anfang an geschätzt haben.“
Capacity meldete eine 4,2-fache Kostenersparnis im Vergleich zu konkurrierenden Workflows bei gleichzeitiger Erzielung gleicher oder besserer qualitativer Ergebnisse für Vorverarbeitungsaufgaben.
Jahrelang wurde die Entwicklung künstlicher Intelligenz von einer einzigen Philosophie getrieben: Größer ist besser. Mehr Parameter, größere Modelle, höhere Rechenleistung. Doch die Phi-4-Modelle von Microsoft stellen diese Annahme in Frage und beweisen, dass Leistung nicht nur eine Frage der Größe ist, sondern auch der Effizienz.
Phi-4-Multimodal und Phi-4-Mini sind nicht für die Rechenzentren der Tech-Giganten konzipiert, sondern für die reale Welt – wo die Rechenleistung begrenzt ist, Datenschutzbedenken an erster Stelle stehen und KI reibungslos funktionieren muss, ohne ständig mit der Cloud verbunden zu sein. Diese Modelle sind klein, aber sie haben Gewicht. Phi-4-Multimodal integriert Sprache, Sehen und Textverarbeitung in einem einzigen System, ohne dabei an Genauigkeit einzubüßen, während Phi-4-Mini eine Rechen-, Codierungs- und Denkleistung liefert, die mit Modellen vergleichbar ist, die doppelt so groß sind.
Dabei geht es nicht nur darum, KI effizienter zu machen, sondern auch darum, sie zugänglicher zu machen. Microsoft hat Phi-4 für eine breite Einführung positioniert und es über Azure AI Foundry , Hugging Face und den Nvidia API Catalog verfügbar gemacht. Das Ziel ist klar: KI, die nicht hinter teurer Hardware oder massiver Infrastruktur gefangen ist, sondern auf Standardgeräten, am Rand von Netzwerken und in Branchen laufen kann, in denen Rechenleistung knapp ist.
Masaya Nishimaki, Direktor des japanischen KI-Unternehmens Headwaters Co., Ltd., sieht die Auswirkungen aus erster Hand. „Edge AI zeigt selbst in Umgebungen mit instabilen Netzwerkverbindungen oder wo Vertraulichkeit oberste Priorität hat, eine herausragende Leistung“, sagte er in einer Erklärung . Das bedeutet KI, die in Fabriken, Krankenhäusern und autonomen Fahrzeugen funktionieren kann – an Orten, an denen Echtzeit-Intelligenz erforderlich ist, traditionelle Cloud-basierte Modelle jedoch nicht ausreichen.
Im Kern stellt Phi-4 einen Wandel im Denken dar. KI ist nicht nur ein Werkzeug für diejenigen mit den größten Servern und den tiefsten Taschen. Sie ist eine Fähigkeit, die, wenn sie gut konzipiert ist, überall und für jeden funktionieren kann. Das Revolutionärste an Phi-4 ist nicht, was es kann, sondern wo es es kann.
Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily die richtige Adresse für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen, von regulatorischen Änderungen bis hin zu praktischen Implementierungen, damit Sie Ihre Erkenntnisse weitergeben können, um den ROI zu maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat