Новые модели искусственного интеллекта Phi-4 от Microsoft сочетают в себе большую производительность и компактность

Подпишитесь на наши ежедневные и еженедельные рассылки, чтобы получать последние обновления и эксклюзивный контент о ведущих в отрасли материалах об ИИ. Узнать больше
Microsoft представила новый класс высокоэффективных моделей ИИ, которые обрабатывают текст, изображения и речь одновременно, требуя при этом значительно меньше вычислительной мощности, чем существующие системы. Новые модели Phi-4 , выпущенные сегодня, представляют собой прорыв в разработке малых языковых моделей (SLM), которые предоставляют возможности, ранее зарезервированные для гораздо более крупных систем ИИ.
Согласно техническому отчету Microsoft, Phi-4-Multimodal , модель с 5,6 миллиардами параметров, и Phi-4-Mini с 3,8 миллиардами параметров превосходят конкурентов аналогичного размера и даже соответствуют или превосходят производительность моделей в два раза большего размера при выполнении некоторых задач .
«Эти модели предназначены для того, чтобы предоставить разработчикам передовые возможности ИИ», — сказал Вэйчжу Чен, вице-президент по генеративному ИИ в Microsoft. «Phi-4-multimodal, с его способностью обрабатывать речь, зрение и текст одновременно, открывает новые возможности для создания инновационных и контекстно-зависимых приложений».
Техническое достижение появилось в то время, когда предприятия все чаще ищут модели ИИ, которые могут работать на стандартном оборудовании или «на периферии » — непосредственно на устройствах, а не в облачных центрах обработки данных — для снижения затрат и задержек при сохранении конфиденциальности данных.
Отличительной чертой Phi-4-Multimodal является его новая технология « смешивания LoRA », позволяющая обрабатывать текст, изображения и речевые входные данные в рамках одной модели.
«Используя смесь LoRA, Phi-4-Multimodal расширяет мультимодальные возможности, минимизируя помехи между модальностями», — говорится в исследовательской статье . «Этот подход обеспечивает бесшовную интеграцию и гарантирует постоянную производительность при выполнении задач, связанных с текстом, изображениями и речью/аудио».
Инновация позволяет модели сохранять свои мощные языковые возможности, одновременно добавляя возможности зрения и распознавания речи без ухудшения производительности, которое часто происходит при адаптации моделей для нескольких типов входных данных.
Модель заняла лидирующие позиции в рейтинге Hugging Face OpenASR с показателем ошибок в словах 6,14%, превзойдя специализированные системы распознавания речи, такие как WhisperV3 . Она также демонстрирует конкурентоспособную производительность в задачах на зрение, таких как математическое и научное обоснование с использованием изображений.
Несмотря на компактный размер, Phi-4-Mini демонстрирует исключительные возможности в текстовых задачах. Microsoft сообщает, что модель «превосходит модели аналогичного размера и находится на одном уровне с моделями в два раза большими» в различных тестах понимания языка.
Особенно примечательна производительность модели в задачах по математике и кодированию. Согласно исследовательской работе , «Phi-4-Mini состоит из 32 слоев Transformer с размером скрытого состояния 3072» и включает внимание к групповым запросам для оптимизации использования памяти для генерации длинного контекста.
В математическом тесте GSM-8K Phi-4-Mini показал результат 88,6%, превзойдя большинство моделей с 8 миллиардами параметров, а в тесте MATH он достиг результата 64%, что существенно выше, чем у конкурентов аналогичного размера.
«Для математического бенчмарка модель превосходит модели схожего размера с большим отрывом, иногда более 20 баллов. Она даже превосходит оценки моделей в два раза большего размера», — отмечается в техническом отчете.
Capacity , система ответов на основе искусственного интеллекта, которая помогает организациям объединять различные наборы данных, уже использует семейство Phi для повышения эффективности и точности своей платформы.
Стив Фредериксон, руководитель отдела продуктов компании Capacity, сказал в своем заявлении : «Из наших первых экспериментов нас действительно впечатлила в Phi его замечательная точность и простота развертывания, даже до настройки. С тех пор мы смогли повысить как точность, так и надежность, сохранив при этом экономическую эффективность и масштабируемость, которые мы ценили с самого начала».
Компания Capacity сообщила об экономии затрат в 4,2 раза по сравнению с конкурирующими рабочими процессами при достижении тех же или лучших качественных результатов для задач предварительной обработки.
В течение многих лет развитие ИИ было обусловлено единой философией: больше — лучше. Больше параметров, больше моделей, больше вычислительных требований. Но модели Phi-4 от Microsoft бросают вызов этому предположению, доказывая, что мощность — это не только масштаб, но и эффективность.
Phi-4-Multimodal и Phi-4-Mini разработаны не для центров обработки данных технологических гигантов, а для реального мира, где вычислительная мощность ограничена, вопросы конфиденциальности имеют первостепенное значение, а ИИ должен работать без сбоев без постоянного подключения к облаку. Эти модели небольшие, но они имеют вес. Phi-4-Multimodal объединяет речь, зрение и обработку текста в единую систему, не жертвуя точностью, в то время как Phi-4-Mini обеспечивает производительность математики, кодирования и рассуждений на уровне моделей в два раза большего размера.
Речь идет не только о том, чтобы сделать ИИ более эффективным; речь идет о том, чтобы сделать его более доступным. Microsoft позиционировала Phi-4 для широкого внедрения, сделав его доступным через Azure AI Foundry , Hugging Face и Nvidia API Catalog . Цель ясна: ИИ, который не заперт за дорогим оборудованием или массивной инфраструктурой, а может работать на стандартных устройствах, на границе сетей и в отраслях, где вычислительная мощность ограничена.
Масая Нисимаки, директор японской компании по искусственному интеллекту Headwaters Co., Ltd., видит это влияние своими глазами. «Edge AI демонстрирует выдающуюся производительность даже в средах с нестабильными сетевыми соединениями или там, где конфиденциальность имеет первостепенное значение», — сказал он в заявлении . Это означает, что ИИ может функционировать на заводах, в больницах, на автономных транспортных средствах — в местах, где требуется интеллект в реальном времени, но где традиционные облачные модели не справляются.
По своей сути Phi-4 представляет собой сдвиг в мышлении. ИИ — это не просто инструмент для тех, у кого самые большие серверы и самые глубокие карманы. Это возможность, которая, если ее правильно разработать, может работать где угодно и для кого угодно. Самое революционное в Phi-4 — это не то, что он может делать, а то, где он может это делать.
Если вы хотите произвести впечатление на своего босса, VB Daily вам поможет. Мы даем вам внутреннюю информацию о том, что компании делают с генеративным ИИ, от изменений в регулировании до практических развертываний, чтобы вы могли поделиться идеями для максимальной окупаемости инвестиций.
Ознакомьтесь с нашей Политикой конфиденциальности
Спасибо за подписку. Ознакомьтесь с другими рассылками VB здесь .
Произошла ошибка.

venturebeat