Os novos modelos Phi-4 AI da Microsoft oferecem grande desempenho em pequenos pacotes

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais
A Microsoft introduziu uma nova classe de modelos de IA altamente eficientes que processam texto, imagens e fala simultaneamente, exigindo significativamente menos poder de computação do que os sistemas existentes. Os novos modelos Phi-4 , lançados hoje, representam um avanço no desenvolvimento de modelos de linguagem pequena (SLMs) que fornecem recursos anteriormente reservados para sistemas de IA muito maiores.
Phi-4-Multimodal , um modelo com apenas 5,6 bilhões de parâmetros, e Phi-4-Mini , com 3,8 bilhões de parâmetros, superam concorrentes de tamanho semelhante e até igualam ou excedem o desempenho de modelos com o dobro do tamanho em determinadas tarefas, de acordo com o relatório técnico da Microsoft.
“Esses modelos são projetados para capacitar desenvolvedores com capacidades avançadas de IA”, disse Weizhu Chen, vice-presidente de IA generativa da Microsoft. “Phi-4-multimodal, com sua capacidade de processar fala, visão e texto simultaneamente, abre novas possibilidades para criar aplicativos inovadores e sensíveis ao contexto.”
A conquista técnica chega em um momento em que as empresas estão cada vez mais buscando modelos de IA que possam ser executados em hardware padrão ou na “ borda ” — diretamente em dispositivos em vez de em data centers na nuvem — para reduzir custos e latência, mantendo a privacidade dos dados.
O que diferencia o Phi-4-Multimodal é sua nova técnica de “ mistura de LoRAs ”, permitindo que ele manipule texto, imagens e entradas de fala em um único modelo.
“Ao alavancar a mistura de LoRAs, o Phi-4-Multimodal estende as capacidades multimodais enquanto minimiza a interferência entre as modalidades”, afirma o artigo de pesquisa . “Essa abordagem permite integração perfeita e garante desempenho consistente em tarefas que envolvem texto, imagens e fala/áudio.”
A inovação permite que o modelo mantenha seus fortes recursos de linguagem enquanto adiciona reconhecimento de visão e fala sem a degradação do desempenho que geralmente ocorre quando os modelos são adaptados para vários tipos de entrada.
O modelo conquistou a primeira posição no ranking Hugging Face OpenASR com uma taxa de erro de palavras de 6,14%, superando sistemas especializados de reconhecimento de fala como WhisperV3 . Ele também demonstra desempenho competitivo em tarefas de visão como raciocínio matemático e científico com imagens.
Apesar do seu tamanho compacto, o Phi-4-Mini demonstra capacidades excepcionais em tarefas baseadas em texto. A Microsoft relata que o modelo “supera modelos de tamanho similar e está no mesmo nível de modelos duas vezes maiores” em vários benchmarks de compreensão de linguagem.
Particularmente notável é o desempenho do modelo em tarefas de matemática e codificação. De acordo com o artigo de pesquisa , “Phi-4-Mini consiste em 32 camadas Transformer com tamanho de estado oculto de 3.072” e incorpora atenção de consulta de grupo para otimizar o uso de memória para geração de contexto longo.
No benchmark matemático GSM-8K , o Phi-4-Mini alcançou uma pontuação de 88,6%, superando a maioria dos modelos de 8 bilhões de parâmetros, enquanto no benchmark MATH atingiu 64%, substancialmente maior que concorrentes de tamanho similar.
“Para o benchmark Math, o modelo supera modelos de tamanho similar com margens grandes, às vezes mais de 20 pontos. Ele até supera pontuações de modelos duas vezes maiores”, observa o relatório técnico.
O Capacity , um mecanismo de resposta de IA que ajuda organizações a unificar diversos conjuntos de dados, já aproveitou a família Phi para melhorar a eficiência e a precisão de sua plataforma.
Steve Frederickson, chefe de produto da Capacity, disse em uma declaração : “Desde nossos experimentos iniciais, o que realmente nos impressionou sobre o Phi foi sua precisão notável e a facilidade de implantação, mesmo antes da personalização. Desde então, conseguimos melhorar a precisão e a confiabilidade, tudo isso mantendo a relação custo-benefício e a escalabilidade que valorizamos desde o início.”
A Capacity relatou uma economia de custos de 4,2x em comparação aos fluxos de trabalho concorrentes, ao mesmo tempo em que alcançou resultados qualitativos iguais ou melhores para tarefas de pré-processamento.
Por anos, o desenvolvimento de IA foi impulsionado por uma filosofia singular: quanto maior, melhor. Mais parâmetros, modelos maiores, maiores demandas computacionais. Mas os modelos Phi-4 da Microsoft desafiam essa suposição, provando que o poder não é apenas sobre escala — é sobre eficiência.
Phi-4-Multimodal e Phi-4-Mini não foram projetados para os data centers de gigantes da tecnologia, mas para o mundo real — onde o poder de computação é limitado, as preocupações com a privacidade são primordiais e a IA precisa funcionar perfeitamente sem uma conexão constante com a nuvem. Esses modelos são pequenos, mas carregam peso. Phi-4-Multimodal integra processamento de fala, visão e texto em um único sistema sem sacrificar a precisão, enquanto Phi-4-Mini oferece desempenho de matemática, codificação e raciocínio no mesmo nível de modelos com o dobro do seu tamanho.
Não se trata apenas de tornar a IA mais eficiente; trata-se de torná-la mais acessível. A Microsoft posicionou o Phi-4 para adoção generalizada, disponibilizando-o por meio do Azure AI Foundry , Hugging Face e Nvidia API Catalog . O objetivo é claro: IA que não esteja bloqueada por hardware caro ou infraestrutura massiva, mas que possa operar em dispositivos padrão, na borda de redes e em setores onde o poder de computação é escasso.
Masaya Nishimaki, diretor da empresa japonesa de IA Headwaters Co., Ltd., vê o impacto em primeira mão. “A Edge AI demonstra desempenho excepcional mesmo em ambientes com conexões de rede instáveis ou onde a confidencialidade é primordial”, disse ele em uma declaração . Isso significa IA que pode funcionar em fábricas, hospitais, veículos autônomos — lugares onde a inteligência em tempo real é necessária, mas onde os modelos tradicionais baseados em nuvem ficam aquém.
Em sua essência, Phi-4 representa uma mudança de pensamento. A IA não é apenas uma ferramenta para aqueles com os maiores servidores e os bolsos mais fundos. É uma capacidade que, se bem projetada, pode funcionar em qualquer lugar, para qualquer pessoa. A coisa mais revolucionária sobre Phi-4 não é o que ele pode fazer — é onde ele pode fazer.
Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para obter o máximo de ROI.
Leia nossa Política de Privacidade
Obrigado por assinar. Confira mais boletins informativos do VB aqui .
Ocorreu um erro.

venturebeat