Os novos modelos Phi-4 AI da Microsoft oferecem grande desempenho em pequenos pacotes

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais

A Microsoft introduziu uma nova classe de modelos de IA altamente eficientes que processam texto, imagens e fala simultaneamente, exigindo significativamente menos poder de computação do que os sistemas existentes. Os novos modelos Phi-4 , lançados hoje, representam um avanço no desenvolvimento de modelos de linguagem pequena (SLMs) que fornecem recursos anteriormente reservados para sistemas de IA muito maiores.

Phi-4-Multimodal , um modelo com apenas 5,6 bilhões de parâmetros, e Phi-4-Mini , com 3,8 bilhões de parâmetros, superam concorrentes de tamanho semelhante e até igualam ou excedem o desempenho de modelos com o dobro do tamanho em determinadas tarefas, de acordo com o relatório técnico da Microsoft.

“Esses modelos são projetados para capacitar desenvolvedores com capacidades avançadas de IA”, disse Weizhu Chen, vice-presidente de IA generativa da Microsoft. “Phi-4-multimodal, com sua capacidade de processar fala, visão e texto simultaneamente, abre novas possibilidades para criar aplicativos inovadores e sensíveis ao contexto.”

A conquista técnica chega em um momento em que as empresas estão cada vez mais buscando modelos de IA que possam ser executados em hardware padrão ou na “ borda ” — diretamente em dispositivos em vez de em data centers na nuvem — para reduzir custos e latência, mantendo a privacidade dos dados.

O que diferencia o Phi-4-Multimodal é sua nova técnica de “ mistura de LoRAs ”, permitindo que ele manipule texto, imagens e entradas de fala em um único modelo.

“Ao alavancar a mistura de LoRAs, o Phi-4-Multimodal estende as capacidades multimodais enquanto minimiza a interferência entre as modalidades”, afirma o artigo de pesquisa . “Essa abordagem permite integração perfeita e garante desempenho consistente em tarefas que envolvem texto, imagens e fala/áudio.”

A inovação permite que o modelo mantenha seus fortes recursos de linguagem enquanto adiciona reconhecimento de visão e fala sem a degradação do desempenho que geralmente ocorre quando os modelos são adaptados para vários tipos de entrada.

O modelo conquistou a primeira posição no ranking Hugging Face OpenASR com uma taxa de erro de palavras de 6,14%, superando sistemas especializados de reconhecimento de fala como WhisperV3 . Ele também demonstra desempenho competitivo em tarefas de visão como raciocínio matemático e científico com imagens.

Apesar do seu tamanho compacto, o Phi-4-Mini demonstra capacidades excepcionais em tarefas baseadas em texto. A Microsoft relata que o modelo “supera modelos de tamanho similar e está no mesmo nível de modelos duas vezes maiores” em vários benchmarks de compreensão de linguagem.

Particularmente notável é o desempenho do modelo em tarefas de matemática e codificação. De acordo com o artigo de pesquisa , “Phi-4-Mini consiste em 32 camadas Transformer com tamanho de estado oculto de 3.072” e incorpora atenção de consulta de grupo para otimizar o uso de memória para geração de contexto longo.

No benchmark matemático GSM-8K , o Phi-4-Mini alcançou uma pontuação de 88,6%, superando a maioria dos modelos de 8 bilhões de parâmetros, enquanto no benchmark MATH atingiu 64%, substancialmente maior que concorrentes de tamanho similar.

“Para o benchmark Math, o modelo supera modelos de tamanho similar com margens grandes, às vezes mais de 20 pontos. Ele até supera pontuações de modelos duas vezes maiores”, observa o relatório técnico.

O Capacity , um mecanismo de resposta de IA que ajuda organizações a unificar diversos conjuntos de dados, já aproveitou a família Phi para melhorar a eficiência e a precisão de sua plataforma.

Steve Frederickson, chefe de produto da Capacity, disse em uma declaração : “Desde nossos experimentos iniciais, o que realmente nos impressionou sobre o Phi foi sua precisão notável e a facilidade de implantação, mesmo antes da personalização. Desde então, conseguimos melhorar a precisão e a confiabilidade, tudo isso mantendo a relação custo-benefício e a escalabilidade que valorizamos desde o início.”

A Capacity relatou uma economia de custos de 4,2x em comparação aos fluxos de trabalho concorrentes, ao mesmo tempo em que alcançou resultados qualitativos iguais ou melhores para tarefas de pré-processamento.

Por anos, o desenvolvimento de IA foi impulsionado por uma filosofia singular: quanto maior, melhor. Mais parâmetros, modelos maiores, maiores demandas computacionais. Mas os modelos Phi-4 da Microsoft desafiam essa suposição, provando que o poder não é apenas sobre escala — é sobre eficiência.

Phi-4-Multimodal e Phi-4-Mini não foram projetados para os data centers de gigantes da tecnologia, mas para o mundo real — onde o poder de computação é limitado, as preocupações com a privacidade são primordiais e a IA precisa funcionar perfeitamente sem uma conexão constante com a nuvem. Esses modelos são pequenos, mas carregam peso. Phi-4-Multimodal integra processamento de fala, visão e texto em um único sistema sem sacrificar a precisão, enquanto Phi-4-Mini oferece desempenho de matemática, codificação e raciocínio no mesmo nível de modelos com o dobro do seu tamanho.

Não se trata apenas de tornar a IA mais eficiente; trata-se de torná-la mais acessível. A Microsoft posicionou o Phi-4 para adoção generalizada, disponibilizando-o por meio do Azure AI Foundry , Hugging Face e Nvidia API Catalog . O objetivo é claro: IA que não esteja bloqueada por hardware caro ou infraestrutura massiva, mas que possa operar em dispositivos padrão, na borda de redes e em setores onde o poder de computação é escasso.

Masaya Nishimaki, diretor da empresa japonesa de IA Headwaters Co., Ltd., vê o impacto em primeira mão. “A Edge AI demonstra desempenho excepcional mesmo em ambientes com conexões de rede instáveis ou onde a confidencialidade é primordial”, disse ele em uma declaração . Isso significa IA que pode funcionar em fábricas, hospitais, veículos autônomos — lugares onde a inteligência em tempo real é necessária, mas onde os modelos tradicionais baseados em nuvem ficam aquém.

Em sua essência, Phi-4 representa uma mudança de pensamento. A IA não é apenas uma ferramenta para aqueles com os maiores servidores e os bolsos mais fundos. É uma capacidade que, se bem projetada, pode funcionar em qualquer lugar, para qualquer pessoa. A coisa mais revolucionária sobre Phi-4 não é o que ele pode fazer — é onde ele pode fazer.

Insights diários sobre casos de uso de negócios com VB Daily

Se você quer impressionar seu chefe, o VB Daily tem o que você precisa. Nós damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para obter o máximo de ROI.

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais boletins informativos do VB aqui .

Ocorreu um erro.

venturebeat

Os novos modelos Phi-4 AI da Microsoft oferecem grande desempenho em pequenos pacotes

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais

O que diferencia o Phi-4-Multimodal é sua nova técnica de “ mistura de LoRAs ”, permitindo que ele manipule texto, imagens e entradas de fala em um único modelo.

O Capacity , um mecanismo de resposta de IA que ajuda organizações a unificar diversos conjuntos de dados, já aproveitou a família Phi para melhorar a eficiência e a precisão de sua plataforma.

Insights diários sobre casos de uso de negócios com VB Daily

Leia nossa Política de Privacidade

Obrigado por assinar. Confira mais boletins informativos do VB aqui .

Ocorreu um erro.

venturebeat

Os novos modelos Phi-4 AI da Microsoft oferecem grande desempenho em pequenos pacotes

Notícias semelhantes

Os novos modelos Phi-4 AI da Microsoft oferecem grande desempenho em pequenos pacotes

Notícias semelhantes

Os melhores fones de ouvido com cancelamento de ruído para 2025

Você vai pagar por uma nova Alexa? Eu tentei a nova atualização do Echo e é surpreendentemente bom

FBI acusa hackers apoiados pela Coreia do Norte de roubar US$ 1,5 bilhão em criptomoedas de empresa sediada em Dubai

A Samsung lhe dará uma TV deslumbrante de graça se você abandonar o Windows 10 para sempre

O Fitbit pode oferecer uma nova atualização inteligente para alguns usuários. Seu rastreador receberá isso?