A armadilha da inferência: como os provedores de nuvem estão consumindo suas margens de IA

Este artigo faz parte da edição especial da VentureBeat, “O custo real da IA: desempenho, eficiência e ROI em escala”. Leia mais nesta edição especial.

A IA se tornou o Santo Graal das empresas modernas. Seja no atendimento ao cliente ou em algo tão específico quanto a manutenção de pipeline, organizações em todos os setores estão implementando tecnologias de IA — de modelos de base a VLAs — para tornar tudo mais eficiente. O objetivo é simples: automatizar tarefas para entregar resultados com mais eficiência e, ao mesmo tempo, economizar dinheiro e recursos.

No entanto, à medida que esses projetos passam da fase piloto para a fase de produção, as equipes se deparam com um obstáculo inesperado: os custos da nuvem corroem suas margens. O choque é tão grande que o que antes parecia o caminho mais rápido para a inovação e a vantagem competitiva se transforma em um buraco orçamentário insustentável – em pouco tempo.

Isso leva os CIOs a repensar tudo — da arquitetura do modelo aos modelos de implantação — para retomar o controle sobre os aspectos financeiros e operacionais. Às vezes, eles até encerram os projetos por completo, recomeçando do zero.

Mas aqui está o fato: embora a nuvem possa levar os custos a níveis insuportáveis, ela não é a vilã. Você só precisa entender que tipo de veículo (infraestrutura de IA) escolher para seguir qual caminho (a carga de trabalho).

A história da nuvem — e onde ela funciona

A nuvem é muito parecida com o transporte público (metrôs e ônibus). Você embarca com um modelo de aluguel simples, e ele te dá instantaneamente todos os recursos — desde instâncias de GPU até escalonamento rápido em diversas regiões — para levá-lo ao seu destino, tudo com o mínimo de trabalho e configuração.

O acesso rápido e fácil por meio de um modelo de serviço garante um início tranquilo, abrindo caminho para tirar o projeto do papel e fazer experimentações rápidas sem o enorme gasto inicial de capital para adquirir GPUs especializadas.

A maioria das startups em estágio inicial acha esse modelo lucrativo, pois precisam de um retorno rápido mais do que qualquer outra coisa, especialmente quando ainda estão validando o modelo e determinando a adequação do produto ao mercado.

“Você cria uma conta, clica em alguns botões e obtém acesso aos servidores. Se precisar de um tamanho de GPU diferente, você desliga e reinicia a instância com as novas especificações, o que leva minutos. Se quiser executar dois experimentos simultaneamente, inicializa duas instâncias separadas. Nos estágios iniciais, o foco é validar ideias rapidamente. Usar as estruturas integradas de escalonamento e experimentação fornecidas pela maioria das plataformas de nuvem ajuda a reduzir o tempo entre os marcos”, disse Rohan Sarin, líder de produto de IA de voz na Speechmatics , à VentureBeat.

Embora a nuvem faça todo o sentido para uso em estágio inicial, a matemática da infraestrutura se torna sombria à medida que o projeto transita de testes e validação para volumes reais. A escala das cargas de trabalho torna as contas exorbitantes — tanto que os custos podem aumentar mais de 1000% da noite para o dia.

Isso é particularmente verdadeiro no caso da inferência, que não só precisa funcionar 24 horas por dia, 7 dias por semana para garantir o tempo de atividade do serviço, mas também ser dimensionada conforme a demanda do cliente.

Na maioria dos casos, explica Sarin, a demanda por inferência aumenta quando outros clientes também solicitam acesso à GPU, aumentando a competição por recursos. Nesses casos, as equipes mantêm uma capacidade reservada para garantir que obtenham o que precisam — resultando em tempo ocioso da GPU fora dos horários de pico — ou sofrem com latências, impactando a experiência posterior.

Christian Khoury, CEO da plataforma de conformidade de IA EasyAudit AI , descreveu a inferência como o novo "imposto sobre a nuvem", dizendo ao VentureBeat que viu empresas passarem de US$ 5 mil para US$ 50 mil/mês da noite para o dia, apenas com o tráfego de inferência.

Também vale a pena notar que cargas de trabalho de inferência envolvendo LLMs, com preços baseados em tokens, podem desencadear os maiores aumentos de custo. Isso ocorre porque esses modelos são não determinísticos e podem gerar resultados diferentes ao lidar com tarefas de longa duração (envolvendo grandes janelas de contexto). Com atualizações contínuas, fica muito difícil prever ou controlar os custos de inferência de LLMs.

O treinamento desses modelos, por sua vez, ocorre em "burst" (em clusters), o que deixa alguma margem para o planejamento de capacidade. No entanto, mesmo nesses casos, especialmente porque a crescente concorrência exige retreinamentos frequentes, as empresas podem ter contas enormes com o tempo ocioso da GPU, decorrente do excesso de provisionamento.

“Créditos de treinamento em plataformas de nuvem são caros, e retreinamentos frequentes durante ciclos de iteração rápidos podem aumentar os custos rapidamente. Treinamentos longos exigem acesso a máquinas grandes, e a maioria dos provedores de nuvem só garante esse acesso se você reservar capacidade por um ano ou mais. Se o seu treinamento durar apenas algumas semanas, você ainda pagará pelo restante do ano”, explicou Sarin.

E não é só isso. O aprisionamento à nuvem é muito real. Suponha que você tenha feito uma reserva de longo prazo e comprado créditos de um provedor. Nesse caso, você fica preso ao ecossistema dele e precisa usar tudo o que ele oferece, mesmo quando outros provedores migraram para uma infraestrutura mais nova e melhor. E, finalmente, quando você tiver a possibilidade de migrar, poderá ter que arcar com taxas de saída exorbitantes.

"Não se trata apenas do custo computacional. Você tem... escalonamento automático imprevisível e taxas de saída exorbitantes ao mover dados entre regiões ou fornecedores. Uma equipe estava pagando mais para mover dados do que para treinar seus modelos", enfatizou Sarin.

Dada a demanda constante de infraestrutura para dimensionar a inferência de IA e a natureza intermitente do treinamento, as empresas estão migrando para a divisão das cargas de trabalho, levando a inferência para pilhas de colocation ou locais, enquanto deixam o treinamento para a nuvem com instâncias pontuais.

Isso não é apenas teoria — é um movimento crescente entre líderes de engenharia que tentam colocar a IA em produção sem gastar muito.

"Ajudamos equipes a migrar para colocation para inferência usando servidores GPU dedicados que elas controlam. Não é atraente, mas reduz os gastos mensais com infraestrutura em 60% a 80%", acrescentou Khoury. "O híbrido não é apenas mais barato, é mais inteligente."

Em um caso, ele disse, uma empresa de SaaS reduziu sua conta mensal de infraestrutura de IA de aproximadamente US$ 42.000 para apenas US$ 9.000 ao migrar cargas de trabalho de inferência para fora da nuvem. A mudança se pagou em menos de duas semanas.

Outra equipe, que precisava de respostas consistentes abaixo de 50 ms para uma ferramenta de suporte ao cliente de IA, descobriu que a latência de inferência baseada em nuvem era insuficiente. Transferir a inferência para mais perto dos usuários por meio de colocation não só resolveu o gargalo de desempenho, como também reduziu o custo pela metade.

A configuração normalmente funciona assim: a inferência, sempre ativa e sensível à latência, é executada em GPUs dedicadas, no local ou em um data center próximo (instalação de colocation). Enquanto isso, o treinamento, que exige muita computação, mas é esporádico, permanece na nuvem, onde você pode criar clusters poderosos sob demanda, executá-los por algumas horas ou dias e depois desligá-los.

Em termos gerais, estima-se que alugar de provedores de nuvem em hiperescala pode custar de três a quatro vezes mais por hora de GPU do que trabalhar com provedores menores, sendo a diferença ainda mais significativa em comparação à infraestrutura local.

O outro grande bônus? Previsibilidade.

Com pilhas locais ou de colocation, as equipes também têm controle total sobre o número de recursos que desejam provisionar ou adicionar para a linha de base esperada de cargas de trabalho de inferência. Isso traz previsibilidade aos custos de infraestrutura e elimina contas inesperadas. Também reduz o esforço agressivo de engenharia para ajustar o escalonamento e manter os custos de infraestrutura em nuvem dentro do razoável.

Configurações híbridas também ajudam a reduzir a latência para aplicativos de IA sensíveis ao tempo e permitem melhor conformidade, especialmente para equipes que operam em setores altamente regulamentados, como finanças, saúde e educação — onde a residência e a governança de dados não são negociáveis.

Como sempre, a mudança para uma configuração híbrida traz consigo um custo operacional próprio. Configurar seu próprio hardware ou alugar uma instalação de colocation leva tempo, e gerenciar GPUs fora da nuvem exige um tipo diferente de força de engenharia.

No entanto, os líderes argumentam que a complexidade é frequentemente exagerada e geralmente pode ser gerenciada internamente ou por meio de suporte externo, a menos que se esteja operando em uma escala extrema.

Nossos cálculos mostram que um servidor GPU local custa aproximadamente o mesmo que seis a nove meses de aluguel de uma instância equivalente da AWS, Azure ou Google Cloud, mesmo com uma taxa reservada de um ano. Como o hardware normalmente dura pelo menos três anos, e frequentemente mais de cinco, isso se torna um custo-benefício positivo já nos primeiros nove meses. Alguns fornecedores de hardware também oferecem modelos de preços operacionais para infraestrutura de capital, permitindo que você evite o pagamento inicial se o fluxo de caixa for uma preocupação”, explicou Sarin.

Para qualquer empresa, seja uma startup ou uma grande corporação, a chave para o sucesso ao arquitetar — ou re-arquitetar — uma infraestrutura de IA está em trabalhar de acordo com as cargas de trabalho específicas em questão.

Se não tiver certeza sobre a carga das diferentes cargas de trabalho de IA, comece com a nuvem e monitore de perto os custos associados, atribuindo cada recurso à equipe responsável. Você pode compartilhar esses relatórios de custos com todos os gerentes e analisar detalhadamente o que eles estão usando e seu impacto nos recursos. Esses dados fornecerão clareza e ajudarão a pavimentar o caminho para impulsionar a eficiência.

Dito isso, lembre-se de que não se trata de abandonar a nuvem completamente; trata-se de otimizar seu uso para maximizar a eficiência.

“A nuvem ainda é ótima para experimentação e treinamento em alta velocidade. Mas se a inferência é sua principal carga de trabalho, saia da rotina de aluguel. O híbrido não é apenas mais barato... É mais inteligente”, acrescentou Khoury. “Trate a nuvem como um protótipo, não como um lar permanente. Faça as contas. Converse com seus engenheiros. A nuvem nunca dirá quando é a ferramenta errada. Mas sua conta da AWS dirá.”

venturebeat

A armadilha da inferência: como os provedores de nuvem estão consumindo suas margens de IA

Notícias semelhantes

Como assistir Doechii no Glastonbury 2025 online gratuitamente

Como assistir Benfica x Chelsea online grátis

Obtenha o AdGuard para sua família, agora por US$ 16 para o resto da vida

Como assistir Western Force vs. British and Irish Lions online gratuitamente

Como assistir Inglaterra Sub-21 x Alemanha Sub-21 online gratuitamente