Seleziona la lingua

Italian

Down Icon

Seleziona Paese

America

Down Icon

La trappola dell'inferenza: come i provider cloud stanno mangiando i margini dell'intelligenza artificiale

La trappola dell'inferenza: come i provider cloud stanno mangiando i margini dell'intelligenza artificiale

Questo articolo fa parte del numero speciale di VentureBeat, "Il vero costo dell'intelligenza artificiale: prestazioni, efficienza e ROI su larga scala". Scopri di più su questo numero speciale.

L'intelligenza artificiale è diventata il Santo Graal delle aziende moderne. Che si tratti di assistenza clienti o di qualcosa di nicchia come la manutenzione delle pipeline, le organizzazioni di ogni settore stanno ora implementando tecnologie di intelligenza artificiale, dai modelli di base ai VLA, per rendere tutto più efficiente. L'obiettivo è semplice: automatizzare le attività per ottenere risultati in modo più efficiente e risparmiare denaro e risorse contemporaneamente.

Tuttavia, mentre questi progetti passano dalla fase pilota a quella di produzione, i team si imbattono in un ostacolo imprevisto: i costi del cloud erodono i margini. Lo shock da prezzo è così forte che quella che un tempo sembrava la via più rapida per l'innovazione e il vantaggio competitivo si trasforma in un buco nero insostenibile per il bilancio, in men che non si dica.

Questo spinge i CIO a ripensare tutto, dall'architettura dei modelli ai modelli di implementazione, per riprendere il controllo sugli aspetti finanziari e operativi. A volte, addirittura, chiudono completamente i progetti, ricominciando da zero.

Ma ecco il punto: sebbene il cloud possa portare i costi a livelli insostenibili, non è il problema. Bisogna solo capire quale tipo di veicolo (infrastruttura di intelligenza artificiale) scegliere per percorrere una determinata strada (il carico di lavoro).

La storia del cloud e dove funziona

Il cloud è molto simile ai trasporti pubblici (metropolitane e autobus). Si accede tramite un semplice modello di noleggio e si ottengono immediatamente tutte le risorse, dalle istanze GPU alla rapida scalabilità in diverse aree geografiche, per raggiungere la destinazione desiderata, il tutto con un minimo di lavoro e configurazione.

L'accesso rapido e semplice tramite un modello di servizio garantisce un avvio senza intoppi, aprendo la strada all'avvio del progetto e alla rapida sperimentazione senza l'enorme spesa iniziale di capitale per l'acquisizione di GPU specializzate.

La maggior parte delle startup in fase iniziale ritiene che questo modello sia redditizio, poiché hanno più di ogni altra cosa bisogno di una rapida svolta, soprattutto quando stanno ancora convalidando il modello e determinando l'adattamento prodotto-mercato.

"Si crea un account, si clicca su alcuni pulsanti e si accede ai server. Se si necessita di una GPU di dimensioni diverse, si spegne e si riavvia l'istanza con le nuove specifiche, operazione che richiede pochi minuti. Se si vogliono eseguire due esperimenti contemporaneamente, si inizializzano due istanze separate. Nelle fasi iniziali, l'obiettivo è convalidare rapidamente le idee. L'utilizzo dei framework integrati di scalabilità e sperimentazione forniti dalla maggior parte delle piattaforme cloud aiuta a ridurre i tempi tra le milestone", ha dichiarato a VentureBeat Rohan Sarin, responsabile del prodotto di intelligenza artificiale vocale presso Speechmatics .

Sebbene il cloud sia perfettamente sensato per l'utilizzo iniziale, i calcoli infrastrutturali si fanno più complessi man mano che il progetto passa dalla fase di test e convalida a volumi reali. L'entità dei carichi di lavoro rende le fatture esorbitanti, al punto che i costi possono aumentare di oltre il 1000% da un giorno all'altro.

Ciò è particolarmente vero nel caso dell'inferenza, che non solo deve essere eseguita 24 ore su 24, 7 giorni su 7 per garantire il tempo di attività del servizio, ma anche adattarsi alla domanda dei clienti.

Nella maggior parte dei casi, spiega Sarin, la domanda di inferenza aumenta quando anche altri clienti richiedono l'accesso alla GPU, aumentando la competizione per le risorse. In questi casi, i team mantengono una capacità riservata per assicurarsi di ottenere ciò di cui hanno bisogno, con conseguente inattività della GPU nelle ore non di punta, oppure subiscono latenze, con un impatto negativo sull'esperienza a valle.

Christian Khoury, CEO della piattaforma di conformità AI EasyAudit AI , ha descritto l'inferenza come la nuova "tassa sul cloud", raccontando a VentureBeat di aver visto aziende passare da 5.000 a 50.000 dollari al mese da un giorno all'altro, solo grazie al traffico di inferenza.

Vale anche la pena notare che i carichi di lavoro di inferenza che coinvolgono LLM, con prezzi basati su token, possono innescare i maggiori aumenti di costo. Questo perché questi modelli non sono deterministici e possono generare output diversi quando gestiscono attività di lunga durata (che coinvolgono ampie finestre di contesto). Con aggiornamenti continui, diventa davvero difficile prevedere o controllare i costi di inferenza degli LLM.

L'addestramento di questi modelli, d'altra parte, avviene a raffiche (si verifica in cluster), il che lascia un certo margine per la pianificazione della capacità. Tuttavia, anche in questi casi, soprattutto perché la crescente concorrenza impone frequenti riqualificazioni, le aziende possono incorrere in costi elevati per il tempo di inattività della GPU, dovuto all'eccesso di risorse.

"I crediti formativi sulle piattaforme cloud sono costosi e i frequenti aggiornamenti durante cicli di iterazione rapidi possono far lievitare rapidamente i costi. Lunghi periodi di formazione richiedono l'accesso a macchine di grandi dimensioni e la maggior parte dei provider cloud garantisce tale accesso solo se si riserva la capacità per un anno o più. Se il periodo di formazione dura solo poche settimane, si paga comunque per il resto dell'anno", ha spiegato Sarin.

E non si tratta solo di questo. Il lock-in del cloud è molto reale. Supponiamo che tu abbia effettuato una prenotazione a lungo termine e acquistato crediti da un fornitore. In tal caso, sei bloccato nel suo ecosistema e devi utilizzare qualsiasi cosa abbia da offrire, anche quando altri fornitori sono passati a infrastrutture più recenti e migliori. E, infine, quando avrai la possibilità di cambiare, potresti dover sostenere ingenti costi di uscita.

"Non si tratta solo di costi di elaborazione. Si ottengono... un autoscaling imprevedibile e costi di uscita esorbitanti se si spostano dati tra regioni o fornitori. Un team pagava di più per spostare i dati che per addestrare i propri modelli", ha sottolineato Sarin.

Data la costante richiesta infrastrutturale di scalabilità dell'inferenza dell'IA e la natura a raffica dell'addestramento, le aziende si stanno muovendo verso la suddivisione dei carichi di lavoro, spostando l'inferenza su stack di colocation o on-prem e lasciando l'addestramento al cloud con istanze spot.

Non si tratta solo di teoria: è un movimento in crescita tra i leader dell'ingegneria che cercano di mettere in produzione l'intelligenza artificiale senza bruciare i binari.

"Abbiamo aiutato i team a passare alla colocation per l'inferenza utilizzando server GPU dedicati da loro controllati. Non è una soluzione attraente, ma riduce la spesa infrastrutturale mensile del 60-80%", ha aggiunto Khoury. "L'ibrido non è solo più economico, è anche più intelligente".

In un caso, ha affermato, un'azienda SaaS ha ridotto la sua fattura mensile per l'infrastruttura di intelligenza artificiale da circa 42.000 dollari a soli 9.000 dollari, trasferendo i carichi di lavoro di inferenza dal cloud. Il passaggio si è ripagato in meno di due settimane.

Un altro team che necessitava di risposte costanti inferiori a 50 ms per uno strumento di supporto clienti basato sull'intelligenza artificiale ha scoperto che la latenza dell'inferenza basata su cloud era insufficiente. Spostare l'inferenza più vicino agli utenti tramite la colocation non solo ha risolto il collo di bottiglia in termini di prestazioni, ma ha anche dimezzato i costi.

La configurazione in genere funziona così: l'inferenza, sempre attiva e sensibile alla latenza, viene eseguita su GPU dedicate, in locale o in un data center nelle vicinanze (struttura di colocation). Nel frattempo, l'addestramento, che richiede un elevato utilizzo di risorse di calcolo ma è sporadico, rimane nel cloud, dove è possibile avviare cluster potenti su richiesta, eseguirli per alcune ore o giorni e poi spegnerli.

In generale, si stima che noleggiare da provider cloud hyperscale possa costare da tre a quattro volte di più per ora GPU rispetto a lavorare con provider più piccoli, con una differenza ancora più significativa se confrontata con l'infrastruttura on-premise.

L'altro grande vantaggio? La prevedibilità.

Con stack on-premise o in colocation, i team hanno anche il pieno controllo sul numero di risorse che desiderano provisionare o aggiungere per la baseline prevista dei carichi di lavoro di inferenza. Questo garantisce prevedibilità nei costi infrastrutturali ed elimina le fatture a sorpresa. Inoltre, riduce l'aggressivo sforzo ingegneristico necessario per ottimizzare la scalabilità e mantenere i costi dell'infrastruttura cloud entro limiti ragionevoli.

Le configurazioni ibride contribuiscono inoltre a ridurre la latenza per le applicazioni di intelligenza artificiale sensibili al fattore tempo e consentono una migliore conformità, in particolare per i team che operano in settori altamente regolamentati come finanza, sanità e istruzione, dove la residenza e la governance dei dati non sono negoziabili.

Come sempre, il passaggio a una configurazione ibrida comporta una serie di oneri operativi. Configurare il proprio hardware o affittare una struttura di colocation richiede tempo, e la gestione delle GPU al di fuori del cloud richiede una diversa capacità ingegneristica.

Tuttavia, i leader sostengono che la complessità è spesso sopravvalutata e che solitamente è gestibile internamente o tramite supporto esterno, a meno che non si operi su larga scala.

"I nostri calcoli mostrano che un server GPU on-prem costa all'incirca quanto sei-nove mesi di noleggio dell'istanza equivalente da AWS, Azure o Google Cloud, anche con una tariffa riservata di un anno. Poiché l'hardware dura in genere almeno tre anni, e spesso più di cinque, questo diventa vantaggioso in termini di costi entro i primi nove mesi. Alcuni fornitori di hardware offrono anche modelli di prezzo operativi per l'infrastruttura di capitale, in modo da evitare pagamenti anticipati se il flusso di cassa è un problema", ha spiegato Sarin.

Per qualsiasi azienda, che sia una startup o un'impresa, la chiave del successo nella progettazione (o riprogettazione) di un'infrastruttura di intelligenza artificiale sta nel lavorare in base ai carichi di lavoro specifici da gestire.

Se non sei sicuro del carico di lavoro dei diversi carichi di lavoro di intelligenza artificiale, inizia dal cloud e tieni d'occhio i costi associati, assegnando a ogni risorsa il team responsabile. Puoi condividere questi report sui costi con tutti i manager e analizzare in dettaglio cosa stanno utilizzando e il suo impatto sulle risorse. Questi dati forniranno chiarezza e contribuiranno a spianare la strada per aumentare l'efficienza.

Detto questo, è bene ricordare che non si tratta di abbandonare completamente il cloud, ma di ottimizzarne l'uso per massimizzare l'efficienza.

"Il cloud è ancora ottimo per la sperimentazione e l'allenamento a raffica. Ma se l'inferenza è il vostro carico di lavoro principale, abbandonate la routine dell'affitto. L'ibrido non è solo più economico... È più intelligente", ha aggiunto Khoury. "Trattate il cloud come un prototipo, non come la sede definitiva. Fate i calcoli. Parlate con i vostri ingegneri. Il cloud non vi dirà mai quando è lo strumento sbagliato. Ma la vostra fattura AWS lo farà."

venturebeat

venturebeat

Notizie simili

Tutte le notizie
Animated ArrowAnimated ArrowAnimated Arrow