Fiducia nell'intelligenza artificiale agentiva: perché la valutazione dell'infrastruttura deve essere prioritaria

Con l'introduzione degli agenti di intelligenza artificiale nel mondo reale, le organizzazioni sono sotto pressione per definire la loro collocazione, come svilupparli in modo efficace e come renderli operativi su larga scala. Al Transform 2025 di VentureBeat, i leader del settore tecnologico si sono riuniti per parlare di come stanno trasformando il loro business con gli agenti: Joanne Chen, general partner di Foundation Capital; Shailesh Nalawadi, vicepresidente della gestione progetti di Sendbird; Thys Waanders, vicepresidente senior della trasformazione dell'intelligenza artificiale di Cognigy; e Shawn Malhotra, direttore tecnico di Rocket Companies.
"L'attrattiva iniziale di qualsiasi di queste implementazioni di agenti di intelligenza artificiale tende a essere legata al risparmio di capitale umano: il calcolo è piuttosto semplice", ha affermato Nalawadi. "Tuttavia, questo sottovaluta la capacità di trasformazione che si ottiene con gli agenti di intelligenza artificiale."
In Rocket, gli agenti di intelligenza artificiale hanno dimostrato di essere strumenti potenti per aumentare la conversione dei siti web.
"Abbiamo scoperto che con la nostra esperienza basata sugli agenti, ovvero l'esperienza conversazionale sul sito web, i clienti hanno tre volte più probabilità di convertirsi quando utilizzano quel canale", ha affermato Malhotra.
Ma questo è solo l'inizio. Ad esempio, un ingegnere di Rocket ha creato un agente in soli due giorni per automatizzare un'attività altamente specializzata: il calcolo delle imposte di trasferimento durante la sottoscrizione di un mutuo.
"Quei due giorni di impegno ci hanno fatto risparmiare un milione di dollari all'anno", ha affermato Malhotra. "Nel 2024, abbiamo risparmiato più di un milione di ore di lavoro dei nostri team, principalmente grazie alle nostre soluzioni di intelligenza artificiale. Non si tratta solo di un risparmio economico. Permette anche ai nostri team di dedicare il proprio tempo a chi effettua quella che spesso è la transazione finanziaria più importante della loro vita".
Gli agenti stanno essenzialmente dando una spinta ai singoli membri del team. Quel milione di ore risparmiate non rappresenta l'intero lavoro di qualcuno replicato più volte. Sono frazioni del lavoro che i dipendenti non amano fare o che non aggiungono valore al cliente. E quel milione di ore risparmiate dà a Rocket la capacità di gestire più attività.
"Alcuni membri del nostro team sono riusciti a gestire il 50% di clienti in più l'anno scorso rispetto all'anno precedente", ha aggiunto Malhotra. "Questo significa che possiamo avere una maggiore produttività, generare più business e, ancora una volta, registrare tassi di conversione più elevati perché dedicano più tempo a comprendere le esigenze del cliente, invece di svolgere molto più lavoro meccanico che l'IA può svolgere ora".
"Parte del percorso per i nostri team di ingegneri consiste nell'abbandonare la mentalità dell'ingegneria del software – scrivere una volta, testare e poi eseguire il test, dando la stessa risposta mille volte – a un approccio più probabilistico, in cui si chiede la stessa cosa a un LLM e si ottengono risposte diverse, basate su una certa probabilità", ha affermato Nalawadi. "Gran parte di questo percorso ha coinvolto persone. Non solo ingegneri del software, ma anche product manager e UX designer."
Ciò che ha contribuito è che gli LLM hanno fatto molta strada, ha affermato Waanders. Se creavano qualcosa 18 mesi o due anni prima, dovevano davvero scegliere il modello giusto, altrimenti l'agente non avrebbe funzionato come previsto. Ora, dice, siamo a una fase in cui la maggior parte dei modelli tradizionali si comporta molto bene. Sono più prevedibili. Ma oggi la sfida è combinare i modelli, garantire la reattività, orchestrare i modelli giusti nella giusta sequenza e integrare i dati giusti.
"Abbiamo clienti che gestiscono decine di milioni di conversazioni all'anno", ha affermato Waanders. "Se si automatizzano, diciamo, 30 milioni di conversazioni in un anno, come si scala nel mondo LLM? Sono tutte cose che abbiamo dovuto scoprire, cose semplici, a partire dal rendere il modello disponibile con i provider cloud. Avere una quota sufficiente con un modello ChatGPT, ad esempio. Sono tutte cose che abbiamo dovuto imparare, e anche i nostri clienti. È un mondo completamente nuovo."
Un livello superiore all'orchestrazione dell'LLM è l'orchestrazione di una rete di agenti, ha affermato Malhotra. Un'esperienza conversazionale ha una rete di agenti sotto il cofano, e l'orchestratore decide a quale agente assegnare la richiesta tra quelli disponibili.
"Se si considera la situazione in prospettiva e si pensa di avere centinaia o migliaia di agenti in grado di fare cose diverse, si incontrano problemi tecnici davvero interessanti", ha affermato. "Sta diventando un problema sempre più grande, perché la latenza e il tempo sono importanti. Il routing degli agenti sarà un problema molto interessante da risolvere nei prossimi anni".
Finora, il primo passo per la maggior parte delle aziende che lanciano l'IA agentica è stato quello di svilupparla internamente, poiché non esistevano ancora strumenti specializzati. Tuttavia, non è possibile differenziare e creare valore costruendo un'infrastruttura LLM generica o un'infrastruttura di IA, e sono necessarie competenze specialistiche per andare oltre la build iniziale, eseguire il debug, iterare e migliorare ciò che è stato costruito, nonché manutenere l'infrastruttura.
"Spesso scopriamo che le conversazioni più efficaci con i potenziali clienti tendono a riguardare chi ha già sviluppato qualcosa internamente", ha affermato Nalawadi. "Si rendono conto rapidamente che arrivare a un livello 1.0 va bene, ma con l'evoluzione del mondo e delle infrastrutture e la necessità di sostituire la tecnologia con qualcosa di nuovo, non hanno la capacità di orchestrare tutto questo."
In teoria, l'IA agentica non potrà che crescere in complessità: il numero di agenti in un'organizzazione aumenterà, questi inizieranno ad apprendere gli uni dagli altri e il numero di casi d'uso aumenterà esponenzialmente. Come possono le organizzazioni prepararsi a questa sfida?
"Significa che i controlli e gli equilibri del sistema saranno ulteriormente sollecitati", ha affermato Malhotra. "Per qualcosa che prevede un processo normativo, c'è un essere umano nel ciclo per garantire che qualcuno lo firmi. Per i processi interni critici o l'accesso ai dati, avete l'osservabilità? Avete un sistema di allerta e monitoraggio adeguato, in modo che se qualcosa va storto, sappiate che sta andando storto? Significa raddoppiare l'attenzione sul rilevamento, capire dove è necessario un essere umano nel ciclo e poi avere fiducia che quei processi interverranno se qualcosa va storto. Ma grazie al potere che sblocca, è necessario farlo."
Come si può quindi avere la certezza che un agente di intelligenza artificiale si comporterà in modo affidabile durante la sua evoluzione?
"Quella parte è davvero difficile se non ci si pensa fin dall'inizio", ha detto Nalawadi. "La risposta breve è che, prima ancora di iniziare a svilupparlo, si dovrebbe disporre di un'infrastruttura di valutazione. Assicuratevi di avere un ambiente rigoroso in cui sappiate cosa significa un buon aspetto, da un agente di intelligenza artificiale, e di avere questo set di test. Continuate a farvi riferimento man mano che apportate miglioramenti. Un modo molto semplicistico di pensare alla valutazione è considerarla come un insieme di test unitari per il vostro sistema agentico."
Il problema è che non è deterministico, ha aggiunto Waanders. I test unitari sono fondamentali, ma la sfida più grande è che non si sa cosa non si sa: quali comportamenti scorretti potrebbe manifestare un agente, come potrebbe reagire in una determinata situazione.
"Lo si può scoprire solo simulando conversazioni su larga scala, sottoponendole a migliaia di scenari diversi e poi analizzando come si comportano e come reagiscono", ha affermato Waanders.
venturebeat