L'ascesa delle operazioni rapide: affrontare i costi nascosti dell'intelligenza artificiale derivanti da input errati e dal gonfiore del contesto

Questo articolo fa parte del numero speciale di VentureBeat, "Il vero costo dell'intelligenza artificiale: prestazioni, efficienza e ROI su larga scala". Scopri di più su questo numero speciale.
I fornitori di modelli continuano a implementare modelli linguistici di grandi dimensioni (LLM) sempre più sofisticati, con finestre contestuali più ampie e capacità di ragionamento migliorate.
Ciò consente ai modelli di elaborare e "pensare" di più, ma aumenta anche la capacità di calcolo: più un modello assorbe ed emette, più energia consuma e più alti sono i costi.
Se a tutto questo si aggiungono tutti i tentativi necessari per sollecitare i dati (possono essere necessari alcuni tentativi per arrivare al risultato previsto e, a volte, la domanda in questione semplicemente non ha bisogno di un modello in grado di pensare come un dottorato di ricerca), la spesa di elaborazione può sfuggire di mano.
Ciò sta dando vita alle cosiddette "pronta operazione", una disciplina del tutto nuova nell'era nascente dell'intelligenza artificiale .
"Il prompt engineering è un po' come la scrittura, la creazione vera e propria, mentre le prompt op sono come la pubblicazione, dove si evolve il contenuto", ha dichiarato a VentureBeat Crawford Del Prete, presidente di IDC . "Il contenuto è vivo, è in continua evoluzione, e bisogna assicurarsi di perfezionarlo nel tempo".
L'utilizzo e il costo del calcolo sono due "concetti correlati ma separati" nel contesto degli LLM, ha spiegato David Emerson, scienziato applicato presso il Vector Institute . In genere, il prezzo pagato dagli utenti varia in base sia al numero di token di input (ciò che l'utente richiede) sia al numero di token di output (ciò che il modello fornisce). Tuttavia, non vengono modificati per azioni in background come meta-prompt, istruzioni di guida o generazione aumentata del recupero (RAG).
Sebbene un contesto più lungo consenta ai modelli di elaborare molto più testo contemporaneamente, ciò si traduce direttamente in un numero significativamente maggiore di FLOPS (una misura della potenza di calcolo), ha spiegato. Alcuni aspetti dei modelli di trasformatori scalano persino quadraticamente con la lunghezza dell'input se non gestiti correttamente. Risposte inutilmente lunghe possono anche rallentare i tempi di elaborazione e richiedere calcoli e costi aggiuntivi per sviluppare e mantenere algoritmi che post-elaborino le risposte in modo da ottenere la risposta desiderata dagli utenti.
In genere, gli ambienti con contesto più lungo incentivano i provider a fornire deliberatamente risposte prolisse, ha affermato Emerson. Ad esempio, molti modelli di ragionamento più complessi (ad esempio o3 o o1 di OpenAI ) forniscono spesso risposte lunghe anche a domande semplici, con conseguenti elevati costi di elaborazione.
Ecco un esempio:
Input : Rispondi al seguente problema di matematica. Se ho 2 mele e ne compro altre 4 al supermercato dopo averne mangiata una, quante mele ho?
Risultato : se ne mangio 1, me ne rimane solo 1. Se ne compro altre 4, avrò 5 mele.
Il modello non solo ha generato più token del necessario, ma ha anche nascosto la sua risposta. Un ingegnere potrebbe quindi dover progettare un metodo programmatico per estrarre la risposta finale o porre domande di follow-up come "Qual è la tua risposta finale?", il che comporta costi API ancora maggiori.
In alternativa, il prompt potrebbe essere riprogettato per guidare il modello a produrre una risposta immediata. Ad esempio:
Input : Rispondi al seguente problema di matematica. Se ho 2 mele e ne compro altre 4 al supermercato dopo averne mangiata una, quante mele ho? Inizia la tua risposta con "La risposta è"...
O:
Input : Rispondi al seguente problema di matematica. Se ho 2 mele e ne compro altre 4 al supermercato dopo averne mangiata una, quante mele ho? Inserisci la risposta finale tra tag in grassetto. .
"Il modo in cui viene posta la domanda può ridurre lo sforzo o il costo per ottenere la risposta desiderata", ha affermato Emerson. Ha anche sottolineato che tecniche come il prompting a poche domande (che consiste nel fornire alcuni esempi di ciò che l'utente sta cercando) possono contribuire a produrre risultati più rapidi.
Un pericolo è non sapere quando utilizzare tecniche sofisticate come il suggerimento della catena di pensiero (CoT) (generazione di risposte in più fasi) o l'auto-raffinamento, che incoraggiano direttamente i modelli a produrre molti token o ad attraversare diverse iterazioni durante la generazione delle risposte, ha sottolineato Emerson.
Non tutte le query richiedono un modello da analizzare e rianalizzare prima di fornire una risposta, ha sottolineato; potrebbero essere perfettamente in grado di rispondere correttamente se istruite a rispondere direttamente. Inoltre, configurazioni API di prompting errate (come OpenAI o3, che richiede un elevato sforzo di ragionamento) comporteranno costi più elevati, mentre una richiesta più economica e con un minore sforzo sarebbe sufficiente.
"Con contesti più lunghi, gli utenti possono anche essere tentati di usare un approccio 'tutto tranne il lavello della cucina', in cui si inserisce più testo possibile in un contesto di modello nella speranza che ciò aiuti il modello a svolgere un'attività in modo più accurato", ha affermato Emerson. "Sebbene un contesto più ampio possa aiutare i modelli a svolgere un'attività, non è sempre l'approccio migliore o più efficiente".
Non è un segreto che oggigiorno sia difficile trovare infrastrutture ottimizzate per l'intelligenza artificiale; Del Prete di IDC ha sottolineato che le aziende devono essere in grado di ridurre al minimo i tempi di inattività della GPU e riempire più query nei cicli di inattività tra le richieste della GPU.
"Come posso sfruttare al meglio queste risorse così preziose?", ha osservato. "Perché devo aumentare l'utilizzo del mio sistema, perché non ho il vantaggio di dover semplicemente investire più capacità per risolvere il problema."
Le operazioni di prompt possono contribuire notevolmente ad affrontare questa sfida, poiché in ultima analisi gestiscono il ciclo di vita del prompt. Mentre il prompt engineering si occupa della qualità del prompt, le operazioni di prompt sono quelle in cui si ripete, ha spiegato Del Prete.
"È più una questione di orchestrazione", ha detto. "La considero come la selezione delle domande e la selezione del modo in cui si interagisce con l'intelligenza artificiale per assicurarsi di trarne il massimo vantaggio."
I modelli tendono ad "affaticarsi", andando in loop e la qualità degli output peggiora, ha affermato. Gli operatori di prompt aiutano a gestire, misurare, monitorare e ottimizzare i prompt. "Penso che, se ci guarderemo indietro tra tre o quattro anni, sarà diventata una disciplina a sé stante. Sarà un'abilità."
Sebbene si tratti ancora di un campo emergente, tra i primi fornitori figurano QueryPal, Promptable, Rebuff e TrueLens. Con l'evoluzione delle operazioni di prompt, queste piattaforme continueranno a essere iterate, migliorate e a fornire feedback in tempo reale per offrire agli utenti una maggiore capacità di ottimizzazione dei prompt nel tempo, ha osservato Dep Prete.
Alla fine, prevedeva, gli agenti saranno in grado di sintonizzare, scrivere e strutturare i prompt in autonomia. "Il livello di automazione aumenterà, il livello di interazione umana diminuirà, e gli agenti potranno operare in modo più autonomo nei prompt che creano."
Finché le operazioni di prompt non saranno pienamente realizzate, non esisterà un prompt perfetto. Alcuni degli errori più grandi che le persone commettono, secondo Emerson:
- Non essere sufficientemente specifici riguardo al problema da risolvere. Questo include il modo in cui l'utente desidera che il modello fornisca la risposta, cosa considerare nella risposta, i vincoli da considerare e altri fattori. "In molti contesti, i modelli necessitano di un buon contesto per fornire una risposta che soddisfi le aspettative degli utenti", ha affermato Emerson.
- Non considerare i modi in cui un problema può essere semplificato per restringere l'ambito della risposta. La risposta dovrebbe rientrare in un certo intervallo (da 0 a 100)? La risposta dovrebbe essere formulata come un problema a risposta multipla piuttosto che come qualcosa di aperto? L'utente può fornire buoni esempi per contestualizzare la domanda? Il problema può essere suddiviso in passaggi per domande separate e più semplici?
- Non sfruttare la struttura. Gli LLM sono molto efficaci nel riconoscimento di pattern e molti sono in grado di comprendere il codice. Sebbene l'utilizzo di elenchi puntati, elenchi a discesa o indicatori in grassetto (****) possa sembrare "un po' disordinato" agli occhi umani, ha osservato Emerson, questi callout possono essere utili per un LLM. Richiedere output strutturati (come JSON o Markdown) può anche essere utile quando gli utenti desiderano elaborare automaticamente le risposte.
Ci sono molti altri fattori da considerare nella manutenzione di una pipeline di produzione, sulla base delle migliori pratiche ingegneristiche, ha osservato Emerson. Tra questi:
- Assicurarsi che la produttività della pipeline rimanga costante;
- Monitoraggio delle prestazioni dei prompt nel tempo (potenzialmente rispetto a un set di convalida);
- Impostazione di test e rilevamento di allerta precoce per identificare problemi nella conduttura.
Gli utenti possono anche sfruttare strumenti progettati per supportare il processo di prompt. Ad esempio, DSPy , un'applicazione open source, può configurare e ottimizzare automaticamente i prompt per le attività successive sulla base di alcuni esempi etichettati. Sebbene questo possa essere un esempio piuttosto sofisticato, esistono molte altre soluzioni (incluse alcune integrate in strumenti come ChatGPT, Google e altri) che possono aiutare nella progettazione dei prompt.
E infine, Emerson ha affermato: "Penso che una delle cose più semplici che gli utenti possano fare è cercare di rimanere aggiornati sugli approcci di prompt efficaci, sugli sviluppi dei modelli e sui nuovi modi per configurare e interagire con i modelli".
venturebeat