L’illusione di pensare: cosa succede davvero quando diciamo che l’intelligenza artificiale ragiona?

Negli ultimi mesi, diversi modelli linguistici hanno iniziato a mostrare un comportamento apparentemente più "intelligente". Non si limitano più a dare una risposta, ma mostrano il proprio ragionamento passo dopo passo. Battezzati Large Reasoning Models (LRM), vengono presentati come un passo verso un'intelligenza artificiale più capace, più trasparente e più vicina al mondo di pensare umano. Ma cosa succede davvero quando questi modelli affrontano problemi complessi?
Un gruppo di ricercatori di Apple ha cercato di rispondere a questa domanda in modo rigoroso. Lo studio, intitolato The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, analizza il comportamento di modelli come o1 e o3 di OpenAI, DeepSeek-R1, Claude 3.7 Sonnet Thinking e Gemini Thinking, mettendoli alla prova su puzzle logici di complessità crescente. Il paper di Apple mostra lo stato dell’arte dell’azienda, che da tempo pubblica i risultati degli studi dei suoi scienziati, mostrando come a Cupertino la riflessione teorica sull’intelligenza artificiale sia forse perfino superiore al suo impiego concreto in prodotti e servizi.
I testInvece di usare i consueti test matematici come MATH500 o AIME, spesso influenzati da contaminazioni nei dati di addestramento, i ricercatori hanno creato ambienti controllati: semplici puzzle logici che permettono di regolare con precisione la difficoltà. Ogni puzzle ha regole chiare e comprensibili, ma diventa sempre più difficile man mano che si aggiungono elementi.
Uno dei puzzle più usati è la Torre di Hanoi, dove bisogna spostare dischi da un piolo a un altro senza mai mettere un disco più grande sopra uno più piccolo. Un altro è il River Crossing, in cui attori e agenti devono attraversare un fiume senza infrangere regole di sicurezza (un attore non può mai trovarsi da solo con l'agente sbagliato). Ci sono poi i puzzle dei blocchi da impilare e quello delle pedine rosse e blu da far scambiare di posto.
L’obiettivo non era solo vedere se il modello arrivava alla risposta giusta, ma anche studiare il percorso del ragionamento. Per ogni passaggio, i ricercatori hanno osservato quando apparivano soluzioni corrette e se queste venivano mantenute o scartate.
Tre fasiLo studio rivela che i LRM attraversano tre fasi ben distinte. All’inizio, quando i problemi sono semplici, i modelli che non ragionano esplicitamente (cioè che non usano la “catena di pensiero”) sono più rapidi e più precisi. I modelli “pensanti” sono invece più lenti e spesso sbagliano: “I modelli senza ragionamento esplicito riescono a ottenere prestazioni paragonabili, se non migliori, di quelli che ragionano.
Quando la difficoltà sale, i modelli con capacità di ragionamento iniziano a prendere il sopravvento, mostrando migliori prestazioni. Ma superato un certo limite, la situazione cambia di nuovo: “Entrambi i tipi di modelli mostrano un crollo completo delle prestazioni”.
La scoperta più sorprendente è che, proprio quando i problemi diventano più complessi, i modelli smettono di ragionare a fondo: invece di usare più parole per spiegarsi meglio, cominciano a scrivere meno. “I LRM iniziano a ridurre il proprio sforzo di ragionamento (misurato in token usati durante l’inferenza) man mano che la complessità del problema aumenta”. È come se il modello si arrendesse.
“Stai senza pensieri”Analizzando la catena di pensieri generati dai modelli, emerge un comportamento inefficiente. Nei problemi semplici, spesso trovano subito la soluzione giusta, ma continuano a cercare alternative sbagliate. Un fenomeno noto come overthinking, cioè ragionare troppo senza motivo: “Nei problemi più semplici, i modelli con ragionamento esplicito spesso trovano la soluzione corretta presto nei loro pensieri, ma continuano a esplorare soluzioni sbagliate”.
Nei problemi di difficoltà media, la situazione si ribalta. I modelli partono con soluzioni sbagliate e solo alla fine trovano quella giusta. Quando il problema diventa troppo difficile, infine, non trovano più nulla di corretto, neanche una bozza: “I modelli falliscono completamente nel trovare soluzioni corrette”.
Istruzioni per l’usoI ricercatori hanno fatto un altro esperimento. Hanno detto al modello esattamente cosa fare, passo dopo passo, fornendo l’algoritmo risolutivo del puzzle. L’idea era semplice: se segui le istruzioni, dovresti arrivare alla soluzione. Non è andata come previsto: “Anche quando forniamo l’algoritmo nella richiesta, le prestazioni non migliorano”. I modelli continuano a fallire. Questo dimostra che non riescono a eseguire nemmeno compiti completamente guidati, e che il problema non è solo nella ricerca della soluzione, ma proprio nella capacità di seguire istruzioni in modo preciso. I risultati, come sottolineano i ricercatori, “aprono a numerose domande per la ricerca futura”, ma allo stesso tempo rimarcano ancora una volta la scarsa affidabilità delle attuali piattaforme di IA per compiti critici.
In certi casi, infatti, i modelli riescono a eseguire decine di mosse corrette nel puzzle della Torre di Hanoi, ma sbagliano già alla terza mossa nel puzzle dell’attraversamento del fiume, che richiede molte meno operazioni. Come spiegano i ricercatori, questo potrebbe dipendere dal fatto che certi tipi di puzzle sono rarissimi nei dati di addestramento, e quindi i modelli non sanno come affrontarli.
Illusione e delusioneCosì il paper mostra che i Large Reasoning Models non sono ancora in grado di ragionare in modo coerente. Possono sembrare brillanti a una prima valutazione, ma quando si analizza cosa fanno davvero, emergono limiti profondi: “Gli approcci attuali potrebbero trovarsi di fronte a limiti fondamentali nella capacità di ragionamento generalizzabile”, scrivono i ricercatori.
Questi modelli non capiscono davvero i problemi: imparano a riconoscere pattern, a imitare ragionamenti, ma non ragionano nel senso umano del termine. Quando i problemi diventano troppo complessi, si bloccano. Quando hanno delle istruzioni, le eseguono male. E quando pensano troppo, si perdono. Paradossalmente, è proprio questa specie di scoramento a sembrare un comportamento da esseri umani.
Il lavoro dei ricercatori di Apple è una critica implicita ai proclami dei modelli concorrenti, e allo stesso tempo un invito a progettare nuovi metodi per valutare le capacità delle IA e superare i limiti dei benchmark tradizionali. È un avvertimento da tenere sempre presente: l’eloquenza non coincide con l’intelligenza. Per costruire veri sistemi capaci di ragionare, serviranno nuove idee, nuovi approcci, e forse un nuovo modo di pensare la stessa intelligenza artificiale. Ma per ora il pensiero dei modelli è solo un’illusione.
La Repubblica