L’uva è acerba, lo dice Apple (giugno 2025)

Tempo di lettura: 10 minuti

Abstract

Apple ha pubblicato uno studio che sta facendo molto rumore: “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity”. Il whitepaper mette in discussione una delle promesse più forti dell’AI contemporanea: la capacità di ragionamento. Secondo Apple, anche i modelli linguistici più avanzati – da GPT-4 a Claude 3.7 – non ragionano davvero, ma imitano pattern. Questo articolo analizza il contenuto e il contesto della pubblicazione, ne evidenzia le implicazioni pratiche e strategiche per chi sviluppa o adotta soluzioni AI, e si interroga su una possibilità: Apple sta facendo autocritica… o sta ridisegnando le regole del gioco?

Il “ragionamento artificiale” è un illusione?

Nel linguaggio comune, quando parliamo di intelligenza artificiale, immaginiamo sistemi capaci di pensare, ragionare, persino decidere. Ma il recente studio di Apple – intitolato “The Illusion of Thinking” (giugno 2025) – smonta questa idea con approccio scientifico. I Large Language Models (LLM) e i Large Reasoning Models (LRM) non “ragionano” nel senso umano del termine: non usano logica, non fanno piani, non comprendono i problemi. Piuttosto, imitano la forma del ragionamento osservato nei dati su cui sono stati addestrati (nel mio piccolo, ho parlato confronto tra cervello umano e intelligenza artificiale anche in “L’AI funziona davvero come il cervello umano? – Canella Camaiora” del 5 novembre 2024).

Secondo i ricercatori di Apple, questi modelli – anche quelli più avanzati come Claude 3.7, Gemini e GPT-4 – sono bravissimi a riconoscere schemi e produrre risposte “verosimili”. Ma quando vengono messi alla prova con compiti di vera complessità – come il puzzle della Torre di Hanoi o il problema del fiume con agenti e attori – il castello crolla: l’accuratezza delle risposte precipita, anche se la macchina ha risorse computazionali più che sufficienti.

Apple ha scelto ambienti di test in cui la complessità del problema è controllabile, come nel caso della Torre di Hanoi, un classico rompicapo logico.

 

 

Il gioco prevede tre pioli e una serie di dischi di dimensioni diverse, inizialmente impilati in ordine decrescente su uno dei pioli. L’obiettivo è trasferire tutti i dischi su un altro piolo, rispettando due regole fondamentali: si può spostare un solo disco alla volta, e non è mai permesso mettere un disco più grande sopra uno più piccolo. A ogni mossa, il giocatore deve decidere quale disco spostare e dove, mantenendo sempre la struttura ordinata.

Apparentemente semplice con pochi dischi, il rompicapo diventa esponenzialmente più difficile man mano che aumenta il numero: basti pensare che con 3 dischi bastano 7 mosse, ma con 10 ne servono 1.023.

Per risolverlo servono capacità di pianificazione strategica, memoria e attenzione per le regole fisse: tutte qualità che mettono a dura prova l’intelligenza. È per questo che la Torre di Hanoi è una prova perfetta per verificare se un’AI sa ragionare, oppure no.

Il risultato è sconfortante: quando il numero di passaggi necessari alla soluzione cresce, il modello prima fatica, poi si confonde, infine smette di provarci. È come se chiedessimo a uno studente che ha memorizzato tutte le versioni di latino di risolverne una nuova, con una struttura diversa: senza comprensione reale, la performance si sbriciola. Questo solleva una domanda fondamentale per chiunque lavori nel mondo dell’innovazione o della digitalizzazione: su cosa si basa, davvero, l’affidabilità di questi strumenti? E possiamo usarli per affrontare problemi aperti e non solo per automatizzare compiti ripetitivi?

Questo non significa che l’AI sia inutile. Ma ci invita ad abbandonare l’illusione che le macchine “pensino” come noi. Chi sviluppa prodotti basati su AI – e chi li acquista – deve essere consapevole di questi limiti strutturali, che vanno ben oltre la potenza di calcolo o la quantità di dati disponibili.

Cosa succede quando il gioco si fa… complesso?

Uno dei contributi più interessanti del whitepaper Apple è l’identificazione di tre regimi di funzionamento dell’intelligenza artificiale, osservati quando si mettono alla prova LLM e LRM con puzzle sempre più complessi.

Non si tratta di semplici variazioni di prestazioni, ma di un vero e proprio crollo strutturale della capacità di ragionare quando la difficoltà del problema supera una soglia critica.

Nel primo regime – quello dei compiti semplici – i modelli standard, senza catene di pensiero articolate, forniscono le risposte migliori. Paradossale, ma è così: quando il problema è abbastanza lineare, riconoscere un pattern noto basta per arrivare a soluzioni corrette. È un po’ come l’“aiuto del pubblico” nei quiz televisivi: il modello meno sofisticato, ma ben allenato, funziona meglio e consuma meno risorse rispetto a quelli progettati per “ragionare”.

Nel secondo regime – la complessità media – i modelli progettati per generare catene di pensiero articolate (i cosiddetti “thinking models”) riescono ad avere la meglio. Qui entra in gioco la capacità di esplorare percorsi alternativi, correggersi in corsa e produrre più tentativi. Tuttavia, anche in questa fase emerge un paradosso noto come “overthinking”: il modello trova la soluzione corretta, ma continua comunque a esplorare strade sbagliate, sprecando token e aumentando l’incertezza.

È nel terzo regime – quando il problema diventa davvero complesso – che l’intelligenza artificiale mostra il suo limite più evidente. La performance collassa, la percentuale di risposte corrette scende a zero, e persino i modelli progettati per ragionare smettono di cercare davvero soluzioni. Apple osserva un dato sorprendente: quando la complessità aumenta, i modelli iniziano a ridurre lo sforzo computazionale, abbreviano le catene di pensiero e anticipano la risposta finale – anche se hanno ancora risorse computazionali disponibili. Questo comportamento, che si manifesta proprio in prossimità del crollo di accuratezza, non è un limite tecnico, ma un segnale di un limite cognitivo interno al modello (The Illusion of Thinking, Apple, sezione 4.2.2, p. 8).

Questo fenomeno, definito “scaling limit”, rivela che l’AI non “capisce” che deve sforzarsi di più quando le cose si complicano. È come se rinunciasse al ragionamento nel momento in cui servirebbe davvero. Un limite strutturale che – per imprese e professionisti – non può essere ignorato.

Conta il metodo, non solo la risposta!

Finora, l’intera industria dell’intelligenza artificiale ha valutato i progressi dei modelli quasi esclusivamente guardando alla risposta finale. Se un modello risolve correttamente un problema matematico o fornisce una risposta “giusta”, viene considerato intelligente. Ma secondo Apple, questo metro è miope: misura l’effetto, ma non la qualità del processo che lo ha prodotto.

Il whitepaper sottolinea l’importanza del ragionamento intermedio – il percorso logico che porta alla risposta – come elemento fondamentale per valutare l’affidabilità reale di un sistema. Un essere umano può anche sbagliare una soluzione, ma seguendo un ragionamento coerente e migliorabile. Un modello linguistico, al contrario, può centrare il risultato per puro caso, passando da un processo incoerente, caotico o addirittura casuale.

Per questo Apple ha sviluppato una metodologia basata su “puzzle simulatori”, che consente di osservare come l’AI “pensa” passo dopo passo. Il risultato? Anche nei casi in cui la risposta finale è corretta, emergono errori strutturali, strategie incoerenti e incapacità di applicare algoritmi noti in modo stabile. Un’illusione di competenza, più che una prova di intelligenza.

Karl Popper avrebbe detto: la scienza non cresce accumulando conferme, per quanto numerose, ma eliminando gli errori. Valutare un’AI solo in base all’esattezza dell’output equivale ad adottare un criterio meramente induttivo, escludendo del tutto la dimensione critica del come si arriva alla risposta. Questa mia riflessione si inserisce in continuità con quanto già osservato nel mio articolo “L’IA è solo uno specchio e ci ricorda quanto siamo umani” del 3 dicembre 2024, dove dubitavo che l’analisi statistica dei dati – il cosiddetto data-centrismo – potesse davvero sostituire il pensiero scientifico e il confronto umano.

Affidarsi a una risposta che appare giusta ma nasce da un processo opaco può comportare rischi reali. Il messaggio di Apple, in questo senso, è anche un avvertimento ponderato: non basta che l’AI funzioni, bisogna comprendere come e perché arriva a una certa conclusione.

Ma c’è una domanda che resta sospesa: Apple, nel sollevare con tanta lucidità questi limiti, lo fa per rigore scientifico… o perché ha qualcosa da guadagnare nel mettere in discussione i modelli dei suoi diretti concorrenti?

È raro che un gigante della tecnologia esponga con tanta chiarezza i limiti di una tecnologia di punta. Ma, come abbiamo anticipato, una domanda sorge spontanea: Apple sta davvero facendo autocritica… o sta, in parte, riposizionando il campo da gioco a suo favore?

Rispetto ai suoi concorrenti, Apple si è mossa con maggiore cautela nell’integrazione dell’intelligenza artificiale nei propri prodotti. Mentre Google, Meta e OpenAI hanno già lanciato assistenti conversazionali, generatori di codice e strumenti di automazione, Apple ha annunciato solo recentemente Apple Intelligence, una suite di funzionalità ancora in fase embrionale. In questo contesto, il whitepaper potrebbe servire anche a rallentare la corsa al primato altrui, spostando il dibattito dai risultati apparenti alle debolezze profonde.

Il documento, infatti, mette in discussione proprio i punti di forza sbandierati dai leader dell’AI: la capacità di ragionamento, l’efficienza crescente, la promessa dell’AGI (Artificial General Intelligence). È un’operazione chirurgica e colta: Apple non nega l’utilità dei modelli linguistici, ma li ridimensiona. E nel farlo, rilancia un modello di innovazione più misurato, orientato al controllo, alla trasparenza, e – perché no – alla centralità dell’utente finale.

Questa strategia ha una doppia funzione. Da un lato, costruisce autorevolezza scientifica: Apple mostra di sapere esattamente cosa non funziona nell’intelligenza artificiale. Dall’altro, crea le condizioni per abbassare le aspettative che gravano sui nuovi strumenti, smontando la narrazione iper-ottimistica che i competitor alimentano. E forse, nel lungo periodo, prepara il lancio di un’AI “diversa”, più allineata alla visione Apple: discreta, utile, e soprattutto controllabile.

E se l’uva fosse davvero acerba?

Una volpe affamata passeggiava quando vide, in alto su una vite, un bel grappolo d’uva matura. Desiderandolo, cercò in tutti i modi di raggiungerlo: saltò, corse, si allungò… ma niente da fare. L’uva era troppo in alto.

Dopo molti tentativi, la volpe si arrese. Ma, per consolarsi, disse tra sé:

“Tanto, quell’uva è acerba.”

E se ne andò, facendo finta che non le interessasse davvero.

Questa è la favola a cui qualcuno ha pensato leggendo il whitepaper di Apple: un’azienda che arriva per ultima nella corsa all’intelligenza artificiale e, non potendo mostrare muscoli computazionali, smonta la retorica dell’AI “che pensa”. Ma il confronto con la volpe non regge: Apple non ha rinunciato al grappolo. Ha fatto qualcosa di più sottile.

Rispetto ai suoi concorrenti, Apple si è mossa con maggiore cautela nell’integrazione dell’AI nei propri prodotti. Mentre Google, Meta e OpenAI hanno già lanciato assistenti conversazionali, generatori di codice e sistemi integrati, Apple ha presentato solo di recente Apple Intelligence, ancora in fase di assestamento. In questo contesto, il whitepaper può essere letto anche come una mossa strategica: invece di inseguire sul terreno dell’entusiasmo mediatico, Apple sposta la partita sul piano della credibilità scientifica, sollevando dubbi di fondo sulla solidità logica degli attuali modelli linguistici.

Il documento mette in discussione proprio i punti di forza su cui si fonda la narrazione dominante dell’AI: la capacità di ragionamento, l’efficienza crescente, la promessa dell’intelligenza generale. È un gesto che può apparire controcorrente, ma che rientra perfettamente in un posizionamento già familiare: Apple non vende il più, ma il meglio – o, perlomeno, ciò che considera più controllabile e più affidabile.

È una linea che avevo già sviluppato nell’articolo “Intelligenza Artificiale: strumento oppure oracolo tecnologico?” del 10 ottobre 2024, dove mettevo in guardia contro la delega automatica del pensiero alla tecnologia. Apple sembra dire: non vogliamo costruire un oracolo, ma un assistente intelligente, sobrio, al servizio dell’utente.

Questa posizione, volutamente moderata, potrebbe rivelarsi la più lungimirante. Mentre gli altri promettono che l’AI farà tutto, Apple sembra suggerire che l’AI non deve decidere per noi, ma con noi. In fondo, la domanda che resta è questa: e se davvero l’uva, per ora, fosse ancora acerba?

© Canella Camaiora S.t.A. S.r.l. - Tutti i diritti riservati.
Data di pubblicazione: 16 Giugno 2025

È consentita la riproduzione testuale dell’articolo, anche a fini commerciali, nei limiti del 15% della sua totalità a condizione che venga indicata chiaramente la fonte. In caso di riproduzione online, deve essere inserito un link all’articolo originale. La riproduzione o la parafrasi non autorizzata e senza indicazione della fonte sarà perseguita legalmente.

Avv. Arlo Cannela

Arlo Canella

Managing & founding partner, avvocato del Foro di Milano e cassazionista, responsabile formazione e ricerca indipendente dello Studio CC®.

Leggi la bio
error: Content is protected !!