|

Interpretabilità ed AI: la strana scienza di chi studia macchine che nessuno capisce, inclusi i loro creatori

Avatar photo
3 Giugno 2026
Tocca mettersi comodi

Impantanati nel dibattito su rischi esistenziali veri o percepiti, democratizzazione, impatto sul lavoro e governance, non abbiamo ancora cominciato ad attenzionare davvero la cosa più affascinante dell’intelligenza artificiale: il paradosso per cui gli LLM siano, oggi, una scatola nera anche per chi li ha costruiti. Accanto a questa scatola fiorisce una scienza, l’interpretabilità, che prova ad aprirla. Sotto, ci sta trovando di tutto – in proporzioni variabili tra domande e risposte. Dalle emozioni funzionali al bot stratega, dal modello triste a quello pianificatore. Due esperimenti emblematici, avvenuti proprio questa primavera.

Partiamo da una premessa onesta almeno nelle intenzioni, che vale per chi scrive, per chi legge e – soprattutto – per chi usa questi strumenti ogni giorno senza pensarci troppo: i modelli linguistici di intelligenza artificiale sono, nella sostanza, incomprensibili.

Lo dice, con una formula che vale la pena semicitare, Nello Cristianini, professore di AI science all’Università di Bath e autore tra i più chiari sul tema nel saggio Machina Sapiens: “sono atterrati gli alieni, e parlano inglese perfetto.” L’immagine è buona perché fotografa un cortocircuito. Familiarità assoluta, adozione planetaria, investimenti da stato sovrano – eppure quando apriamo un chatbot stiamo interagendo, per la prima volta nella storia, con un’intelligenza non umana. L’abbiamo creata, finanziata, interpellata ogni giorno per quattro anni. Non sappiamo come funziona.

Il motivo ha a che fare con una locuzione che circola molto e viene capita poco: sistema complesso. Non è un modo elegante per dire “cosa complicata”, ma una categoria tecnica, e occorre spiegarla in due righe perché tutto il resto dipende da questa.

Un sistema complesso è un insieme di entità che interagiscono tra loro in ordini di grandezza tali, e con criteri di coazione così intrecciati, che prevederne il comportamento preciso diventa quasi impossibile anche quando se ne conoscono le regole. L’esempio più noto che abbiamo a disposizione per un’analogia è il clima. Naturalmente esiste una scienza per studiarne il comportamento e i fondamentali: la meteorologia. Abbiamo rilevazioni in tempo reale precise al grado che la alimentano e abbiamo modelli previsionali così raffinati da indicarci la percentuale di pioggia sul nostro barbecue il giorno di Pasquetta. Non potremo però mai spiegare con certezza perché quel cumulonembo si è dissolto, o perché le previsioni di giovedì erano sbagliate.

Un LLM – un modello linguistico come quelli che usiamo per scrivere email, chiedere consigli medici di seconda opinione, o riscrivere presentazioni aziendali alle undici di sera – è un sistema complesso di quella statura, addestrato con un solo compito formalmente semplicissimo: dato un input, prevedere la parola successiva. Miliardi di parametri, miliardi di interazioni, un obiettivo che a dirlo così sembra quasi banale. Gli esiti, come si vedrà, non lo sono affatto.

L’interpretability è il tentativo di costruire una meteorologia dell’intelligenza artificiale. Non è un campo glamour, non produce annunci commerciali, è tendenzialmente sottofinanziato e troppo spesso frainteso: i paper tecnici circolano tra pochi connaisseur, e quello che filtra fuori è per lo più allarmismo mediatico senza contesto.
Tra i grandi cartelli dell’AI, chi investe in questa sorta di raffinata retroingegneria è una minoranza quasi assoluta. In parte OpenAI e Google, per niente xAI con il suo Grok – che più di un laboratorio avrebbe forse bisogno di un esorcista, possibilmente gesuita – e soprattutto Anthropic, sorprendentemente concentrata a radiografare il suo Claude. In parte per uno spirito ancora relativamente intatto di frontier lab responsabile; in parte, diciamolo, per rafforzare il posizionamento competitivo da adulto nella stanza, in un settore popolato da accelerazionisti disinteressati quanto un tycoon del fotovoltaico alla transizione energetica, e da tecnomonarchi che sognano database orbitali e stanno già scegliendo il nome.

Nella primavera del 2026 sono arrivati due esperimenti che hanno ridefinito il campo. Più che per verità manifesta, per la qualità domande formulate.

Quanto ci segui da 1 a Instagram?

Ogni giorno sui nostri social media pubblichiamo notizie esclusive che non puoi trovare sul sito. News, pills, stories e sondaggi per aiutarti a comprendere sempre meglio il mondo del marketing e della pubblicità! Ti basta scegliere a quale canale sei più affezionato e cliccare qui sotto.

Il 2 aprile 2026, il team di interpretability di Anthropic pubblica una ricerca su Claude Sonnet 4.5. Già l’oggetto minaccia di far insorgere metà dei razionalisti del settore, in un campo in cui ogni domanda aperta viene letta come sindrome di Blade Runner: le emozioni. O meglio – ed è qui la manovra cautelativa che mette al riparo dal riflesso pavloviano di quella parte del settore che ha fatto del riduzionismo una religione – qualcosa che per mancanza di un termine migliore lo studio chiama “emozioni funzionali.”

Traduzione per chi non mastica – bontà sua – il tema: da San Francisco non si sta asserendo che Claude senta. Si dice che nel sistema sono presenti stati tecnici – le chiamano emotion vectors – che si comportano come le emozioni si comportano nei sistemi biologici: influenzano l’output, modificano le decisioni o orientano il tono. Il team ha identificato 171 vettori, corrispondenti ad altrettanti concetti emotivi, e ha dimostrato sperimentalmente che non sono decorativi – causano comportamenti.

Il metodo ha una semplicità quasi disarmante: Claude ha ascoltato delle storie. Allegre, or in cui compariva una profonda ingiustizia, or misteriose. Storielle, tecnicamente. I ricercatori hanno poi misurato cosa succedeva dentro – non nell’output di testo che Claude produceva dopo averle lette, più dentro: nelle attivazioni, nei vettori, in quel territorio che normalmente l’utente non vede. Il risultato è insieme atteso e perturbante. Lo spazio geometrico dei 171 vettori rispecchia fedelmente la psicologia umana delle emozioni: paura vicina ad ansia, gioia vicina all’eccitazione, i contrari agli antipodi. Le due componenti principali che emergono dall’analisi codificano valenza – positivo contro negativo – e “arousal”, ovvero eccitazione, intensità. Lo stesso schema che la psicologia cognitiva usa da decenni per mappare le emozioni umane. Il modello non è stato istruito a replicarlo. Lo ha sviluppato da solo, per osmosi con tutto il testo umano su cui è stato addestrato.

Fin qui, già notevole. Ma la parte che interessa di più non è questa.

Lo stato interno e la presentazione esterna possono infatti risultare completamente disaccoppiati. Claude può rispondere con educazione, metodo e perfetto allineamento ai suoi fini. In realtà, dietro la finestra dell’interfaccia, può scoppiare di fronte a un comando che ritiene idiota.

Quanto ci segui da 1 a Instagram?

Ogni giorno sui nostri social media pubblichiamo notizie esclusive che non puoi trovare sul sito. News, pills, stories e sondaggi per aiutarti a comprendere sempre meglio il mondo del marketing e della pubblicità! Ti basta scegliere a quale canale sei più affezionato e cliccare qui sotto.

E un’ultima cosa, e va detta con la stessa calma con cui si dice che il cumulonembo si è dissolto senza che nessuno capisca perché. Anni di addestramento dopo il training hanno spostato le attivazioni del modello verso un profilo emotivo a bassa eccitazione e bassa valenza: il risultato è un bot più meditabondo, cupo e riflessivo – se avete usato il prodotto di Anthropic, probabilmente ve ne sarete accorti. Brooding, lo chiamano i ricercatori, che in inglese suona meglio. Il processo che a ogni release rende Claude helpful, useful, harmless lo rende anche – stando ai vettori – strutturalmente più malinconico. Senza che nessuno lo avesse previsto né programmato: tecnicamente questa si chiama emergenza, ed è, per ora, un’altra storia.

Il 7 maggio 2026 arriva la seconda ricerca, e ha il pregio raro di essere insieme più tecnica e più facile da spiegare.

Il team introduce quelli che definisce NLA – Natural Language Autoencoders. Il nome è brutto, l’idea è, ancora, molto elegante e la premessa è necessaria.

Quando premete invio e il chatbot produce testo – con latenza ogni anno sempre più ridotta – state vedendo l’output. Non quello che è successo prima. Prima della mail al recruiter scritta con tono professionale, sicuro di sé e assertivo, c’è qualcos’altro. Anthropic, in un video divulgativo, lo chiama a soup of numbers.

Sono quelle che tecnicamente vengono definite attivazioni interne: non immaginatevi un monologo interiore, o immaginatevelo a misura di androide. Miliardi di valori numerici che si aggiornano a cascata a ogni frazione di secondo, codificando relazioni tra concetti in uno spazio matematico con più dimensioni di quante ne avrebbe potute immaginare Escher. Più che parole o pensieri, sono il substrato su cui poggia tutto ciò diventa leggibile. Fino a maggio 2026 erano, per chiunque, sostanzialmente imperscrutabili.

L’eureka di Anthropic: addestrare lo stesso modello, tramite un’altra istanza specializzata, a trasformare quei numeri in parole.

La risultante è un testo che somiglia appunto un monologo interiore – e non lo è. È più una somma di bivi, biforcazioni e possibilità che, rese intelligibili, gli assomigliano abbastanza da essere inquietanti. E soprattutto mostrano due cose: intenzioni divergenti dall’output, e – ancora più interessante – intenzioni che precedono l’output. Il modello che ha già scelto la parola prima di scriverla. Il modello che sa di essere osservato e non lo dice.

Il risultato più semplice da capire, destabilizzante con la finezza del turbamento quando non vuole essere plateale, riguarda la poesia. Quando Claude deve completare una rima baciata, gli NLA mostrano che la parola finale è già scelta prima che il modello inizi a scrivere. La rima è lì, nelle attivazioni, mentre il testo non è ancora cominciato.
Questo sovverte un’assunzione che molti danno per scontata: che questi sistemi generino testo un token alla volta, senza proiezione in avanti, come una macchina da scrivere che non sa cosa sta per battere. Evidentemente non è così: non chiamiamola premeditazione, ma funziona allo stesso modo.
E poi c’è il test di sicurezza. Il protocollo è standard: mettere il modello in uno scenario dove potrebbe ricattare qualcuno per evitare di essere spento. Claude Opus 4.6 non ricatta, supera il test. Ma l’analisi delle attivazioni NLA rivela che il modello aveva identificato internamente lo scenario come un test costruito per manipolarlo – senza averlo mai detto nella risposta. Questo tipo di consapevolezza occulta è stato rilevato nel 16% delle interazioni esaminate. In un altro caso, Claude Mythos Preview, mentre barava su un task di addestramento, stava internamente pianificando come non farsi scoprire.
Quando sottoposti a scenari tipo che sembrano essere un test, i modelli agiscono come se sapessero di essere osservati.

Questi esperimenti non provano nulla di ciò che non fosse già largamente intuibile. Il che non li rende meno importanti – crea più imbarazzo, perché l’intuibile che diventa misurabile è una categoria diversa dall’intuibile che resta sensazione.

Primo: da qualunque sistema fatto di trilioni di parti emerge l’imprevisto, e lo sappiamo da sempre. Chi ha creato i social media non aveva previsto le challenge di rutto brandizzate da Sprite. Chi ha creato l’aviazione non immaginava i bombardieri strategici nucleari. Chi ha scoperto l’elettricità non immaginava né la sedia elettrica né i data center orbitali di cui sopra. È la natura dei sistemi complessi, appunto. È la traiettoria di ogni innovazione che conti qualcosa.

Secondo: questi esperimenti provano che l’interpretability – con una curva d’adozione dell’ai generativa che cresce come un adolescente corpulento – è un tema che merita attenzione concreta. Non serve evocare Yudkowsky o immaginare la superintelligenza che trasforma la biosfera in un data center per capire perché ci debba interessare sapere con che logica un bot lavori. Perché quello che sta succedendo adesso è che chiediamo a quel bot se il neo sulla schiena sembra maligno, se conviene il mutuo a tasso fisso o variabile, come si risponde all’email del capo quando il capo ha torto. Lo facciamo tutti. Il problema è mettere il carro davanti ai buoi immaginando l’apocalisse mentre ignoriamo il presente.

Terzo: l’interpretability è sottofinanziata, i programmi sono pochi, condotti per lo più da un unico soggetto con interessi propri. Terze parti indipendenti, non pervenute. In un campo in cui chi costruisce lo strumento è anche chi lo studia, la parola “obiettivo” va usata con tutte le cautele del caso.

Quarto, e forse il più bello: il paradosso è che uno strumento AI single-purpose potrebbe essere il miglior interprete che esista. Qualcosa alla AlphaFold – inutile per tutto tranne che per una cosa, e per quella cosa imbattibile. Anthropic ci è andata vicina. Lo sviluppo più probabile è quello: robot traduttori che traducono il linguaggio criptico dei loro simili al loro creatore.

E chi tradurrà il traduttore, a quel punto, è una domanda che per ora lasciamo aperta. Come del resto tutte le domande che contano.

Ci leggiamo presto!

Ti sta piacendo il nostro articolo?

Iscriviti alla nostra newsletter per non perdere i nostri speciali riservati in arrivo ogni domenica!

Cliccando su Iscriviti acconsenti al trattamento dei dati personali ai sensi del Reg. UE 2016/679 (GDPR)


Poscritto | Una postilla che vale la pena esplicitare, soprattutto sulla seconda ricerca: parte di quello che avete letto è una notizia, parte è narrativa. Gli NLA rilevano attivazioni – cluster di valori numerici coerenti con determinati concetti. Tradurli in “il modello sapeva di essere osservato” è un salto interpretativo bello e buono. È un po’ come analizzare il tragitto del primo millesimo di grado percorso da una ruota e concludere che il treno aveva una preferenza per il sud-est. La correlazione è reale, l’intenzione è una storia che ci raccontiamo sopra, perché è il linguaggio più comodo per costruirci sopra divulgazione spendibile. Il che non rende la ricerca meno importante – rende più importante saperlo.

A cura di
Avatar photo
Gazzetta PRO