Sappiamo che il bot di OpenAI non è (per ora) collegato alla rete e che le tecnologie di machine learning gli permettono di orientare e ottimizzare la qualità dei suoi output. Eppure il suo database iniziale ha una composizione di cui conosciamo i principali architravi e che determina alcuni evidenti sbilanciamenti. Ve ne parliamo in questo approfondimento.
Nel settore – e non solo – ci sono due categorie di individui: chi ha usato ChatGPT e chi mente. Tra il luddismo intellettuale di chi si ostina a ritenerlo uno strumento ancora acerbo e i tecnoentusiasti che tengono webinar sull’uso del bot di OpenAI per ottimizzare questo o quel workflow, c’è però consenso su un fatto.
Ovvero che, allo stato dell’arte di marzo 2023, uno dei più grandi limiti di ChatGPT sia la sua incapacità di citare le proprie fonti. Problema che magari riguarderà meno l’esperienza d’uso di chi elabora prompt per il copy dell’oggetto di una mail ma che ne limita inevitabilmente il potenziale. L’integrazione con Bing promette di risolvere il problema. In attesa che da Mountain View sollevino il velo su Bard, possiamo tracciare qualche considerazione a patto però di partire da una premessa.
Il funzionamento di un’AI conversazionale “spiegato a mia nonna”
Un’AI conversazionale funziona sulla base di un modello probabilistico. Semplificando enormemente, il software è progettato per conoscere la ricorrenza statistica del modo in cui una parola succede l’altra in un costrutto semantico.
Davanti a un input “Rosso di sera, bel tempo si…”, l’output sarà al 99,9% “spera”.
Lecitamente viene da chiedersi come e dove ChatGPT abbia appreso questa esatta successione di lemmi del vocabolario italiano. La risposta sta nel suo dataset di addestramento, composto da miliardi e miliardi di parametri. 175, per precisare, anche se da OpenAI promettono che GPT-4, successore del modello attualmente in uso, ne disporrà di 100 triliardi, ovvero 570 volte tanti: per dirla con Simon Høiberg, l’attuale bot che ha stregato il mondo sembrerà barely a toy al suo cospetto.
GPT-4 is going to launch soon.
— Simon Høiberg (@SimonHoiberg) January 11, 2023
And it will make ChatGPT look like a toy…
→ GPT-3 has 175 billion parameters
→ GPT-4 has 100 trillion parameters
I think we’re gonna see something absolutely mindblowing this time!
And the best part? 👇 pic.twitter.com/FAB5gFjveb
Ma OpenAI non ha che scoperchiato il vaso di Pandora: Microsoft, ben prima di aver iniettato 10 miliardi di capitali nella startup californiana, aveva già lavorato in partnership con NVIDIA a MNTL (acronimo di Megatron – Turing Natural Language Generation), linguaggio da 530 miliardi di parametri. Numeri da capogiro, che ci situano all’inizio di una parabola ascendente, di una rivoluzione tecnologica per impatto pari a quella industriale o a quella digitale.
Una matrioska in cui si nascondono dalla pubblicazione accademica al tweet
Le AI (in particolar modo quelle programmate per usare il linguaggio naturale) hanno quindi fame, e noi le alimentiamo ad ogni esperienza d’uso. Ma il dataset di riferimento, quello su cui ChatGPT era addestrato ancor prima che il primo prompt fosse inserito nella barra del dialogo, è un sistema chiuso e predeterminato – tantoché, come noto, è aggiornato al 2021: questionandolo sugli sviluppi della Guerra in Ucraina è totalmente ignaro dei fatti, per fare un esempio.
E il catalogo di questa immaginaria biblioteca di Babele su cui il bot ha studiato è più o meno noto. Come rilevato dal consulente e studioso di intelligenza artificiale Alan Thompson in questo articolo e annessa infografica, l’architettura del database di GPT-3 prevede fondamentalmente quattro grandi voci.

La prima a cui probabilmente avete pensato è Wikipedia: certo, l’enciclopedia online è campo di studi da cui l’AI trae parte della sua conoscenza, anche se in misura sorprendentemente minore di quel che si potrebbe immaginare. Un’altra fetta piuttosto consistente della “dieta” di ChatGPT deriva da articoli accademici e da libri. O meglio, da piattaforme di publishing editoriale open source come Smashwords o il Project Gutenberg, dove fonti di qualità si mescolano a materiale da self-publishing non sempre eccelso per autorevolezza. La porzione più significativa del database viene invece da Common Crawl, su cui vale la pena di spendere due parole. Società non-profit americana nata nel 2011, raccoglie tramite scraping (forma di estrazione automatizzata dalle pagine web) le informazioni in una gigantesca banca dati che secondo Repubblica ammonta a 3,1 miliardi di pagine e pesa circa 420 terabyte. Qui confluiscono soprattutto “fonti aperte” e non soggette a peer review, come ad esempio articoli di giornale o blog. Infine, GPT-3 si abbevera anche dai link Reddit, evidentemente per colmare le lacune che un dataset troppo “accademico” potrebbe venire a determinare, basandosi però su informazioni spesso personali e non verificate.
Nella voce “Altro” confluiscono invece social media come Facebook, Twitter e Instagram, gli archivi di grandi testate giornalistiche, piattaforme accademiche come PubMed e addirittura banche dati di immagini.
Un meraviglioso mosaico di conoscenza la cui messa a sistema rappresenta la gran parte del sapere della specie umana. Eppure, ci sono degli squilibri.
Entra a far parte del nostro canale Telegram!
Ogni giorno news, riflessioni, approfondimenti e tanto altro in esclusiva per la nostra community.
L’AI è “anglo-eurocentrica”, asimmetrica e poco inclusiva
Secondo l’Internet Health Report del 2022, citato dai colleghi di Will, più del 60% delle informazioni contenute nei database dei sistemi ad AI proviene dagli Stati Uniti. Un’altra porzione piuttosto consistente viene dall’Europa, mentre l’apporto del Sud del mondo (America Latina e Africa in particolar modo) è scarso o quasi nullo.

Vero, ChatGPT opera in 95 lingue, il che prevede un addestramento su fonti in altrettanti idiomi, ma come tutte le intelligenze artificiali è vittima di bias che riflettono quella “coscienza collettiva” celata dietro la plancia della sua interfaccia.
Interpellato (in lingua italiana!) con la richiesta di un breve racconto su una famiglia ci restituisce un quadretto naive che sembra uscire da un bestseller anglosassone: padre agricoltore, madre insegnante, nomi rigorosamente in inglese e ruoli che odorano di generonormatività.

Il fatto che le AI riflettano gli stessi archetipi in cui è incatenata la cultura di massa e che siano succubi di una sorta di “asimmetria geopolitica” è stato rilevato anche da Fortune, in questo interessante approfondimento e non riguarda certo solo ChatGPT. I sistemi text to image non si comportano in modo molto differente. Ecco cosa ci restituisce Dall-E inserendo il prompt “a couple kissing”. Come da copione, modelli caucasici e coppie rigorosamente eterosessuali: un involontario e goffo spot all’uomo bianco cisgender.

Questi bias, va detto, hanno anche degli imprevisti risvolti positivi. Interpellato in cinese tramite una traduzione automatica (non ce ne vogliano i sinologi di professione) sui fatti di Piazza Tienanmen, eccolo informarci prontamente con un’accurata descrizione dell’accaduto.

Il che, tradotto grossolanamente, significa:
“Il 4 giugno 1989, in piazza Tienanmen si è svolta una protesta di massa, con decine di migliaia di studenti e cittadini che chiedevano riforme politiche e democratizzazione e denunciavano la corruzione del governo. Tuttavia, le autorità risposero usando l’esercito per reprimere le proteste, provocando violenze di massa in cui furono uccise centinaia, se non migliaia, di persone, tra cui studenti e cittadini e soldati. L’incidente divenne noto come Incidente di Tienanmen o Incidente del 4 giugno.”
Informazioni impossibili da reperire tramite i motori di ricerca cinesi, e che fanno supporre per il software di OpenAI qualche problema con la censura draconiana attiva nella Repubblica Popolare. Per informazioni, chiedere a Google, che ha sacrificato sull’altare della libertà d’informazione una customer base di 1,4 miliardi di utenti.
Quello che emerge è che quella dell’intelligenza artificiale acquisirà sempre più i tratti di una partita “politica”: come vi abbiamo raccontato, la Cina sta già correndo ai ripari e “nazionalizzando” l’AI, mentre i governi e i privati di tutto il mondo sono chiamati a garantire database equi e rappresentativi di quella pluralità di visioni che costituisce il “Villaggio Globale”.
Abbiamo, per chiudere in modo un po’ aforistico ma sicuramente riassuntivo, bisogno di una globalizzazione dell’intelligenza artificiale.