La recente sconfitta di ChatGPT 4o contro un semplice programma di scacchi della console Atari 2600, ha sorpreso molti. Questo evento ha messo in luce alcune limitazioni significative dei moderni modelli linguistici, evidenziando quanto siano ancora lontani dal raggiungere una vera intelligenza generale artificiale.
L'esperimento
L’esperimento è stato ideato e condotto da Robert Caruso, ingegnere presso Citrix, che ha documentato i risultati su LinkedIn. Nonostante le capacità teoriche avanzate di ChatGPT 4o, che includono l’analisi di strategie complesse e partite storiche, l’intelligenza artificiale ha dimostrato gravi lacune nel gioco pratico. Errori come mosse illegali e l’incapacità di riconoscere minacce evidenti hanno portato a sconfitte ripetute contro un programma che opera su un hardware estremamente limitato: un processore a 8 bit da 1,19 MHz e soli 128 byte di RAM.
Il confronto con l'esperimento del 1997
Questa situazione ricorda il confronto tra il supercomputer Deep Blue di IBM e il campione mondiale Garri Kasparov nel 1997, un evento storico per l’intelligenza artificiale. Tuttavia, la differenza fondamentale è che Deep Blue era specificamente progettato per giocare a scacchi, mentre modelli come ChatGPT 4o sono ottimizzati per generare principalmente testo coerente. La loro architettura non è adatta a gestire compiti che richiedono un monitoraggio costante e dinamico, come il gioco degli scacchi.
Le difficoltà dei modelli linguistici
Una ricerca pubblicata su DEV conferma che molti modelli linguistici di grandi dimensioni incontrano difficoltà nel mantenere il controllo dello stato di una partita e nell’identificare mosse legali. Questo limita le loro applicazioni in contesti che richiedono precisione operativa in tempo reale, sottolineando le limitazioni ancora presenti nonostante i progressi tecnologici.
Caruso ha tentato di semplificare il compito per l’intelligenza artificiale, adattando la notazione scacchistica, ma senza successo. L’ingegnere ha sottolineato che ha commesso errori che farebbero ridere un club di scacchi di terza elementare.
Questo risultato sottolinea un paradosso: sebbene ChatGPT 4o dimostri una conoscenza teorica profonda, manca di competenze pratiche per applicare tali conoscenze in un contesto dinamico. Questo episodio solleva interrogativi importanti sul futuro dell’intelligenza artificiale e sulle sue capacità reali.