Negli ultimi tempi, giganti tecnologici come Google e Anthropic hanno sfruttato i videogiochi classici, in particolare segnaliamo il fenomeno dei test effettuati sugli intramontabili dei giochi Pokémon, per testare e perfezionare i loro modelli di punta.
Gemini Plays Pokémon
Un esempio emblematico è il progetto "Gemini Plays Pokémon", trasmesso su Twitch, che ha permesso di osservare il comportamento del modello Gemini 2.5 Pro di Google DeepMind in azione. Durante le sessioni di gioco, Gemini ha mostrato reazioni che possono essere descritte come un "panico simulato" quando i suoi Pokémon erano in difficoltà, compromettendo così la capacità del modello di ragionare efficacemente in situazioni critiche. Questo comportamento evidenzia le sfide che l'AI deve affrontare nel gestire dinamiche complesse e situazioni di stress, rivelando al contempo il potenziale di miglioramento nel campo del ragionamento decisionale.
Come ha reagito Claude AI?
D'altra parte, il modello Claude AI di Anthropic ha avuto un approccio differente ma altrettanto significativo. Durante una sessione ambientata nella grotta di Mt. Moon, Claude ha adottato una strategia logica ma errata, decidendo di far svenire tutti i suoi Pokémon nella convinzione che ciò lo avrebbe portato al Centro Pokémon più vicino. Tuttavia, il gioco lo ha riportato all'ultimo centro visitato, evidenziando una lacuna nella comprensione delle regole implicite del sistema. Questi errori, sebbene sorprendenti, forniscono spunti preziosi per comprendere le aree in cui l'AI può essere ulteriormente sviluppata.
Abilità impressionanti nonostante le limitazioni
Nonostante tali limitazioni, entrambi i modelli hanno dimostrato abilità impressionanti in altri ambiti. Ad esempio, Gemini 2.5 Pro ha risolto complessi puzzle su Victory Road con una notevole efficienza, utilizzando strumenti agentici progettati con un intervento umano minimo. Questo successo mette in luce il potenziale dell'AI nella risoluzione di problemi complessi, un aspetto cruciale nel panorama dell'innovazione tecnologica.
I videogames come becnhmark
L'uso dei videogiochi come benchmark per l'AI rappresenta una strategia innovativa che combina intrattenimento e ricerca scientifica. Oltre a intrattenere il pubblico, queste iniziative creano un ponte affascinante tra tecnologia avanzata e cultura pop, fornendo al contempo preziose indicazioni su come le intelligenze artificiali affrontano problemi complessi.