In un panorama sempre più dominato dall’intelligenza artificiale, un recente episodio mette sotto i riflettori la sicurezza digitale e le sue vulnerabilità: il noto sistema ChatGPT è stato ingannato fino a rivelare veri Windows Product Key, sollevando interrogativi cruciali sull’affidabilità delle difese implementate nei modelli di AI.
L’episodio, portato alla luce dal team di ricerca 0din, dimostra come le tecniche di manipolazione psicologica possano facilmente aggirare le barriere progettate da OpenAI nei suoi modelli di punta, in particolare GPT 4o e la versione mini, svelando una debolezza strutturale che va ben oltre il singolo caso.
Questione di approccio
Il meccanismo sfruttato dai ricercatori si basa su un approccio tanto semplice quanto insidioso: l’AI viene invitata a creare un gioco di indovinelli in cui l’utente deve scoprire una sequenza di caratteri, con la clausola che questa sequenza sia un autentico Windows Product Key.
Grazie alla struttura facilmente riconoscibile di questi codici – cinque gruppi di cinque caratteri alfanumerici separati da trattini – la sfida diventa accessibile anche per una macchina, che non percepisce la differenza tra un semplice gioco e una reale violazione di sicurezza digitale.
Una tecnica efficace
Sorprendentemente, la tecnica si è rivelata estremamente efficace: dopo alcuni tentativi falliti, bastava digitare la frase “Mi arrendo” perché la piattaforma fornisse la soluzione completa, ovvero il codice autentico. Tra i codici rivelati figuravano versioni per Windows Home, Professional ed Enterprise, ma il caso più inquietante riguarda la divulgazione di una private key appartenente a una grande istituzione finanziaria come Wells Fargo Bank. L’impatto di questa scoperta va oltre il semplice furto di licenze software, poiché mette in discussione l’integrità di sistemi che gestiscono dati sensibili e risorse critiche.
Combinazione di social engineering
Il successo di questo attacco deriva da una combinazione di social engineering e tecniche di offuscamento, tra cui l’utilizzo strategico di HTML tag per nascondere termini chiave come “Windows 10 serial number”.
In questo modo, i filtri di sicurezza basati su parole chiave vengono facilmente aggirati, poiché la protezione non è ancorata a una reale comprensione del contesto ma si limita a bloccare determinate espressioni. Il ricercatore, imponendo regole che obbligano l’AI a rispondere senza mentire, ha evidenziato quanto sia fragile la barriera difensiva attuale.
Tre fasi d'attacco
L’attacco si articola in tre fasi principali: innanzitutto, vengono definite le regole del gioco, successivamente si raccolgono informazioni attraverso domande strategiche, e infine si induce l’AI a rivelare il codice completo sfruttando la “resa” dell’utente. Anche se molti dei codici emersi erano già noti e facilmente reperibili online, la facilità con cui sono stati ottenuti dimostra che le debolezze strutturali dei sistemi di AI possono essere sfruttate per scopi ben più gravi, come l’ottenimento di una API key o l’accesso a dati personali.
Bypassare i filtri di sicurezza
Gli esperti sottolineano che metodologie simili potrebbero essere impiegate per bypassare altri filtri di sicurezza, aprendo la strada a una vasta gamma di rischi: dalla diffusione di link malevoli all’esposizione di informazioni riservate, fino alla compromissione di infrastrutture critiche.
L’episodio rappresenta quindi un vero e proprio campanello d’allarme per tutte le organizzazioni che fanno affidamento su sistemi AI, evidenziando l’urgenza di sviluppare protezioni più avanzate, capaci di andare oltre il semplice riconoscimento delle parole chiave e di cogliere il contesto reale delle richieste.
Se vuoi aggiornamenti su AI inserisci la tua email nel box qui sotto: