Come è noto, alla base del chatbot ChatGPT vi è il modello generativo GPT (Generative Pre-trained Transformer). Semplificandone il funzionamento all'estremo, il suo addestramento avviene in due modi: tramite dataset appositamente adattati per il training e attraverso informazioni prelevate da Internet. La versione standard di ChatGPT, cioè quella gratuita, non è attualizzata in quanto basata sul modello GPT-3.5. Diverso il discorso per quanto riguarda GPT-4 che anima piattaforme come ChatGPT Plus e Bing Search che operano su dati aggiornati praticamente in tempo reale.

Il Web Crawler GPTBot

Ma come avviene l'interazione tra il modello e il Web? Esattamente come accade con i motori di ricerca. OpenAI ha creato un Web Crawler destinato ad analizzare e archiviare i contenuti presenti in Rete, nei siti Internet. Anche a questo Web Crawler, che prende il nome di GPTBot, corrisponde uno user agent identificabile tramite questa stringa:

User agent token: GPTBot Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Come sottolineato dall'organizzazione capitanata da Sam Altman, il Web Crawler è stato concepito per il miglioramento del modello e presenta dei filtri che escludono le risorse provenienti da siti Web protetti da Paywall e tutelano i dati personali. Accettando che i propri contenuti vengano scansionati da GPTBot si accetta quindi di partecipare indirettamente all'evoluzione di GPT.

Disabilitare GPTBot

L'accesso di GPTBot ad un sito Web può essere bloccato del tutto tramite una semplice direttiva da aggiungere al file robots.txt . Quest'ultima prevede di specificare l'user agent da disabilitare e la directory di riferimento per il blocco:

User-agent: GPTBot Disallow: /

In questo modo il Web Crawler ignorerà qualsiasi cosa sia presente nel sito Internet a partire dalla sua directory radice o root ( / ).

Se invece si desidera bloccare l'accesso soltanto a determinate directory, autorizzando l'azione di GPTBot su altre, è possibile modificare la direttiva in questo modo:

User-agent: GPTBot Allow: /shop/ Disallow: /blog/

La direttiva precedente autorizza per esempio l'accesso alla directory shop mentre lo disabilita per la directory blog .