Nessun risultato. Prova con un altro termine.
Guide
Notizie
Software
Tutorial

Common Crawl: scoperte 12.000 API key e password in dataset AI

Le credenziali individuate in Common Crawl (inclusi dati AWS e Slack), evidenziando rischi per la sicurezza nell’addestramento AI.
Common Crawl: scoperte 12.000 API key e password in dataset AI
Le credenziali individuate in Common Crawl (inclusi dati AWS e Slack), evidenziando rischi per la sicurezza nell’addestramento AI.
Link copiato negli appunti

Quasi 12.000 credenziali valide, tra cui API key e password, sono state trovate nel dataset Common Crawl, utilizzato per l’addestramento di diversi modelli AI. Common Crawl è un'organizzazione no-profit che gestisce un enorme archivio open-source con petabyte di dati web raccolti dal 2008, accessibili gratuitamente a chiunque. A causa delle dimensioni del dataset, molti progetti AI potrebbero basarsi, almeno in parte, su questo archivio digitale per l’addestramento dei modelli linguistici di grandi dimensioni (LLM). Questi includono anche quelli di OpenAI, DeepSeek, Google, Meta, Anthropic e Stability.

I ricercatori di Truffle Security (agenzia creatrice di TruffleHog) hanno individuato credenziali valide dopo aver analizzato 400 terabyte di dati provenienti da 2,67 miliardi di pagine web nell'archivio Common Crawl di dicembre 2024. Il team ha scoperto 11.908 credenziali attive, inserite direttamente nel codice dagli sviluppatori. Ciò evidenzia il rischio che i modelli linguistici di grandi dimensioni (LLM) vengano addestrati su codice non sicuro. Va precisato che i dati utilizzati per l'addestramento degli LLM non vengono usati nella loro forma grezza, ma subiscono una fase di pre-elaborazione. Ciò prevede la pulizia e il filtraggio di contenuti irrilevanti, duplicati, dannosi o sensibili.

Tuttavia, eliminare completamente dati riservati è complesso, e non esiste una garanzia assoluta di riuscire a rimuovere da dataset così vasti tutte le informazioni personali identificabili (PII), dati finanziari, cartelle cliniche e altri contenuti sensibili. Dall’analisi dei dati scansionati, Truffle Security ha trovato API key valide per servizi come Amazon Web Services (AWS), MailChimp e WalkScore.

Common Crawl: tra i dati anche API key di MailChimp, WalkScore e webhook di Slack

Nel complesso, TruffleHog ha identificato 219 tipi distinti di credenziali nel dataset Common Crawl, con le più comuni che risultano essere API key di MailChimp. Secondo i ricercatori, l’errore degli sviluppatori è stato inserire direttamente queste chiavi all’interno di moduli HTML e script JavaScript, invece di utilizzare variabili d’ambiente lato server. Ciò rende possibile per un attaccante sfruttarle per attività dannose come campagne di phishing e furto d’identità aziendale. Inoltre, la diffusione di credenziali sensibili potrebbe portare alla esfiltrazione di dati. Un altro aspetto evidenziato nel report è l’elevato tasso di riutilizzo delle credenziali scoperte: il 63% di esse era presente su più pagine. Un caso particolare riguarda una API key di WalkScore, che è stata trovata 57.029 volte su 1.871 sottodomini. Infine, i ricercatori hanno individuato una pagina web contenente 17 webhook attivi di Slack, che dovrebbero rimanere segreti, poiché consentono alle applicazioni di inviare messaggi su Slack.

Secondo Slack: "Mantienilo segreto, tienilo al sicuro. L'URL del tuo webhook contiene un segreto. Non condividerlo online, nemmeno tramite repository di controllo delle versioni pubbliche". In seguito alla ricerca, Truffle Security ha contattato i fornitori interessati e ha collaborato con loro per revocare le chiavi dei loro utenti. Come rivelato dai ricercatori: "Abbiamo aiutato con successo queste organizzazioni a ruotare/revocare collettivamente diverse migliaia di chiavi". Anche se un modello di intelligenza artificiale utilizza archivi più vecchi del set di dati analizzato dai ricercatori, le scoperte di Truffle Security servono come avvertimento che pratiche di codifica non sicure potrebbero influenzare il comportamento degli LLM.

Ti consigliamo anche