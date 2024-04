Le società leader nel campo dell’AI, come Google, Meta e OpenAI, negli anni hanno fatto ricorso a diverse tattiche per addestrare i propri LLM. Tra queste, OpenAI avrebbe presumibilmente trascritto oltre un milione di ore di video di YouTube per raccogliere dati per addestrare il suo modello GPT-4. A rivelarlo è stato un nuovo report pubblicato dal New York Times. Secondo quanto riferito dai giornalisti, OpenAI ha sviluppato il modello di trascrizione audio Whisper, che ha aiutato l'azienda a estrarre dati dai video di YouTube. Secondo il NY Times OpenAI sapeva che questo metodo avrebbe potuto essere esaminato attentamente, ma lo hanno portato avanti perché credevano che fosse un utilizzo corretto. È interessante notare che anche Google, proprietaria di YouTube, è stata presumibilmente coinvolta nella stessa pratica per i suoi modelli di intelligenza artificiale. In questo modo ha violato i diritti d'autore dei creator.

OpenAI: Google avrebbe usato la stessa tecnica per addestrare il suo LLM

Il report del NY Times è in linea con quello pubblicato da The Information. Quest’ultimo evidenziava che OpenAI avrebbe presumibilmente cancellato dati da video e podcast di YouTube per addestrare due dei suoi sistemi di intelligenza artificiale. Il documento suggerisce anche che anche il presidente di OpenAI, Greg Brockman, fosse nel team del progetto. Quando il CEO di YouTube Neil Mohan è stato intervistato da Bloomberg, ha affermato che le politiche dell'azienda “non consentono il download di cose come trascrizioni o frammenti di video, e questa è una chiara violazione dei nostri termini di servizio”. Tuttavia, quando gli è stato chiesto se i dati di YouTube fossero stati utilizzati o meno da OpenAI, Mohan ha dato una risposta ambigua, dicendo: "Ho visto report secondo cui potrebbero essere stati utilizzati o meno. Io stesso non ho informazioni".

Il documento del NY Times afferma inoltre che alcune persone in Google erano a conoscenza della pratica di OpenAI di trascrivere i dati di YouTube. Tuttavia, non è stato fatto nulla poiché anche Google ha fatto ricorso alla stessa pratica per addestrare il proprio modello di intelligenza artificiale. L’azienda di Mountain View ha ha dichiarato al NY Times che esegue lo scraping dei dati dei video. Tuttavia, ciò accade solo dopo che il creator ha dato il proprio consenso. Secondo report, Google ha chiesto a un team di “modificare la propria politica sulla privacy” nel giugno 2023. Lo scopo di ciò era quello di “consentire a Google di poter accedere a documenti Google disponibili pubblicamente, recensioni di ristoranti su Google Maps e altro materiale online per ulteriori informazioni". dei suoi prodotti IA”.