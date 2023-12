L'immagine mostrata di seguito non è una fotografia ma il risultato di un prompt inviato ad Imagen 2. Si tratta della nuova versione dell'intelligenza artificiale generativa per il text-to-image presentata dai laboratori di Google DeepMind. Pensato per restituire output estremamente fotorealisitici, questo modello di diffusione utilizza la distribuzione dei suoi dati di training invece di sfruttare una stile preprogrammato.

Le API per gli sviluppatori

Imagen 2 nasce anche per essere integrato in applicazioni di terze parti. Per questo motivo la tecnologia è accessibile dagli sviluppatori e agli utenti dei servizi Cloud di Google tramite l'Imagen API disponibile in Google Cloud Vertex AI. Contestualmente il team di Arts and Culture sta implementando il modello nella sperimentazione chiamata Cultural Icons. Un'iniziativa che ha lo scopo di permettere agli utenti di esplorare, apprendere e testare le proprie competenze culturali tramite il supporto dell'AI di Google.

Imagen 2 e qualità dell'output

Il livello di accuratezza delle immagini generate da Imagen 2 dipende dal modo in cui è stato effettuato il suo addestramento. In linea generale i modelli text-to-image imparano a restituire output tenendo conto del fatto che essi devono corrispondere con i prompt degli utenti. In questo caso ad entrare in gioco sono quindi i dettagli presenti nei dataset composti da immagini e didascalie. La qualità del prodotto finale dipende da quanto tali coppie di informazioni sono accurate.

I ricercatori di Google hanno deciso di migliorare le sessioni di addestramento inserendo delle descrizioni aggiuntive alle didascalie. In questo modo il modello ha potuto identificare i vari stili in cui vengono realizzate queste ultime, generalizzarli e utilizzarli come informazioni addizionali per l'interpretazione dei prompt. A rendere Imagen 2 estremamente preciso sarebbe quindi la sua capacità di capire meglio le relazioni esistenti tra immagini e parole, tenendo conto anche della diversità dei contesti e delle possibili sfumature.

L'efficacia di questo lavoro risulta evidente da alcuni particolari delle immagini. Come per esempio le mani che vengono restituite in modo molto preciso.

In questo modo la soluzione d Mountain View si pone come alternativa a Dall-E, Midjourney e Stable Diffusion i cui modelli sono oggi tra i più affermati sul mercato.