Google ha rilasciato Imagen 2 per i clienti Google Cloud che utilizzano Vertex AI. Si tratta della seconda generazione del suo modello AI in grado di creare e modificare immagini a partire un messaggio di testo. Questo modello è stato annunciato lo scorso maggio, nel corso della conferenza Google I/O ed è stato sviluppato utilizzando la tecnologia di Google DeepMind. L’azienda di Mountain View sottolinea che, rispetto a Imagen di prima generazione, questo nuovo modello è "significativamente" migliorato in termini di qualità dell'immagine (anche se la società non ha condiviso alcun esempio di ciò) e introduce nuove funzionalità, inclusa la capacità di eseguire il rendering di testo in più lingue e la sovrapposizione dei loghi alle immagini.

Imagen 2: le novità della nuova versione del generatore di immagini Google

La generazione di testo e logo porta Imagen 2 in linea con altri modelli leader di generazione di immagini, come DALL-E 3 di OpenAI e Titan Image Generator di Amazon. Come accennato, sono due i possibili punti di differenziazione di Imagen 2 rispetto ai concorrenti. Il primo è la possibilità di eseguire il rendering del testo in più lingue, in particolare cinese, hindi, giapponese, coreano, portoghese, inglese e spagnolo, con altre in arrivo nel 2024. Il secondo riguarda la sovrapposizione di loghi a immagini esistenti. Grazie a “nuove tecniche di formazione e modellazione”, Imagen 2 può anche comprendere istruzioni più descrittive e di lunga durata e fornire “risposte dettagliate” a domande sugli elementi di un’immagine. Come ricorda Google, queste tecniche migliorano anche la comprensione multilingue di Imagen 2, consentendo al modello di tradurre un prompt in una lingua in un output (ad esempio un logo) in un'altra lingua.

Per quanto riguarda la trasparenza, Imagen 2 sfrutta SynthID, un approccio sviluppato da DeepMind, per applicare filigrane invisibili alle immagini create da esso. Naturalmente, il rilevamento di queste filigrane, che secondo Google sono resistenti alle modifiche delle immagini, tra cui compressione, filtri e regolazioni del colore, richiede uno strumento fornito da Google che non è disponibile a terze parti. Ad oggi la società non ha rivelato quali dati ha utilizzato per addestrare il nuovo modello. Inoltre, non permette nemmeno ai creator che potrebbero aver inavvertitamente contribuito al set di dati di rinunciarvi o richiedere un risarcimento. Tuttavia, non è escluso che ciò avvenga in un futuro prossimo.