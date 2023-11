Stability AI, la compagnia a cui si deve il text-to-image diffusion model Stable Diffusion, ha annunciato la disponibilità di Stable Video Diffusion, un modello generativo per la creazione di filmati basato proprio su Stable Diffusion. Attualmente il progetto si trova in fase di anteprima per i ricercatori e rappresenta un ulteriore passo avanti verso la realizzazione di modelli utilizzabili per la generazione di qualsiasi tipo di contenuto.

Stable Video Diffusion: caratteristiche tecniche

SVD è un modello di diffusione che ha la capacità di partire da un'immagine fissa utilizzata come frame per creare un filmato. È stato addestrato per la realizzazione di brevi clip video: 15 frame a risoluzione 576x1024. I risultati ottenibili ad oggi non sono particolarmente fluidi ma il progetto comprende già qualche funzionalità avanzate come per esempio un decoder f8 per la consistenza temporale. Gli sviluppatori di Stability AI hanno implementato anche un modello alternativo, SVD-XT. Quest'ultimo presenta la stessa architettura di SVD ma è stato addestrato per produrre 25 frame al secondo con la medesima risoluzione.

I modelli proposti possono essere adattati a diverse tipologie di task legati al downstream. Come per esempio la sintesi multi-view da una singola immagine con fine-tuning su dataset multi-view. Chi fosse interessato al codice di SVD può visitare l'apposito repository su GitHub. Se invece si desidera avere accesso a questa nuova esperienza image-to-video è necessario iscriversi prima alla lista di attesa dedicata e attendere l'invito.

I limiti di Stable Video Diffusion

Trattandosi di un progetto ancora in fase embrionale è logico attendersi qualche limitazione, del resto la stessa Stability AI specifica che per il momento "the model is intended for research purposes only". Ad oggi SDV è capace di creare unicamente video di breve durata (4 secondi al massimo) e il livello di fotorealismo non è particolarmente elevato. In alcuni casi i video generati non presenterebbero alcun movimento o movimenti estremamente lenti.

Il comportamento del modello non può essere controllato tramite testo e non può restituire testo leggibile. Potrebbero verificarsi imprecisioni anche rilevanti nella generazione di volti e persone e l'autoencoding tende a determinare una perdita di qualità.