Il modello Wan 2.1, sviluppato da Alibaba, è un avanzato sistema di intelligenza artificiale per la generazione di video da testo e immagini, recentemente reso open source. Ecco alcune informazioni chiave su questo modello:
-
Modelli Disponibili: Wan 2.1 include diversi modelli, tra cui T2V-1.3B, T2V-14B, I2V-14B-720P e I2V-14B-480P. Questi modelli sono stati progettati per eccellere nella generazione di contenuti video e nelle interazioni multi-oggetto, come dimostrato dai risultati nei benchmark VBench.
-
Capacità di Generazione: Wan 2.1 è noto per le sue potenti capacità di generazione visiva dinamica. È in grado di trasformare testi e immagini in video di alta qualità e supporta vari stili artistici e risoluzioni. Questo lo rende versatile per diverse applicazioni creative.
-
Accessibilità e Open Source: La decisione di Alibaba di rendere Wan 2.1 open source mira a democratizzare l'accesso agli strumenti di AI, permettendo a sviluppatori di utilizzare e modificare il software liberamente. Questo approccio potrebbe favorire l'innovazione e lo sviluppo di nuove tecnologie.
-
Utilizzo Controverso: Nonostante le sue potenzialità positive, Wan 2.1 è stato rapidamente utilizzato anche per creare contenuti inappropriati, come video pornografici non consensuali. Questo ha sollevato preoccupazioni etiche riguardo all'uso dei modelli AI aperti e alle loro implicazioni.
-
Prestazioni: I modelli Wan 2.1 hanno mostrato prestazioni elevate in termini di simulazione di movimenti naturali e generazione di video con qualità cinematografica.
In sintesi, Wan 2.1 rappresenta un passo significativo nel campo della creazione video AI, combinando innovazione tecnologica con sfide etiche legate al suo utilizzo. In questo post vedremo come generare video con Wan 2.1.
Ho pubblicato sul mio Canale Youtube un tutorial per creare video con WAN 2.1 su HuggingFace e Replicate.
Chi fosse interessato può consultare il progetto Wan 2.1 condiviso su GitHub. Si possono creare gratuitamente video con Wan 2.1 accedendo a HuggingFace. Dopo aver aperto la home di Hugging Face si va su Sign Up in alto a destra. Successivamente si digita un nostro indirizzo email e una password per poi andare su Next e completare la creazione di un account. Dopo l'accesso, se si va su Pricing, constateremo che potremo usare Hugging Face in modo quasi illimitato e gratuitamente. Sono disponibili anche degli account PRO a pagamento.
Per creare video con Wan 2.1 si apre la pagina appena linkata. Si possono generare video da testi e da immagini.
Si può scegliere la scheda Text to Video o quella Image to Video. Nel primo caso si digita un prompt nel campo apposito, meglio se in inglese, e si clicca in basso su Generate Video. Però essendo Hugging Face gratuito, è difficile trovare il periodo giusto per ottenere una risposta e quindi visualizzare il video che abbiamo richiesto.
Replicate è un'altra piattaforma per sviluppatori a cui accedere con un account GitHub e usare gli strumenti messi a disposizione dagli stessi sviluppatori. L'utente però deve contribuire all'utilizzo della GPU per le sue realizzazioni. Quindi, dopo l'accesso a Replicate, bisogna aggiungere un metodo di pagamento, come una carta di credito, altrimenti non si potranno usare gli strumenti. P.e. per creare un'immagine con la AI si spendono circa 0,04$.
Per generare i video con il modello Wan 2.1 il costo è leggermente superiore e diverso in funzione della risoluzione con cui vogliamo crearlo. In questo post mi occuperò solo della funzionalità Text To Video lasciando quella Image To Video come argomento di un prossimo tutorial. Si possono usare due modelli per creare video da prompt:
Con il modello da 480p la spesa per la creazione dei video è di $0,07 per ogni secondo generato mentre il costo con il modello da 720p è di $0,24 per ogni secondo di video creato. Dopo aver aperto la pagina si digita il prompt.
Più in basso si sceglie il numero di fotogrammi che possono variare da 81 a 100. Ancora più in basso si sceglie l'aspect ratio cioè il rapporto tra larghezza e altezza. I rapporti supportati sono 9:16 e 16:9 rispettivamente per un video verticale e per un video orizzontale. Si sceglie quindi il frame rate del video da 5fps a 24fps.
In sostanza se si sceglie un video da 100 fotogrammi con un frame rate di 10fps si otterrà un filmato di 10 secondi. In Fast Mode si sceglie la velocità di generazione del video. La modalità Fast potrebbe degradare la qualità del video mentre l'opzione di default Balanced è un compromesso tra velocità e qualità. Si può impostare anche il numero di passaggi necessari alla realizzazione del video. Meno passaggi significano una generazione più rapida, a discapito della qualità. Di default si creano video con 30 passaggi che sono sufficienti per la maggior parte dei prompt. In Sample Guide Scale si imposta l'aderenza del video a quanto scritto nel nostro prompt.
Una scala di guida più elevata migliora l'aderenza rapida, ma può ridurre la variazione. Infine si può impostare il fattore di spostamento del campione da un minimo di 1 a un massimo di 10 c0n il numero 5 di default.
Si lascia in bianco il campo Seed per averlo casuale. Infine si clicca su Run per la generazione del video.
Nella parte destra della pagina verrà mostrata la percentuale di realizzazione del filmato che sarà mostrato al termine della sua creazione. Si potrà riprodurre e mettere in pausa. Si scarica andando su Download o cliccando sul menù dei tre puntini per poi andare su Scarica. I filmati realizzati verranno tutti scaricati in formato MP4.
Concludo osservando che dopo vari tentativi sono riuscito a creare un video anche con Wan 2.1 di HuggingFace.
Nessun commento :
Posta un commento
Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy