Janus-Pro di DeepSeek per creare immagini da descrizioni testuali

Janus-Pro-7B è un modello di DeepSeek disponibile su Hugging Face con cui analizzare le immagini e crearle inserendo un prompt nel tool Text-To-Image

DeepSeek non ha solo creato un modello adatto a rispondere alle domande degli utenti ma ha pure rilasciato un tool per creare immagini da una descrizione. Lo strumento in oggetto si chiama Janus ed è condiviso su GitHub.

Janus-PRO è una versione aggiornata di Janus con una superiore capacità di seguire le istruzioni da testo a immagine migliorandone al contempo la stabilità. I modelli di Janus sono tutti caricati su Hugging Face a disposizione di chi li voglia testare gratuitamente. I modelli finora rilasciati sono Janus-1.3B, JanusFlow 1.3B, Janus-Pro-1B e il più recente Janus-Pro-7b. Nella pagina appena linkata si possono leggere le caratteristiche di questo modello. Invece per utilizzarlo si apre la sezione Spaces in cui ci sono diverse app che lo usano.

Il modello più usato è quello che sta girando su ZERO accessibile da questa pagina web. Lo strumento è diviso in due parti. Nella parte alta si possono analizzare le immagini che si caricano dal computer mentre più in basso si creano le immagini immettendo delle descrizioni, preferibilmente in lingua inglese. Sia nel primo che nel secondo strumento ci sono dei cursori di configurazione che però è meglio lasciare nella loro posizione predefinita.

Ho pubblicato sul mio Canale Youtube un tutorial in cui illustro le potenzialità di Janus-Pro-7B di DeepSeek.

Nella parte alta dello strumento vengono analizzate le immagini che debbono essere caricate. Successivamente si digita una descrizione su cosa vogliamo conoscere come il luogo in cui è stata scattata o la circostanza.

Oltre a caricare le immagini si possono anche scattare istantanee con la webcam o incollare immagini dagli appunti.

analizzare immagini con janus pro 7b

Dopo aver digitato la richiesta su Question, opzionalmente si possono modificare i cursori di top-p e Temperature. Infine si va su Chat e si attende che Janus-Pro-7B analizzi tutta l'immagine.

Il risultato solitamente appare dopo un minuto ed è esauriente se ci sono sufficienti indizi per una risposta. Bisogna però attendere che la GPU diventi disponibile e questo dipende dalla quantità di richieste ricevute quel momento.

analisi immagine da parte di Janus Pro 7B

È meglio utilizzare la lingua inglese per evitare una doppia traduzione e quindi ottenere dei risultati approssimativi dovuti a traduzioni non precise o ambigue. Con lo strumento in basso invece si generano immagini da prompt.

Ci sono dei prompt predefiniti su cui cliccare per inserirli automaticamente nel campo dei prompt. Ovviamente si può digitare un nostro prompt o modificare uno di quelli predefiniti. Opzionalmente si può agire sui cursori di Temperature e CFG Weight prima di andare su Generate Images e attendere che Janus-Pro ce le mostri.

Ho leggermente modificato un prompt predefinito inserendo questa descrizione: "A cute and adorable baby fox with big blue eyes, autumn leaves in the background enchanting, fluffy, shiny mane, fairyism, unreal engine 5 and Octane Render, highly detailed, photorealistic, cinematic, natural colors." Il risultato è stato il seguente.

text-to-image generation

Per ogni prompt vengono generate quattro immagini che possono essere scaricate andando sulla freccetta che punta verso il basso. Le immagini generate sono quadrate in formato WebP e con risoluzione 768x768 pixel.

Pubblicato il 29/01/25 - aggiornato il | Nessun commento :

Janus-Pro di DeepSeek per creare immagini da descrizioni testuali

Nessun commento :

Posta un commento

Ricevi nuovi post via email: