In un post di qualche giorno fa abbiamo visto come usare i tool di Hugging Face, un'azienda fondata nel 2016 che originariamente sviluppava un'app di chatbot rivolta agli adolescenti e che prende il nome dalla faccina che abbraccia. Successivamente ha cambiato mission per diventare una piattaforma per l'apprendimento automatico.
Hugging Face si è evoluta quindi un servizio web centralizzato che ospita repository di codice, modelli, set di dati e applicazioni web. Al suo interno ci sono modelli pre-addestrati che supportano elaborazione del linguaggio naturale, classificazione del testo, risposta alle domande, traduzione, classificazione delle immagini e riconoscimento vocale.
Dopo aver aperto la home di Hugging Face linkata nella prima riga, si va su Sign Up in alto a destra. Dopo si digita un nostro indirizzo email e una password per poi andare su Next e completare la creazione di un account.
Chi non è sviluppatore, può andare subito su Spaces nel menù orizzontale in alto per selezionare uno dei tanti modelli presenti. In questo articolo vedremo come usare uno strumento per estrarre separatamente voce e parte strumentale da una canzone, che potrà essere caricata dal computer o aggiunta tramite il suo URL se è già online.
Ho pubblicato un video tutorial su Youtube per appunto separare la voce dalla musica in una canzone e scaricare due tracce separate. Dopo essere andati su Spaces in Hugging Face si digita audio separator nella casella di ricerca quindi si clicca sul modello che ha il maggior numero di Like accanto al cuoricino in alto a destra.
I modelli con Runtime Error, Paused e Sleeping non vanno presi in considerazione. Dopo averci cliccato sopra si aprirà lo strumento per separare voce e musica. Il brano potrà essere trascinato o selezionato dal computer.
Opzionalmente si potrà mettere la spunta a URL-to-Audio per separare voce e musica da una canzone già nel web come per esempio una video clip su Youtube. Se tale opzione non è flaggata, si aggiunge la canzone dal computer.
Su Stem si sceglie se estrarre il Vocale o il Background, cioè tutto il resto. Più in basso si possono impostare dei parametri in modo molto dettagliato come il Reverbero o altri Effetti Vocali e il guadagno in dB della traccia.
Si clicca su Inference e si attende la fine del processo che per una canzone di 4 minuti è durato poco più di 80 secondi. Al termine del processo di estrazione si scarica la traccia, del vocale o della musica, in formato WAV.
Si ripete poi il processo per scaricare entrambe le tracce di voce e musica. Non occorrerà ricaricare il brano ma basterà mettere la flag alla seconda opzione. Nei miei test il risultato è stato eccellente e anche rapido.
Per separare musica e voce di una canzone Audio Separator di Hugging Face ha usato le API di Gradio. Le API dello stesso strumento le abbiamo viste usare per generare immagini con l'intelligenza artificiale di Fooocus.
Nessun commento :
Posta un commento
Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy