L'intelligenza artificiale sta diventando prerogativa anche dei progetti open source che si possono appoggiare sui modelli linguistici condivisi. È già iniziato il dibattito tra chi vorrebbe la IA proprietaria per ottenere più finanziamenti dal mercato e chi invece la vorrebbe senza vincoli e copyright di utilizzo data la sua delicatezza.
Abbiamo visto come Audacity abbia già implementato funzioni di intelligenza artificiale con il plugin OpenVINO il cui progetto è stato rilasciato da Intel. Lo stesso plugin sarà installabile a breve anche su Gimp, quando uscirà la versione 3.0 che sta tardando presumo proprio per renderla compatibile con le funzioni dell'intelligenza artificiale.
Anche Shotcut con la versione 24.10.29 ha implementato un modello della AI. In questo post vedremo come utilizzarlo per estrarre il testo da un video con del parlato. Tale funzionalità viene indicata come Speech-To-Text.
Ovviamente si potrà estrarre il testo anche da un audio ma lo vedremo un'altra volta. Non occorre aggiungere plugin a Shotcut ma basta aggiornarlo all'ultima versione che è stata rilasciata in 29 Ottobre come si evince dal numero.
Ho pubblicato sul mio Canale Youtube un tutorial in cui illustro come estrarre il testo da un video con Shotcut.
Nella versione 24.10.29 di Shotcut è stato implementato un modello linguistico di base che l'utente come vedremo potrà sostituire con un altro tra quelli disponibili. Con i modelli più grandi la trascrizione dell'audio risulterà più precisa ma il processo con cui vengono rilevate le parole pronunciate nel video risulterà essere molto più lungo.
Anche con la versione base del modello sarà possibile tradurre automaticamente il testo estratto in inglese. Per adesso è disponibile solo questa traduzione ma in futuro probabilmente sarà estesa anche ad altre lingue.
Per installare Shotcut aprite la sua home linkata sopra e andate su Click to Download per poi scaricare il file di installazione adatto al vostro sistema operativo. Se avete già installato Shotcut e volete aggiornarlo, nel menù orizzontale andate su Aiuto → Aggiorna programma per aprire la pagina in cui scaricare il file di installazione.
Dopo aver aperto Shotcut, si va su Elenco Riproduzione e, nella finestra omonima, si trascina il file video da cui estrarre il testo. Lo si aggiunge poi alla Timeline con il drag&drop del cursore. Si clicca su Sottotitoli nel menù.
Nella piccola finestra che viene visualizzata si va nell'ultimo pulsante quello, che passandoci sopra con il mouse, mostra la scritta Rileva il parlato e trascrivilo in una nuova traccia sottotitoli. Si aprirà una finestra popup.
Nella prima riga si può cambiare il titolo Traccia Sottotitoli 1. Nella seconda riga si sceglie la lingua del parlato. Di default viene mostrato Italian ma si può estrarre il testo da video parlati praticamente in tutte le lingue.
Si può settare il numero di caratteri massimo per ogni blocco di sottotitoli, di default è impostato a 42 caratteri. Si lascia invariato tutto il resto e si va su OK. Verranno mostrati due lavori nella finestra Attività in alto a destra.
I bocchi di sottotitoli verranno mostrati sopra alla traccia del video. Nella finestra in alto si visualizzeranno tutti i blocchi dei sottotitoli con tre numeri accanto, quelli di inizio, di fine e di durata di un singolo blocco.
I sottotitoli potranno essere editati nella piccola finestra sulla sinistra. Si potranno visualizzare uno dopo l'altro spostando l'indicatore di riproduzione. I sottotitoli però non verranno mostrati sovrascritti al video.
Per visualizzarli si clicca sul pulsante A posto subito a sinistra di quello con cui abbiamo generato i sottotitoli.
Si aprirà la finestra Output in cui mettere o meno la spunta a Incorpora sottotitoli per visualizzarli.
Più in basso si potranno personalizzare nella famiglia di font, nel colore, nella dimensione, nel colore del bordo e di sfondo, nella opacità e nella posizione. Si potrà quindi salvare il video con i sottotitoli creati automaticamente da Shotcut. Per farlo si va su Esporta → Predefinito → Esporta File e si dà un nome al video.
I sottotitoli possono essere esportati. Si clicca su Sottotitoli nel menù orizzontale e si va nel menù dei sottotitoli.
Nel menù si sceglie quella Esporta Sottotitoli in un file. Si sceglie poi la cartella di destinazione, si dà un nome al file e si clicca su Salva. Il file verrà salvato in formato .SRT tipico dei sottotitoli da visualizzare con il player VLC.
Si può aprire con il programma Notepad++ ma più semplicemente basta cambiarne l'estensione da .SRT a .TXT per aprire il file con il Blocco Note. Si può poi ripetere tutta la procedura e creare una seconda traccia di sottotitoli.
Nella finestra di configurazione, se si flagga Traduci in inglese, i sottotitoli verranno tradotti in tale lingua.
COME PERSONALIZZARE IL MODELLO LINGUISTICO
Il modello linguistico usato da Shotcut è stato importato dal progetto Whisper creato dalla galassia OpenAI. Whisper è stato addestrato con 680.000 ore di dati multilingue e multitasking raccolti dal web e supervisionati.
I modelli creati sono stati condivisi in questa pagina su HuggingFace, repository per la AI di cui mi sono occupato più volte. Il modello implementato da Shotcut è quello ggml-base-q5_1.bin del peso di 59,7MB.
Ho scaricato un modello molto più grande, quello ggml-large-v2-q5_0.bin da 1,08GB. Quando si estraggono i sottotitoli, invece di cliccare subito su OK, si può andare su Configurazione per scegliere il modello linguistico.
Si visualizzeranno due nuove righe. Si clicca a destra della seconda per selezionare il modello. Al posto di quello ggml-base-q5_1.bin si può scegliere un altro scaricato da HuggingFace come ggml-large-v2-q5_0.bin.
Per evitare confusione tra percorsi è bene posizionare i modelli scaricati nella stessa cartella di Shotcut del modello di default che ha il seguente percorso: C:\Program Files\Shotcut\share\shotcut\whisper_models.
Nessun commento :
Posta un commento
Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy