I giornalisti di carta stampata, quando intervistano qualcuno, sono quasi sempre muniti di registratori per non perdere nessun commento dell'intervistato. Possono essere dei registratori digitali o anche dei normali smartphone.
Nei corsi di laurea non STEM, dove quindi non ci sono da memorizzare formule e dove si usa poco la lavagna, molti studenti sono soliti registrare le lezioni con registratori appositi o con smartphone, per poi ascoltarle di nuovo a casa e eventualmente convertirle in testo. Stesso comportamento possono avere i partecipanti a riunioni, ad assemblee, a convegni e ad ogni evento in cui ci siano dei convenuti che parlano. La conversione di audio in testo viene indicata sinteticamente con l'espressione Speech-To-Text ma anche con l'espressione italiana dello sbobinare.
In questo post vedremo come convertire un file audio di un parlato in un testo, con l'audio pronunciato in una qualsiasi lingua. Mostrerò due procedure, la migliore utilizza lo strumento CapCut online mentre per quella alternativa si usa l'ultima versione del programma di editing video Shotcut, open source e multipiattaforma.
Sebbene su CapCut non siano precisati dei limiti di lunghezza per gli audio da convertire, considerato che il programma è stato creato dalla casa che distribuisce TikTok, è probabile che vengano privilegiati file audio brevi.
Essendo Shotcut open source invece non esistono limiti in tal senso se non quelli del tempo necessario per l'estrazione del testo che è superiore. La versione del programma con la funzionalità Speech To Text deve essere quella 24.10.29 o superiore. Con entrambi gli strumenti si potranno anche tradurre i testi estratti.
Ho pubblicato sul mio Canale Youtube una guida in cui illustro come convertire audio parlato in testo.
Per accedere a CapCut online si apre la pagina linkata sopra quindi si clicca su Prova CapCut online. Poi si accede con le credenziali di Google, Facebook, TikTok o si crea un account sul momento con indirizzo email.
COME ESTRARRE TESTO DA AUDIO CON CAPCUT
Dopo aver effettuato il login si va su Nuovo Video per aprire l'editor del programma. Si clicca in alto a sinistra su File Multimediali quindi si va su Carica → Carica il file e si seleziona il file audio da convertire in testo.
Dopo ci si clicca sopra con il sinistro del mouse per aggiungerlo alla Timeline. Infine si va su Sottotitoli.
Tra le opzioni presenti si clicca su quella Sottotitoli Automatici. Nel menù si sceglie la lingua dell'audio.
Si va quindi su Genera e si attende che l'intelligenza artificiale e il modello linguistico facciano il loro lavoro.
Sopra alla traccia verranno aggiunte le clip dei blocchi di sottotitoli che verranno mostrate anche sulla sinistra.
Nella colonna di sinistra potranno essere editati i sottotitoli per correggere eventuali errori. In questo contesto non ci interessa lo stile con cui vengono mostrati nell'anteprima. Si va in basso sull'icona della freccia e si sceglie TXT.
Verrà quindi scaricato automaticamente un file con il testo di tutto il parlato. Possiamo anche tradurre i sottotitoli cliccando sul pulsante posto a destra di quello con la freccia che punta in basso. Si visualizzerà un popup.
Verrà rilevata automaticamente la lingua corrente. L'utente dovrà impostare quella di output scegliendola da un menù verticale. Si va quindi su Traduzione e si attende la fine del processo che tradurrà tutti i blocchi di sottotitoli.
Tali sottotitoli potranno essere scaricati cliccando sul pulsante della freccia che punta in basso in formato TXT.
SPEECH TO TEXT CON SHOTCUT
Si fa andare Shotcut, si clicca su Elenco Riproduzione e si trascina nella finestra omonima l'audio da convertire in testo. Successivamente con il drag&drop del mouse si aggiunge alla Timeline dove creerà una traccia video.
Si clicca sul pulsante Sottotitoli posto a destra del menù orizzontale. Si aprirà una scheda nella parte sinistra.
Si clicca sul pulsante a destra con la dicitura Rileva il parlato e trascrivilo in una nuova traccia sottotitoli.
Nel popup che si apre si dà un nome alla traccia, si sceglie la lingua del parlato nell'audio quindi opzionalmente si può andare su Configurazione. Di default Shotcut utilizza il modello ggml-base-q5_1.bin del peso di 59,7MB.
Si può usare un modello più grande per ottenere risultati più precisi scegliendolo tra quelli scaricabili da questa pagina di HuggingFace. Il modello di default usto da Shotcut si trova nella cartella che ha questo percorso:
C:\Program Files\Shotcut\share\shotcut\whisper_models
Nella stessa cartella si può caricare un altro modello. Ho testato quello ggml-large-v2-q5_0.bin che funziona. Si clicca quindi sul pulsante posto a destra per aprire Esplora File e scegliere uno dei modelli presenti in cartella.
Si clicca quindi su OK per la generazione dei sottotitoli la cui percentuale verrà mostrata in Attività sulla destra.
Per visualizzare i sottotitoli si clicca sul pulsante A posto a sinistra di quello usato per generare i sottotitoli. Se si creano più tracce di sottotitoli si potrà selezionare una traccia scegliendola nel menù posto in alto della finestra.
I blocchi dei sottotitoli verranno mostrati elencati in alto a sinistra con accanto il tempo di inizio, quello di fine e la durata. Per salvare i sottotitoli si clicca sul menù che sta sopra alla finestra dei sottotitoli per poi scegliere Esporta Sottotitoli in un file. Si aprirà Esplora File di Windows in cui cambiare l'estensione del file da SRT a TXT.
Si va su Salva per salvare il file di testo da aprire con il Blocco Note. Oltre al testo, per ciascun blocco di sottotitoli, verranno mostrati anche il tempo di inizio e quello di fine visualizzazione. Prima di esportare i sottotitoli, si potranno editare uno per uno visualizzandone il testo nella apposita casella. Infine si potranno tradurre i sottotitoli, ma solo in inglese, seguendo la stessa procedura e flaggando Traduci in inglese nel popup che si apre.
Nessun commento :
Posta un commento
Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy