Pubblicato il 14/01/25 - aggiornato il  | Nessun commento :

Come convertire testo di tutte le lingue in audio con ClipChamp

Il text-to-speech, o TTS, o sintesi vocale, è una tecnologia che converte il testo scritto in parlato. In poche parole, è come avere un computer che legge ad alta voce un documento. Come funziona?

Il processo di conversione del testo in parlato coinvolge diversi passaggi:

  1. Analisi del testo: Il testo viene scomposto in parole, frasi e paragrafi. Vengono identificati i segni di punteggiatura, le maiuscole e le minuscole, e vengono analizzate le regole grammaticali.
  2. Conversione in suoni: Ogni parola viene associata a un insieme di suoni elementari (fonemi). Il computer utilizza un dizionario e regole di pronuncia per determinare come questi suoni devono essere combinati.
  3. Generazione dell'audio: I suoni vengono poi assemblati per formare le parole e le frasi. Vengono aggiunti anche gli aspetti prosodici, come l'intonazione, l'accento e il ritmo, per rendere il parlato più naturale.
  4. Produzione dell'audio: L'audio generato viene infine convertito in un formato digitale, come MP3 o WAV, che può essere riprodotto su qualsiasi dispositivo audio. A cosa serve il text-to-speech?

Le applicazioni del text-to-speech sono numerose e in continua espansione. Ecco alcuni esempi:

  • Accessibilità: Permette a persone con disabilità visive di accedere a contenuti testuali.
  • Assistenti virtuali: Voci sintetiche vengono utilizzate per fornire informazioni e rispondere a domande.
  • E-learning: I contenuti didattici possono essere ascoltati invece che letti.
  • Audiolibri: I libri possono essere convertiti in formato audio.
  • Giochi e applicazioni: Le voci sintetiche possono essere utilizzate per creare personaggi e narrazioni.
  • Pubblicità: Annunci e presentazioni possono essere trasformati in audio.

Quali sono i vantaggi del text-to-speech?

  • Automatizzazione: La conversione del testo in parlato è un processo automatico, che consente di risparmiare tempo e risorse.
  • Versatilità: Può essere utilizzato con qualsiasi testo, da semplici messaggi a documenti complessi.
  • Personalizzazione: È possibile scegliere tra una vasta gamma di voci e accenti, per adattare la sintesi vocale alle proprie esigenze.
  • Accessibilità: Rende i contenuti testuali accessibili a un pubblico più ampio.

Quali sono i limiti del text-to-speech?

  • Naturalità: Sebbene i sistemi TTS siano migliorati notevolmente, il parlato sintetico può ancora risultare innaturale e difficile da comprendere.
  • Emozioni: Le voci sintetiche hanno difficoltà a esprimere emozioni complesse.
  • Contesto: La comprensione del contesto è fondamentale per una corretta pronuncia e intonazione, ma i sistemi TTS possono ancora avere difficoltà a gestire situazioni complesse.

Ci sono molti strumenti in grado di convertire testo in un audio sintetico. In questo post mostrerò quello he secondo me al momento è la migliore soluzione, perché è gratuita, replicabile all'infinito e che dà ottimi risultati.

Ho pubblicato sul mio Canale Youtube un tutorial in cui illustro come convertire testo in audio con ClipChamp.

ClipChamp è il video editor di riferimento della Microsoft che lo ha acquistato qualche anno fa. Si può usare da scheda del browser, cliccando sul precedente link, oppure installare l'omonima applicazione dal Microsoft Store.

ClipChamp ha un'ottima funzionalità di sintesi vocale però permette di scaricare i progetti solo in formato MP4 quindi di video. Però trascinando il video nell'interfaccia di Audacity si potrà molto facilmente estrarre l'audio.

Dopo aver aperto ClipChamp, da browser o da app, si accede con un account Microsoft. Si va poi su Crea un novo video - Inizia da zero per aprire l'editor di ClipChamp. Nella colonna di sinistra si va su Registra e Crea.

scegliere lingua e voce

Tra le varie opzioni si va su Sintesi Vocale. In alto a destra si sceglie la lingua del testo che ci accingiamo a convertire. Sono supportate tutte le lingue del mondo anche con variazioni localizzate come l'inglese che si può selezionare come quello parlato in UK, negli USA, in Australia, in Nigeria, Canada, Filippine, India, ecc...

Più in basso si sceglie la voce della sintesi vocale. Sono tutte molto naturali. Dopo averne selezionata una, se ne può ascoltare un'anteprima cliccando sul play posto subito sotto. Ci sono voci multilingue che possono essere usate per tutti i linguaggi e voci più specifiche per la lingua che abbiamo scelto. Si va poi in basso su Avanzate.

personalizzare la voce

La voce che abbiamo scelta può essere ulteriormente personalizzata. Andando su Tono Vocale, al posto di Predefinito, si può scegliere Molto Bassa, Bassa, Media, Alta e Molto Alta. Si potrà quindi alzare o abbassare la frequenza della voce rendendola rispettivamente più acuta o più grave. Si incolla quindi il testo da convertire.

ClipChamp supporta fino a un massimo di 8150 caratteri per progetto. Sempre su Avanzate si può agire sul cursore del Ritmo per rallentare o per velocizzare la pronuncia delle parole. Abbassando il ritmo si allungherà la durata dell'audio che invece si accorcerà aumentandolo. Dopo aver cambiato su Tomo Vocale e/o Ritmo si va su Anteprima per ascoltare l'anteprima dell'audio. Si va su Salva per aggiungere il testo nella traccia della Timeline.

esportare il video

Come già accennato con ClipChamp non si può salvare solo l'audio ma l'audio sarà parte del formato contenitore MP4. Si va quindi su Esporta, si sceglie la risoluzione più bassa (480p) per esportare un video che sarà tutto nero.

Visto che il formato MP4 non è universalmente supportato come file audio, bisogna estrarlo. Per questa operazione si possono usare un sacco di metodi. Consiglio di utilizzare Audacity, open source, gratuito e multipiattaforma.

estrarre audio da MP4 con Audacity

Si trascina il file MP4 nell'interfaccia di Audacity che rileverà solo l'audio presente nel formato contenitore. Se ne visualizzerà lo spettro d'onda. Per il suo salvataggio si va su File → Esporta Audio per aprire una finestra.

Si digita il nome del file, si sceglie la cartella di destinazione e si seleziona il formato tra WAV, MP3, WMA, AMR, OPUS, OGG, ecc... Si va poi su Esporta e si attende la codifica dell'audio che è stato generato da un testo.



Nessun commento :

Posta un commento

Non inserire link cliccabili altrimenti il commento verrà eliminato. Metti la spunta a Inviami notifiche per essere avvertito via email di nuovi commenti.
Info sulla Privacy