Quello che nessuno ti dice prima di scegliere.
Te lo dico subito, senza girarci intorno: capisco perfettamente perché stai valutando una voce generata dall’intelligenza artificiale.
Costa meno. È veloce. Non hai bisogno di prenotare uno studio, aspettare disponibilità, gestire revisioni. Carichi il testo, scegli una voce, scarichi il file. In dieci minuti hai qualcosa di tecnicamente ascoltabile.
Io lavoro nel suono da anni. Ho uno studio di registrazione e doppiaggio a Firenze. E l’AI mi ha tolto lavoro — sarei ipocrita a negarlo. Ma proprio perché la conosco bene, so anche esattamente dove finisce ciò che sa fare. E quel confine è molto più vicino di quanto i provider di sintesi vocale ti farebbero credere.
Cosa sa fare davvero bene la voce AI.
Le voci generate oggi sono impressionanti per certi utilizzi specifici. Messaggi di attesa telefonica. Notifiche di sistema. Istruzioni operative. Video tutorial interni all’azienda. Contenuti dove la funzione è puramente informativa, dove l’ascoltatore non ha aspettative emotive e dove il volume di produzione è alto.
Se devi produrre cento moduli e-learning standard con un budget limitato, l’AI è probabilmente la scelta giusta. Non ti dirò il contrario.
Dove l’AI non arriva — e si sente.
Il problema inizia quando il contenuto ha una funzione persuasiva o emotiva. Cioè, praticamente, in ogni spot pubblicitario.
Uno spot radiofonico o televisivo non trasporta solo informazioni. Trasporta un tono, un’atmosfera, una promessa di marca. Quella promessa deve essere credibile. E la credibilità vocale — quella vera, quella che fa scattare qualcosa nell’ascoltatore — è ancora, nel 2024, una questione profondamente umana.
Ho ascoltato centinaia di ore di sintesi vocale avanzata nell’ultimo anno. Il problema non è più la pronuncia, che è diventata molto buona. Il problema è quello che i fonici chiamano “intenzione”: quella micro-variazione nel modo in cui una sillaba viene accentata, una pausa viene gestita, un’emozione viene suggerita senza essere dichiarata. L’AI non improvvisa. Non reagisce al testo. Esegue un pattern statistico costruito su ciò che ha ascoltato.
Un bravo speaker, in cabina, legge una riga e poi dice: “Aspetta, secondo me questa parola va giù, non su — cambia tutto.” Ha ragione quasi sempre. Quella conversazione non esiste con un sistema di sintesi.
Il caso degli audiolibri.
Se c’è un formato dove questa differenza diventa abissale, è l’audiolibro. Un ascoltatore di audiolibri trascorre con quella voce sei, otto, dieci ore. La voce diventa un personaggio. Diventa una presenza. Diventa, in qualche modo, la voce del libro stesso.
Ho lavorato su audiolibri in italiano e in inglese. So cosa significa costruire una performance che regga per ore — come gestire i personaggi, come mantenere l’energia senza che si senta la fatica, come rendere credibile un dialogo tra voci diverse con un solo performer. È un lavoro artigianale, preciso, con una sua arte specifica. Nessun sistema AI è ancora lontanamente capace di replicarlo in modo che un ascoltatore non se ne accorga dopo il primo capitolo.
La domanda giusta da farsi.
Non è “AI o speaker umano?” La domanda giusta è: cosa deve fare questa voce per il mio brand o per il mio progetto?
Se deve informare: valuta l’AI. Se deve convincere, emozionare, rappresentare un’identità di marca, accompagnare un ascoltatore per ore: vieni a parlare con noi.
Sounds Like Studio è a Firenze. Lavoriamo con agenzie creative, case di produzione e aziende in tutta Italia per spot radio, TV e web, audiolibri e podcast. Se hai un progetto in mano e stai ancora decidendo come realizzarlo, scrivici — ti aiutiamo a capire qual è la scelta giusta, anche se alla fine non siamo noi.
Vuoi ascoltare le nostre voci?
Contattaci se non hai trovato quello che cerchi o se vuoi maggiori informazioni!

