L'anno scorso, Microsoft ha annunciato voci AI super realistiche ottimizzate per scenari conversazionali, tra cui chatbot, assistenti vocali, giochi e altro ancora. Gli sviluppatori sono stati in grado di utilizzare queste voci neurali text-to-speech (TTS) nelle loro applicazioni tramite Azure Speech SDK o REST API. Negli ultimi mesi, Microsoft ha aggiunto diverse nuove voci neurali text-to-speech (TTS) per gli sviluppatori. L’azienda offre ora oltre 500 voci neurali in più di 140 lingue e impostazioni locali. Oggi, Microsoft ha annunciato una nuova e migliorata versione HD del suo servizio di sintesi vocale neurale per voci selezionate. Le nuove voci HD migliorano l'espressività complessiva con il rilevamento delle emozioni basato sul contesto dell'input di testo.
Azure AI Speech: i vantaggi del nuovo modello linguistico
Le nuove voci HD di Azure AI Speech si basano su modelli linguistici di trasformazione autoregressiva e parlano nel timbro vocale della piattaforma selezionata. Ciò ha molti vantaggi. In primis, il nuovo modello interpreta il testo di input. Inoltre, comprende il sentimento sottostante, regolando automaticamente il tono del parlato per adattarlo all'emozione trasmessa in tempo reale. Inoltre, il modello può produrre pause ed enfasi spontanee. Microsoft afferma che questo modello può riprodurre fonemi comuni, come pause e parole di riempimento. Infine, questo nuovo sistema vocale HD migliora il realismo introducendo leggere variazioni in ogni output, rendendo il parlato ancora più naturale. In sostanza, ogni frase suonerà diversa da qualsiasi frase pronunciata in precedenza.
In merito al lancio di HD Voice, Garfield He, responsabile del programma Cognitive Services Speech presso Microsoft, ha affermato: "con una tecnologia innovativa che utilizza caratteristiche acustiche e linguistiche per generare un parlato ricco di variazioni ricche e naturali, è in grado di rilevare abilmente gli spunti emotivi nel testo e di regolare autonomamente il tono e lo stile della voce. Con questo aggiornamento, puoi aspettarti un modello di parlato più simile a quello umano, caratterizzato da intonazione, ritmo ed emozione migliorati". Le nuove voci HD di Azure AI Speech sono disponibili in anteprima per gli sviluppatori in tre regioni: Stati Uniti orientali, Europa occidentale e Asia sud-orientale. Il costo per le voci HD sarà di 30 dollari per 1 milione di caratteri.