Microsoft ha annunciato la disponibilità di GPT-4o-Mini-Realtime-Preview e GPT-4o-Mini-Audio-Preview per Azure OpenAI Service. Secondo l’azienda, queste due nuove aggiunte rivoluzioneranno le interazioni basate sulla voce e la creazione di contenuti con l’intelligenza artificiale. Il modello GPT-4o-Mini-Realtime-Preview introduce un approccio innovativo alle interazioni vocali in tempo reale. Gli sviluppatori possono ora creare esperienze basate sulla voce per le loro applicazioni, come chatbot per il servizio clienti e assistenti virtuali. Grazie alle sue capacità avanzate nell’elaborazione dell’audio, questo modello permette interazioni più naturali e intuitive, riducendo i tempi di risposta.

Azure OpenAI: i nuovi modelli offriranno audio in alta qualità per podcast, traduzioni e non solo

Il modello GPT-4o-Mini-Audio-Preview offre anche interazioni audio di alta qualità a un costo decisamente inferiore rispetto ai modelli audio GPT-4o già esistenti. Il modello conveniente renderà molto più accessibile per le aziende sfruttare le capacità audio basate sull'intelligenza artificiale nelle loro applicazioni, dall'analisi del sentiment alla creazione di contenuti text-to-audio. Come si legge sul sito ufficiale di Microsoft: “l'API Chat Completions con il modello GPT-4o-Audio Preview è progettata per trasformare il modo in cui gli utenti interagiscono con l'intelligenza artificiale incorporando elementi audio naturali, aggiungendo profondità alle applicazioni che richiedono una comprensione sfumata e la generazione di risposte”.

Allan Carranza, Senior Product Manager di Azure OpenAI, sostiene che entrambi i modelli saranno integrati con l'API Realtime e l'API Chat Completion esistenti. Ciò garantirà continuità nell'esperienza delle famiglie di modelli sul servizio OpenAI di Azure. Carranza ha anche affermato che le applicazioni per questi nuovi modelli abbracciano un'ampia varietà di settori, come i bot vocali on-premise. Inoltre, gli assistenti virtuali saranno in grado di rispondere alle domande in modo più efficace, aumentando la soddisfazione generale del cliente.

I creator di contenuti potranno trasformare i loro flussi di lavoro nella generazione di voce per videogiochi, podcast e studi cinematografici. Inoltre, il settore sanitario e i servizi legali potranno sfruttare questa tecnologia per offrire traduzioni audio in tempo reale, abbattendo le barriere linguistiche. Come ricorda infine Microsoft: “I modelli GPT 4o associati alle API Realtime e Chat Completions supportano entrambi funzionalità audio e vocali, ognuno dei quali offre funzionalità uniche per esperienze utente basate sull'intelligenza artificiale”. I nuovi modelli GPT-4o-Mini-Realtime-Preview e GPT-4o-Mini-Audio-Preview sono ora disponibili nell'anteprima pubblica di Azure AI Foundry.