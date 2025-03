Negli ultimi mesi, OpenAI ha rilasciato diversi nuovi strumenti, tra cui Operator, Deep Research, Computer-Using Agents e Responses API, concentrandosi su agenti basati su testo. Nelle scorse ore, l’azienda ha annunciato nuovi modelli audio speech-to-text e text-to-speech nell'API, consentendo agli sviluppatori di creare agenti vocali più potenti, personalizzabili ed espressivi che mai. I nuovi modelli speech-to-text di OpenAI, gpt-4o-transcribe e gpt-4o-mini-transcribe, offrono miglioramenti significativi. In particolare, ciò si nota nel tasso di errore delle parole e nel riconoscimento della lingua e nell'accuratezza rispetto ai modelli Whisper esistenti di OpenAI. Questi progressi sono stati ottenuti tramite apprendimento di rinforzo e un'ampia formazione intermedia utilizzando set di dati audio diversi e di alta qualità.

OpenAI: dettagli e costi dei nuovi modelli audio

OpenAI sostiene che questi nuovi modelli audio possono comprendere meglio le sfumature del parlato. Inoltre, possono ridurre i riconoscimenti errati e migliorare l'affidabilità della trascrizione anche quando l'audio in ingresso include accenti, ambienti rumorosi e velocità di parlato variabili. Il modello gpt-4o-mini-tts è l'ultimo text-to-speech, che offre una migliore orientabilità. Gli sviluppatori possono ora istruire il modello su come articolare il contenuto del testo. Tuttavia, per ora, il modello text-to-speech è limitato a voci artificiali preimpostate.

Il modello gpt-4o-transcribe costa 6 dollari per milione di token di input audio, 2,50 dollari per milione di token di input di testo e 10 dollari per milione di token di output di testo. Il modello gpt-4o-mini-transcribe costa 3 dollari per milione di token di input audio, 1,25 dollari per milione di token di input di testo e 5 dollari per milione di token di output di testo. Infine, il modello gpt-4o-mini-tts costa 0,60 dollari per milione di token di input di testo e 12 dollari per milione di token di output audio.

In merito a questi nuovi modelli audio il team di OpenAI ha ricordato: "Guardando al futuro, intendiamo continuare a investire nel miglioramento dell'intelligenza e dell'accuratezza dei nostri modelli audio e nell'esplorazione di modi per consentire agli sviluppatori di portare le proprie voci personalizzate per creare esperienze ancora più personalizzate in modi che siano in linea con i nostri standard di sicurezza". I nuovi modelli audio sono ora disponibili per tutti gli sviluppatori tramite API. OpenAI ha anche annunciato un'integrazione con Agents SDK, consentendo agli sviluppatori di creare facilmente agenti vocali. Per esperienze speech-to-speech a bassa latenza, OpenAI consiglia di utilizzare la Realtime API.