Nessun risultato. Prova con un altro termine.
Guide
Notizie
Software
Tutorial

ElevenLabs lancia il suo modello speech-to-text Scribe

Il nuovo modello Scribe di ElevenLabs è in grado di supportare 99 lingue ed è in grado di superare Google Gemini 2.0 Flash.
ElevenLabs lancia il suo modello speech-to-text Scribe
Il nuovo modello Scribe di ElevenLabs è in grado di supportare 99 lingue ed è in grado di superare Google Gemini 2.0 Flash.
Link copiato negli appunti

ElevenLabs, startup di intelligenza artificiale che ha appena raccolto un mega-round di finanziamenti da 180 milioni di dollari, è nota principalmente per la sua abilità nella generazione audio. L'azienda ha compiuto un passo in un'altra direzione tecnologica lanciando il suo primo modello autonomo speech-to-text chiamato Scribe. La startup, valutata 3,3 miliardi di dollari, ha aiutato molte altre aziende a fornire servizi di conversione da voce a testo attraverso la sua vasta libreria di voci. Tuttavia, l'azienda sta ora cercando di entrare nel rilevamento vocale e competere con aziende come Gladia, Speechmatics, AssemblyAI, Deepgram e i modelli Whisper di OpenAI.

Il modello Scribe di ElevenLabs supporta oltre 99 lingue al momento del lancio. L'azienda classifica oltre 25 lingue nella categoria di accuratezza eccellente per il modello in cui il tasso di errore delle parole è inferiore al 5%. Questo elenco include inglese (tasso di accuratezza dichiarato del 97%), francese, tedesco, hindi, indonesiano, giapponese, kannada, malayalam, polacco, portoghese, spagnolo e vietnamita. Altre lingue sono classificate in diverse categorie con tassi di errore delle parole elevati (tasso di errore delle parole dal 5% al ​​10%), buoni (tasso di errore delle parole dal 10% al 20%) e moderati (tasso di errore delle parole dal 25% al ​​50%). L'azienda ha affermato che il modello ha superato le prestazioni di Google Gemini 2.0 Flash e Whisper Large V3 in numerose lingue nei test di benchmark FLEURS e Common Voice.

ElevenLabs: modelli di rilevamento vocale sempre in miglioramento

ElevenLabs ha sviluppato il componente speech-to-text per la sua piattaforma AI conversational agent, che è stata rilasciata l'anno scorso. Tuttavia, questa è la prima volta che l'azienda rilascia un modello di rilevamento vocale autonomo. In una conversazione con TechCrunch il mese scorso, il CEO Mati Staniszewski ha parlato del miglioramento dei modelli di rilevamento vocale. Il modello ha anche la diarizzazione degli speaker intelligenti per dire agli utenti chi sta parlando, timestamp a livello di parola per sottotitoli accurati e tag automatico di eventi sonori come le risate del pubblico. La startup fornisce ai clienti un modo per trascrivere i contenuti video per aggiungere sottotitoli o didascalie nel suo studio. Scribe attualmente funziona solo con formati audio preregistrati.

L'azienda ha affermato che presto rilascerà una versione in tempo reale a bassa latenza del modello. Ciò significa che non è ancora efficace per le trascrizioni delle riunioni o per prendere appunti vocali. ElevenLabs sta fissando il prezzo di Scribe a 0,40 dollari per un'ora di audio trascritto. Sebbene la tariffa sia competitiva, alcuni dei suoi rivali offrono un prezzo inferiore per le trascrizioni audio al momento, con alcune differenziazioni di funzionalità.

Ti consigliamo anche