ElevenLabs, startup di intelligenza artificiale che ha appena raccolto un mega-round di finanziamenti da 180 milioni di dollari, è nota principalmente per la sua abilità nella generazione audio. L'azienda ha compiuto un passo in un'altra direzione tecnologica lanciando il suo primo modello autonomo speech-to-text chiamato Scribe. La startup, valutata 3,3 miliardi di dollari, ha aiutato molte altre aziende a fornire servizi di conversione da voce a testo attraverso la sua vasta libreria di voci. Tuttavia, l'azienda sta ora cercando di entrare nel rilevamento vocale e competere con aziende come Gladia, Speechmatics, AssemblyAI, Deepgram e i modelli Whisper di OpenAI.
Il modello Scribe di ElevenLabs supporta oltre 99 lingue al momento del lancio. L'azienda classifica oltre 25 lingue nella categoria di accuratezza eccellente per il modello in cui il tasso di errore delle parole è inferiore al 5%. Questo elenco include inglese (tasso di accuratezza dichiarato del 97%), francese, tedesco, hindi, indonesiano, giapponese, kannada, malayalam, polacco, portoghese, spagnolo e vietnamita. Altre lingue sono classificate in diverse categorie con tassi di errore delle parole elevati (tasso di errore delle parole dal 5% al 10%), buoni (tasso di errore delle parole dal 10% al 20%) e moderati (tasso di errore delle parole dal 25% al 50%). L'azienda ha affermato che il modello ha superato le prestazioni di Google Gemini 2.0 Flash e Whisper Large V3 in numerose lingue nei test di benchmark FLEURS e Common Voice.
ElevenLabs: modelli di rilevamento vocale sempre in miglioramento
ElevenLabs ha sviluppato il componente speech-to-text per la sua piattaforma AI conversational agent, che è stata rilasciata l'anno scorso. Tuttavia, questa è la prima volta che l'azienda rilascia un modello di rilevamento vocale autonomo. In una conversazione con TechCrunch il mese scorso, il CEO Mati Staniszewski ha parlato del miglioramento dei modelli di rilevamento vocale. Il modello ha anche la diarizzazione degli speaker intelligenti per dire agli utenti chi sta parlando, timestamp a livello di parola per sottotitoli accurati e tag automatico di eventi sonori come le risate del pubblico. La startup fornisce ai clienti un modo per trascrivere i contenuti video per aggiungere sottotitoli o didascalie nel suo studio. Scribe attualmente funziona solo con formati audio preregistrati.
L'azienda ha affermato che presto rilascerà una versione in tempo reale a bassa latenza del modello. Ciò significa che non è ancora efficace per le trascrizioni delle riunioni o per prendere appunti vocali. ElevenLabs sta fissando il prezzo di Scribe a 0,40 dollari per un'ora di audio trascritto. Sebbene la tariffa sia competitiva, alcuni dei suoi rivali offrono un prezzo inferiore per le trascrizioni audio al momento, con alcune differenziazioni di funzionalità.