ElevenLabs lanceert eigen spraak-naar-tekstmodel

ElevenLabs , een AI-startup die onlangs een megafinancieringsronde van $ 180 miljoen heeft opgehaald, staat vooral bekend om zijn bekwaamheid in het genereren van audio. Het bedrijf zette een stap in een andere technologische richting door zijn eerste zelfstandige spraak-naar-tekstmodel te lanceren, genaamd Scribe.

De startup, gewaardeerd op $3,3 miljard , heeft veel andere bedrijven geholpen met het leveren van spraak-naar-tekstdiensten via zijn enorme bibliotheek met stemmen. Het bedrijf wil nu echter ook spraakdetectie gaan toepassen en concurreren met Gladia , Speechmatics , AssemblyAI , Deepgram en OpenAI's Whisper-modellen.

Het Scribe-model van ElevenLabs ondersteunt meer dan 99 talen bij de lancering. Het bedrijf categoriseert meer dan 25 talen in de categorie uitstekende nauwkeurigheid voor het model, waarbij de woordfoutpercentage minder dan 5% is. Deze lijst omvat Engels (geclaimde nauwkeurigheidspercentage van 97%), Frans, Duits, Hindi, Indonesisch, Japans, Kannada, Malayalam, Pools, Portugees, Spaans en Vietnamees. Andere talen worden gerangschikt in verschillende categorieën met hoge (5-10% woordfoutpercentage), goede (10 tot 20% woordfoutpercentage) en matige (25 tot 50%) woordfoutpercentages.

Het bedrijf gaf aan dat het model Google Gemini 2.0 Flash en Whisper Large V3 in meerdere talen overtrof in de FLEURS- en Common Voice-benchmarktests.

ElevenLabs had de spraak-naar-tekstcomponent ontwikkeld voor zijn AI-conversatieagentplatform, dat vorig jaar werd uitgebracht. Dit is echter de eerste keer dat het bedrijf een zelfstandig spraakdetectiemodel uitbrengt . In een gesprek met TechCrunch vorige maand sprak CEO Mati Staniszewski over het verbeteren van spraakdetectiemodellen.

"We willen beter begrijpen wat er in een gesprek door u wordt gezegd. We werken aan manieren om af te stappen van alleen het genereren van content en het begrijpen en transcriberen van spraak", zei Staniszewski destijds. "Veel mensen zeggen dat spraak-naar-tekst een opgelost probleem is. Maar voor veel talen is het behoorlijk slecht. We denken dat we betere spraakdetectiemodellen kunnen bouwen omdat we interne teams hebben om data te annoteren en ons snel feedback te geven."

Het model heeft ook een slimme sprekersdagboekfunctie om u te vertellen wie er spreekt, een tijdstempel op woordniveau voor nauwkeurige ondertitels en automatische tagging van geluidsgebeurtenissen zoals gelach van het publiek. De startup biedt klanten een manier om videocontent rechtstreeks te transcriberen om ondertitels of bijschriften toe te voegen in de studio.

Scribe werkt momenteel alleen met vooraf opgenomen audioformaten. Het bedrijf zei dat het binnenkort een realtime-versie met lage latentie van het model zal uitbrengen. Dat betekent dat het nog niet effectief is voor het maken van transcripties van vergaderingen of het maken van spraaknotities.

ElevenLabs hanteert een prijs van $0,40 voor Scribe voor een uur getranscribeerde audio. Hoewel het tarief concurrerend is, bieden sommige van zijn rivalen op dit moment een lagere prijs voor audiotranscripties met wat functiedifferentiatie.

techcrunch

ElevenLabs lanceert eigen spraak-naar-tekstmodel

Vergelijkbaar nieuws

Instacart lijdt grootste daling ooit na teleurstellende omzet en tegenvallende prognose

De M3 MacBook Air is nu $ 200 afgeprijsd bij Amazon

Avride's stoepbezorgrobots landen in Japan

Pixel Watch 3 krijgt FDA-goedkeuring voor verlies van pulsdetectie

De NYT-connecties van vandaag: Sporteditie hints en antwoorden voor 27 februari, #157