Het nieuwe spraak-naar-tekstmodel Scribe van ElevenLabs is er met de hoogste nauwkeurigheid tot nu toe (96,7% voor Engels)

Meld u aan voor onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve content over toonaangevende AI-dekking. Meer informatie

ElevenLabs, de zeer gewaardeerde AI-voice cloning en generatie startup van voormalige Palantir alumni, lanceerde vandaag Scribe v1 , een nieuw spraak-naar-tekst model dat naar verluidt de hoogste nauwkeurigheid in meerdere talen bereikt. Gebruikers kunnen het hier op de ElevenLabs site proberen .

Volgens de benchmarks van het bedrijf presteert het beter dan Google's Gemini 2.0 Flash, OpenAI's Whisper v3 en Deepgram Nova-3 bij het nauwkeurig omzetten van gesproken spraak naar tekst op het web, en worden nieuwe recordlage foutpercentages behaald.

Het bedrijf beweert dat Scribe de modernste transcriptienauwkeurigheid levert in 99 talen, inclusief verbeterde prestaties in voorheen onderbediende talen zoals Servisch, Kantonees en Malayalam.

Zoals Flavio Schneider, hoofdonderzoeker bij ElevenLabs, schreef op X , is Scribe het “slimste audiobegripmodel” dat tot nu toe door ElevenLabs is uitgebracht.

"Scribe transcribeert niet alleen — het begrijpt audio," vervolgde Schneider in een reactie. "Het kan non-verbale gebeurtenissen detecteren (zoals gelach, geluidseffecten, muziek en achtergrondgeluid) en lange audiocontexten analyseren voor nauwkeurige dagboekvorming, zelfs in de meest uitdagende omgevingen."

“ Diarisatie ” is de naam die gegeven wordt aan processen waarbij sprekers op een opname worden gescheiden op basis van hun vocale kwaliteiten.

In de documentatie van ElevenLabs staat zelfs dat Scribe tot wel 32 verschillende sprekers in hetzelfde audiobestand kan onderscheiden en isoleren.

Hoewel ElevenLabs waarschuwt dat Scribe "het beste gebruikt kan worden wanneer transcriptie met hoge nauwkeurigheid vereist is in plaats van transcriptie in realtime", is het bedrijf ook van plan om binnenkort een versie met lage latentie te introduceren, waarmee het gebruik ervan voor realtimetoepassingen wordt uitgebreid.

Scribe is ontworpen om real-world audio-uitdagingen met precisie aan te pakken. Volgens benchmarkresultaten van FLEURS en Common Voice registreert het de laagste woordfoutpercentages (WER) voor veel talen, waaronder Italiaans (98,7%) en Engels (96,7%).

Belangrijkste kenmerken zijn:

Sprekersdagboek om sprekers te onderscheiden in opnamen met meerdere sprekers
Tijdstempels op woordniveau voor gedetailleerde transcriptienauwkeurigheid
Detectie van niet-spraakgerelateerde gebeurtenissen , zoals lachen en achtergrondgeluiden
Gestructureerde transcriptie-uitvoer voor naadloze integratie via API

Scribe is nu beschikbaar via de website en API van ElevenLabs.

De prijs is vastgesteld op $0,40 per uur input audio, met 50% korting voor de komende zes weken. Een low-latency versie voor real-time applicaties is ook in ontwikkeling.

Voor besluitvormers in ondernemingen biedt Scribe een hulpmiddel voor schaalbare, uiterst nauwkeurige transcriptie. Hierdoor is het een uitkomst voor sectoren die afhankelijk zijn van geautomatiseerde documentatie, transcriptie van vergaderingen en toegankelijkheid van content.

Het feit dat het model verschillende talen met grote precisie kan verwerken, is ook gunstig voor multinationals, mediabedrijven en applicaties voor klantondersteuning.

Dankzij de prijsstructuur van Scribe is het concurrerend voor bedrijven die transcriptiediensten in grote hoeveelheden nodig hebben. Bovendien zorgt de API-gebaseerde integratie voor een naadloze integratie in de workflows van ondernemingen.

Bovendien zou de aankomende versie met lage latentie Scribe kunnen positioneren als een haalbare optie voor realtime communicatietools.

Op dezelfde dag verscheen het tegenovergestelde tekst-naar-spraakmodel van rivaal Hume, Octave

Timing is alles en ElevenLabs heeft ervoor gekozen om Scribe op dezelfde dag te lanceren als concurrent Hume AI Octave introduceerde, een LLM-gestuurd tekst-naar-spraakmodel waarmee gebruikers door AI gegenereerde stemmen kunnen aanpassen met instelbare emoties.

Het is ontworpen voor het maken van content, waaronder audioboeken, podcasts en voice-overs van videogames. In tegenstelling tot standaard TTS-systemen houdt Octave rekening met context die verder gaat dan individuele zinnen, en past toon, ritme en cadans dynamisch aan om natuurlijker te klinken.

Hume AI positioneert Octave als een directe concurrent van de tekst-naar-spraak-aanbiedingen van ElevenLabs. De prijzen van Octave liggen volgens Hume ongeveer de helft van de huidige AI-spraakdiensten van ElevenLabs.

Hoewel Scribe en Octave verschillende functies vervullen, weerspiegelt hun ontwikkeling de groeiende concurrentie in AI-gestuurde audiomodellen.

ElevenLabs geeft prioriteit aan nauwkeurige, meertalige spraakherkenning, terwijl Hume AI zich richt op het verbeteren van expressieve, door AI gegenereerde spraak.

Voor ondernemingen betekent dit meer gespecialiseerde oplossingen voor zowel transcriptie- als synthetische spraaktoepassingen, waardoor de productie van content, klantbetrokkenheid en toegankelijkheidstools efficiënter worden.

Scribe is nu live en ElevenLabs organiseert volgende week een virtueel evenement met het team achter de ontwikkeling. Meer details, benchmarks en API-documentatie zijn beschikbaar in de officiële blogpost .

Dagelijkse inzichten in zakelijke use cases met VB Daily

Als u indruk wilt maken op uw baas, dan bent u bij VB Daily aan het juiste adres. Wij geven u de inside scoop over wat bedrijven doen met generatieve AI, van regelgevende verschuivingen tot praktische implementaties, zodat u inzichten kunt delen voor maximale ROI.

Lees ons privacybeleid

Bedankt voor uw inschrijving. Bekijk hier meer VB-nieuwsbrieven .

Er is een fout opgetreden.

venturebeat