Das neue Spracherkennungsmodell Scribe von ElevenLabs ist da und bietet die bisher höchste Genauigkeitsrate (96,7 % für Englisch).

Abonnieren Sie unsere täglichen und wöchentlichen Newsletter, um die neuesten Updates und exklusiven Inhalte zur branchenführenden KI-Berichterstattung zu erhalten. Mehr erfahren
ElevenLabs, das hochgeschätzte KI-Startup für Stimmklonen und -generierung ehemaliger Palantir-Absolventen, hat heute Scribe v1 vorgestellt , ein neues Spracherkennungsmodell, das angeblich die höchste Genauigkeit in mehreren Sprachen erreicht. Benutzer können es hier auf der ElevenLabs-Website ausprobieren .
Den Benchmarks des Unternehmens zufolge übertrifft es Googles Gemini 2.0 Flash, OpenAIs Whisper v3 und Deepgram Nova-3 bei der präzisen Umwandlung gesprochener Sprache in Text im Web und erreicht dabei einen neuen Rekordwert bei den Fehlerraten.
Das Unternehmen behauptet, dass Scribe modernste Transkriptionsgenauigkeit in 99 Sprachen liefert, einschließlich einer verbesserten Leistung in bislang unterversorgten Sprachen wie Serbisch, Kantonesisch und Malayalam.
Wie Flavio Schneider, leitender Forscher bei ElevenLabs, auf X schrieb , ist Scribe das „intelligenteste Audio-Verständnismodell“, das ElevenLabs bisher veröffentlicht hat.
„Scribe transkribiert nicht nur – es versteht Audio“, fuhr Schneider in einer Thread-Antwort fort. „Es kann nonverbale Ereignisse (wie Lachen, Soundeffekte, Musik und Hintergrundgeräusche) erkennen und lange Audiokontexte analysieren, um selbst in den schwierigsten Umgebungen eine genaue Diarisierung zu ermöglichen.“
Als „ Diarisierung “ bezeichnet man den Vorgang, Sprecher auf einer Aufnahme nach ihren stimmlichen Qualitäten zu unterscheiden.
Tatsächlich heißt es in der Dokumentation von ElevenLabs, dass Scribe bis zu 32 verschiedene Sprecher in derselben Audiodatei unterscheiden und isolieren kann.
ElevenLabs weist zwar darauf hin, dass sich Scribe „am besten dann eignet, wenn hochpräzise Transkription und keine Echtzeittranskription erforderlich ist“. Das Unternehmen plant jedoch, bald auch eine Version mit geringer Latenz einzuführen, um den Einsatzbereich der Software auf Echtzeitanwendungen auszuweiten.
Scribe ist darauf ausgelegt, echte Audio-Herausforderungen präzise zu bewältigen. Laut Benchmark-Ergebnissen von FLEURS und Common Voice weist es die niedrigste Wortfehlerrate (WER) für viele Sprachen auf, darunter Italienisch (98,7 %) und Englisch (96,7 %).
Zu den Hauptmerkmalen gehören:
- Sprecherdiarisierung zur Unterscheidung von Sprechern bei Aufnahmen mit mehreren Sprechern
- Zeitstempel auf Wortebene für detaillierte Transkriptionsgenauigkeit
- Erkennung nichtsprachlicher Ereignisse wie Lachen und Hintergrundgeräusche
- Strukturierte Transkriptausgabe für nahtlose Integration über API
Scribe ist jetzt über die Website und API von ElevenLabs verfügbar.
Der Preis beträgt 0,40 US-Dollar pro Stunde Audio-Eingang, mit 50 % Rabatt für die nächsten sechs Wochen. Eine Version mit geringer Latenz für Echtzeitanwendungen ist ebenfalls in Entwicklung.
Für Entscheidungsträger in Unternehmen stellt Scribe ein Tool zur skalierbaren, hochpräzisen Transkription dar und ist daher für Branchen nützlich, die auf automatisierte Dokumentation, Transkription von Besprechungen und Inhaltszugänglichkeit angewiesen sind.
Die Fähigkeit des Modells, verschiedene Sprachen mit hoher Präzision zu verarbeiten, kommt auch multinationalen Unternehmen, Medienunternehmen und Kundensupportanwendungen zugute.
Aufgrund seiner Preisstruktur ist Scribe für Unternehmen, die Transkriptionsdienste in großen Mengen benötigen, wettbewerbsfähig und seine API-basierte Integration ermöglicht eine nahtlose Übernahme in Unternehmens-Workflows.
Darüber hinaus könnte die kommende Version mit geringer Latenz Scribe als praktikable Option für Echtzeit-Kommunikationstools positionieren.
Erscheint am selben Tag wie das Text-to-Speech-Modell Octave des Konkurrenten HumeDas Timing ist entscheidend, und ElevenLabs hat sich entschieden, Scribe am selben Tag auf den Markt zu bringen, an dem der Konkurrent Hume AI Octave vorstellte, ein LLM-basiertes Text-to-Speech-Modell , das es Benutzern ermöglicht, KI-generierte Stimmen mit anpassbaren Emotionen anzupassen.
Es ist für die Inhaltserstellung konzipiert, darunter Hörbücher, Podcasts und Videospiel-Voiceovers. Im Gegensatz zu herkömmlichen TTS-Systemen berücksichtigt Octave den Kontext über einzelne Sätze hinaus und passt Ton, Rhythmus und Kadenz dynamisch an, um natürlicher zu klingen.
Hume AI positioniert Octave als direkten Konkurrenten zu den Text-to-Speech-Angeboten von ElevenLabs und betont, dass Octave nur etwa halb so viel kostet wie die aktuellen KI-Sprachdienste von ElevenLabs.
Während Scribe und Octave unterschiedliche Funktionen erfüllen, spiegelt ihre Entwicklung den wachsenden Wettbewerb bei KI-gesteuerten Audiomodellen wider.
ElevenLabs legt den Schwerpunkt auf präzise Spracherkennung in mehreren Sprachen, während Hume AI die ausdrucksstarke, KI-generierte Sprache vorantreibt.
Für Unternehmen bedeutet dies spezialisiertere Lösungen für Transkriptions- und synthetische Sprachanwendungen, die eine effizientere Inhaltsproduktion, Kundenbindung und Bereitstellung von Tools zur Barrierefreiheit ermöglichen.
Scribe ist jetzt live und ElevenLabs veranstaltet nächste Woche ein virtuelles Event mit dem Team, das hinter seiner Entwicklung steht. Weitere Details, Benchmarks und API-Dokumentation finden Sie im offiziellen Blogbeitrag .
Wenn Sie Ihren Chef beeindrucken möchten, ist VB Daily die richtige Adresse für Sie. Wir geben Ihnen Insiderinformationen darüber, was Unternehmen mit generativer KI machen, von regulatorischen Änderungen bis hin zu praktischen Implementierungen, damit Sie Ihre Erkenntnisse weitergeben können, um den ROI zu maximieren.
Lesen Sie unsere Datenschutzrichtlinie
Vielen Dank für Ihr Abonnement. Weitere VB-Newsletter finden Sie hier .
Ein Fehler ist aufgetreten.

venturebeat