ElevenLabs запускает собственную модель преобразования речи в текст

ElevenLabs , стартап в области искусственного интеллекта, который только что привлек $180 млн. мега-инвестиций , в первую очередь известен своим мастерством в области генерации аудио. Компания сделала шаг в другом технологическом направлении, запустив свою первую автономную модель преобразования речи в текст под названием Scribe.

Стартап, оцененный в $3,3 млрд , помог многим другим компаниям в предоставлении услуг преобразования речи в текст с помощью своей обширной библиотеки голосов. Однако теперь компания стремится заняться распознаванием речи и составить конкуренцию таким моделям, как Gladia , Speechmatics , AssemblyAI , Deepgram и OpenAI's Whisper.

Модель ElevenLabs' Scribe поддерживает более 99 языков на момент запуска. Компания относит более 25 языков к категории отличной точности для модели, где уровень ошибок в словах составляет менее 5%. В этот список входят английский (заявленный уровень точности 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки ранжируются по разным категориям с высоким (5-10% уровень ошибок в словах), хорошим (от 10 до 20% уровень ошибок в словах) и средним (от 25 до 50%) уровнем ошибок в словах.

Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.

ElevenLabs разработала компонент преобразования речи в текст для своей платформы разговорного агента AI, которая была выпущена в прошлом году. Однако это первый раз, когда компания выпускает автономную модель обнаружения речи . В разговоре с TechCrunch в прошлом месяце генеральный директор Мати Станишевски говорил об улучшении моделей обнаружения речи.

«Мы хотим лучше понимать, что вы говорите в разговоре. Мы работаем над тем, чтобы отойти от простого создания контента, понимания и транскрибирования речи», — сказал тогда Станишевски. «Многие говорят, что преобразование речи в текст — это решенная проблема. Но для многих языков это довольно плохо. Мы думаем, что можем построить лучшие модели распознавания речи, потому что у нас есть внутренние команды, которые аннотируют данные и дают нам быструю обратную связь».

Модель также имеет интеллектуальную диаризацию спикеров, чтобы вы знали, кто говорит, временную метку на уровне слов для точных субтитров и автоматическую маркировку звуковых событий, таких как смех аудитории. Стартап предоставляет клиентам возможность напрямую транскрибировать видеоконтент для добавления субтитров или надписей в своей студии.

В настоящее время Scribe работает только с предварительно записанными аудиоформатами. Компания заявила, что вскоре выпустит версию модели в реальном времени с низкой задержкой. Это означает, что она пока неэффективна для транскрипций совещаний или голосовых заметок.

ElevenLabs оценивает Scribe в $0,40 за час транскрибированного аудио. Хотя цена конкурентоспособна, некоторые из конкурентов предлагают более низкую цену за транскрипции аудио в настоящее время с некоторыми дифференциациями функций.