ElevenLabs запускает Scribe: инновационную автономную модель для точного преобразования речи в текст

Опубликовано: February 27, 2025

Стартап в области искусственного интеллекта ElevenLabs недавно привлёк 180 миллионов долларов в ходе крупного раунда финансирования, обеспечив свою оценку на уровне 3,3 миллиарда долларов. Компания славится своими достижениями в аудио-технологиях и теперь запускает свою первую самостоятельную модель для преобразования речи в текст, названную Scribe.

ElevenLabs предоставляет своим клиентам широкий спектр голосовых сервисов, благодаря чему многие компании смогли использовать преобразование речи в текст. Теперь, стремясь занять свою нишу на рынке распознавания речи, стартап намерен конкурировать с такими игроками, как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.

На момент запуска модель Scribe поддерживает более 99 языков, при этом более 25 из них характеризуются высокой точностью, где количество ошибок составляет менее 5%. В этот перечень языков входят английский (с точностью 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Остальные языки классифицируются по категориям, в зависимости от процента ошибок: высокий (5-10%), хороший (10-20%) и средний (25-50%).

Компания сообщила, что в тестах FLEURS и Common Voice её модель показала лучшие результаты по сравнению с Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках.

Ссылка на проект ElevenLabs также включает компонент преобразования речи в текст, который был интегрирован в их платформу для диалоговых ИИ-агентов, запущенную в прошлом году. Однако Scribe является первым случайным продуктом, выпускаемым как самостоятельная модель распознавания речи. Генеральный директор Мати Станишевски в недавнем интервью с TechCrunch рассказал о совершенствовании своих технологий распознавания речи.

«Мы стремимся глубже понять смысл ваших слов. Наша цель — перейти от простой генерации контента к истинному пониманию и транскрипции речи, — отметил Станишевски. — Многие считают, что задача преобразования речи в текст решена, но для ряда языков это не так. Мы уверены, что можем создать более качественные модели, так как наши команды аннотируют данные и быстро предоставляют обратную связь».

Модель также включает интеллектуального диктора, который определяет, кто говорит, устанавливает временные метки для точных субтитров и автоматически идентифицирует звуковые события, такие как смех. ElevenLabs предлагает клиентам возможность оперативно транскрибировать видеоконтент для добавления субтитров или титров.

В настоящее время Scribe работает только с заранее записанными аудиофайлами, но вскоре компания планирует выпусти модель с низкой задержкой для работы в реальном времени. Это значит, что пока её нельзя использовать для расшифровки заседаний или голосовых заметок.

ElevenLabs предлагает Scribe по цене $0,40 за час расшифрованного аудио. Несмотря на привлекательный тариф, некоторые из его конкурентов предлагают более низкие цены, но с определёнными различиями в функциях.

Источник