Nvidia запускает Granary: революционный датасет для создания многоязычных ИИ-систем на основе миллиона часов речи

Опубликовано: August 16, 2025

Хотя на первый взгляд может показаться, что искусственный интеллект уже повсюду, на практике он позитивно взаимодействует лишь с частью из семи тысяч языков, игнорируя значительное количество пользователей по всему миру. Nvidia решила устранить этот пробел, сосредоточив усилия на Европе.

Компания представила обширный набор открытых инструментов, который позволит разработчикам создавать качественные системы распознавания и синтеза речи на 25 европейских языках. В этом списке оказались не только популярные языки, но и менее распространенные, такие как хорватский, эстонский и мальтийский, которые зачастую оказываются в тени крупных технокомпаний.

Цель проекта проста и амбициозна: предоставить разработчикам возможность создавать голосовые сервисы, ставшие привычными для многих. Это может быть как многоязычные чат-боты, способные по-настоящему понимать пользователей, так и системы для поддержки клиентов и мгновенные переводчики.

В центре этой инициативы находится Granary — огромная библиотека человеческой речи. В нее включено около миллиона часов аудиозаписей, тщательно подобранных для обучения ИИ тонкостям распознавания и перевода устной речи.

Для максимальной эффективности использования этих данных Nvidia разработала две новые языковые AI-модели:

Canary-1b-v2 — большая модель, предназначенная для достижения высокой точности при сложной транскрипции и переводе;

Parakeet-tdt-0.6b-v3 — модель для молниеносных приложений, где скорость является приоритетом.

Тем, кто хочет углубиться в технические аспекты, будет полезна научная статья о Granary, которая будет представлена на конференции Interspeech в Нидерландах в этом месяце. А разработчики, стремящиеся начать работу прямо сейчас, могут загрузить набор данных и обе модели на Hugging Face.

Однако самое важное заключается в том, каким образом были собраны эти данные. Как известно, обучение искусственного интеллекта требует колоссальных объемов информации, и процесс ее сбора занимает много времени, сопряжен с высокой стоимостью и требует трудоемкой ручной разметки.

Чтобы ускорить этот процесс, команда Nvidia по распознаванию речи совместно с исследователями из Университета Карнеги — Меллона и Фонда Бруно Кессле создала автоматизированный конвейер обработки данных. С помощью собственного инструментария NeMo они преобразовывали сырое, неразмеченное аудио в качественные структурированные данные, что позволило ИИ быстро обучаться.

Это не только прорыв в технологии — это значимый шаг к цифровому равенству. Теперь разработчики из таких городов, как Рига или Загреб, смогут создать голосовой AI-сервис, который действительно понимает их язык, и делает это более эффективно. Исследования показывают, что Granary требует вдвое меньше данных, чем другие известные корпуса, чтобы достичь аналогичного уровня точности.

Новые решения от Nvidia наглядно демонстрируют этот потенциал. Canary — это поистине мощный инструмент: его качество перевода и транскрипции сопоставимо с гораздо большими моделями по объему, но при этом производительность меньше в десять раз. Parakeet же способен обработать 24-минутную запись собрания целиком, самостоятельно определяя язык разговора. Обе модели точно расставляют знаки препинания, учитывают регистр и предоставляют точные временные метки для каждого слова — все, что необходимо для профессиональных приложений.

Передав такие инструменты и методы широкому сообществу разработчиков, Nvidia делает больше, чем просто вывод на рынок нового продукта. Она запускает новую волну инноваций, мечтая о будущем, где ИИ будет говорить на вашем языке, независимо от места жительства.

Делегируйте рутинные задачи с BotHub. Этот сервис доступен без использования VPN и поддерживает российские карты. По ссылке вы можете получить 100 000 бесплатных капсов и приступать к работе с нейросетями немедленно.