Генерация звука на смартфонах: Stable Audio Open теперь работает без интернета

Опубликовано: March 4, 2025

Stability AI и Arm доработали модель Stable Audio Open, чтобы она могла функционировать на процессорах смартфонов. Теперь пользователи могут генерировать аудиосигналы непосредственно на своих устройствах, без необходимости подключения к интернету.

Stable Audio Open, представленная летом 2024 года, позволяет создавать аудио длительностью до 47 секунд на основе текстовых указаний. Эта модель ориентирована на короткие звуковые фрагменты, такие как ритмы битов, инструментальные мелодии, эмбиентные звуки и записи Фоули. В отличие от коммерческой версии Stable Audio 2, она не предназначена для создания полноформатных музыкальных произведений, в отличие от сервисов, таких как Suno.

В первой реализации Stable Audio Open для генерации звука на процессорах Arm требовалось целых 240 секунд. Однако благодаря оптимизации модели и программному обеспечению Arm время создания 11-секундного аудиоклипа на процессорах Armv9 сократилось до менее 8 секунд — что в 30 раз быстрее.

Эта реализация использует библиотеки KleidiAI от Arm для решения задач генерации звука на устройствах без интернет-соединения. В блоге компании Stability AI отсутствует детальная техническая информация, и пока не опубликовано ни одной научной статьи. Оптимизация делает модель доступной для всех пользователей с совместимыми мобильными устройствами на базе ARM.

Stability AI планирует адаптировать свои модели для работы с изображениями, видео и 3D-моделями на мобильных устройствах в сотрудничестве с Arm. Этот подход к разработке для мобильных платформ отличается от предыдущей стратегии, которая акцентировалась на регулярных релизах моделей изображений Stable Diffusion. Лондонский стартап назначил нового CEO в июне 2024 года на фоне финансовых трудностей и ухода сотрудников.

Источник