Alibaba представляет компактную мультимодальную ИИ-модель для смартфонов с инновационной архитектурой

Китайская технологическая компания Alibaba Cloud представила новую мультимодальную модель искусственного интеллекта Qwen2.5-Omni-7B, обладающую способностью обработки текста, изображений, аудио и видео, а также генерации текстовых и голосовых ответов в реальном времени.

Эта нейросеть насчитывает 7 миллиардов параметров и, как утверждают представители компании, может эффективно работать на периферийных устройствах, таких как смартфоны и ноутбуки, без ущерба для производительности и эффективности.

«Данное уникальное сочетание возможностей делает модель идеальным вариантом для создания адаптивных и экономически целесообразных ИИ-агентов, которые могут оказать заметное воздействие, особенно в области интеллектуальных голосовых приложений,» — отмечается в пресс-релизе.

В качестве примера применения Qwen2.5-Omni-7B компания упомянула улучшение качества жизни людей с ограничениями по зрению. Используя эту модель, такие люди могут более эффективно ориентироваться в пространстве. К примеру, она способна анализировать ингредиенты, доступные в кадре, и предлагать пошаговые рецепты приготовления.

«Qwen2.5-Omni-7B демонстрирует впечатляющие результаты в различных областях, конкурируя со специализированными моделями аналогичного объема,» — подчеркивает компания.

Эти инновационные достижения обусловлены новой архитектурой модели и использованием высококачественных данных для обучения.

Модель обладает открытым исходным кодом и доступна на платформах Hugging Face, GitHub, ModelScope и Qwen Chat.

Кроме того, в марте Alibaba анонсировала модель QwQ-32, ориентированную на рассуждения.

Также в январе компания представила модель Qwen 2.5-Max, которая, согласно её заявлениям, является более мощной, чем DeepSeek-V3.