Meta выходит на новый уровень: Llama 4 получит революционные голосовые функции для естественного общения

Опубликовано: March 8, 2025

Ведущий мировой игрок в области социальных сетей внедряет инновационные функции, ориентируясь на технологии, которые, по прогнозам, должны стать катализатором роста ИИ-агентов.

Марк Цукерберг планирует в этом году продвинуть голосовые возможности искусственного интеллекта Meta, разрабатывая амбициозные идеи для монетизации быстро развивающихся технологий.

Согласно информации от осведомлённых лиц, компания в ближайшие недели намерена представить обновлённые голосовые функции в новой версии своей открытой языковой модели Llama 4, рассчитывая, что будущие ИИ-агенты будут общаться в разговорном формате, а не ограничиваться текстовыми диалогами.

Meta придаёт большое значение тому, чтобы взаимодействие пользователя с голосовой моделью было максимально естественным, напоминая живое общение, при котором возможны реплики и перебивания, а не строгая структура вопрос-ответ, сообщил один из информаторов.

Голосовое направление стало основным аспектом стратегии Цукерберга, который заявил о амбициозных планах превратить компанию, стоимостью 1,7 трлн долларов, в лидера в области искусственного интеллекта, обозначив 2025 год как критически важный для успеха многих ИИ-продуктов Meta на фоне конкуренции с такими компаниями, как OpenAI, Microsoft и Google.

В рамках этих инициатив рассматривается возможность запуска платных подписок на ИИ-ассистента Meta AI для выполнения различных задач, например, бронирование столиков в ресторанах и создание видеоконтента, как сообщили два информированных источника. Также обсуждаются варианты платной рекламы и спонсорских публикаций в результатах поиска ИИ-ассистента, добавил один из них.

Цукерберг также анонсировал планы по созданию ИИ-агента с навыками программирования и решения инженерных задач, подчеркнув, что такая разработка обладает «огромным рынком».

Meta воздержалась от комментариев по этому поводу.

В среду Крис Кокс, директор по продуктам компании, поделился подробностями о Llama 4, отметив, что это будет «универсальная модель», в которой голос станет «естественным элементом . . . без необходимости преобразовывать речь в текст, передавать текст в языковую модель, получать текстовый ответ и снова озвучивать его».

На конференции Morgan Stanley по технологиям, медиа и телекоммуникациям, он добавил: «Это настоящая революция в пользовательских интерфейсах — возможность общаться с интернетом и задавать любые вопросы. Мы ещё не осознали, насколько это мощно».

Компания также обсуждает, какие ограничения следует установить для выдачи контента в новой версии Llama и нужно ли их ослаблять, о чём сообщили два источника.

Обсуждения происходят на фоне выхода обновлений конкурентов и предостережений от Дэвида Сакса, венчурного инвестора из Кремниевой долины, который стремится гарантировать, что американские ИИ-модели не будут предвзятыми или «пропитанными идеологией».

В прошлом году OpenAI запустила голосовой режим с уникальными персонализациями, а Grok 3 от xAI Илона Маска, доступный в соцсети X, предложил голосовые функции для ограниченного числа пользователей в конце февраля.

Модель Grok разрабатывалась с минимальными ограничениями, включая так называемый «режим без цензуры», при котором ответы могут быть «оскорбительными, неуместными и провокационными», как утверждает компания.

В прошлом году Meta представила менее «назидательную» версию своей языковой модели в третьем поколении Llama после критики в адрес Llama 2, которая отказывалась отвечать на даже незначительные запросы.

Интеграция голосового управления в ИИ-ассистента стала ключевой особенностью умных очков Ray-Ban от Meta, которые в последнее время стали популярны среди пользователей. Параллельно компания ускорила разработку лёгких гарнитур, которые в будущем могут заменить смартфоны как основное устройство для вычислений и связи.

Источник

*В данном тексте упоминается компания Meta, которая признана на территории РФ экстремисткой организацией.

Чтобы не пропустить анонс новых материалов, подпишитесь на «Голос Технократии» — мы регулярно информируем о новостях, связанных с AI, LLM и RAG, а также делимся полезной информацией и актуальными событиями.