Google делает шаг в будущее: Gemini теперь анализирует видео и демонстрирует экран в реальном времени

Google внедряет технологию анализа видео в реальном времени в своего помощника Gemini. Об этом стало известно на Всемирном мобильном конгрессе (MWC).

На мероприятии в Барселоне компания Google анонсировала новые функции искусственного интеллекта для Gemini. Подписчики Google One AI Premium для Gemini Advanced смогут воспользоваться возможностями для потокового видео и демонстрации экрана в конце этого месяца.

Gemini Live получит две ключевые функции: во-первых, анализ видео в реальном времени, а, во-вторых, демонстрация экрана. Эти функции позволят пользователям делиться визуальным контентом с ИИ-помощником в режиме реального времени — например, анализируя видео через камеру или демонстрируя экран смартфона для получения комментариев.

Пока новые возможности доступны исключительно на устройствах под управлением Android и поддерживают несколько языков. На MWC Google покажет, как эти функции работают на устройствах партнеров от разных производителей Android.

Введение визуальных функций является значительным шагом в эволюции ИИ-помощников, способных взаимодействовать с реальным миром и действовать в мультимодальном формате.

В качестве цели на 2025 год Google представляет проект «Astra» — универсальный мультимодальный ИИ-помощник, который будет обрабатывать текст, видео и аудио данные в реальном времени и держать информацию в контексте диалога до десяти минут. Astra также сможет использовать возможности Google Поиск, Lens и Карты.

Неясно, намерен ли Google действительно запустить проект Astra или, скорее всего, новые функции, разработанные для него, будут интегрированы в Gemini.

С помощью Gemini Live Google стремится конкурировать с OpenAI и его ChatGPT: с декабря ChatGPT в расширенном голосовом режиме получил поддержку потокового видео и демонстрации экрана.

Источник: [the-decoder.com](https://the-decoder.com/google-sets-march-release-for-geminis-live-video-and-screen-analysis/)