Qwen Image Edit: Революция в умном редактировании изображений и текстов от Alibaba

Компания Alibaba обновила свою модель Qwen, сосредоточив внимание на работе с изображениями и добавив новые инструменты редактирования, охватывающие как визуальные коррекции, так и семантические трансформации.

Qwen Image Edit основана на 20-миллиардной модели Qwen Image и использует два подхода к обработке: модуль Qwen2.5 VL отвечает за семантический контроль, а вариационный автоэнкодер (VAE) обеспечивает визуальную обработку. Детали архитектуры Alibaba пока что остаются под завесой тайны.

По заявлениям компании, новая система способна выполнять широкий спектр задач — от простых косметических исправлений до сложных смысловых изменений. Визуальное редактирование позволяет изменять только определенные элементы изображения, в то время как семантические изменения затрагивают пиксели по всему изображению, при этом основной объект остается узнаваемым и практически неизменным.

В ходе демонстрации семантического редактирования Alibaba показала, как модель может создавать новый контент с использованием своего капибарного талисмана. Даже при изменении большинства элементов изображения сам персонаж не теряет своей идентичности.

Другие примеры использования включают генерацию новых ракурсов с поворотами объектов на 90° и 180°, а также применение трансфера стиля для создания уникальных аватаров — например, превращение портретов в образы, вдохновленные студией Ghibli.

Кроме того, Qwen Image Edit обладает способностью добавлять таблички с естественными отражениями, убирать выбившиеся волосы, изменять цвета текста, а также редактировать фоны и одежду.

Одной из ключевых особенностей Qwen Image Edit является обработка текста — как на китайском, так и на английском языках. Система может добавлять, удалять или менять надписи прямо на изображениях, сохраняя при этом исходный шрифт, размер и стиль.

Пользователь может выделить прямоугольником неправильный или нежелательный текст, и модель изменит только отмеченные области. В случаях, когда модель сталкивается с редкими и сложными иероглифами, такими как «稽», доступен режим пошагового редактирования, позволяющий уточнять проблемные моменты до достижения оптимального результата.

Alibaba утверждает, что Qwen Image Edit демонстрирует «передовой уровень технологий» в публичных тестах редактирования изображений, однако конкретные показатели не приводятся. Модель доступна через функцию Image Editing в Qwen Chat, а также размещена на Github, Hugging Face и Modelscope.

Появление Qwen Image Edit отчетливо демонстрирует быстрые темпы развития технологий прицельного редактирования изображений и текста. Еще совсем недавно искусственному интеллекту было сложно изменять лишь часть изображения, не затрагивая его целостность.

В эту гонку включилась и компания Black Forest Labs, представившая модель Flux.1 Context, которая сочетает генерацию изображений по текстовым запросам и редактирование фотоматериалов.

Использовать модели GPT Image 1, Midjourney v7 или Flux 1.1 Pro Ultra можно в BotHub. По этой ссылке можно получить 100 000 бесплатных капсов, чтобы начать работу.