ChatGPT революционизирует генерацию изображений с запуском обновленной модели GPT-4o

Опубликовано: March 27, 2025

В ходе прямой трансляции Сэм Альтман, генеральный директор OpenAI, сообщил о значительном обновлении функций генерации изображений в ChatGPT, которое стало первым за последний год. Теперь ChatGPT способен использовать модель GPT-4o, разработанную компанией, для создания и изменения изображений и фотографий. Хотя GPT-4o долгое время выступал основой для AI-чат-ботов, ранее он исключительно генерировал и редактировал текст, не имея возможности работать с изображениями.

Альтман заявил, что возможность генерации изображений с использованием GPT-4o уже доступна в ChatGPT и Sora — AI-продукте OpenAI для создания видео. Эта функция предназначена для пользователей подписки Pro, которая стоит 200 долларов в месяц. OpenAI планирует в скором времени предоставить эту опцию пользователям Plus и бесплатной версии ChatGPT, а также разработчикам, использующим API компании.

Хотя GPT-4o требует немного больше времени для генерации изображений по сравнению с предыдущей моделью DALL-E 3, OpenAI отмечает, что она создает более точные и детализированные изображения. GPT-4o также может редактировать уже существующие изображения, включая те, на которых изображены люди, добавляя детали к фону или переднему плану.

Как сообщили представители OpenAI в интервью с Wall Street Journal, для интеграции новой функции обработки изображений они обучили GPT-4o на «открытых данных», а также на эксклюзивных данных, полученных в результате сотрудничества с такими компаниями, как Shutterstock.

Многие компании в области генеративного AI рассматривают данные для обучения как важное конкурентное преимущество и предпочитают держать их в секрете. Однако существует также риск судебных исков, связанных с правами интеллектуальной собственности, что является дополнительным препятствием для раскрытия информации.

«Мы ценим права художников при создании изображений и имеем политику, которая запрещает нам генерировать работы, непосредственно копирующие существующие произведения», — подчеркнул в своем заявлении для Journal Брэд Лайткап, главный операционный директор OpenAI.

Компания предлагает механизм отказа, позволяющий авторам запрашивать исключение своих работ из обучающих наборов. OpenAI также утверждает, что учитывает запросы на блокировку сканирующих ботов для сбора данных, включая изображения с веб-сайтов.

Новая функция генерации изображений в ChatGPT является ответом на экспериментальный вывод изображений Google в модели Gemini 2.0 Flash, которая стала популярной в социальных сетях. Эта мощная функция позволила пользователям удалять водяные знаки и создавать иллюстрации, включающие защищенные авторским правом символы.

Источник