ChatGPT теперь включает генерацию изображений на базе GPT-4o: новые возможности от OpenAI

Опубликовано: March 27, 2025

AI-стартап OpenAI внедрил в ChatGPT и Sora новый генератор изображений на основе модели GPT-4o, который теперь доступен всем пользователям продуктов компании.

Ранее в ChatGPT использовалась модель DALL-E 3 для создания изображений, а текстовые запросы обрабатывала GPT-4o. Теперь же GPT-4o отвечает и за генерацию графики в чат-боте.

Процесс «мышления» GPT-4o занимает немного больше времени по сравнению с DALL-E 3, что позволяет создавать более детализированные и точные изображения, отметили представители OpenAI. Эта модель также может редактировать уже существующие картинки, включая изображения людей, модифицируя либо удаляя объекты на переднем и заднем планах.

OpenAI заявила, что создавать и настраивать изображения стало так же просто, как общаться в чате с GPT-4: достаточно описать желаемый результат и указать особенности, такие как соотношение сторон, конкретные цвета в шестнадцатеричном формате или прозрачный фон.

Генеральный директор компании Сэм Альтман отметил «удивительность» нового инструмента.

«Я помню, как видел некоторые из первых произведений, созданных этой моделью, и не мог поверить, что они были сгенерированы искусственным интеллектом. Мы уверены, что это вызовет интерес у пользователей, и с нетерпением ждем их творческих шедевров», — отметил он.

Во время презентации Альтман продемонстрировал одно из сгенерированных изображений. Пользователи обратили внимание, что ИИ еще не научился корректно создавать изображения с пятью пальцами.

Компания также объявила о наличии системы цензуры, которая предотвращает создание изображений, нарушающих политику OpenAI. Это касается материалов, связанных с насилием над детьми, фейками, наготой реальных людей и т.д.

В марте Рохан Сахай, руководитель проекта Sora, сообщил о намерении интегрировать видеогенератор в ChatGPT.

Декабрь 2024 года стал знаменательным для стартапа, когда был представлен инструмент для создания видео, который стал публично доступен. Нейросеть умеет генерировать видео на основе текстовых запросов, оживлять статические изображения, расширять существующие работы и заполнять недостающие кадры.