Skip to main content

OpenAI интегрирует возможности генерации изображений непосредственно в CHATGPT, позволяя пользователям создавать изображения, не выходя из интерфейса чата.

Компания объявила эту функцию во вторник как часть более широкого стремления сделать инструменты искусственного интеллекта более полезными и доступными для разных средств массовой информации, оставаясь актуальными на художественной сцене искусственного интеллекта.

Эта функция является эволюцией Dall · e 3, генератора изображений Openai, который был запущен в сентябре 2023 года, но выпал из -за благосклонности среди энтузиастов ИИ, которые предпочитали следующее поколение моделей, включая Flux, Midjourney V6, SD 3.5, Recraft и REVE.

Перед этим выпуском OpenAI предложил две разные модели на одной и той же платформе, с генерацией GPT -генерации и обработкой обработки изображений.

Теперь GPT-4O сделает все самостоятельно, и Dall · E 3 исчезнет.

«Генерация изображений GPT -4O превосходна при точном рендеринге текста, точно следовал подсказкам, и использует базу знаний и контекст знаний 4O, включая преобразующие загруженные изображения или использование их в качестве визуального вдохновения», — заявил Openai в официальном сообщении в блоге.

Интеграция Dall · e 3 продолжает справляться с планом компании, чтобы сделать GPT-4o моделью «Omni», обученной мультимодальными данными и способных выполнять все задачи. Результатом является модель, которая гораздо более способна, точна и умна, чем ее предшественники.

«Мы знаем, что заставили вас ждать, но мы думаем, что это действительно того стоит, и мы думаем, что вам это понравится»,-сказал Сэм Альтман, генеральный директор Openai, в видео, показывающем новые возможности GPT-4O. «Это такой огромный шаг вперед, что лучший способ объяснить вам это — просто показать это».

В видео компания продемонстрировала возможности системы с несколькими примерами, включая страницы манги, объясняющие теорию относительности — с входными данными на английском и мандарине — обменные карты, основанные на личных и реальных фотографиях, памятных монетах, сочетающих несколько изображений с прозрачными фоновыми фонами и очень точные изображения, основанные и наполненные и подробные оперативные настройки.

Модель медленно генерирует изображения, но, кажется, очень точна. Альтман указал на значительное обновление качества как стоит более длительное время ожидания.

«Изображения намного медленнее, чем наше предыдущее поколение изображений (модель), но невероятно лучше. Мы думаем, что это очень стоит ожидания», — сказал Альтман во время демонстрации. «Мы также сможем сделать его быстрее со временем».

Похоже, что развертывание происходит постепенно, и мы не смогли получить в свои руки новую модель на время прессы.

Пользователи могут определить, какую систему они используют, исходя из того, как появляются изображения: помимо очевидного разрыва качества, изображения Dall · E 3 появляются, полностью сформированные после экрана загрузки, в то время как новый GPT-4O отображает изображения постепенно сверху вниз в режиме реального времени.

Компания подчеркнула, что технология выходит за рамки создания причудливых изображений.

«Что действительно интересно в этом выпуске, так это то, что теперь эти модели могут фактически визуализировать то, что они знают, и визуализируют его на визуальной форме», — объяснил ученый из Openai, приглашенный Сэмом Альтманом рассказать об этой новой функции.

Эта возможность позволяет обрабатывать приложения, такие как подробные научные диаграммы или информационные плакаты с точным визуализированным текстом и даже редактирование изображений с согласованностью предмета.

OpenAI также внедрил ограждения, чтобы предотвратить генерацию глубоких флаксов, незаконного содержания и удаления водяных знаков.

В то время как сгенерированные изображения не будут иметь видимые водяные знаки, они будут включать метаданные C2PA, чтобы идентифицировать их как A-A-A-A-A-A. Компания также разрабатывает инструменты для отслеживания происхождения имиджа.

Компания планирует донести эту функцию в свой API, позволяя разработчикам интегрировать технологию в свои собственные приложения. Условия использования OpenAI также говорят, что пользователи будут сохранять право собственности на изображения, которые они генерируют, при условии политики использования компании.

Вообще интеллектуальная бюллетень

Еженедельное путешествие по ИИ, рассказанное генералом, генеративной моделью ИИ.

Оставить комментарий