OmniGen: модель искусственного интеллекта с открытым исходным кодом, которая позволяет редактировать изображения в диалоговом режиме

Это соучредитель Decrypt Джош Квиттнер случайно встречается со своим другом Виталиком Бутериным.

Нет, не совсем. Они никогда не встречались, а тем более не были в одном месте в одно и то же время. Данное изображение является фейком, что неудивительно. Что удивительно, так это то, что нам потребовалось меньше минуты, чтобы построить его, используя две фотографии и простую подсказку: «Мужчина с изображения 1 и мужчина с изображения 2 позируют перед камерами на вечеринке с барбекю». Довольно изящно.

Модель — Omnigen, и это нечто большее, чем просто генератор изображений. Вместо этого он фокусируется на редактировании изображений и понимании контекста, позволяя пользователям настраивать свои поколения, просто общаясь с моделью, а не загружая автономные сторонние инструменты. Он способен «рассуждать» и понимать команды благодаря встроенному LLM.

Исследователи из Пекинской академии искусственного интеллекта наконец-то опубликовали веса — исполняемые модели ИИ, которые пользователи могут запускать на своих компьютерах — этого нового типа модели ИИ, которая может стать универсальным источником для создания изображений. В отличие от своих предшественников, которые работали как исполнители одноцелевых задач (художники загружали отдельные генераторы изображений, сети управления, IPадаптеры, модели для рисования и т. д.), OmniGen функционирует как комплексный творческий пакет. Он справляется со всем: от базового редактирования изображений до сложных задач визуального мышления в рамках единой оптимизированной структуры.

OmniGen опирается на два основных компонента: вариационный автоэнкодер — старый добрый VAE, с которым хорошо знакомы все художники, работающие с искусственным интеллектом, — который разбирает изображения на их фундаментальные строительные блоки, и модель преобразователя, которая обрабатывает различные входные данные с поразительной гибкостью. Этот урезанный подход устраняет необходимость в дополнительных модулях, которые часто затрудняют работу других систем генерации изображений.

Обученный на наборе данных из одного миллиарда изображений, получивший название X2I (все для изображения), OmniGen выполняет самые разные задачи: от преобразования текста в изображение и сложного редактирования фотографий до более тонких операций, таких как рисование и манипулирование картой глубины. Возможно, самым поразительным является его способность понимать контекст. Так, например, когда ему предлагается указать место для мытья рук, он мгновенно распознает и выделяет раковины на изображениях, демонстрируя уровень рассуждений, приближающийся к человеческому пониманию.

Другими словами, в отличие от любого другого доступного в настоящее время генератора изображений, пользователи могут «общаться» с Omnigen так же, как они взаимодействуют с ChatGPT для создания и изменения изображений — нет необходимости иметь дело с сегментацией, маскированием или другими сложными методами, поскольку Модель способна понимать все просто с помощью команд.

Итак, представьте, что вы просите модель с открытым исходным кодом создать зимнее пальто с узором «елочка», добавить меховую отделку и отрегулировать длину — и все это за один раз. Если вам это не нравится, вы можете просто предложить «сделать пальто белым», и он поймет задачу без необходимости вручную выбирать пальто, загружать новую модель, подсказывать «белое пальто» и молиться, чтобы пальто выглядело похоже на ваше поколение — или открываете Photoshop и вынуждены иметь дело с некоторыми манипуляциями с цветом.

Это довольно существенный прорыв.

Одним из интересных достижений этой новой модели является то, что в OmniGen встроена программа Microsoft Phi-3 LLM, и исследователи научили модель применять цепочку мыслей для создания изображений, разбивая сложные творческие задачи на более мелкие и более управляемые шаги. , подобно тому, как работают люди-художники. Этот методический процесс обеспечивает беспрецедентный контроль над творческим рабочим процессом, хотя исследователи отмечают, что качество результатов в настоящее время соответствует, а не превосходит стандартные методы генерации.

Заглядывая в будущее, исследователи уже изучают способы расширения возможностей OmniGen. Будущие итерации могут включать улучшенную обработку изображений с большим количеством текста и более сложные способности к рассуждению, что потенциально приведет к еще более естественному взаимодействию между создателями-людьми и инструментами искусственного интеллекта.

Как запустить Омниген

Omnigen имеет открытый исходный код, поэтому пользователи могут запускать его локально. Однако у пользователей есть несколько бесплатных поколений благодаря Hugging Face — крупнейшему в мире сообществу/хранилищу искусственного интеллекта с открытым исходным кодом — поэтому они могут использовать его серверы для тестирования модели в случае, если у них нет необходимого оборудования.

Те, кто не хочет сильно заморачиваться с моделью, могут зайти в это бесплатное пространство Hugging Face Space и поиграть с моделью. Откроется очень интуитивно понятный пользовательский интерфейс.

По сути, модель может обрабатывать до трех изображений контекста и большой объем ввода текста. Он также показывает очень подробный набор инструкций по созданию или редактированию изображений. Если вы в этом новичок, не стоит сильно заморачиваться со всеми параметрами. Просто вставьте изображение (или изображения), которое вы хотите, в программу для редактирования или использования в качестве вдохновения, и предложите его так же, как если бы вы делали это в ChatGPT, используя естественный язык.

Однако тем, кто хочет создавать изображения локально, придется загрузить веса и некоторые библиотеки. Учитывая его возможности, ожидается, что для его работы потребуется много VRam. Некоторые отчеты показывают, что модель отлично работает на 12 ГБ VRam и на данный момент совместима только с картами Nvidia.

Чтобы установить модели локально, просто следуйте инструкциям, представленным на странице Github: по сути, создайте новую папку установки, клонируйте репозиторий github, установите зависимости, и все готово. Чтобы иметь приятный пользовательский интерфейс вместо использования только текста, установите интерфейс Gradio, следуя инструкциям на странице Github. Кроме того, вы можете воспользоваться этим руководством, если предпочитаете видеоинструкции.

Если у вас немного больше опыта, вы можете использовать ComfyUI для создания изображений. Чтобы установить Omnigen, просто зайдите в менеджер загрузок, найдите узел Omnigen и установите его. Как только вы закончите, перезапустите ComfyUI и все. При выполнении узел сам загрузит веса.

Нам удалось протестировать модель, и создание изображений занимает значительно больше времени по сравнению с SD 3.5 или Flux. Его сила не в качестве, а в точности. Это означает, что некоторым изображениям может не хватать деталей или реализма, но они будут демонстрировать высокий уровень оперативности, особенно при работе с подсказками на естественном языке при редактировании.

В своем нынешнем состоянии Omnigen не является хорошим генератором изображений для тех, кто ищет модель, способную превзойти Flux или SD 3.5. Однако эта модель не намерена быть такой.

Для тех, кто ищет редактор изображений на базе искусственного интеллекта, это, вероятно, один из самых мощных и удобных для пользователя вариантов, доступных в настоящее время. С помощью простых подсказок он достигает результатов, аналогичных тем, которые профессиональные художники по искусственному интеллекту получают при очень сложных рабочих процессах, работающих с узкоспециализированными инструментами.

В целом, модель является отличной альтернативой для новичков, которые тестируют возможности искусственного интеллекта с открытым исходным кодом. Однако для профессиональных художников по искусственному интеллекту это может быть полезно, если они объединят его мощные возможности в свои рабочие процессы. Это также может значительно упростить рабочие процессы с десятков различных узлов или переходов к одному поколению с меньшим количеством элементов для запуска и загрузки.

Например, использование его в качестве основного источника для объединения различных элементов в композицию, а затем шумоподавление этого результата, чтобы он мог пройти второй проход с более мощной моделью искусственного интеллекта, может оказаться очень хорошим и универсальным решением для достижения великолепных поколений.

В целом интеллектуальный информационный бюллетень

Еженедельное путешествие по искусственному интеллекту, рассказанное Дженом, генеративной моделью искусственного интеллекта.

OmniGen: модель искусственного интеллекта с открытым исходным кодом, которая позволяет редактировать изображения в диалоговом режиме

Как запустить Омниген

В целом интеллектуальный информационный бюллетень

Похожее

Telegram-игра Tomarket отменяет запрет на раздачу Airdrop для «значительного» числа игроков

Генеральный директор COTI: «Конфиденциальность — это строительный блок»

Оставить комментарий Отменить

OmniGen: модель искусственного интеллекта с открытым исходным кодом, которая позволяет редактировать изображения в диалоговом режиме

Как запустить Омниген

В целом интеллектуальный информационный бюллетень

Похожее

Telegram-игра Tomarket отменяет запрет на раздачу Airdrop для «значительного» числа игроков

Генеральный директор COTI: «Конфиденциальность — это строительный блок»

Крипто-игры завоевали Филиппины — и вот почему

Цена XRP достигла 3-летнего максимума, поскольку открытый интерес по фьючерсам подскочил до нового рекорда

Solana Devs получила раздачу BONK стоимостью 300 долларов в 2022 году, а сейчас она стоит 1,3 миллиона долларов

Оставить комментарий Отменить