Skip to main content

Появился новый претендент на звание короля генераторов изображений с открытым исходным кодом на основе ИИ: Auraflow. Выпущенный на прошлой неделе компанией Fal AI, занимающейся генеративными медиа, Auraflow набирает обороты благодаря своей стандартной лицензии Apache 2.0, которая ощущается как глоток свежего воздуха по сравнению с ограничительным лицензированием, которое Stability AI использовала для выпуска Stable Diffusion 3 (SD3).

Сторонники утверждают, что проекты с открытым исходным кодом могут быстро ускорить циклы разработки в конкурентных отраслях, поскольку они освобождают разработчиков от лицензирования и других юридических ограничений. При отсутствии лицензионных сборов сообщества часто формируются вокруг компетентных проектов с открытым исходным кодом, и разработчики могут настраивать, изменять, обучать и даже получать прибыль от своей работы.

«Мы рады представить вам [with] «первый выпуск нашей серии моделей Auraflow, крупнейшей, но при этом полностью открытой модели генерации на основе потока, способной генерировать текст в изображение», — говорится в сообщении FAL AI в блоге. Компания из Сан-Франциско, основанная в 2021 году Буркаем Гуром и Горкемом Юртсевеном — инженерами, работавшими в Coinbase и Amazon соответственно, — предупредила, что открытый исходный код ИИ находится под угрозой. «Некоторые даже смело заявили, что открытый исходный код ИИ мертв», — заявили они. «Не так быстро!»

В течение более чем четырех недель интенсивного вычислительного времени Auraflow прошел строгую подготовку, включая предварительную подготовку изображений разных размеров, разрешений (256×256, 512×512 и 1024×1024) и соотношений сторон (квадратные изображения, пейзажи, портреты и т. д.). Результат? Оценка GenEval 0,64 с повышением до 0,703 с использованием конвейера быстрых улучшений, похожего на DALL-E 3.

Поколения, созданные с помощью Auraflow. Изображение предоставлено Fal AIПоколения, созданные с помощью Auraflow. Изображение предоставлено Fal AI

Другими словами, модель показала высококачественные результаты при тестировании с использованием синтетических бенчмарков. Однако, как бы хороша она ни была, Auraflow все еще остается бета-версией, поскольку Фал считает ее версией 0.1, а не стабильной версией.

Однако эта модель — пожирательница видеопамяти. Для запуска версии fp16 ей требуется мощный графический процессор с объемом видеопамяти около 12 ГБ — для справки: Stable Diffusion 3 отлично работает всего на 6 ГБ видеопамяти. Однако компания утверждает, что в разработке находится более управляемая модель. «Меньшие модели или MoE могут быть более эффективными для потребительских видеокарт с ограниченной вычислительной мощностью, поэтому внимательно следите за появлением мини-версии [this] «Модель, которая по-прежнему столь же мощна, но при этом работает гораздо быстрее», — сказал Фаль Ай.

Auraflow доступен для загрузки на Huggingface и может быть запущен в ComfyUI с помощью пользовательского узла, также доступного в ComfyUI Manager.

Auraflow представляет собой грозную альтернативу SD3, но достаточно ли она хороша, чтобы превзойти ее? Мы сравнили две базовые модели и протестировали их производительность в различных художественных стилях и подсказках. Вы можете стать судьей, кто, скорее всего, завоюет сердца художников ИИ по всему миру, поскольку мы делимся своими наблюдениями.

Художественные стили и творчество

Подсказка: «Подробная картина заката над спокойным озером, небо, наполненное оттенками оранжевого, розового и фиолетового, деревянный пирс, уходящий в воду, человек, сидящий на конце пирса с удочкой, окруженный высокой травой и полевыми цветами, общий стиль импрессионистский с смелыми мазками и яркими цветами».

Аурафлоу:

Сильные стороны: Хорошо передает импрессионистский стиль смелыми мазками и яркими цветами. Оттенки неба хорошо представлены, создавая безмятежную атмосферу. Слабые стороны: Детализация человека и окружающей природы могла бы быть более точной. Деревянный пирс и человек, ловящий рыбу, могут не иметь четкого определения. Удочка не представлена ​​в естественном положении.

SD3 Средний:

Сильные стороны: демонстрирует высокое внимание к деталям, особенно в изображении человека и пирса. Общая сцена более структурирована, с четкими элементами и утонченными контурами. Слабые стороны: импрессионистский стиль менее выражен, мазки кисти выглядят более плавными и фотореалистичными, чем предполагалось.

Победитель: Ничья. Auraflow больше следует импрессионистскому стилю, но SD3 более детализирован и структурирован.

Реализм

Подсказка: «Фотография в высоком разрешении оживленной городской улицы ночью, неоновые вывески освещают сцену, люди идут по тротуарам, проезжающие машины, уличный торговец продает хот-доги, отражения огней на мокром асфальте, общий стиль гиперреалистичный с вниманием к деталям и освещению, неоновая вывеска гласит «Расшифровать»».

Аурафлоу:

Сильные стороны: передает яркую ночную жизнь с неоновыми вывесками и отражениями на мокром асфальте. Сцена полна событий, а световые эффекты хорошо сделаны. Слабые стороны: некоторые детали, такие как уличный торговец и пешеходы, нечеткие и выглядят мультяшными, что влияет на гиперреалистичное качество. Неоновым вывескам не хватает четкости. Есть некоторый уровень понимания текста, но недостаточно, чтобы ему доверять. (Рядом со знаком хот-дога написано «Расшифровать», но его едва можно разобрать.)

SD3 Средний:

Сильные стороны: обеспечивает высокий уровень детализации и ясности, особенно в изображении людей и объектов. Гиперреалистичный стиль хорошо достигается с точным освещением и отражениями. Неоновые вывески четкие, а текст читаемый Слабые стороны: сцена может показаться слишком стерильной, лишенной естественного хаоса оживленной городской улицы. Нет уличного торговца, только киоск с хот-догами

Победитель: SD3 Medium предлагает более детализированное и гиперреалистичное изображение, что делает его лучшей моделью для этой подсказки.

Иллюстрация

Подсказка: «Нарисованная от руки иллюстрация гигантского паука, преследующего женщину в джунглях, чрезвычайно страшно, тоска, темный и жуткий пейзаж, ужас, намеки на влияние аналоговой фотографии, набросок».

Аурафлоу:

Сильные стороны: Успешно создает темную и жуткую атмосферу. Очевидный стиль рисованного рисунка с элементами эскиза. Слабые стороны: Уровень детализации паука и женщины может быть недостаточным, что делает сцену менее пугающей и напряженной.

SD3 Средний:

Сильные стороны: Предлагает очень подробное и пугающее изображение паука и женщины. Элементы тоски и ужаса более выражены. Слабые стороны: Влияние аналоговой фотографии менее очевидно, и стиль эскиза может быть омрачен высоким уровнем детализации. Некоторые конечности у паука неестественны

Победитель: SD3 Medium предлагает более пугающую и подробную иллюстрацию, что делает его лучшей моделью для этой подсказки.

Быстрое соблюдение

Подсказка: «Сюрреалистическое цифровое произведение искусства с изображением парящего острова в небе. Остров покрыт пышной зеленью, водопады ниспадают в облака внизу. В центре острова находится небольшой замок. Световые мосты соединяют другие парящие острова. Небо заполнено разноцветными воздушными шарами и мифическими существами. Общий стиль — фантастический, с элементами мечтательности и светящимися эффектами».

Аурафлоу:

Сильные стороны: Хорошо передает фантастические и мечтательные элементы с эффектами свечения и яркими цветами. Плавающий остров и водопады изображены прекрасно. Мосты сделаны из света, а мифические существа представлены в сцене Слабые стороны: Некоторым элементам, таким как мосты из света и мифические существа, может не хватать детализации и ясности.

SD3 Средний:

Сильные стороны: Предоставляет очень подробную и сложную сцену с более мультяшным видом. Слабые стороны: Быстрое присоединение было слабее в этом поколении, оно не создавало мосты из света, мосты не соединяются с другими островами, и нет никаких мифических существ.

Победитель: Auraflow уловил все элементы подсказки, что делает его лучшей моделью для этой подсказки.

Пространственное воображение

Подсказка: «Собака стоит на телевизоре, на экране которого написано «Расшифровать». Слева — женщина в деловом костюме, держащая монету, справа — робот, стоящий на аптечке первой помощи. Общая картина сюрреалистична».

Аурафлоу:

Сильные стороны: Создает сюрреалистическую и образную сцену. Композиция и пространственное расположение интересны. Слабые стороны: Детали собаки, робота и женщины могут быть менее проработанными, что влияет на общее впечатление. Крест аптечки просочился во вторую коробку и самого робота. Генерация текста была плохой.

SD3 Средний:

Сильные стороны: Обеспечивает очень детальное и четкое изображение всех элементов. Сюрреалистическая атмосфера хорошо поддерживается с точной пространственной компоновкой. Общая сцена была менее реалистичной. Слабые стороны: Сцена может показаться менее воображаемой и более буквальной.

Победитель: Ничья. SD3 Medium обеспечивает лучшую ясность, что делает его лучшей моделью для этой подсказки. Auraflow также предоставляет все элементы генерации и показал хороший уровень понимания с точки зрения понимания пространства.

Аниме и манга

Подсказка: «Женщина-ниндзя сражается с сильным самураем в древней Японии, аниме, манга, очень детализированное, красочное, динамичное».

Аурафлоу:

Сильные стороны: Хорошо передает динамичные и красочные элементы аниме и манги. Сцена действия яркая и увлекательная. Стиль был чрезвычайно подробным, больше похожим на иллюстрацию на обложке. Слабые стороны: Не хватало приверженности, создавались только женщины-ниндзя и не обращалось внимания на противника-самурая.

SD3 Средний:

Сильные стороны: Придерживался простого двухмерного стиля манги, что сделало сцену живой и динамичной. Слабые стороны: Цвета могли быть менее яркими, что повлияло на общую динамику. Не удалось передать пейзажи древней Японии.

Победитель: SD3 Medium обеспечивает более детальное и динамичное описание, что делает его лучшей моделью для этого подсказки. В обоих случаях не хватало ключевых элементов с точки зрения соблюдения подсказки.

Заключение

Auraflow отлично подходит для передачи импрессионистских, фантастических и причудливых стилей, в то время как SD3 Medium лучше подходит для создания детализированных, гиперреалистичных и динамичных сцен.

Оба недостатка можно устранить с помощью тонкой настройки, и здесь закон побеждает технологию. Лицензия Apache 2.0 с открытым исходным кодом от Auraflow делает ее привлекательной для тонких настройщиков, позволяя свободное использование, воспроизведение и распространение в соответствии с условиями лицензии, в отличие от SD3, которая более ограничительна в этом отношении. Поэтому, возможно, будет проще начать работать над Auraflow. Но до тех пор это всего лишь стратегическое преимущество, которое еще не реализовано.

Однако для работы Auraflow требуется много VRAM, в некоторых отчетах указывается до 35 ГБ, что значительно больше, чем для SD3, которому требуется всего 6 ГБ VRAM. Для справки, 24 ГБ RTX 4090 стоит до 1700 долларов на Amazon, тогда как 6 ГБ RTX3050, способный запускать SD3, можно найти менее чем за 200 долларов. Это ощутимое преимущество SD3 над Auraflow прямо сейчас.

Учитывая это, SD3 Medium на данный момент является лучшей моделью в этом сравнении, охватывающей более широкую пользовательскую базу благодаря более низким требованиям к оборудованию и сопоставимым результатам с точки зрения качества.

Тем не менее, Auraflow подает большие надежды. Если в будущем будет разработана обрезанная (меньшего размера) или квантованная (менее точная) версия, которая снизит требования к оборудованию, Auraflow может стать сильным соперником и потенциально бросить вызов давнему доминированию Stability с ее моделями Stable Diffusion.

В целом интеллектуальный информационный бюллетень

Еженедельное путешествие в мир ИИ, рассказанное Дженом — генеративной моделью ИИ.

Оставить комментарий