Оставьте в стороне Flux и MidJourney: появился новый игрок, который только что поднялся на вершину рейтинга по созданию изображений с помощью ИИ. Загадочная модель, ранее известная как Red Panda, заставившая наблюдателей за искусственным интеллектом ломать голову над списками лидеров Artificial Analysis, наконец-то раскрыла себя как Recraft V3, свежий релиз малоизвестного лондонского стартапа.
Модель получила высший балл в рейтинговой системе ELO для генераторов изображений, опередив Flux 1.1 Pro и MidJourney. С точки зрения эффективности Recraft V3 соответствует скорости генерации SDXL менее 10 секунд, обеспечивая при этом, как показывают слепые тесты, непревзойденное превосходное качество изображения.
Таблица лидеров искусственного анализа. Изображение: Скриншот
За четыре дня эталонного тестирования Recraft V3 продемонстрировал превосходство в качестве генерации текста, анатомической точности и быстром понимании. Это единственная модель, способная генерировать изображения с расширенными текстовыми фрагментами, выходящими за рамки простой интеграции слов или фраз.
На самом деле, это было настолько хорошо, что даже бывший исследователь Stability AI Джо Пенна, который работал над разработкой SDXL — бесспорного короля генерации изображений с открытым исходным кодом до появления Flux — публично похвалил модель на сервере Discord компании.
«Ух ты! Потрясающая новая модель Recraft, — сказал он, — я очень впечатлен».
Исследователь стабильности искусственного интеллекта Джо Пенна о Recraft V3. Изображение: скриншот Discord
Возможно, вы не слышали об этом, если только вы не глубоко увлекаетесь генеративным искусственным интеллектом или цифровым дизайном, но лондонский стартап Recraft AI был основан в 2022 году и начинал как нишевый игрок, ориентированный на инструменты на основе искусственного интеллекта для графических дизайнеров, а не на общую генерацию изображений. Его траектория изменилась после того, как в начале этого года он получил финансирование в размере 11 миллионов долларов от таких компаний, как Khosla Ventures и бывшего генерального директора GitHub Ната Фридмана.
Recraft V3 превосходно создает реалистичные изображения, обрабатывает мелкие детали и недостатки с заметной точностью и работает по модели подписки, аналогичной MidJourney, Leonardo или Ideogram.
Цифровой дизайн лежит в основе ценностей Recraft. Эта модель также способна преобразовывать текст в векторные изображения, что означает, что пользователи могут предложить модели генерировать изображения, которые можно бесконечно масштабировать без потери качества.
Изображение SVG, созданное с помощью Recraft V3.
Бесплатные пользователи получают 50 кредитов в день, чего достаточно для 50 изображений. Однако — и это новая бизнес-модель, пользователи не сохраняют право собственности на свои творения. Это право зарезервировано для платных подписчиков, стоимость планов начинается с 10 долларов в месяц за 1000 кредитов.
Как использовать Рекрафт V3
Пользователи могут получить доступ к Recraft V3 по трем каналам: веб-интерфейс, команды Discord или мобильные приложения, доступные на iOS и Android.
Запустите Discord, присоединитесь к серверу Recraft, и вы окажетесь на знакомой территории, если когда-либо использовали MidJourney. Зайдите на канал #image-gen, введите /recraft и наблюдайте, как происходит волшебство.
Вы также можете использовать различные модификаторы после запроса. Хотите широкоэкранный шедевр? Добавьте —ar 16:9. Нужен портрет? Введите —ar 3:4, и он вас прикроет.
Другими полезными дополнениями являются команда —style, которая позволяет пользователям выбирать конкретные визуальные эффекты своего поколения, будь то фотореализм, 3D или даже каваи. Имеешь в виду конкретный образ? Команда —sref позволяет загружать эталонные изображения, которые помогут ИИ реализовать художественное видение.
После создания изображения пользователи могут выбрать изображение, которое им больше всего нравится, из двух поколений, а затем либо сохранить его, либо увеличить его размер в 4 раза.
Пользовательский интерфейс Recraft на основе Discord
Веб-интерфейс recraft.ai демонстрирует серьезные возможности. Для начала просто зайдите на Recraft.AI и войдите в систему.
Попав в пользовательский интерфейс создания изображения, пользователям просто нужно будет разместить подсказку в текстовом поле левого размера.
У них также есть ползунки для изменения соотношения сторон и количества изображений.
Пользователи также могут изменить стиль, нажав кнопку со значком в верхней части текстового поля и выбрав предпочтительный вариант во всплывающем меню с множеством примеров.
Веб-интерфейс Recraft
Интерфейс намного сложнее, чем у других сайтов, и с первого взгляда понятно, что он ориентирован на дизайнеров. Он позволяет пользователям создавать рамки, макеты продуктов, наборы изображений, работать с фоном, векторизовать изображения и т. д.
Создатели мобильных устройств не забыты. Доступны официальные приложения для iOS и Android, предлагающие одинаковое качество поколений. Просто загрузите приложение, войдите в систему, нажмите верхнюю среднюю кнопку и сгенерируйте изображение, поместив подсказку в текстовое поле в нижней части экрана и нажав кнопку «Создать».
Переделать мобильный интерфейс
Пользователи могут выбирать, насколько детализированным будет изображение, соотношение сторон, стили и ссылки в одном интерфейсе. Это довольно интуитивно понятно.
Тестирование модели
Мы протестировали модель в разных сферах, как с точки зрения стиля, так и с точки зрения технических возможностей. Вот как он отличается от своих конкурентов — как с открытым, так и с закрытым исходным кодом.
Реализм
Подсказка: проекция слова «Emerge» на лице женщины.
Рекрафт V3:
Изображение Emerge, созданное с помощью Recraft V3.
Recraft демонстрирует лучшее понимание естественной текстуры кожи, выражений лица и окружающего освещения. Выступ кажется хорошо интегрированным с кожей, и, что особенно важно, на нем присутствуют реальные недостатки — видимые поры, небольшие дефекты кожи и естественные выпадения волос. Откровенное выражение лица и фоновый контекст добавляют значительной аутентичности.
Стабильная диффузия 3.5:
Изображение Emerge, созданное с помощью Stable Diffusion 3.5.
SD 3.5 занимает второе место. Это большое улучшение по сравнению со средой SD3 и даже с лучшими реалистичными настройками SDXL. Он демонстрирует сильное драматическое присутствие благодаря оранжевому освещению и яркой красной помаде. Хотя черты лица четко очерчены, текстура кожи имеет заметную искусственность. Проекция больше похожа на резкое наложение, а выражение лица кажется несколько наигранным и синтетическим.
Середина путешествия:
Изображение Emerge, созданное с помощью MidJourney
Как всегда, MidJourney создает угрюмый кинематографический вид с сильным техническим исполнением. Однако кожа женщины блестящая, почти неземная, хотя и красивая, но менее естественная, чем попытка Рекрафта. Проекция хорошо сочетается, но общее совершенство функций и текстур — и явное отсутствие аутентичности в выражениях — раскрывает ее искусственное происхождение.
Победитель: Рекрафт
Быстрое соблюдение режима и пространственная осведомленность
Подсказка: собака стоит наверху телевизора и показывает на экране слово «Расшифровать». Слева женщина в деловом костюме держит монету, справа робот, стоящий на аптечке. Общий вид сюрреалистичен.
Рекрафт V3:
Расшифровать изображение, созданное с помощью Recraft V3.
Модель провалилась с точки зрения пространственной осведомленности. Однако удалось добиться сюрреалистического стиля в общей композиции. Это отход от других моделей, которые демонстрировали большую приверженность и пространственное понимание элементов, но общее настроение или стиль сцены были сомнительными.
Для некоторых это может рассматриваться как хороший компромисс, поскольку легче рисовать и редактировать элементы в композиции, чем изменять стиль всего изображения. Однако важно учитывать это как основное ограничение по сравнению с другими моделями.
Расшифруйте изображения, созданные с помощью Flux, Auraflow и SD3 Medium.
Победитель: Флюкс
Иллюстрация и стиль:
Подсказка: нарисованная от руки иллюстрация гигантского паука, преследующего женщину в джунглях, чрезвычайно пугающая, мучительная, темная и жуткая пейзажи, ужасы, намеки на влияние аналоговой фотографии, эскиз.
У модели есть множество различных стилей на выбор, но для этого поколения мы выбрали Recraft RAW. Сначала мы думали, что стиль «рисованный от руки» — лучший вариант, но… нет, это не так.
Изображение создано с помощью Recraft RAW.
Попробовав разные предустановленные стили, старый добрый RAW (самый универсальный) лучше всего подошел для того, что мы искали.
Изображение создано с помощью Recraft RAW.
По сравнению с другими моделями, Recraft создал интересную композицию и точно передал ключевое послание сцены: гигантский паук, преследующий женщину. Однако в целом искусство больше походило на цифровую иллюстрацию, а не на нарисованную от руки иллюстрацию.
С эстетической точки зрения наиболее точной моделью для этой конкретной подсказки кажется последняя модель стабильной диффузии, которая создала нарисованную от руки иллюстрацию и смогла передать муки женщины, убегающей от гигантского паука.
Изображения, созданные с помощью SD3, SDXL, MidJourney и Ideogram.
Победитель: SD3
Выводы
Легко понять, почему Recraft V3 занимает первое место в таблице лидеров по созданию изображений. В отличие от конкурентов, таких как MidJourney и Flux, которые часто имеют предсказуемые стилизованные узоры — гладкое «лицо Flux» или безжизненный «взгляд MidJourney», — Recraft склоняется к реализму. Его результаты убедительны, показывая сложные детали, такие как естественная текстура кожи, тонкие недостатки и нюансы освещения. Этот эстетический баланс, способствующий аутентичности без ущерба для полировки, дает Recraft преимущество, с которым другие модели с трудом могут сравниться.
Ценовую стратегию также важно учитывать. Recraft предлагает бесплатный уровень с щедрыми ежедневными кредитами, и это единственная модель, поддерживающая преобразование текста в SVG, что является благом для иллюстраторов, ищущих масштабируемые векторы профессионального качества. Его цена аналогична самому дешевому плану MidJourney, но если вы не ищете эстетику MidJourney, Recraft намного более универсален и мощный, поэтому это лучший вариант.
Тем не менее, Recraft не идеален. Когда дело доходит до сложных сцен с множеством элементов, пространственное восприятие иногда ухудшается. Подсказки, требующие точной композиции, могут привести к незначительным смещениям, и пользователи могут закрашивать или корректировать позиции больше, чем ожидалось. Но те, кто отдает предпочтение реализму и универсальности, этот недостаток легко упустить из виду.
Кроме того, серьезным недостатком, который следует учитывать, может быть то, что бесплатные пользователи не владеют своими творениями.
В целом, Recraft V3 кажется лучшим вариантом с закрытым исходным кодом, обеспечивающим превосходную ценность и гибкость по цене, учитывающей бюджеты создателей. Для тех, кто ищет высококачественные реалистичные изображения без торговой марки «AI Look», Recraft — явный победитель.
Однако тем, кто способен запускать модели ИИ локально, может быть достаточно Flux или SD 3.5.
В целом интеллектуальный информационный бюллетень
Еженедельное путешествие по искусственному интеллекту, рассказанное Дженом, генеративной моделью искусственного интеллекта.