FSCP
16.6K subscribers
30.9K photos
3.66K videos
863 files
78.9K links
another filter bubble канал изначально созданный несколькими друзьями чтобы делиться копипастой, иногда оценочным суждением

технологии, деньги, социум

редакция @id9QGq_bot
реклама @johneditor
в будущее возьмут не всех
выводы самостоятельно

мир меняется
Download Telegram
May 25, 2023
May 26, 2023
This media is not supported in your browser
VIEW IN TELEGRAM
July 14, 2023
August 23, 2023
September 6, 2023
September 17, 2023
September 27, 2023
October 6, 2023
November 17, 2023
December 19, 2023
Всем привет! https://t.iss.one/text2img/12657
Давно не писал в группу (слишком много дел и мало свободного времени), но тут просто нельзя пройти мимо.

Итак, всем известный разработчик lllyasviel (автор контролнета, Фооокуса, Форджа, свежего Релайта) выпустил новую шикарную вещь.

Omost - github.com/Omost

Это LLM (большая языковая модель), которая по вашему запросу создаёт крутейшую картину с максимальным вниманием к деталям. Что бы было понятнее, принцип как у Dalle-3: вы даёте короткий промт (или максимально развёрнутый, по желанию), а ЛЛМ очень подробно расписывает ваш запрос, раскладывает его на составные части, планирует как всё это будет выглядеть в общем и в частностях.
Если интересно в подробностях, загляните на страницу, Иллия расписал всё сверхпонятно: как описывается начало, как разбивается на регионы, каким образом редактировать растояние до "зрителя", развёртка каждой части промта. После подготовительного этапа вся эта информация отправляется на генерацию. По умолчанию используется чекпоинт XL RealVisXL_V4.0 но можно подкинуть ему любой (в формате Диффузерсов). "Подготовительные" ЛЛМ, кстати, тоже стандартные (ллама-3, phi-3 и дельфин 2.9), единственное что - им требуется специальная дотренировка.

Выше я приложил картинки, которые получаются у Omost. Первые сделаны по простым промтам (битва тысяч орков и людей у города, орк бежит возле рушающейся стены, эльфийки плывут, идут вброд по реке), а следующая - подробно описана (цвет штанов, куртки, футболки, надпись на ней, ночной город с многоэтажками, стилистика аниме/не аниме). Конечно, проблемы нейросетей никуда не делись, но следование промту и внимание к деталям очень хороши.

Как же всё это потрогать, спросите вы?
Во-первых, есть готовая демка на Обнимашках. Работает она быстро (к тому же, абсолютно бесплатно и без ограничений), но порой не хочет рендрить картинку. Тут претензия к самим обнимашкам, да. Где-то 5 из 10 запросов у меня отработало нормально.
И конечно же, Иллия не был бы собой, если бы всё это не было доступно локально! Ссылка на инструкцию по локальной установке. Пройдёмся по пунктам.

Во-первых, естествинно, вам нужен Питон. Автор рекомендует 3.10.хх, соответственно, скачиваете 3.10.6 или 3.10.11 (что бы точно всё заработало). Если вы скачаете последнюю версию - ничего не заработает!
Далее нужны установленные git и Анаконда для 3.10.
Поставив всё в такой очерёдности (не забывайте обязательно ставить галки "добавить в ПУТЬ" и "интеграция с питоном" где они есть), открываем Anaconda Prompt (miniconda3) появившуюся у вас в Пуске и поочерёдно выполняем строчки инструкции на странице выше. Когда всё скачается и установится (5-20 минут) откроется ваш браузер по адресу https://localhost:7860 где будет простенький интерфейс для работы.

Что по памяти? Тут всё отлично, "базовая" ллама-3 q4 спокойно входит в 8 гигабайт VRAM (Скриншоты выше - во время работы ЛЛМ), ну а картинки рисуются на XL, что так же спокойно помещается там же.
На моей 3060 предварительный этап (развёртка через ЛЛМ) занимает где-то полторы-две минуты, рисовка картинки 1536х896 - секунд 40 без Хайрес-фикса и 3-4 минуты с ним.

Интерфейс, пока, максимально простой - нет ни смены чекпоинта, ни семплеров, ни сохранения картинок, ни даже батника запуска. Очень надеюсь на сообщество, что это нам быстро прикрутят :) Но если вы хотите пощупать одним из первых - то уже можно.
_______
Источник | #text2img
@F_S_C_P

Генерируй картинки с ⛵️MIDJOURNEY в Telegram
June 1, 2024
Тут опять вышла новая штука, мимо которой ну никак не пройти.
УНИВЕРСАЛЬНЫЙ SD XL controlnet, который (с одной моделью) работает сразу с десятком препроцессоров:
Openpose, Depth, Canny, Lineart, AnimeLineart, Mlsd, Scribble, Hed, Pidi(Softedge), Teed, Segment (!), Normal. Так же, по моим тестам, работают ReColor и Tile/Blur (!)
Т.е., по сути, одна модель перекрывает 90% потребностей - остаются отдельные только на IP-адаптеры, инпаинт и Tile (если не устроит результат универсала).
Смелые заявления, конечно, давайте посмотрим подробнее так ли это.
Во-первых, почитаем страничку автора:

Модель имеет следующие ключевые преимущества:
- Генерация изображений высокого разрешения с гибким соотношением сторон.
- Обучение на большом количестве высококачественных данных (более 10 млн изображений).
- Высокая точность понимания подсказок благодаря перефразированным подсказкам и детальным описаниям.
- Использование передовых методов улучшения результатов в процессе обучения.
- Сопоставимое с ControlNet количество параметров без заметного увеличения вычислительных ресурсов.
- Поддерживает более 10 условий управления, при этом не наблюдается заметного снижения качества работы с отдельными условиями по сравнению с моделями, обученными для работы с одним условием.
- Поддерживает генерацию изображений с несколькими условиями, при этом слияние условий происходит в процессе обучения, без необходимости ручной настройки гиперпараметров или подсказок.

Во-вторых, тесты и сравнения с другими моделями!
По картинкам выше. Тестируемая модель названа xinsir_controlnet_xl_UNIVERSAL. Все тесты делал на realismEngineSDXL_v30 (animaPencilXL_v5, если аниме), DPM++ 2M семплер, 20 шагов, 5 CFG, без хайрес фиксов. Промт брал автотагером, негатив - простой стандартный. "Остановка работы" и "Вес" контролнета брались в зависимости от используемого препроцессора, в среднем 0.7-0.9. Выборку не делал, всё с первых попыток.
1-2) Глубина. Здесь и далее - исходник/отработка. У глубины куча различных препроцессоров - и на всех отработало хорошо.
3-4) Тест ОпенПоз. Режим работы контролнета выставлен "ControlNet is more important" (так надо для ОпенПоз).
5-6) Различные Line-препроцессоры. Сравниваем с предыдущим чемпионом - mistoLine.
7-8) Самые проблемные - Сегментация и Normal. Адекватных моделек на сегментацию (для SD XL) до этого не было, и похоже эта - первая нормальная. С Нормалями та же история. Так же интересно, что нарисовано это на реалистик чекпоинте (хоть и с примесью аниме).
9-10) Tile. Сравниваем, опять же с предыдущим "победителем" от того же автора - xinir_Tile. Этот контролнет служит для улучшения качества картинки, но можно и чуть-чуть поднять параметры кастомизации и получить картинку "по мотивам". Первый вариант на изображении - улучшение, второй - "вольная интерпретация". Работает (в первом случае) не идеально, но это вообще автором не планировалось.

Что у нас в выводах? Автор не соврал, и действительно - одна модель может заменить большинство существующих. По качеству она так же либо не уступает другим, либо превосходит.
Модель уже работает в Автоматике1111 (Комфи тоже, естественно), обновлять ничего не нужно. Скачайте, положите в папку с ControlNet, переименуйте как удобно и пользуйтесь! Единственное, что контролнет, по-умолчанию, фильтрует модели по типу, и что бы увиделась ваша моделька - нужно нажать рядом с выбором модели кнопку "обновить" (это сбросит фильтр, в том числе).
_______
Источник | #text2img
@F_S_C_P

Узнай судьбу картами Таро:
Anna Taro bot
July 8, 2024