Метаверсище и ИИще
34.5K subscribers
4.43K photos
2.52K videos
40 files
5.45K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Леново любит эксперименты.

Лёгким движением руки 14 дюймов превращаются в вертикальные 16.7. А 2000х1600 превращаются в 2000х2050.

Шоб было на чем смотреть тиктоки. Ибо зовётся это AI PC.

В принципе мне нравится, я люблю эксперименты.

#ябвзял

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Держите вдогонку тянущийся экран от Самсунга.

Я помню, что когда проводил первые ивенты, мечтал об экранах, которые можно свернуть в трубочку и засунуть в HDMI.
Пришел, повесил, подключил.
Без всяких проекторов, настроек, кабелей по 25 метров.

Не знаю для чего нужны именно тянущиеся экраны, кроме совы и глобуса, но я впечатлен.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
И ещё одна новинка с CES 2025.

Ложка, которая обманывает ваш мозг и заставляет вас почувствовать, что еда солонее на вкус, чем она реально является.

Тем, кто избегает соли - налетай.

Подумалось мне, что хорошо бы для сахара такое сделать.

А потом подумалось, что надо меньше жрать, и что в принципе надо вместо соли подставить в уравнение еду.

Суешь пустую ложку в рот, а она херачит тебя в язык током и кричит мозгу "яполная". Мозг такой: понял-принял.

И ну худеть.

А ещё хорошо бы к ии-генерациям такую ложку - берешь в рот, и генерация кажется красивее, чем на экране.

Впрочем я увлекся, тут и без ложек все давно придумано нутрициологом Лири.

@cgevent
Семя Шума.

Никогда не переводите интерфейсы, пожалуйста.
Это плохо по многим причинам.

Помню, когда писал книжку по Maya, задумался вначале, а потом просто взял жаргон из форумов: ноды, шейдеры, джойнты.
Ну нельзя перевести скрининг как кожинг, а риггинг как обвесинг.

Поэтому узлы и суставы так и не прижились в 3д сообществе.

Теперь вот горе переводчики идут по старым граблям.

Семя, мать, его шума.

Есть же понятные всем сид и нойз.

Не делайте глазам больно!

@cgevent
Hallo 3. Опенсорсная альтернатива Heygen и Hedra.

Вышла уже третья версия оживлятора лиц. Я много писал про них тут, а EMO от Алибабы мы так и не дождались.

Вторая версия Hallo меня совсем не впечатлила.

В третьей они пошли новым путем. ВзялиCogVideo-5B I2V - самый ловкий image2video в опенсорсе и до тренировали свою модель.

Как следствие, появилась поддержка очков, причёсок, цацок и даже анимация фона. А также нетривиальные ракурсы лица типа в профиль.

Но, честно сказать, качество совсем не огонь. На поляне аватаров опенсорс отстаёт от коммерческих решений довольно сильно.

https://fudan-generative-vision.github.io/hallo3/

Код:
https://github.com/fudan-generative-vision/hallo3

@cgevent
Если вы хотите позапускать Nvidia Cosmos локально, да ещё и в Комфи, то вот тут есть весь фарш для этого:
https://www.reddit.com/r/StableDiffusion/s/uBRPDNvUyc

Там и ссылки на FP8, и дискуссии про память(формально 32, народ упихивает в 16), и воркфлоу от самого комфианономуса.

Я пока сижу в аэропорту Гизы, протестировать не могу, жду в безумцев комментах.

https://huggingface.co/callcenterstudio/cosmos-FP8

@cgevent
К вопросу про "позапускать локально".

Твит экзистенциальный, конечно.

В комментах народ ломает голову над не менее сложными вопросами типа "если она опенсорснутая, то каков ея моральный облик".

Дабы не прослыть сексистом, вверну, что все это в симметричной мере относится и к AI boyfriend.

@cgevent
Forwarded from Psy Eyes
Media is too big
VIEW IN TELEGRAM
Tripo3D: обновили интерфейс своего 3D генератора и сделали его более удобным.

Теперь можно контролировать количество полигонов (Face Limit) в настройках генерации, для баланса между качеством и скоростью.

На вход можно подавать как текст (который можно улучшить), так и одну картинку или множество изображений.

Сайт — сгенерите первую модель получите 300 кредитов. Или вот код: USR9E6
Forwarded from Tensor Banana
Ускоряем Hunyuan video fast еще в 2 раза на винде

Есть оригинальный Hunyuan-video-13B, он работает за 20-30 шагов (20-30 минут на видео), а есть дистиллированный Hunyuan fast, который работает за 6-10 шагов. 6 шагов мне не нравятся, 10 выглядят намного лучше (10 минут на генерацию 1 видео в 720p, 2 секунды, 48 кадров).

Недавно вышел waveSpeed, который ускоряет flux, LTX и hunyuan в 1.5-2 раза в comfy на видюхах 3000 серии и новее с помощью двух технологий: first-block-cache и torch-model-compile+. На моей 3090 прирост скорости относительно Hunyuan fast - в 2 раза, до 4.6 минуты на 1 видео. Поддерживается воркфлоу от comfyanonymous. Воркфлоу от kijai пока не поддерживается.

Hunyuan из коробки умеет nsfw. Верх довольно неплохой, низ слегка зацензурен, но лучше, чем в дефолтном flux. Но умельцы уже наделели 100+ лор для Hunyuan на civitai для разных nsfw поз, движений, персонажей и стилей (в https://civitai.com/models ставим 2 фильтра: LoRA + Hunyuan video).

fast model, fp8: 
48 frames, 48s/it, 10 min, 19 GB vram, 39 GB RAM

fast model, sage-attention, first-block-cache:
48 frames, 25s/it, 5.6 min, 20 GB vram, 38 GB RAM

sage-attention, first-block-cache, compile+:
25 frames, 10s/it, 2.1 min, 18 GB vram, 29 GB RAM
48 frames, 22s/it, 4.7 min, 20 GB vram, 38 GB RAM
61 frames, 34s/it, 6.7 min
65 frames - OOM


Но compile+ ускоряет генерацию не всегда. Иногда torch compile занимает дополнительные 47 секунд. Перекомпилируется модель периодически, 1 раз в 2-3 генерации. Хз как побороть, скорее всего, vram мало, возможно, надо сделать меньше разрешение или количество кадров.

Предположу, что для работы Hunyuan хватит 32 GB RAM. У меня просто еще xtts+wav2lip в памяти висят. Если у вас в самом конце comfy вылетает без ошибок - снизьте разрешение или кол-во кадров.
Видел отзывы, что Hunyuan работает на 12 GB vram. Пока не тестил.


УСТАНОВКА

Нужен тритон и видюха 3000 серии или новее. 2000 серия nvidia не поддерживается. cuda toolkit 12.4+.
1. обновляем comfy через update_comfyui.bat

2. как установить тритон и sage-attention в комфи на винду:
https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/
Первый шаг в этой инструкции пропускаем (установка нод kijai/ComfyUI-HunyuanVideoWrapper можно пропустить, мы будем использовать официальные ноды встроенные в комфи. Были отзывы, что в нодах от kijai пока не поддерживаются лоры при работе с first-block-cache). Выполняем пункты 2-4, включаем переводчик, если надо. Последние пункты 5-8 со скачиванием моделей не выполняем, мы скачаем другие, они меньше и быстрее.

3. Качаем clip_l.safetensors and llava_llama3_fp8_scaled и hunyuan_video_vae_bf16.safetensors: https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/
Качаем hunyuan fast: https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_FastVideo_720_fp8_e4m3fn.safetensors и кладем в diffusion_models

4. в run_nvidia_gpu.bat для запуска comfy надо добавить флаг --use-sage-attention вот так:
.\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --use-sage-attention

5. Устанавливаем custom node через comfyui manager -> install via GIT URL:
https://github.com/chengzeyi/Comfy-WaveSpeed

6. Hunyuan воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/hunyuan_fast_wave_speed_with_lora.json
Flux воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/flux_wave_speed.json

Советы:
- 1280x720, 720x1280, 544x960, 960x544 - рекомендуемые разрешения. В остальных могут быть артефакты.
- при малом количестве кадров анимация может работать хуже и с артефактами, рекомендую 25 и 49 кадров (1 и 2 сек)
- img2video пока нет, но разрабы обещают. Есть video2video и IPadapter2video от kijai.


- FLUX dev (bonus) -
1024x1024 20 steps

FLUX - 1.26s/it, 26 s.
FBC - 1.21it/s, 17 s.
FBC + compile+ - 1.20it/s, 17 s.

Прирост скорости во флаксе + waveSpeed составил 35%.

Во флаксе compile+ не работает на 3000 серии с flux-fp8, но работает с bf16, из-за этого прироста скорости не заметно. В hunyuan compile+ работает и дает прирост.
Real World Photography Experimenter

Рубрика крутые подписчики.

Саша Мелентьев прислал мне очень годный Workflow в ComfyUI для комбинирования трех изображений в одну фотореалистичную фотографию. Доступен в облаке по ссылке ниже.

Очень хорош для создания "ювелирки", продуктовой фотографии, для портретов людей, а также для генерации концептов окружения. И, наверное, много чего еще...

Для примера. Берем подводный 3D рендер в Style, фотографию улицы в Env, кольцо с камнем в Obj - получаем кольцо на коралле в затопленном городе.

Тест здесь. Real World Photography Experimenter

Вообще, этот пост, судить если по картинкам в генерации, можно назвать "Девушка или ваза".

@cgevent