Метаверсище и ИИще
34.5K subscribers
4.42K photos
2.52K videos
40 files
5.44K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Psy Eyes
StabilityAI: в коллабе с NVIDIA выпустили — SPAR3D (Stable Point Aware 3D), модель для создания 3D-объектов по одному изображению менее чем за секунду, а также редактирования в реальном времени.

Модель сочетает в себе точный семплинг облака точек и генерацию детализированного меша, обеспечивая высокий уровень контроля над созданием 3D-объектов. Создаётся 360 градусное представление, чтобы достать и те углы обзора, которые обычно мало прорабатываются.

На первом этапе диффузионная модель генерит облако точек, а на следующем трансформер обрабатывает его вместе с входной картинкой, чтобы реконструировать геометрию, текстуру, и освещение.

Облако точек можно редактировать, удаляя, дублируя, растягивая, добавляя особенности или перекрашивая точки.

Свободное коммерческое использование.

Демо
Сайт
Хаггинг
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Леново любит эксперименты.

Лёгким движением руки 14 дюймов превращаются в вертикальные 16.7. А 2000х1600 превращаются в 2000х2050.

Шоб было на чем смотреть тиктоки. Ибо зовётся это AI PC.

В принципе мне нравится, я люблю эксперименты.

#ябвзял

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Держите вдогонку тянущийся экран от Самсунга.

Я помню, что когда проводил первые ивенты, мечтал об экранах, которые можно свернуть в трубочку и засунуть в HDMI.
Пришел, повесил, подключил.
Без всяких проекторов, настроек, кабелей по 25 метров.

Не знаю для чего нужны именно тянущиеся экраны, кроме совы и глобуса, но я впечатлен.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
И ещё одна новинка с CES 2025.

Ложка, которая обманывает ваш мозг и заставляет вас почувствовать, что еда солонее на вкус, чем она реально является.

Тем, кто избегает соли - налетай.

Подумалось мне, что хорошо бы для сахара такое сделать.

А потом подумалось, что надо меньше жрать, и что в принципе надо вместо соли подставить в уравнение еду.

Суешь пустую ложку в рот, а она херачит тебя в язык током и кричит мозгу "яполная". Мозг такой: понял-принял.

И ну худеть.

А ещё хорошо бы к ии-генерациям такую ложку - берешь в рот, и генерация кажется красивее, чем на экране.

Впрочем я увлекся, тут и без ложек все давно придумано нутрициологом Лири.

@cgevent
Семя Шума.

Никогда не переводите интерфейсы, пожалуйста.
Это плохо по многим причинам.

Помню, когда писал книжку по Maya, задумался вначале, а потом просто взял жаргон из форумов: ноды, шейдеры, джойнты.
Ну нельзя перевести скрининг как кожинг, а риггинг как обвесинг.

Поэтому узлы и суставы так и не прижились в 3д сообществе.

Теперь вот горе переводчики идут по старым граблям.

Семя, мать, его шума.

Есть же понятные всем сид и нойз.

Не делайте глазам больно!

@cgevent
Hallo 3. Опенсорсная альтернатива Heygen и Hedra.

Вышла уже третья версия оживлятора лиц. Я много писал про них тут, а EMO от Алибабы мы так и не дождались.

Вторая версия Hallo меня совсем не впечатлила.

В третьей они пошли новым путем. ВзялиCogVideo-5B I2V - самый ловкий image2video в опенсорсе и до тренировали свою модель.

Как следствие, появилась поддержка очков, причёсок, цацок и даже анимация фона. А также нетривиальные ракурсы лица типа в профиль.

Но, честно сказать, качество совсем не огонь. На поляне аватаров опенсорс отстаёт от коммерческих решений довольно сильно.

https://fudan-generative-vision.github.io/hallo3/

Код:
https://github.com/fudan-generative-vision/hallo3

@cgevent
Если вы хотите позапускать Nvidia Cosmos локально, да ещё и в Комфи, то вот тут есть весь фарш для этого:
https://www.reddit.com/r/StableDiffusion/s/uBRPDNvUyc

Там и ссылки на FP8, и дискуссии про память(формально 32, народ упихивает в 16), и воркфлоу от самого комфианономуса.

Я пока сижу в аэропорту Гизы, протестировать не могу, жду в безумцев комментах.

https://huggingface.co/callcenterstudio/cosmos-FP8

@cgevent
К вопросу про "позапускать локально".

Твит экзистенциальный, конечно.

В комментах народ ломает голову над не менее сложными вопросами типа "если она опенсорснутая, то каков ея моральный облик".

Дабы не прослыть сексистом, вверну, что все это в симметричной мере относится и к AI boyfriend.

@cgevent
Forwarded from Psy Eyes
Media is too big
VIEW IN TELEGRAM
Tripo3D: обновили интерфейс своего 3D генератора и сделали его более удобным.

Теперь можно контролировать количество полигонов (Face Limit) в настройках генерации, для баланса между качеством и скоростью.

На вход можно подавать как текст (который можно улучшить), так и одну картинку или множество изображений.

Сайт — сгенерите первую модель получите 300 кредитов. Или вот код: USR9E6
Forwarded from Tensor Banana
Ускоряем Hunyuan video fast еще в 2 раза на винде

Есть оригинальный Hunyuan-video-13B, он работает за 20-30 шагов (20-30 минут на видео), а есть дистиллированный Hunyuan fast, который работает за 6-10 шагов. 6 шагов мне не нравятся, 10 выглядят намного лучше (10 минут на генерацию 1 видео в 720p, 2 секунды, 48 кадров).

Недавно вышел waveSpeed, который ускоряет flux, LTX и hunyuan в 1.5-2 раза в comfy на видюхах 3000 серии и новее с помощью двух технологий: first-block-cache и torch-model-compile+. На моей 3090 прирост скорости относительно Hunyuan fast - в 2 раза, до 4.6 минуты на 1 видео. Поддерживается воркфлоу от comfyanonymous. Воркфлоу от kijai пока не поддерживается.

Hunyuan из коробки умеет nsfw. Верх довольно неплохой, низ слегка зацензурен, но лучше, чем в дефолтном flux. Но умельцы уже наделели 100+ лор для Hunyuan на civitai для разных nsfw поз, движений, персонажей и стилей (в https://civitai.com/models ставим 2 фильтра: LoRA + Hunyuan video).

fast model, fp8: 
48 frames, 48s/it, 10 min, 19 GB vram, 39 GB RAM

fast model, sage-attention, first-block-cache:
48 frames, 25s/it, 5.6 min, 20 GB vram, 38 GB RAM

sage-attention, first-block-cache, compile+:
25 frames, 10s/it, 2.1 min, 18 GB vram, 29 GB RAM
48 frames, 22s/it, 4.7 min, 20 GB vram, 38 GB RAM
61 frames, 34s/it, 6.7 min
65 frames - OOM


Но compile+ ускоряет генерацию не всегда. Иногда torch compile занимает дополнительные 47 секунд. Перекомпилируется модель периодически, 1 раз в 2-3 генерации. Хз как побороть, скорее всего, vram мало, возможно, надо сделать меньше разрешение или количество кадров.

Предположу, что для работы Hunyuan хватит 32 GB RAM. У меня просто еще xtts+wav2lip в памяти висят. Если у вас в самом конце comfy вылетает без ошибок - снизьте разрешение или кол-во кадров.
Видел отзывы, что Hunyuan работает на 12 GB vram. Пока не тестил.


УСТАНОВКА

Нужен тритон и видюха 3000 серии или новее. 2000 серия nvidia не поддерживается. cuda toolkit 12.4+.
1. обновляем comfy через update_comfyui.bat

2. как установить тритон и sage-attention в комфи на винду:
https://www.reddit.com/r/StableDiffusion/comments/1h7hunp/how_to_run_hunyuanvideo_on_a_single_24gb_vram_card/
Первый шаг в этой инструкции пропускаем (установка нод kijai/ComfyUI-HunyuanVideoWrapper можно пропустить, мы будем использовать официальные ноды встроенные в комфи. Были отзывы, что в нодах от kijai пока не поддерживаются лоры при работе с first-block-cache). Выполняем пункты 2-4, включаем переводчик, если надо. Последние пункты 5-8 со скачиванием моделей не выполняем, мы скачаем другие, они меньше и быстрее.

3. Качаем clip_l.safetensors and llava_llama3_fp8_scaled и hunyuan_video_vae_bf16.safetensors: https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/
Качаем hunyuan fast: https://huggingface.co/Kijai/HunyuanVideo_comfy/blob/main/hunyuan_video_FastVideo_720_fp8_e4m3fn.safetensors и кладем в diffusion_models

4. в run_nvidia_gpu.bat для запуска comfy надо добавить флаг --use-sage-attention вот так:
.\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --use-sage-attention

5. Устанавливаем custom node через comfyui manager -> install via GIT URL:
https://github.com/chengzeyi/Comfy-WaveSpeed

6. Hunyuan воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/hunyuan_fast_wave_speed_with_lora.json
Flux воркфлоу: https://github.com/Mozer/comfy_stuff/blob/main/workflows/flux_wave_speed.json

Советы:
- 1280x720, 720x1280, 544x960, 960x544 - рекомендуемые разрешения. В остальных могут быть артефакты.
- при малом количестве кадров анимация может работать хуже и с артефактами, рекомендую 25 и 49 кадров (1 и 2 сек)
- img2video пока нет, но разрабы обещают. Есть video2video и IPadapter2video от kijai.


- FLUX dev (bonus) -
1024x1024 20 steps

FLUX - 1.26s/it, 26 s.
FBC - 1.21it/s, 17 s.
FBC + compile+ - 1.20it/s, 17 s.

Прирост скорости во флаксе + waveSpeed составил 35%.

Во флаксе compile+ не работает на 3000 серии с flux-fp8, но работает с bf16, из-за этого прироста скорости не заметно. В hunyuan compile+ работает и дает прирост.
Real World Photography Experimenter

Рубрика крутые подписчики.

Саша Мелентьев прислал мне очень годный Workflow в ComfyUI для комбинирования трех изображений в одну фотореалистичную фотографию. Доступен в облаке по ссылке ниже.

Очень хорош для создания "ювелирки", продуктовой фотографии, для портретов людей, а также для генерации концептов окружения. И, наверное, много чего еще...

Для примера. Берем подводный 3D рендер в Style, фотографию улицы в Env, кольцо с камнем в Obj - получаем кольцо на коралле в затопленном городе.

Тест здесь. Real World Photography Experimenter

Вообще, этот пост, судить если по картинкам в генерации, можно назвать "Девушка или ваза".

@cgevent