Метаверсище и ИИще
34.3K subscribers
4.4K photos
2.47K videos
39 files
5.41K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Kling "Custom Models" - это вообще-то прорыв.

Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.

Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.

Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.

Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.

Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.

В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.

@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В HeyGen новая фича - Photo Avatar

И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.

Почитайте полный пайплайн тут:

Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz

Ну, за дикторов и блоггеров..

@cgevent
ConsiStory: Training-Free Consistent Text-to-Image Generation

Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux

Код
Демо

#personalization #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто в Блендоре и для тех, кто до сих пор делает аватаров в 3Д.

Выглядит нарядно, согласитесь?

https://www.polyhammer.com/

@cgevent
Media is too big
VIEW IN TELEGRAM
Мнемонад.

Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.


Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.

Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.

А я понял, что мне это все напоминает.

Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.

Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.

Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.

Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.

Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Давайте я доверну мысль из предыдущего поста, а то поздно, дед забыл принять таблетки и лыко вяжет плохо.
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.

А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.

Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?

Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Большой Хуньянь и Хуньянь 3Д.

У Тенсента есть, вообще-то говоря, неплохой генератор картинок.
https://github.com/Tencent/HunyuanDiT
Там хорошее понимание промпта, но к качеству есть вопросы, разбирал тут.

Так вот, вчера они бахнули 3Д генератор.
https://github.com/Tencent/Hunyuan3D-1
Главная фича - это быстро и это опенсорс.
Судя по тестам - звезд с неба не хватает. Там они генерят своим генератором картинок разные ракурсы, а потом с помощью Marching Cubes выгрызают сетку из микрокубиков.
У них получаются довольно ловкие текстуры(хорошие картинки), но шейпы похожи на обмылки.
Можно развести локально, демо они не предоставили, локально жрет 24 гига VRAM.

Более того, вчера же вышла Tencent-Hunyuan-Large - большая языковая модель, на основе Transformer и MoE. Модель 389 миллиардов параметров, контекст 256K токенов.
https://github.com/Tencent/Tencent-Hunyuan-Large

По их же картинкам-табличкам-метрикам она побивает и большую Ламу 405B и замахивается на OpenAI и Антропис.
Тут ничего не могу сказать, но есть демо:
https://huggingface.co/spaces/tencent/Hunyuan-Large
Можете попробовать.

В общем у Тенсента уже есть полный джентельменский набор, картинки, 3Д, LLM.

А видеогенератор Minimax (это китайский стартап, если что) насобирал 250 миллионов, среди которых Тенсент основной инвестор.

И пока он лучший.

И на Гитхабе у них 192 репозитария.

@cgevent
Тут я понял, что надо пояснить за Tencent.

Многие знают, что это папа и владелец WeChat и всей этой огромной экосистемы.

Немногие знают, что, например, они владеют 40% от Epic Games. Да, тот самый, который UE
100% от Riot Games
84% от финской Supercell
100% норвежской Funcom

Ну в общем это как бы монстр.

Вот вам картинка с их долями.

Ну и все, кто говорят, что развитие ИИ надо сдерживать, как-то забывают, что есть Тенсент с неограниченным ресурсом, и которому на эти сдерживания будет начхать.

А техно-оптимистам остается порадоваться, что ИИ без денег не останется по-любому.

@cgevent
А почему все молчат?

FLUX1.1 [pro] Ultra and Raw Modes

В четыре раза большее разрешение при почти том же времени генерации(4mp)

Raw Mode - cуперфотореализьм.

Уже завезли в Krea.ai

И на репликейт
https://replicate.com/black-forest-labs/flux-1.1-pro-ultra

И на фал
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra

Новость:
https://blackforestlabs.ai/flux-1-1-ultra/

@cgevent
Flux 1.1 Ultra Raw Mode
Для тех, кто запутался в разрешениях.

Ну не генерит Flux 1.1 pro ultra ничего в 4к.

У них на сайте прямо сказано - 4MP.
Это, грубо говоря, 2к. А точнее, если перемножить х и у, то должно получаться около 4 миллионов пикселей.

4к - это, опять же, грубо говоря, 8 мегапикселей. Около 8.3МP.


Обычно 4к используется больше для разрешений камер, а не картинок:
3840 x 2160 (8,294,400 pixels) или 4096×2160 (8,847,360 pixels).

Короче, 4МP - это примерно 2к. И это щас умеет Flux 1.1 pro ultra. А не 4к.

https://www.cctv-outlet.com/news/1080p-vs-4mp-vs-2k-vs-4k-whats-their-differences/

@cgevent
А поглядите на такое видео. Очень познавательно. 2 минуты

https://www.youtube.com/watch?v=eQEaiZ2j9oc
Тот случай, когда 3Д нужно не для радости, а для информации и точности.
Для радости у нас есть ИИ, но им такое точно не сделать.

А видео мне нравится, во-первых, своей понятностью и познавательностью. Расширяет представление о том, как мы слушаем Suno и Udio.
А во-вторых, интересно подумать, после 1:38, что можно пристроиться в эту цепочку со своим сигналом, подавать в кожаный мозг импульсы не из воздуха(акустика), а из аудиофайла напрямую, через ЦАП.

Я уже писал про кохлеарные имплантанты - эта тема меня не отпускает - маленький ребенок, который НИКОГДА не слышал звуков, вдруг начинает чувствовать некоторые электрические импульсы (вообще-то даже непонятно, что он начинает чувствовать, так как это отклик нервной системы, а не сенсорные ощущения). То есть он начинает чувствовать некий шум в голове, причем шум не акустический, а "нервный".
И постепенно, мозг на учится воспринимать этот канал связи как слух!
Подробнее тут:
https://t.iss.one/cgevent/8250

Подумайте, на каких сигналах мы можем еще дообучить мозг.

А я пойду перечитаю свои посты, как мозг добровольцев обучали определять направление на север с помощью обратной связи. Раньше больше писал про мозги, сейчас со всеми этим флюксами и минимаксами забросил. А зря наверное, материала много.

@cgevent
Очень годный подкаст.

Гость нового выпуска Sravni Podcast — Валера Бабушкин, эксперт в области ML и анализа данных, автор книги о проектировании ML-систем.

Обсудили будущее машинного обучения, сложности с поиском хороших инженеров и менеджеров, несовершенство собеседований и специфику работы в big tech.

Также в этом выпуске:

- Неизвестный бэкграунд Валеры: чем занимался ранее?
- Компетенции, ошибки и карьерный путь ML-специалистов
- Полезные материалы, которые помогут лучше понять ML
- Кто самый крутой в ML прямо сейчас — среди отдельных экспертов и компаний

А ещё разыгрывается книга Валеры — смотрите выпуск до конца и участвуйте в конкурсе.

YouTube
RUTUBE
Яндекс Музыка
Mochi-Tamagochi. Разбираемся с опен-сорсным видео-генератором Genmo\Mochi-1.

Тут я немного размечу опен-сорсную поляну для начала.
На ней топчутся и конкурируют друг с другом:
Open Sora - самый старый проект, но одновременно самый заброшенный и по качеству самый слабый.

CogVideo - хорошо развивается, есть много форков и параллельных веток, есть модели 2B и 5B, есть image2video. Последние обновления в октябре.

Allegro - бодрый новичок, нет image2video, multiGPU support.

PyramidFlow - очень многообещающий проект. Есть image2video. Только что перетренировали на базе Flux. Есть старая модель 720p на базе SD30 и новая 384p (miniflux). Обещают скоро новую 720р модель. Есть MultiGPU.

Для всего этого списка есть поддержка ComfyUI от великого и могучего Jukka Seppänen
https://github.com/kijai?tab=repositories

А теперь перейдем к Mochi.
Главный недостаток - нет image2video.
Вначале было заявлено, что нужно 4 карты H100, чтобы это все посчитать. Действительно, в две A100 это не влезало по памяти, я проверял. На восьми считалось неторопливо. Но считалось. Но результат меня не так чтобы впечатлил.

Далее.
Есть как бы вполне себе коммерческий генератор Genmo, а Mochi-1 - это как бы исходный код, элегантно выложенный в опен сорс. Хороший пиар ход, имхо.

Но.
Результаты генерации у них на сайте (за деньги или унылые 3 бесплатных попытки) разительно отличаются от локальный генераций в Комфи или из командной строки.

В Комфи Jukka Seppänen сразу сделал так, чтобы это влезало в 24 гига, сократив требования с 320 гиг до 20 гиг VRAM. Это прям разорвало мне мозг.

И вот теперь, вышел анонс от самого ComfyUI, что они поддерживают Мочи на обычных видеокартах.

Там есть инструкции, что и откуда скачивать, бывалые разберутся, правда и там путаницы хватает. То ссылки на полные веса, то на пожатые. Но не суть - я протестировал все, вплоть до 40гиговых непожатых весов и без вае тайлинга.
Результат НЕ радует.

Более того, репозитарий Mochi-1 -
это самый кривой и косой репозитарий из всех моделей.
Ставится все плохо, с ошибками, пути перепутаны и такое ощущение, что разработчики выкладывали код именно как пиар-акцию, на отвали. Отвечают медленно, обновляют также.

Я немного прижал их вопросами, почему у них так сладенько на сайте и так кривенько локально.
Они заявили, что на сайте тоже модель 480р, что нет улучшайзера, что дело в промптах. Что у них на сайте стоит auto-prompter, который раскучерявливает промпты до годного. Я попросил поделиться примерами, ушли в тень, сказали "потом".
В общем у меня странные чувства по поводу этого генератора. Jukka говорит, что там есть апскейлер, но меня больше всего подбешивает их картиночка с метриками тут, где они на гнилой козе якобы обходят, внимание, Runway, Kling и Luma.

Тут мое доверие иссякло. Мне не нравится, то, что они делают.

А локальные генерации у них на уровне Пирамиды или Кога. Может чуть лучше. Но до закрытых генераторов им как до Луны, там все очень грустно. И никакой управляемости. Рулетка text2image. Да, я сделал лисичку с их сайта. Но твари от Кога мне нравятся больше.

Но есть и хорошая новость, народ запускает Мочи на 3060 с 12 гиг врам. Можете попробовать, вот инструкция:
https://www.reddit.com/r/StableDiffusion/s/z4ZA3fPKXz

У меня все, надеюсь полезно. Хоть и недобро.

@cgevent