This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Kling "Custom Models" - это вообще-то прорыв.
Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.
Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.
Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.
Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.
Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.
В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.
@cgevent
Это вам не image2video.
Это не face swap и метадипфейки.
Это не LivePortrait и метамокап.
По смыслу это ближе всего к Hedra - но это все равно из прошлого поколения, где на входе одна картинка, которая натягивается на порождения латентного разума.
Здесь на входе - видео. Еще одно измерение. Из которого Клинг тащит информацию о консистентности и ворлдмоделистости. На входе Лор для картинок - картинки. На входе Лор для Клинга - видосы.
Как они за 15 минут тренят Лоры - ума не приложу. Подозреваю, что у них есть и более медленные, но качественные настройки.
Также подозреваю, что остальные товарищи также сейчас расчехлятся с Лорами.
Но самое интересное, что народ уже делает постметаЛоры - берет картинку из Midjourney(wherever), делает из нее видосы Клингом же. Кормит эти видосы Клингу же, как материал для обучения. И получает Лору, для генерации консистентнейшего видео с этим самым персонажем из Midjourney.
Тут за кадром вопрос, что на реальных видосах (для обучения лор) динамика движения кожаного лица натуральная, скажем так. А на сгенеренных по Midjourney-картинке видосах - динамика клинго-изобретенная. По которой он выдаст Лору. Иимбридинг, так сказать. Но это мелочи.
В общем, стоп-кран сорван. Видео-лоры в городе. И щас пойдет борьба за юзера и тарифы.
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В HeyGen новая фича - Photo Avatar
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
И да, она тоже связана с тренировкой своих аватаров на пачке входных изображений.
Почитайте полный пайплайн тут:
Если вкратце: Flux, Magnific, Heygen, Elevent Labs, chatGPT, Topaz
Ну, за дикторов и блоггеров..
@cgevent
Forwarded from Нейронавт | Нейросети в творчестве
ConsiStory: Training-Free Consistent Text-to-Image Generation
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
Генерация консистентных изображений без дообучения от Nvidia. Модель тизернули еще летом, код опубликовали вчера.
скорость - 10 секунд на 1 генерацию (какого разрешения?) на H100
Работает на SDXL, в будущем добавят поддержку Flux
Код
Демо
#personalization #text2image
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто в Блендоре и для тех, кто до сих пор делает аватаров в 3Д.
Выглядит нарядно, согласитесь?
https://www.polyhammer.com/
@cgevent
Выглядит нарядно, согласитесь?
https://www.polyhammer.com/
@cgevent
Media is too big
VIEW IN TELEGRAM
Мнемонад.
Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.
Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.
Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.
А я понял, что мне это все напоминает.
Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.
Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.
Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.
Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.
Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.
@cgevent
Вот держите еще один ИИ-фильм, который навыигрывал тучу призов.
Да, тут наверное один из лучших ии-липсинков на планете и сделано все очень добротно.
Я не люблю постить работы без пайплайнов или истории их изготовления, поэтому вот вам описание того, как это было сделано и какие кнопачки надо нажимать в Клинге, Рунвее и Премьере, чтобы помучиться и получить желаемое.
А я понял, что мне это все напоминает.
Это как бы прошаренные превизы. Анимированные раскадровки на стероидах. Нейрочерновики.
Прогуглите, что такое превизы, кто не в курсе. Есть целые компании типа Third Flow, которые занимаются только превизами.
Так вот, я смотрю на эти ИИ-фильмы и вижу, что глаза глядят не туда, что ножки проскальзывают, что эмоции не соответствуют моменту - но я В ПРИНЦИПЕ понимаю, что хотел сказать автор, какую историю он хочет рассказать, какая идея стоит за этим неуклюжими сценами. Среди которых могут быть просто гениальные 2-5 секундные шоты, но в целом - это красочный, но неуклюжий превиз. Только в превизе всегда есть контроль камеры, а тут нет. За камерой сидит нейросеть на ИИ-грибах.
Поэтому я честно считываю все эти истории, как будто листаю сценарий с картинками. Но в сторителлинг это не складывается до конца. Это сторителлинг на пальцах. На ИИ-пальцах.
Самые убойные результаты нам пока демонстрирует video2video. Да потому-то на входе - кожаное видео. Снятое ручками. Родовой контролНет, так сказать.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Давайте я доверну мысль из предыдущего поста, а то поздно, дед забыл принять таблетки и лыко вяжет плохо.
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.
А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.
Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?
Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.
@cgevent
Вот смотрите, есть всякие I2P адаптеры, ну или можно просто скормить в chatGPT картинку и сказать, сделай мне детальный промпт, чтобы сгенерить похожее. Он сделает.
А теперь представьте, что вы ему даете на вхот 10-минутное видео и говорите, а сделай, дружок, промптик, чтобы сгенерить похожее видео. Как будет выглядеть этот промпт.
Вы наверное ему даже референсов можете приподнаподсовывать (image2video), но все равно, размером с какую планету будет промпт для генерации 10-минутного видео с рассказом истории по референсам?
Это я к тому, что у видео измерений не два(x,y) плюс время(t), а сильно больше. И все они участвуют в сторителлинге.
Это у комиксов x,y и t.
И у мемных видосов со взрывом мозгов или сплющиванием объектов.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Большой Хуньянь и Хуньянь 3Д.
У Тенсента есть, вообще-то говоря, неплохой генератор картинок.
https://github.com/Tencent/HunyuanDiT
Там хорошее понимание промпта, но к качеству есть вопросы, разбирал тут.
Так вот, вчера они бахнули 3Д генератор.
https://github.com/Tencent/Hunyuan3D-1
Главная фича - это быстро и это опенсорс.
Судя по тестам - звезд с неба не хватает. Там они генерят своим генератором картинок разные ракурсы, а потом с помощью Marching Cubes выгрызают сетку из микрокубиков.
У них получаются довольно ловкие текстуры(хорошие картинки), но шейпы похожи на обмылки.
Можно развести локально, демо они не предоставили, локально жрет 24 гига VRAM.
Более того, вчера же вышла Tencent-Hunyuan-Large - большая языковая модель, на основе Transformer и MoE. Модель 389 миллиардов параметров, контекст 256K токенов.
https://github.com/Tencent/Tencent-Hunyuan-Large
По их же картинкам-табличкам-метрикам она побивает и большую Ламу 405B и замахивается на OpenAI и Антропис.
Тут ничего не могу сказать, но есть демо:
https://huggingface.co/spaces/tencent/Hunyuan-Large
Можете попробовать.
В общем у Тенсента уже есть полный джентельменский набор, картинки, 3Д, LLM.
А видеогенератор Minimax (это китайский стартап, если что) насобирал 250 миллионов, среди которых Тенсент основной инвестор.
И пока он лучший.
И на Гитхабе у них 192 репозитария.
@cgevent
У Тенсента есть, вообще-то говоря, неплохой генератор картинок.
https://github.com/Tencent/HunyuanDiT
Там хорошее понимание промпта, но к качеству есть вопросы, разбирал тут.
Так вот, вчера они бахнули 3Д генератор.
https://github.com/Tencent/Hunyuan3D-1
Главная фича - это быстро и это опенсорс.
Судя по тестам - звезд с неба не хватает. Там они генерят своим генератором картинок разные ракурсы, а потом с помощью Marching Cubes выгрызают сетку из микрокубиков.
У них получаются довольно ловкие текстуры(хорошие картинки), но шейпы похожи на обмылки.
Можно развести локально, демо они не предоставили, локально жрет 24 гига VRAM.
Более того, вчера же вышла Tencent-Hunyuan-Large - большая языковая модель, на основе Transformer и MoE. Модель 389 миллиардов параметров, контекст 256K токенов.
https://github.com/Tencent/Tencent-Hunyuan-Large
По их же картинкам-табличкам-метрикам она побивает и большую Ламу 405B и замахивается на OpenAI и Антропис.
Тут ничего не могу сказать, но есть демо:
https://huggingface.co/spaces/tencent/Hunyuan-Large
Можете попробовать.
В общем у Тенсента уже есть полный джентельменский набор, картинки, 3Д, LLM.
А видеогенератор Minimax (это китайский стартап, если что) насобирал 250 миллионов, среди которых Тенсент основной инвестор.
И пока он лучший.
И на Гитхабе у них 192 репозитария.
@cgevent
Тут я понял, что надо пояснить за Tencent.
Многие знают, что это папа и владелец WeChat и всей этой огромной экосистемы.
Немногие знают, что, например, они владеют 40% от Epic Games. Да, тот самый, который UE
100% от Riot Games
84% от финской Supercell
100% норвежской Funcom
Ну в общем это как бы монстр.
Вот вам картинка с их долями.
Ну и все, кто говорят, что развитие ИИ надо сдерживать, как-то забывают, что есть Тенсент с неограниченным ресурсом, и которому на эти сдерживания будет начхать.
А техно-оптимистам остается порадоваться, что ИИ без денег не останется по-любому.
@cgevent
Многие знают, что это папа и владелец WeChat и всей этой огромной экосистемы.
Немногие знают, что, например, они владеют 40% от Epic Games. Да, тот самый, который UE
100% от Riot Games
84% от финской Supercell
100% норвежской Funcom
Ну в общем это как бы монстр.
Вот вам картинка с их долями.
Ну и все, кто говорят, что развитие ИИ надо сдерживать, как-то забывают, что есть Тенсент с неограниченным ресурсом, и которому на эти сдерживания будет начхать.
А техно-оптимистам остается порадоваться, что ИИ без денег не останется по-любому.
@cgevent
А почему все молчат?
FLUX1.1 [pro] Ultra and Raw Modes
В четыре раза большее разрешение при почти том же времени генерации(4mp)
Raw Mode - cуперфотореализьм.
Уже завезли в Krea.ai
И на репликейт
https://replicate.com/black-forest-labs/flux-1.1-pro-ultra
И на фал
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra
Новость:
https://blackforestlabs.ai/flux-1-1-ultra/
@cgevent
FLUX1.1 [pro] Ultra and Raw Modes
В четыре раза большее разрешение при почти том же времени генерации(4mp)
Raw Mode - cуперфотореализьм.
Уже завезли в Krea.ai
И на репликейт
https://replicate.com/black-forest-labs/flux-1.1-pro-ultra
И на фал
https://fal.ai/models/fal-ai/flux-pro/v1.1-ultra
Новость:
https://blackforestlabs.ai/flux-1-1-ultra/
@cgevent
Replicate
black-forest-labs/flux-1.1-pro-ultra – Replicate
FLUX1.1 [pro] in ultra and raw modes. Images are up to 4 megapixels. Use raw mode for realism.
Для тех, кто запутался в разрешениях.
Ну не генерит Flux 1.1 pro ultra ничего в 4к.
У них на сайте прямо сказано - 4MP.
Это, грубо говоря, 2к. А точнее, если перемножить х и у, то должно получаться около 4 миллионов пикселей.
4к - это, опять же, грубо говоря, 8 мегапикселей. Около 8.3МP.
Обычно 4к используется больше для разрешений камер, а не картинок:
3840 x 2160 (8,294,400 pixels) или 4096×2160 (8,847,360 pixels).
Короче, 4МP - это примерно 2к. И это щас умеет Flux 1.1 pro ultra. А не 4к.
https://www.cctv-outlet.com/news/1080p-vs-4mp-vs-2k-vs-4k-whats-their-differences/
@cgevent
Ну не генерит Flux 1.1 pro ultra ничего в 4к.
У них на сайте прямо сказано - 4MP.
Это, грубо говоря, 2к. А точнее, если перемножить х и у, то должно получаться около 4 миллионов пикселей.
4к - это, опять же, грубо говоря, 8 мегапикселей. Около 8.3МP.
Обычно 4к используется больше для разрешений камер, а не картинок:
3840 x 2160 (8,294,400 pixels) или 4096×2160 (8,847,360 pixels).
Короче, 4МP - это примерно 2к. И это щас умеет Flux 1.1 pro ultra. А не 4к.
https://www.cctv-outlet.com/news/1080p-vs-4mp-vs-2k-vs-4k-whats-their-differences/
@cgevent
А поглядите на такое видео. Очень познавательно. 2 минуты
https://www.youtube.com/watch?v=eQEaiZ2j9oc
Тот случай, когда 3Д нужно не для радости, а для информации и точности.
Для радости у нас есть ИИ, но им такое точно не сделать.
А видео мне нравится, во-первых, своей понятностью и познавательностью. Расширяет представление о том, как мы слушаем Suno и Udio.
А во-вторых, интересно подумать, после 1:38, что можно пристроиться в эту цепочку со своим сигналом, подавать в кожаный мозг импульсы не из воздуха(акустика), а из аудиофайла напрямую, через ЦАП.
Я уже писал про кохлеарные имплантанты - эта тема меня не отпускает - маленький ребенок, который НИКОГДА не слышал звуков, вдруг начинает чувствовать некоторые электрические импульсы (вообще-то даже непонятно, что он начинает чувствовать, так как это отклик нервной системы, а не сенсорные ощущения). То есть он начинает чувствовать некий шум в голове, причем шум не акустический, а "нервный".
И постепенно, мозг на учится воспринимать этот канал связи как слух!
Подробнее тут:
https://t.iss.one/cgevent/8250
Подумайте, на каких сигналах мы можем еще дообучить мозг.
А я пойду перечитаю свои посты, как мозг добровольцев обучали определять направление на север с помощью обратной связи. Раньше больше писал про мозги, сейчас со всеми этим флюксами и минимаксами забросил. А зря наверное, материала много.
@cgevent
https://www.youtube.com/watch?v=eQEaiZ2j9oc
Тот случай, когда 3Д нужно не для радости, а для информации и точности.
Для радости у нас есть ИИ, но им такое точно не сделать.
А видео мне нравится, во-первых, своей понятностью и познавательностью. Расширяет представление о том, как мы слушаем Suno и Udio.
А во-вторых, интересно подумать, после 1:38, что можно пристроиться в эту цепочку со своим сигналом, подавать в кожаный мозг импульсы не из воздуха(акустика), а из аудиофайла напрямую, через ЦАП.
Я уже писал про кохлеарные имплантанты - эта тема меня не отпускает - маленький ребенок, который НИКОГДА не слышал звуков, вдруг начинает чувствовать некоторые электрические импульсы (вообще-то даже непонятно, что он начинает чувствовать, так как это отклик нервной системы, а не сенсорные ощущения). То есть он начинает чувствовать некий шум в голове, причем шум не акустический, а "нервный".
И постепенно, мозг на учится воспринимать этот канал связи как слух!
Подробнее тут:
https://t.iss.one/cgevent/8250
Подумайте, на каких сигналах мы можем еще дообучить мозг.
А я пойду перечитаю свои посты, как мозг добровольцев обучали определять направление на север с помощью обратной связи. Раньше больше писал про мозги, сейчас со всеми этим флюксами и минимаксами забросил. А зря наверное, материала много.
@cgevent
YouTube
Journey of Sound to the Brain
Learn how sounds make their way from the source to your brain. To learn more about how we hear, visit the National Institute on Deafness and Other Communication Disorders at https://www.nidcd.nih.gov.
A Spanish language version of this video is available…
A Spanish language version of this video is available…
Очень годный подкаст.
Гость нового выпуска Sravni Podcast — Валера Бабушкин, эксперт в области ML и анализа данных, автор книги о проектировании ML-систем.
Обсудили будущее машинного обучения, сложности с поиском хороших инженеров и менеджеров, несовершенство собеседований и специфику работы в big tech.
Также в этом выпуске:
- Неизвестный бэкграунд Валеры: чем занимался ранее?
- Компетенции, ошибки и карьерный путь ML-специалистов
- Полезные материалы, которые помогут лучше понять ML
- Кто самый крутой в ML прямо сейчас — среди отдельных экспертов и компаний
А ещё разыгрывается книга Валеры — смотрите выпуск до конца и участвуйте в конкурсе.
✅YouTube
✅RUTUBE
✅Яндекс Музыка
Гость нового выпуска Sravni Podcast — Валера Бабушкин, эксперт в области ML и анализа данных, автор книги о проектировании ML-систем.
Обсудили будущее машинного обучения, сложности с поиском хороших инженеров и менеджеров, несовершенство собеседований и специфику работы в big tech.
Также в этом выпуске:
- Неизвестный бэкграунд Валеры: чем занимался ранее?
- Компетенции, ошибки и карьерный путь ML-специалистов
- Полезные материалы, которые помогут лучше понять ML
- Кто самый крутой в ML прямо сейчас — среди отдельных экспертов и компаний
А ещё разыгрывается книга Валеры — смотрите выпуск до конца и участвуйте в конкурсе.
✅YouTube
✅RUTUBE
✅Яндекс Музыка