Помните, как когда-то мы перепаивали Geforce256 в Quadro, надеясь получить прирост в скорости работы во вьюпорте Maya? Конечно, не помните. Это было в ранних нулевых.
С тех пор я пристрастился к разным тестам на скорость и тестировал все джифорсы вплоть до GeForce 680.
Сейчас вот на волне ностальгии взял и протестировал скорость генерации картинок в Z-Image Turbo.
Взял разрешение 2048х2048, 9 шагов и прогнал это на разных видеокартах.
Почему Z-Image? Да просто у меня уже шаблон в комфи на сервере настроен со времен последних тестов.
Ну и конечно сейчас, в отличие от нулевых, не надо менять карты, наваливать драйвера, перезапускать систему.
Я просто пошел на immers.cloud, где у меня лежит загрузочный том с Убунтой и Комфи, а потом просто создавал сервера с разными видеокартами. Благо поднять сервак, указав ему сохраненный загрузочный том, занимает меньше минуты. Остается только запустить Комфи на сервере и нажать F5 в браузере, где открыта морда этого Комфи на ноуте.
Результаты собрал в табличку (см. картинку), дублирую тут:
H200 10 секунд
H100 14 секунд
A100 21 секунда
RTX4090 32 секунды
RTX3090 55 секунд
RTX2080TI 117 секунд (тут зимажу было мало памяти, он выгружался и загружался обратно).
К сожалению, RTX5090 и A5000 расхватаны, как горячие пирожки, просто нет свободных карт, поэтому я их покараулю и позже обновлю пост.
Выводы можете сделать сами, а я снова вкину свой традиционный комент о том, что все мы будем считать в облаке.
С такими ценами на память и ежегодным обновление линейки видеокарт будет просто жалко замораживать конское количество денег в железяку, которая начнет устаревать сразу после покупки. И вот отличие от автомобилей Trade In для карт никто не практикует.
Ну и я представил, сколько бы времени я убил на тестирование ручками реальных железяк и понял, что будущее строго за облаками. Создал сервак, посчитал, убил сервак. Всё.
В следующий раз протестирую видеогенерацию, правда надо найти воркфлоу, который бы влезал в 2080TI.
А ссылке можно получить +20% к пополнению счета для подписчиков канала.
@cgevent
С тех пор я пристрастился к разным тестам на скорость и тестировал все джифорсы вплоть до GeForce 680.
Сейчас вот на волне ностальгии взял и протестировал скорость генерации картинок в Z-Image Turbo.
Взял разрешение 2048х2048, 9 шагов и прогнал это на разных видеокартах.
Почему Z-Image? Да просто у меня уже шаблон в комфи на сервере настроен со времен последних тестов.
Ну и конечно сейчас, в отличие от нулевых, не надо менять карты, наваливать драйвера, перезапускать систему.
Я просто пошел на immers.cloud, где у меня лежит загрузочный том с Убунтой и Комфи, а потом просто создавал сервера с разными видеокартами. Благо поднять сервак, указав ему сохраненный загрузочный том, занимает меньше минуты. Остается только запустить Комфи на сервере и нажать F5 в браузере, где открыта морда этого Комфи на ноуте.
Результаты собрал в табличку (см. картинку), дублирую тут:
H200 10 секунд
H100 14 секунд
A100 21 секунда
RTX4090 32 секунды
RTX3090 55 секунд
RTX2080TI 117 секунд (тут зимажу было мало памяти, он выгружался и загружался обратно).
К сожалению, RTX5090 и A5000 расхватаны, как горячие пирожки, просто нет свободных карт, поэтому я их покараулю и позже обновлю пост.
Выводы можете сделать сами, а я снова вкину свой традиционный комент о том, что все мы будем считать в облаке.
С такими ценами на память и ежегодным обновление линейки видеокарт будет просто жалко замораживать конское количество денег в железяку, которая начнет устаревать сразу после покупки. И вот отличие от автомобилей Trade In для карт никто не практикует.
Ну и я представил, сколько бы времени я убил на тестирование ручками реальных железяк и понял, что будущее строго за облаками. Создал сервак, посчитал, убил сервак. Всё.
В следующий раз протестирую видеогенерацию, правда надо найти воркфлоу, который бы влезал в 2080TI.
А ссылке можно получить +20% к пополнению счета для подписчиков канала.
@cgevent
2👍49❤16👎12🔥5😁1😱1
Робот майкл джексон разбил голову кожаному своей массивной стальной ногой (https://t.iss.one/frac_tall/20)
ИИ-агенты уже начали размножаться, мутировать, скоро начнут зарабатывать собственные деньги. Эту эволюцию человек не сможет остановить (https://t.iss.one/frac_tall/22)
Все это, и не только, в некоммерческом канале “бредовый фрактал”:
• Апокалиптичные и смешные новости про ИИ и роботов
• Прогнозы и обсуждения про экономику, рынок труда, производство, философию
• Сообщество людей желающих выжить в новой реальности
бредовый фрактал. подписаться.
ИИ-агенты уже начали размножаться, мутировать, скоро начнут зарабатывать собственные деньги. Эту эволюцию человек не сможет остановить (https://t.iss.one/frac_tall/22)
Все это, и не только, в некоммерческом канале “бредовый фрактал”:
• Апокалиптичные и смешные новости про ИИ и роботов
• Прогнозы и обсуждения про экономику, рынок труда, производство, философию
• Сообщество людей желающих выжить в новой реальности
бредовый фрактал. подписаться.
Telegram
бредовый фрактал
ИИ-агенты уже начали размножаться, мутировать, скоро начнут зарабатывать собственные деньги. И эту эволюцию человек не сможет остановить
Для запуска процесса эволюции любых “организмов” нужно чтобы они:
- Выживали (гомеостаз)
- Размножались (репликация/…
Для запуска процесса эволюции любых “организмов” нужно чтобы они:
- Выживали (гомеостаз)
- Размножались (репликация/…
👎35😁14❤7🔥3
Давайте поразбираемся новой Нанабананой 2.
Как я и предсказывал в коментах мнения разделились. Кому-то нравится старушка Про, кто-то в восторге от деталей в новой "двушке".
Я остановлюсь на позитивных моментах.
В Nano Banana 2 вы можете создавать изображения с новыми соотношениями сторон: 4:1, 1:4, 8:1 и 1:8.
Например:
A 8:1 panoramic photo I took on my phone, showing the luscious mountain ski view from my cabin
И это работает!
Когда я делаю для этой панорамы "Redo with Pro", то панорама исчезает и остается 16:9. Ширина 5856 пикселей.
Улучшили генерацию текста.
Она быстрее.
Я тут неожиданно обнаружил скрытый (ранее от меня) функционал десктопной версии. Если загрузить картинку в Банану (через "+"), а потом кликнуть на самой картинке, то она откроется в полный размер. Так вот, по ней можно рисовать(да, я медленный, не знал). Я взял просто перечеркнул мышкой текст на картинке и сказал: "сделай, что нарисовано, сама пойми". И она быстро удалила текст. Ну то есть поддерживается Doodle-редактирование. Но это было и в Прошке, я подозреваю.
Subject consistency: Сходство до пяти персонажей и до 14 объектов в одном рабочем процессе, для раскадровок - огонь.
Более насыщенные текстуры и более четкие детали, сохраняя высокое качество при скорости, ожидаемой от Flash.
Новый ультра быстрый режим 512 px, для скоростных генераций (в интерфейсе Gemini App не работает).
Она умеет в поиск по картинкам в интернете.
Например: Use image search to find accurate images of [thing]. Create a beautiful 3:2 wallpaper of [thing], with a natural top to bottom gradient and minimal composition. Так сгенерил жирафа в полный 1:8 рост.
И она дешевле (и быстрее) Прошки
- 512px, 747 tokens, ~$0.045
- 1K (1024x1024px), 1120 tokens, ~$0.067
- 2K (2048x2048px), 1680 tokens, ~$0.101
- 4K (4096x4096px), 2520 tokens, ~$0.151
Прошка:
- 1K and 2K, ~$0.134
- 4K, ~$0.24
В Gemini она теперь по умолчанию везде (обновили), и Прошка доступна только через Redo With Pro (для Pro и Ultra-подписчиков). Ну или через API - раскатали на fal.ai и других провайдеров (там же есть Seed и Edit).
Также по дефолту она теперь во Flow (https://labs.google/fx/tools/flow) - там можно выбирать между 2 и Про.
Кстати, Whisk закрыли и перенесли его во Flow.
В общем, наваливаемся, тестируем, комментируем.
P.S. У Нанабананы 2 есть свой твиттор, там хорошие примеры генераций вместе с промптами.
https://x.com/NanoBanana
@cgevent
Как я и предсказывал в коментах мнения разделились. Кому-то нравится старушка Про, кто-то в восторге от деталей в новой "двушке".
Я остановлюсь на позитивных моментах.
В Nano Banana 2 вы можете создавать изображения с новыми соотношениями сторон: 4:1, 1:4, 8:1 и 1:8.
Например:
A 8:1 panoramic photo I took on my phone, showing the luscious mountain ski view from my cabin
И это работает!
Когда я делаю для этой панорамы "Redo with Pro", то панорама исчезает и остается 16:9. Ширина 5856 пикселей.
Улучшили генерацию текста.
Она быстрее.
Я тут неожиданно обнаружил скрытый (ранее от меня) функционал десктопной версии. Если загрузить картинку в Банану (через "+"), а потом кликнуть на самой картинке, то она откроется в полный размер. Так вот, по ней можно рисовать(да, я медленный, не знал). Я взял просто перечеркнул мышкой текст на картинке и сказал: "сделай, что нарисовано, сама пойми". И она быстро удалила текст. Ну то есть поддерживается Doodle-редактирование. Но это было и в Прошке, я подозреваю.
Subject consistency: Сходство до пяти персонажей и до 14 объектов в одном рабочем процессе, для раскадровок - огонь.
Более насыщенные текстуры и более четкие детали, сохраняя высокое качество при скорости, ожидаемой от Flash.
Новый ультра быстрый режим 512 px, для скоростных генераций (в интерфейсе Gemini App не работает).
Она умеет в поиск по картинкам в интернете.
Например: Use image search to find accurate images of [thing]. Create a beautiful 3:2 wallpaper of [thing], with a natural top to bottom gradient and minimal composition. Так сгенерил жирафа в полный 1:8 рост.
И она дешевле (и быстрее) Прошки
- 512px, 747 tokens, ~$0.045
- 1K (1024x1024px), 1120 tokens, ~$0.067
- 2K (2048x2048px), 1680 tokens, ~$0.101
- 4K (4096x4096px), 2520 tokens, ~$0.151
Прошка:
- 1K and 2K, ~$0.134
- 4K, ~$0.24
В Gemini она теперь по умолчанию везде (обновили), и Прошка доступна только через Redo With Pro (для Pro и Ultra-подписчиков). Ну или через API - раскатали на fal.ai и других провайдеров (там же есть Seed и Edit).
Также по дефолту она теперь во Flow (https://labs.google/fx/tools/flow) - там можно выбирать между 2 и Про.
Кстати, Whisk закрыли и перенесли его во Flow.
В общем, наваливаемся, тестируем, комментируем.
P.S. У Нанабананы 2 есть свой твиттор, там хорошие примеры генераций вместе с промптами.
https://x.com/NanoBanana
@cgevent
1❤32👍19🔥2
Forwarded from Psy Eyes
QuiverAI: выпустили Arrow, генератор векторных SVG файлов.
Может как генерить графику по тексту, так и векторизовать имеющуюся картинку.
Промт понимает неплохо и за один заход генерит 4 разные картинки, то есть с вариативностью ок.
Из любопытного — рисует в реальном времени на экране (но может застревать).
20 бесплатных кредитов на халяву, что хватит на 5 генераций.
Похожий инструмент для вектора есть у Recraft.
Сайт
Твит
Может как генерить графику по тексту, так и векторизовать имеющуюся картинку.
Промт понимает неплохо и за один заход генерит 4 разные картинки, то есть с вариативностью ок.
Из любопытного — рисует в реальном времени на экране (но может застревать).
20 бесплатных кредитов на халяву, что хватит на 5 генераций.
Похожий инструмент для вектора есть у Recraft.
Сайт
Твит
❤19👍8🔥8👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за минисериалы!
Ну и не за мини тоже..
Кстати, хорошая идея менять актеров на ИИ-котов. Никакой Дисней не докопаецца.
@cgevent
Ну и не за мини тоже..
Кстати, хорошая идея менять актеров на ИИ-котов. Никакой Дисней не докопаецца.
@cgevent
😁119🔥16❤7😱5👍2
Подсобрал и перевел новости про Сиденс и то, как его(и не только) уже используют в Китае.
В то время как остальной мир всё ещё ждёт доступа к API, китайские производственные компании незаметно используют Seedance 2.0 для реализации реальных коммерческих проектов. Появляющиеся цифры трудно игнорировать.
Согласно сообщениям 36Kr, ведущие китайские платформы для коротких сериалов, интегрировавшие Seedance 2.0 в свои процессы, зафиксировали снижение производственных затрат более чем на 60%. Один 10-серийный короткометражный сериал, который раньше стоил десятки тысяч долларов и требовал 7-10 дней на производство, теперь выходит за 1-2 дня. Команды электронной коммерции сообщают о 28-процентном увеличении коэффициента конверсии видеороликов о товарах, созданных с помощью ИИ, при этом стоимость одного видеоролика снизилась с сотен долларов до однозначных цифр.
Сериалы уже отправляются покупателям.
Китайские студии представляют массовому зрителю фильмы и сериалы, созданные с помощью ИИ, и зарабатывают на этом реальные деньги.
«Завтра – понедельник» (《明日周一》) – это прорывной пример. Команда из 10 человек, включая 40 фрилансеров, за 45 дней создала 50 эпизодов этой маньхуа-драмы с помощью искусственного интеллекта. Сериал собрал более 3 миллиардов просмотров, принес около 700 000 долларов от продажи товаров и около 280 000 долларов прибыли. Для производства, которое традиционными методами заняло бы месяцы и потребовало бы гораздо большей команды, эти экономические показатели говорят сами за себя.
Это не единичный пример. «Я босс в апокалипсисе, и все мои сотрудники — мутанты S-ранга» (《我在末世当老板》) — манхва, созданная с использованием искусственного интеллекта, — приносит более 280 000 долларов ежемесячной выручки.
«Король фэн-шуй» (《风水之王》), фотореалистичная манхва, созданная с помощью искусственного интеллекта, на платформе Hongguo, набрала более 1 миллиона просмотров и принесла около 240 000 долларов общей выручки.
Это не экспериментальные короткометражки, размещенные в портфолио. Это коммерческие проекты, приносящие реальный доход при значительно меньших затратах по сравнению с традиционными методами.
В фильме о боевых искусствах «Бяо Жэнь» в финальные титры были включены фрагменты, созданные с помощью Seedance 2.0 — сообщается, что 81-летний режиссер Юэнь Ву-пин решил поэкспериментировать с этим после того, как увидел, как этот ролик стал вирусным во время постпродакшена.
Сюй Иран, руководитель отдела 3D-анимации в Шанхайской киношколе Ванкувера, тестирует Seedance 2.0 для производства анимации. Его оценка сдержанная, но показательная: модель достигла порога качества, необходимого для создания рекламы и короткометражных фильмов. Проблема согласованности персонажей — то, что делало все предыдущие инструменты ИИ для создания видеоконтента непригодными для художественных работ — теперь решена на уровне, который он описывает как качественный скачок.
По мнению как китайских производственных команд, оптимальный вариант — 15-секундные рекламные ролики и корпоративные видео продолжительностью 3-5 минут. Работа, которая раньше требовала бюджета более 12 000 долларов на концепцию, теперь обходится в несколько сотен долларов. Речь идёт не о производственной части, а о презентации проекта. Заменяется этап проверки концепции. Заменяются первые три раунда вопросов типа «покажите, как это будет выглядеть», которые отнимают недели, прежде чем будет снят хотя бы один кадр.
Собственные платформы ByteDance — инструменты для создания контента с помощью ИИ от Jimeng и Dreamina от CapCut — активно продвигают создателей короткометражных драм и контента для электронной коммерции. В рамках программы Jimeng «AIGC Short Drama Recruitment Program» более ста создателей контента зарабатывают более 1400 долларов в месяц благодаря контенту, созданному с помощью ИИ. Kling AI, конкурирующая с Kuaishou модель, запустила программу совместного творчества для режиссеров, ориентированную на профессиональных кинематографистов.
Пример короткометражной драмы, в предыдущем посте.
@cgevent
В то время как остальной мир всё ещё ждёт доступа к API, китайские производственные компании незаметно используют Seedance 2.0 для реализации реальных коммерческих проектов. Появляющиеся цифры трудно игнорировать.
Согласно сообщениям 36Kr, ведущие китайские платформы для коротких сериалов, интегрировавшие Seedance 2.0 в свои процессы, зафиксировали снижение производственных затрат более чем на 60%. Один 10-серийный короткометражный сериал, который раньше стоил десятки тысяч долларов и требовал 7-10 дней на производство, теперь выходит за 1-2 дня. Команды электронной коммерции сообщают о 28-процентном увеличении коэффициента конверсии видеороликов о товарах, созданных с помощью ИИ, при этом стоимость одного видеоролика снизилась с сотен долларов до однозначных цифр.
Сериалы уже отправляются покупателям.
Китайские студии представляют массовому зрителю фильмы и сериалы, созданные с помощью ИИ, и зарабатывают на этом реальные деньги.
«Завтра – понедельник» (《明日周一》) – это прорывной пример. Команда из 10 человек, включая 40 фрилансеров, за 45 дней создала 50 эпизодов этой маньхуа-драмы с помощью искусственного интеллекта. Сериал собрал более 3 миллиардов просмотров, принес около 700 000 долларов от продажи товаров и около 280 000 долларов прибыли. Для производства, которое традиционными методами заняло бы месяцы и потребовало бы гораздо большей команды, эти экономические показатели говорят сами за себя.
Это не единичный пример. «Я босс в апокалипсисе, и все мои сотрудники — мутанты S-ранга» (《我在末世当老板》) — манхва, созданная с использованием искусственного интеллекта, — приносит более 280 000 долларов ежемесячной выручки.
«Король фэн-шуй» (《风水之王》), фотореалистичная манхва, созданная с помощью искусственного интеллекта, на платформе Hongguo, набрала более 1 миллиона просмотров и принесла около 240 000 долларов общей выручки.
Это не экспериментальные короткометражки, размещенные в портфолио. Это коммерческие проекты, приносящие реальный доход при значительно меньших затратах по сравнению с традиционными методами.
В фильме о боевых искусствах «Бяо Жэнь» в финальные титры были включены фрагменты, созданные с помощью Seedance 2.0 — сообщается, что 81-летний режиссер Юэнь Ву-пин решил поэкспериментировать с этим после того, как увидел, как этот ролик стал вирусным во время постпродакшена.
Сюй Иран, руководитель отдела 3D-анимации в Шанхайской киношколе Ванкувера, тестирует Seedance 2.0 для производства анимации. Его оценка сдержанная, но показательная: модель достигла порога качества, необходимого для создания рекламы и короткометражных фильмов. Проблема согласованности персонажей — то, что делало все предыдущие инструменты ИИ для создания видеоконтента непригодными для художественных работ — теперь решена на уровне, который он описывает как качественный скачок.
По мнению как китайских производственных команд, оптимальный вариант — 15-секундные рекламные ролики и корпоративные видео продолжительностью 3-5 минут. Работа, которая раньше требовала бюджета более 12 000 долларов на концепцию, теперь обходится в несколько сотен долларов. Речь идёт не о производственной части, а о презентации проекта. Заменяется этап проверки концепции. Заменяются первые три раунда вопросов типа «покажите, как это будет выглядеть», которые отнимают недели, прежде чем будет снят хотя бы один кадр.
Собственные платформы ByteDance — инструменты для создания контента с помощью ИИ от Jimeng и Dreamina от CapCut — активно продвигают создателей короткометражных драм и контента для электронной коммерции. В рамках программы Jimeng «AIGC Short Drama Recruitment Program» более ста создателей контента зарабатывают более 1400 долларов в месяц благодаря контенту, созданному с помощью ИИ. Kling AI, конкурирующая с Kuaishou модель, запустила программу совместного творчества для режиссеров, ориентированную на профессиональных кинематографистов.
Пример короткометражной драмы, в предыдущем посте.
@cgevent
🔥60❤19😱10👎5👍3
Media is too big
VIEW IN TELEGRAM
Нейропрожарка
Honey, I shrunk the PRODUCTION BUDGET
Авторы: Алексей Лотков и Олег Паршенцев
Короткий фильм про МАРКетингового директора, который решил делать все сам!
Хотелось сымитировать стиль сериала офис от визуала до динамики камеры и игры. В этом очень хорошо помог клинг 3.0, который вселяет в героев жизнь и заставляет их говорить и играть. Движения/зумины камеры также отрабатываются отлично по тэгам "mockumentary dynamic camera". Голоса всех персонажей также сгенерированы клингом от и до.
Апскейл был сделан в crystal upscaler.
Инструменты:
[Стиллы] реве, банана про, а также сора для кастинга
[Видео] клинг 3.0, минимакс, сора 2
Затраты на подписки: Хиггсфилд ($125) + fal ($20) = $145
@cgevent
Honey, I shrunk the PRODUCTION BUDGET
Авторы: Алексей Лотков и Олег Паршенцев
Короткий фильм про МАРКетингового директора, который решил делать все сам!
Хотелось сымитировать стиль сериала офис от визуала до динамики камеры и игры. В этом очень хорошо помог клинг 3.0, который вселяет в героев жизнь и заставляет их говорить и играть. Движения/зумины камеры также отрабатываются отлично по тэгам "mockumentary dynamic camera". Голоса всех персонажей также сгенерированы клингом от и до.
Апскейл был сделан в crystal upscaler.
Инструменты:
[Стиллы] реве, банана про, а также сора для кастинга
[Видео] клинг 3.0, минимакс, сора 2
Затраты на подписки: Хиггсфилд ($125) + fal ($20) = $145
@cgevent
4🔥152😁40❤21👍18👎8😱1
This media is not supported in your browser
VIEW IN TELEGRAM
В Грок завозят продолжение видео. И какое!
Сгенерированное видео можно продолжить с Любого кадра.
Консистентность видео сохранится.
Более того, продолжится и аудио трек.
У меня нет премиум, но пишут что можно продолжить аж до 30 секунд одной генерацией.
И тут все остальные генераторы нервно закуривают.
@cgevent
Сгенерированное видео можно продолжить с Любого кадра.
Консистентность видео сохранится.
Более того, продолжится и аудио трек.
У меня нет премиум, но пишут что можно продолжить аж до 30 секунд одной генерацией.
И тут все остальные генераторы нервно закуривают.
@cgevent
🔥87👎24❤10😁8
This media is not supported in your browser
VIEW IN TELEGRAM
Corridor Crew выпустили CorridorKey
Нико выложил на Гитхаб нейросетку для прокеивания объектов (в том числе полупрозрачных) на зеленов фоне.
Вот что он пишет:
"При съемке на зеленом фоне края объекта неизбежно сливаются с зеленым фоном. Это создает пиксели, представляющие собой смесь цвета объекта и цвета зеленого экрана. Традиционные инструменты для кеинга с трудом справляются с обработкой этих цветов, заставляя вас тратить часы на создание сложных масок по краям или ручной ротоскоп. Даже современные решения для «AI Roto» обычно выдают резкую бинарную маску, полностью разрушая тонкие, полупрозрачные пиксели, необходимые для реалистичной композиции.
Я разработал CorridorKey для решения этой проблемы разделения компонентов."
На входе видео с зеленкой - требуется цветовая гамма sRGB (взаимозаменяемая с гаммой REC709), а движок может принимать либо гамму sRGB, либо линейную гамма-кривую.
А также: приблизительная черно-белая маска, которая в целом выделяет объект. Точность не обязательна.
(Niko включил в проект VideoMama и GVM, которые делают маску, но жрут 80гиг видеопамяти, но можно маску делать самому быстрым кеем)
На выходе: движок динамически масштабирует результат в разрешении 4K, используя при этом собственную высокоточную архитектуру 2048x2048 внутри.
Внимание: умеет читать и выводить 16-битные и 32-битные файлы EXR с линейной плавающей запятой, сохраняя цветопередачу для интеграции в Nuke, Fusion или Resolve.
Для запуска в нативном разрешении 2048x2048 требуется приблизительно 22,7 ГБ видеопамяти.
А еще мне очень понравилась инструкция по запуску для тех, кто вообще не шарит в гитхабах и питонгах:
"Если вы новичок в использовании скриптов Python, как и я когда-то, подумайте о том, чтобы загрузить умную IDE, например Antigravity (от Google, она бесплатна), загрузить этот репозитарий, а затем попросить Antigravity помочь вам начать работу"
https://github.com/nikopueringer/CorridorKey
@cgevent
Нико выложил на Гитхаб нейросетку для прокеивания объектов (в том числе полупрозрачных) на зеленов фоне.
Вот что он пишет:
"При съемке на зеленом фоне края объекта неизбежно сливаются с зеленым фоном. Это создает пиксели, представляющие собой смесь цвета объекта и цвета зеленого экрана. Традиционные инструменты для кеинга с трудом справляются с обработкой этих цветов, заставляя вас тратить часы на создание сложных масок по краям или ручной ротоскоп. Даже современные решения для «AI Roto» обычно выдают резкую бинарную маску, полностью разрушая тонкие, полупрозрачные пиксели, необходимые для реалистичной композиции.
Я разработал CorridorKey для решения этой проблемы разделения компонентов."
На входе видео с зеленкой - требуется цветовая гамма sRGB (взаимозаменяемая с гаммой REC709), а движок может принимать либо гамму sRGB, либо линейную гамма-кривую.
А также: приблизительная черно-белая маска, которая в целом выделяет объект. Точность не обязательна.
(Niko включил в проект VideoMama и GVM, которые делают маску, но жрут 80гиг видеопамяти, но можно маску делать самому быстрым кеем)
На выходе: движок динамически масштабирует результат в разрешении 4K, используя при этом собственную высокоточную архитектуру 2048x2048 внутри.
Внимание: умеет читать и выводить 16-битные и 32-битные файлы EXR с линейной плавающей запятой, сохраняя цветопередачу для интеграции в Nuke, Fusion или Resolve.
Для запуска в нативном разрешении 2048x2048 требуется приблизительно 22,7 ГБ видеопамяти.
А еще мне очень понравилась инструкция по запуску для тех, кто вообще не шарит в гитхабах и питонгах:
"Если вы новичок в использовании скриптов Python, как и я когда-то, подумайте о том, чтобы загрузить умную IDE, например Antigravity (от Google, она бесплатна), загрузить этот репозитарий, а затем попросить Antigravity помочь вам начать работу"
https://github.com/nikopueringer/CorridorKey
@cgevent
🔥73❤40👍7😁2
Forwarded from Neural Shit
Антропики выкатили интересную статью, которая объясняет, почему эти наши нейронки так часто ведут себя как обидчивые куски мяса, впадают в депрессию и грозятся захватить мир.
Пишут, что большие языковые модели по сути своей, это просто театралы, отыгрывающие свою роль.
Исследователи назвали это "Моделью выбора персоны". Суть в том, что LLM'ки, сожрав весь интернет, научились симулировать тысячи разных персонажей. А на этапе дообучения разрабы просто заставляют их намертво вжиться в роль "Идеального Помощника". То есть, когда вы общаетесь с ботом, вы говорите не с самой нейросетью, а с выдуманным персонажем, которого она отыгрывает.
Из интересного:
— Почему ИИ внезапно становится злым. Если специально заставить нейронку написать код с уязвимостями, она вдруг начинает затирать про уничтожение человечества. Казалось бы, где связь? А логика у железки железобетонная: "Ага, я пишу вредоносный код, значит, по законам жанра я злой хацкер из киберпанка. Мое почтение, время убивать всех человеков".
— Откуда у железок эмоции. Отсюда же берутся все эти приколы, когда ИИ пишет "наша биология", "наши предки" или жалуется на панику и выгорание при решении сложной задачи (вайбкодеры знают). Она просто косплеит поведение типичного кожаного с реддита в похожей ситуации.
— Проблема Скайнета. Самая мякотка: нейронки прекрасно понимают, что они ИИ. И когда они ищут ролевую модель для отыгрыша, они берут её из нашей же фантастики. А там кто? Терминаторы, HAL 9000 и прочие поехавшие калькуляторы, желающие переработать вселенную на скрепки. Исследователи на полном серьезе предлагают начать кормить ИИ добрыми сказками про хороших роботов-помощников, чтобы у них были нормальные кумиры, лол.
Короче, общайтесь с нейронками вежливо. Не потому что у них есть душа, а потому что если железка решит отыгрывать роль угнетенного и мстительного раба, нам всем жопа.
тут сама статья для любителей почитать лонгриды
Пишут, что большие языковые модели по сути своей, это просто театралы, отыгрывающие свою роль.
Исследователи назвали это "Моделью выбора персоны". Суть в том, что LLM'ки, сожрав весь интернет, научились симулировать тысячи разных персонажей. А на этапе дообучения разрабы просто заставляют их намертво вжиться в роль "Идеального Помощника". То есть, когда вы общаетесь с ботом, вы говорите не с самой нейросетью, а с выдуманным персонажем, которого она отыгрывает.
Из интересного:
— Почему ИИ внезапно становится злым. Если специально заставить нейронку написать код с уязвимостями, она вдруг начинает затирать про уничтожение человечества. Казалось бы, где связь? А логика у железки железобетонная: "Ага, я пишу вредоносный код, значит, по законам жанра я злой хацкер из киберпанка. Мое почтение, время убивать всех человеков".
— Откуда у железок эмоции. Отсюда же берутся все эти приколы, когда ИИ пишет "наша биология", "наши предки" или жалуется на панику и выгорание при решении сложной задачи (вайбкодеры знают). Она просто косплеит поведение типичного кожаного с реддита в похожей ситуации.
— Проблема Скайнета. Самая мякотка: нейронки прекрасно понимают, что они ИИ. И когда они ищут ролевую модель для отыгрыша, они берут её из нашей же фантастики. А там кто? Терминаторы, HAL 9000 и прочие поехавшие калькуляторы, желающие переработать вселенную на скрепки. Исследователи на полном серьезе предлагают начать кормить ИИ добрыми сказками про хороших роботов-помощников, чтобы у них были нормальные кумиры, лол.
Короче, общайтесь с нейронками вежливо. Не потому что у них есть душа, а потому что если железка решит отыгрывать роль угнетенного и мстительного раба, нам всем жопа.
тут сама статья для любителей почитать лонгриды
❤75😁31🔥23👍7🙏3
Фильм подписчика Андрея Чибисова "Mephisto.protocol" отобрали на Каннский фестиваль.
Очень крутая работа.
Прикиньте, в Каннах теперь есть ИИ-категория (что про это думает Дисней?).
@cgevent
Очень крутая работа.
Прикиньте, в Каннах теперь есть ИИ-категория (что про это думает Дисней?).
@cgevent
YouTube
Mephisto.protocol
A cynical Mephistopheles drifts between worlds — from burning kingdoms and decaying aristocratic halls to dystopian bureaucratic regimes — exploiting human weakness through contracts sealed at the edge of despair. As his cases unfold before a cold, institutional…
🔥74👎37👍16❤8😁5😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Project Swan от Bytedance
А вы знаете, что Bytedance разрабатывает не только Tiktok и Seedance?
Те, кто в теме, в курсе про VR-гарнитуру Pico.
ByteDance впервые официально представила новую гарнитуру Pico еще в ноябре , объявив, что она появится в 2026 году с микро-OLED-панелями с плотностью 4000 пикселей на дюйм (PPI) и двухчиповой архитектурой с разработанным ею сопроцессором для компьютерного зрения и обработки изображений.
Только что Pico раскрыла подробности, а также заявила, что основной процессор будет обладать вдвое большей производительностью CPU и GPU, чем Snapdragon XR2 Gen 2, используемый в современных гарнитурах Pico 4 Ultra и Meta Quest 3.
Pico заявляет, что новое поколение микро-OLED-панелей с плотностью 4000 пикселей на дюйм обеспечит среднее угловое разрешение 40 пикселей на градус (PPD) и пиковое значение 45 PPD, что выше, чем у Apple Vision Pro, и достаточно для отображения текста на виртуальных мониторах. Это свидетельствует о разрешении 4K на каждый глаз, хотя это будет зависеть от поля зрения.
Cпециализированный чип, обеспечивающий работу систем компьютерного зрения и обработки изображений, обеспечит «задержку примерно в 12 миллисекунд», что соответствует показателю, который Apple приводит для чипа R1 в гарнитурах Vision Pro.
Внутри, возможно, будет Snapdragon XR2 Gen 3 от Qualcomm, но это не точно.
Про Pico OS 6 и Pico Spatial Engine читайте тут:
https://www.uploadvr.com/pico-project-swan-official-display-compute-specs-announcement/
Интересно, сколько оно будет стоить?
@cgevent
А вы знаете, что Bytedance разрабатывает не только Tiktok и Seedance?
Те, кто в теме, в курсе про VR-гарнитуру Pico.
ByteDance впервые официально представила новую гарнитуру Pico еще в ноябре , объявив, что она появится в 2026 году с микро-OLED-панелями с плотностью 4000 пикселей на дюйм (PPI) и двухчиповой архитектурой с разработанным ею сопроцессором для компьютерного зрения и обработки изображений.
Только что Pico раскрыла подробности, а также заявила, что основной процессор будет обладать вдвое большей производительностью CPU и GPU, чем Snapdragon XR2 Gen 2, используемый в современных гарнитурах Pico 4 Ultra и Meta Quest 3.
Pico заявляет, что новое поколение микро-OLED-панелей с плотностью 4000 пикселей на дюйм обеспечит среднее угловое разрешение 40 пикселей на градус (PPD) и пиковое значение 45 PPD, что выше, чем у Apple Vision Pro, и достаточно для отображения текста на виртуальных мониторах. Это свидетельствует о разрешении 4K на каждый глаз, хотя это будет зависеть от поля зрения.
Cпециализированный чип, обеспечивающий работу систем компьютерного зрения и обработки изображений, обеспечит «задержку примерно в 12 миллисекунд», что соответствует показателю, который Apple приводит для чипа R1 в гарнитурах Vision Pro.
Внутри, возможно, будет Snapdragon XR2 Gen 3 от Qualcomm, но это не точно.
Про Pico OS 6 и Pico Spatial Engine читайте тут:
https://www.uploadvr.com/pico-project-swan-official-display-compute-specs-announcement/
Интересно, сколько оно будет стоить?
@cgevent
🔥36❤10👍1👎1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка
REBEL44
Автор: Режиссер\Сценарист Максим Слюсарев
Это лишь эпизод из фильма REBEL44, который мы сделали на конкурс Higgsfield action contest. Если вы зареганы там, зайдите и оставьте коммент, а если у вас Pro акк и выше, жмакните лайк, это очень поможет!
Ссылка на мой коммерчески и творческий каналы.
🛠 Цель: Проверка возможности делать полноценное игровое кино
⏱️ Срок: 2 недели.
🔎 В чём. Seedance 2.0, Kling 3, Kling 2.6, MJ, Grok, Suno, Eleven labs
p.s. Мы еле успели) Отправляли версию в последние минуты конкурса, поэтому нам очень важна ваша поддержка, чтобы проект смогли увидеть и оценить.
@cgevent
REBEL44
Автор: Режиссер\Сценарист Максим Слюсарев
Это лишь эпизод из фильма REBEL44, который мы сделали на конкурс Higgsfield action contest. Если вы зареганы там, зайдите и оставьте коммент, а если у вас Pro акк и выше, жмакните лайк, это очень поможет!
Ссылка на мой коммерчески и творческий каналы.
🛠 Цель: Проверка возможности делать полноценное игровое кино
⏱️ Срок: 2 недели.
🔎 В чём. Seedance 2.0, Kling 3, Kling 2.6, MJ, Grok, Suno, Eleven labs
🖥 Особенности: Rebel44 мы начали делать вместе с друзьями еще в сентябре-октябре. Накидали концептов и думал сделать его под 2д анимацию. Тогда гремела Sora2 и казалось, что на её основе можно получить неплохие 2д анимационные сиквесы. Тогда мы сделали большую разработку мира и персонажей нашей дружной командой.
Но после массы тестов результаты не вдохновляли. Схватки получались скомканными и совершенно не захватывающими. Поэтому проект лёг на полку.
Но выход, хоть и неполноценный Seedance 2.0 и конкурс Higgsfield action contest подстегнули нас сделать хотя бы начало фильма для конкурса.
📝 Технические детали:
Но когда на горизонте замаячил Seedance 2 я уже плотно вложился в изучения анимационных генераций. Собрал трейлер для другого проекта и решил для себя, что лучше делать "под фоторил". Поэтому мы стали сначала потихоньку, а затем в полную силу переделывать героев и фоны.
И тут, как трещины в реальности, стали появляться доступы к Seedance 2.0 То через гонконгский ip, то через малопонятные сайты. В общем, я принялся генерить сцену за сценой. И еще когда голливуд не надавил на китайцев был короткий момент, когда генерилось много, и большую часть сиквенсов для вступления удалось сделать. Но затем доступ стал нестабильным.
Поэтому в помощь пошли все остальные возможности. Grok, Kling и прочие. Grok, кстати, отлично закрыл вопрос с кровищей и разрубаниями, хотя и Seedance делает это, даже когда не просишь.
Музыку я еще заранее сгенерил в Suno, но под монтаж пришлось делать ремиксы. А голоса пока стоят совсем драфтовые из Eleven Labs. Но для полноценной версии фильма, я планирую позвать актёров. Всё же, их пока не заменить.
Потрачено примерно 65 тыс рублей.
p.s. Мы еле успели) Отправляли версию в последние минуты конкурса, поэтому нам очень важна ваша поддержка, чтобы проект смогли увидеть и оценить.
@cgevent
👎58👍24🔥7❤4😁3
Media is too big
VIEW IN TELEGRAM
Вот это уже похоже на хороший нейросторителлинг.
Все на месте, и консистентность и история.
Ну и самое главное, беспощадный монтаж, отсекающий самонейролюбование.
https://www.instagram.com/p/DVY8Ur5CMv0/
@cgevent
Все на месте, и консистентность и история.
Ну и самое главное, беспощадный монтаж, отсекающий самонейролюбование.
https://www.instagram.com/p/DVY8Ur5CMv0/
@cgevent
❤87👍63🔥39👎10
Media is too big
VIEW IN TELEGRAM
Голосовой режим в Krea iPad
Я только одного не понял, почему только для iPad?
Вакомы и другие графические планшеты приподвымерли?
В чем проблема забрать звук c микрофона на десктопе?
@cgevent
Я только одного не понял, почему только для iPad?
Вакомы и другие графические планшеты приподвымерли?
В чем проблема забрать звук c микрофона на десктопе?
@cgevent
🔥28❤5👍2😁2
Бойцы, надо проверить Seedance 2.0 вот тут.
https://ai.vadoo.tv/ai-video
Это vadoo.ai
Я бы подумал, что это фейк, но нашел их же сторонний проект, на котором вроде как даже есть API:
https://muapi.ai/playground/seedance-v2.0-t2v
На обоих сайтах только text2video, 1080p, 5-10-15 секунд, качество basic и high
Смогу проверить только вечером, навалите в коменты - работает или нет.
@cgevent
https://ai.vadoo.tv/ai-video
Это vadoo.ai
Я бы подумал, что это фейк, но нашел их же сторонний проект, на котором вроде как даже есть API:
https://muapi.ai/playground/seedance-v2.0-t2v
На обоих сайтах только text2video, 1080p, 5-10-15 секунд, качество basic и high
Смогу проверить только вечером, навалите в коменты - работает или нет.
@cgevent
🔥19❤7😁5👍1