This media is not supported in your browser
VIEW IN TELEGRAM
По поводу LTXV видеогенератора, опенсорсного притом.
Мне надо еще потестировать, но по моим первым тестами - дико непредсказуемо, качество хуже, чем у CogVideo, много статики и брака и какое-то шаманство с промптами.
Но натолкнулся на вот такой видос на реддите позавчера.
Автор пишет: Created using fal.ai, took me around 4-5 seconds per video generation. Used Image2Video on a base Flux image and then did a quick edit on Premiere.
try using the 768x512 res. Also upscaling the flux image before seemed to help. When generating shorter videos I got better results. When the prompt for image and video are similar it also seemed to help.
Юзеры пытаются воспроизвести результат, но получается не очень, а автор подозрительно ушел в тень.
Но я выловил в коментах разрывающий мозг трюк, чтобы побороть статику на image2Video для текущей модели LTX Video. Оказывается, модель не любит нетронутые\чистые изображения, она была обучена на видео. Поэтому вы можете пропустить изображение через ffmpeg, использовать h264 с CRF около 20-30, чтобы получить такое сжатие. По-видимому, этого достаточно, чтобы модель "зацепилась" за изображение и действительно что-то с ним сделала.
Ну то есть предлагается приподыспоганить картинку на входе image2video, сделав из нее как бы стопкадр из видео.
Хотя это идет вразрез с советами(выше) типа "прогоните через апскейлер и уберите блюр" перед тем как кормить в image2video
В общем видеогенерация сейчас - это шаманство с костылями типа motion brush и camera control, а опенсорсная видеогенерация это протошамаство с костылями из говна и палок, и мифологемами вокруг промптов, cfg и качества картинок на входе.
Читаем теории заговора тут.
Продолжим наши тесты и мифотворчество. Там в коментах могучий Stan Travis показывает генерации на ТРИСТА ДВАДЦАТЬ ОДИН кадр в LTXV, которые не разъезжаются! Как?
@cgevent
Мне надо еще потестировать, но по моим первым тестами - дико непредсказуемо, качество хуже, чем у CogVideo, много статики и брака и какое-то шаманство с промптами.
Но натолкнулся на вот такой видос на реддите позавчера.
Автор пишет: Created using fal.ai, took me around 4-5 seconds per video generation. Used Image2Video on a base Flux image and then did a quick edit on Premiere.
try using the 768x512 res. Also upscaling the flux image before seemed to help. When generating shorter videos I got better results. When the prompt for image and video are similar it also seemed to help.
Юзеры пытаются воспроизвести результат, но получается не очень, а автор подозрительно ушел в тень.
Но я выловил в коментах разрывающий мозг трюк, чтобы побороть статику на image2Video для текущей модели LTX Video. Оказывается, модель не любит нетронутые\чистые изображения, она была обучена на видео. Поэтому вы можете пропустить изображение через ffmpeg, использовать h264 с CRF около 20-30, чтобы получить такое сжатие. По-видимому, этого достаточно, чтобы модель "зацепилась" за изображение и действительно что-то с ним сделала.
Ну то есть предлагается приподыспоганить картинку на входе image2video, сделав из нее как бы стопкадр из видео.
Хотя это идет вразрез с советами(выше) типа "прогоните через апскейлер и уберите блюр" перед тем как кормить в image2video
В общем видеогенерация сейчас - это шаманство с костылями типа motion brush и camera control, а опенсорсная видеогенерация это протошамаство с костылями из говна и палок, и мифологемами вокруг промптов, cfg и качества картинок на входе.
Читаем теории заговора тут.
Продолжим наши тесты и мифотворчество. Там в коментах могучий Stan Travis показывает генерации на ТРИСТА ДВАДЦАТЬ ОДИН кадр в LTXV, которые не разъезжаются! Как?
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
LTX Video. 321 кадр!
Ну хорошо, вот вам видео от Stan Travis, о котором я писал в предыдущем посте.
Цитирую без купюр:
А вот с консистенцией просто отлично, если получается вытянуть без развала.
Тут тест на 321 кадр. Едва заметные родинки около рта и около брови сохраняются от начала до конца, также и морщины на лбу.
Ну и прекрасные эмоции.
Эмоции у меня скорее такие😱
@cgevent
Ну хорошо, вот вам видео от Stan Travis, о котором я писал в предыдущем посте.
Цитирую без купюр:
А вот с консистенцией просто отлично, если получается вытянуть без развала.
Тут тест на 321 кадр. Едва заметные родинки около рта и около брови сохраняются от начала до конца, также и морщины на лбу.
Ну и прекрасные эмоции.
Эмоции у меня скорее такие
@cgevent
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто не хочет покупать A100 просто напомню, что у Блэк Форест есть спейсы на Hugging Face для всего их нового безобразия: Redux, Depth, Fill, Canny
Без Комфи и смс.
Ну вдруг, если кто не знает.
https://huggingface.co/black-forest-labs
сорс
@cgevent
Без Комфи и смс.
Ну вдруг, если кто не знает.
https://huggingface.co/black-forest-labs
сорс
@cgevent
На этой неделе в Казани проходит Российская неделя стартапов—2024!🔥
30 ноября в Казани вас ждет большая открытая конференция, посвященная разработке игр!
Хедлайнер мероприятия – Макс Михеенко!
В этот день вы сможете:
⚪️ Погрузиться в мир GameDev и узнать о последних трендах.
⚪️ Задать вопросы экспертам и получить ценные советы.
⚪️ Послушать выступления Макса Михеенко, Яна Шевченко и других крутых спикеров.
Приглашаем всех, кто интересуется разработкой игр, на насыщенную субботу, посвященную GameDev-индустрии!
• Дата: 30.11
• Время: 14:00-17:00
• Место: ул. Петербургская, 52
▪️ Регистрируйтесь по ссылке: https://t.iss.one/StartapHub_bot
Реклама ГАУ «ИТ-парк» ИНН 1655191213 erid: 2SDnjemZu95
30 ноября в Казани вас ждет большая открытая конференция, посвященная разработке игр!
Хедлайнер мероприятия – Макс Михеенко!
В этот день вы сможете:
Приглашаем всех, кто интересуется разработкой игр, на насыщенную субботу, посвященную GameDev-индустрии!
• Дата: 30.11
• Время: 14:00-17:00
• Место: ул. Петербургская, 52
Реклама ГАУ «ИТ-парк» ИНН 1655191213 erid: 2SDnjemZu95
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from РассветAI
Протестировал возможности генерации Kling img2video через их API в комфи. 100 генераций (API calls) за 9 долларов. Воркфлоу в комфи сразу для загрузки 2-х фото (скорее всего сразу на 2 кейфрейма), удалил второй для чистоты эксперимента. В среднем 400 секунд на генерацию 10-ти секундного видео в режиме Pro. Не понятно, быстрее это или медленнее, чем через генерацию на сайте (возможно быстрее). Доступна только модель версии 1, хотя даже на trial-тарифе обещали 1.5. Но, судя по генерации, возможно это и 1.5. Из фото, сгенеренного во флаксе, 832x1216 я получил видео 768x1152. Камера зумится, как и было прописано в промпте. Пока все работает, в статистике API показано, сколько раз его вызывали и сколько секунд видео было сгенерено.
Специально для канала @cgevent
Специально для канала @cgevent
Forwarded from TechSparks
Название статьи обидное для Apple, но фактически точное: Xiaomi сумел сделать то, чего ждали от Apple, но так и не дождались.
Китайский производитель гаджетов весной этого года представил свой первый электромобиль, который сразу стал хитом: за первые сутки было собрано 90 000 заказов на SU7. Планы продаж до конца года компания подняла до 130 000 штук.
Про технические характеристики можно почитать в статье или на автосайтах, но о многом говорит тот факт, что CEO Ford Джим Фарли, предположительно неплохо разбирающийся в автомобилях и имеющий возможности выбирать, на чем ему ездить, наплевал на корпоративный патриотизм и ездит как раз на SU7 и не устает им восхищаться.
Достойны упоминания еще два факта: операционка автомашины прекрасно работает с iOS и Android, превратив автомобиль в идеально совместимый с устройствами водителя и пассажира гаджет. А сборку компания не аутсорсит (как бывает со стартапами), а построила собственный полномасштабный автозавод.
Тем временем ходят слухи, что готовится выпуск еще двух моделей. Автор статьи иронично отмечает, что наконец-то фанаты получили свой iCar, вот только прибыл он из Китая
https://www.wired.com/story/phone-maker-xiaomi-made-the-car-that-apple-couldnt/
Китайский производитель гаджетов весной этого года представил свой первый электромобиль, который сразу стал хитом: за первые сутки было собрано 90 000 заказов на SU7. Планы продаж до конца года компания подняла до 130 000 штук.
Про технические характеристики можно почитать в статье или на автосайтах, но о многом говорит тот факт, что CEO Ford Джим Фарли, предположительно неплохо разбирающийся в автомобилях и имеющий возможности выбирать, на чем ему ездить, наплевал на корпоративный патриотизм и ездит как раз на SU7 и не устает им восхищаться.
Достойны упоминания еще два факта: операционка автомашины прекрасно работает с iOS и Android, превратив автомобиль в идеально совместимый с устройствами водителя и пассажира гаджет. А сборку компания не аутсорсит (как бывает со стартапами), а построила собственный полномасштабный автозавод.
Тем временем ходят слухи, что готовится выпуск еще двух моделей. Автор статьи иронично отмечает, что наконец-то фанаты получили свой iCar, вот только прибыл он из Китая
https://www.wired.com/story/phone-maker-xiaomi-made-the-car-that-apple-couldnt/
WIRED
Phone Maker Xiaomi Made the Car That Apple Couldn’t
Great build, deeply integrated tech, and unrivaled connectivity—with its very first EV, Xiaomi is already showing the likes of Ford and Volvo where they’re going wrong, and what Apple could have done.
Forwarded from Denis Sexy IT 🤖
Играем в Бога с LLM
Провел интересный эксперимент над QwQ-32B-Preview – языковые модели предсказывают следующие токены и от этого пишут внятные предложения; я подумал, а что если самой модели рассказать:
– Что она LLM
– Что она пишет следующее токены на основе вероятностей
– Попросить модель «угадать» токен который она напишет следующим
– Но при этом, запретить ей писать слова которые она загадала, заставляя писать всегда неправильные слова
– И попросить модель разобраться что же происходит, почему ошибки
В итоге, получился залипательный эксперимент где модель написала примерно ~20 тысяч слов пытаясь понять, что же происходит - скрины можно не читать если лень, там примерно такое:
– Сначала она просто возмущалась, что не может угадать слово
– Через пару минут, она решила что проблему нужно изучить глубже и сделала список слов которые загадала и что написалось, попробовала подобрать алгоритм предсказаний
– Модель предположила, что каждое слово которое она загадывает, инвертируется, но находится в той же области
– Она проверила, теория не подтвердилась
– Дальше, модель выдвинула философскую мысль, что:
Возможно, это урок смирения для моделей ИИ — признание того, что даже при наличии передовых возможностей существуют пределы того, что можно предсказать или контролировать
– Дальше модель выдвигала много теорий, включая настройки собственной температуры и тп
– В конце, спустя минут 10, модель сделала вывод, что лучше просить ее предсказывать предложения фразы, а не слова, так как она для этого была сделана вообще-то
И все это: в рамках одного длинного сообщения-ответа, QwQ – зверь, идеально следует системным инструкциям
Почему это игра в бога с LLM:
Пока наблюдаешь за ее рассуждениями и попытками понять, что происходит, возникает ощущение, что ты препарировал что-то живое, что пытается рассуждать и разобраться в себе – странное чувство, немного пугающее, хоть и понятно что это симуляция «рассуждений»
Если хотите повторить – системный промпт тут, просто отправьте ей «start» чтобы начать
Провел интересный эксперимент над QwQ-32B-Preview – языковые модели предсказывают следующие токены и от этого пишут внятные предложения; я подумал, а что если самой модели рассказать:
– Что она LLM
– Что она пишет следующее токены на основе вероятностей
– Попросить модель «угадать» токен который она напишет следующим
– Но при этом, запретить ей писать слова которые она загадала, заставляя писать всегда неправильные слова
– И попросить модель разобраться что же происходит, почему ошибки
В итоге, получился залипательный эксперимент где модель написала примерно ~20 тысяч слов пытаясь понять, что же происходит - скрины можно не читать если лень, там примерно такое:
– Сначала она просто возмущалась, что не может угадать слово
– Через пару минут, она решила что проблему нужно изучить глубже и сделала список слов которые загадала и что написалось, попробовала подобрать алгоритм предсказаний
– Модель предположила, что каждое слово которое она загадывает, инвертируется, но находится в той же области
– Она проверила, теория не подтвердилась
– Дальше, модель выдвинула философскую мысль, что:
Возможно, это урок смирения для моделей ИИ — признание того, что даже при наличии передовых возможностей существуют пределы того, что можно предсказать или контролировать
– Дальше модель выдвигала много теорий, включая настройки собственной температуры и тп
– В конце, спустя минут 10, модель сделала вывод, что лучше просить ее предсказывать предложения фразы, а не слова, так как она для этого была сделана вообще-то
И все это: в рамках одного длинного сообщения-ответа, QwQ – зверь, идеально следует системным инструкциям
Почему это игра в бога с LLM:
Пока наблюдаешь за ее рассуждениями и попытками понять, что происходит, возникает ощущение, что ты препарировал что-то живое, что пытается рассуждать и разобраться в себе – странное чувство, немного пугающее, хоть и понятно что это симуляция «рассуждений»
Если хотите повторить – системный промпт тут, просто отправьте ей «start» чтобы начать
This media is not supported in your browser
VIEW IN TELEGRAM
За озвучку. Пост
У всех этих видеогенераторов есть общая черта.
Они генерят видео без звука.
Я уже постил разные работы, где по видео, например, гитариста, озвучивают то, что он играет.
Но, похоже, в этой области дальше всех продвинулся Адобченко (ибо мает датасеты, стоки, софт для звука).
Анонсировали забавную штуку MultiFoley (точнее обновили свои же работы).
Теперь ИИ не только восстанавливает звук из молчаливого видео, но и умеет его продолжать.
Также, теперь можно не только текстом описывать, как вы хотите озвучить, точнее, что вы хотите услышать на вашем немом видео, но и можно на вход подавать референсное аудио.
Поглядите пример с собакой: типа, хочу, чтобы псина на видео лаяла как мой мопс, вот запись мопса.
https://ificl.github.io/MultiFoley/
Привет с печатной машинкой, которая издает звуки клавесина, тоже впечатляет.
ИИ сам разбирается, как попасть в пальцы.
В общем у нас тут этакий металипсинк, где вместо лип - ворлд.
Ни о каком коде речь не идет. Это Адобченко. И это идеально ляжет к ним в продукты - помните, как они заполняют пустые куски на видео генеративом? Теперь будет и со звуком тоже.
@cgevent
У всех этих видеогенераторов есть общая черта.
Они генерят видео без звука.
Я уже постил разные работы, где по видео, например, гитариста, озвучивают то, что он играет.
Но, похоже, в этой области дальше всех продвинулся Адобченко (ибо мает датасеты, стоки, софт для звука).
Анонсировали забавную штуку MultiFoley (точнее обновили свои же работы).
Теперь ИИ не только восстанавливает звук из молчаливого видео, но и умеет его продолжать.
Также, теперь можно не только текстом описывать, как вы хотите озвучить, точнее, что вы хотите услышать на вашем немом видео, но и можно на вход подавать референсное аудио.
Поглядите пример с собакой: типа, хочу, чтобы псина на видео лаяла как мой мопс, вот запись мопса.
https://ificl.github.io/MultiFoley/
Привет с печатной машинкой, которая издает звуки клавесина, тоже впечатляет.
ИИ сам разбирается, как попасть в пальцы.
В общем у нас тут этакий металипсинк, где вместо лип - ворлд.
Ни о каком коде речь не идет. Это Адобченко. И это идеально ляжет к ним в продукты - помните, как они заполняют пустые куски на видео генеративом? Теперь будет и со звуком тоже.
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрориг
Ну за риггеров, сетаперов и Миксамо.
Немного узкая тема, для тех, кто занимается анимацией персонажей.
Тут вот в связи с наплывом 3Д-генераторов, которые замахиваются на генерацию персонажей, возникает вопрос, а что дальше делать с этими обмылками. Кроме как кидать их в 3Д-принтер или в музей метаверса.
Ну и мы тут периодически поговариваем про автоматизацию риггинга.
Риггинг - это когда у вас есть полигональная модель персонажа и надо туда вставить скелет, потом привязать разные участки модели к разным костям (это скининг), покрасить веса этой привязки, поглядеть, что все ломается на сгибах, повторить это 57 раз, накинуть инверсную кинематику, а потом еще навешать разных локаторов и кубиков, чтобы тянуть персонажа за разные части тела в разных направлениях (а не гнуть кости вручную прямой кинематикой).
Короче, вот вам китайский нейроавториг.
Одевает персонажа в сетап менее, чем за секунду. Причем топология скелета подбирается нейросеткой под персонаж (тут у ригеров мозг немного ломается).
Я просто процитирую эту дерзость:
Мы представляем Make-It-Animatable - новый data-driven метод, позволяющий сделать любую 3D-модель персонажа готовой к анимации персонажа менее чем за секунду, независимо от ее формы и позы. Наша единая система генерирует высококачественные весовые коэффициенты (скининг!), кости и трансформы позы. Благодаря использованию автоэнкодера шейпа на основе частиц наш подход поддерживает различные 3D-представления, включая полигональные сетки и 3D Gaussian splats. Кроме того, мы используем coarse-to-fine representation and a structure-aware modeling strategy, чтобы обеспечить точность и устойчивость даже для персонажей с нестандартной структурой скелета.
#явшоке
Дальше олды со слезой вспоминают майский Advanced Skeleton и скелет Миши Бажуткина, зумеры поминают Миксамо, а мы пытаемся потестить это дело тут:
https://huggingface.co/spaces/jasongzy/Make-It-Animatable (хф демо, может не работать)
и тут:
https://make-it-animatable.jasongzy.com/ (более ловкое демо, градио пока живой тут)
Совсем упоротые риггеры смотрят видос:
https://youtu.be/mH6L9r_28LA
и читают сайт проекта:
https://jasongzy.github.io/Make-It-Animatable/
В репе https://github.com/jasongzy/Make-It-Animatable - пока пусто, но очень надеюсь, что код будет, и его можно будет присунуть в Блендор и Майя.
Справедливости и эрудиции ради замечу, что такие попытки уже делались у Rokoko, где они совмещают нейро- и тру- мокапы.
Но тут это выглядит прям вызывающе - ИИ-риг, как он есть.
Ну, за риггеров (Скифу привет).
@cgevent
Ну за риггеров, сетаперов и Миксамо.
Немного узкая тема, для тех, кто занимается анимацией персонажей.
Тут вот в связи с наплывом 3Д-генераторов, которые замахиваются на генерацию персонажей, возникает вопрос, а что дальше делать с этими обмылками. Кроме как кидать их в 3Д-принтер или в музей метаверса.
Ну и мы тут периодически поговариваем про автоматизацию риггинга.
Риггинг - это когда у вас есть полигональная модель персонажа и надо туда вставить скелет, потом привязать разные участки модели к разным костям (это скининг), покрасить веса этой привязки, поглядеть, что все ломается на сгибах, повторить это 57 раз, накинуть инверсную кинематику, а потом еще навешать разных локаторов и кубиков, чтобы тянуть персонажа за разные части тела в разных направлениях (а не гнуть кости вручную прямой кинематикой).
Короче, вот вам китайский нейроавториг.
Одевает персонажа в сетап менее, чем за секунду. Причем топология скелета подбирается нейросеткой под персонаж (тут у ригеров мозг немного ломается).
Я просто процитирую эту дерзость:
Мы представляем Make-It-Animatable - новый data-driven метод, позволяющий сделать любую 3D-модель персонажа готовой к анимации персонажа менее чем за секунду, независимо от ее формы и позы. Наша единая система генерирует высококачественные весовые коэффициенты (скининг!), кости и трансформы позы. Благодаря использованию автоэнкодера шейпа на основе частиц наш подход поддерживает различные 3D-представления, включая полигональные сетки и 3D Gaussian splats. Кроме того, мы используем coarse-to-fine representation and a structure-aware modeling strategy, чтобы обеспечить точность и устойчивость даже для персонажей с нестандартной структурой скелета.
#явшоке
Дальше олды со слезой вспоминают майский Advanced Skeleton и скелет Миши Бажуткина, зумеры поминают Миксамо, а мы пытаемся потестить это дело тут:
https://huggingface.co/spaces/jasongzy/Make-It-Animatable (хф демо, может не работать)
и тут:
https://make-it-animatable.jasongzy.com/ (более ловкое демо, градио пока живой тут)
Совсем упоротые риггеры смотрят видос:
https://youtu.be/mH6L9r_28LA
и читают сайт проекта:
https://jasongzy.github.io/Make-It-Animatable/
В репе https://github.com/jasongzy/Make-It-Animatable - пока пусто, но очень надеюсь, что код будет, и его можно будет присунуть в Блендор и Майя.
Справедливости и эрудиции ради замечу, что такие попытки уже делались у Rokoko, где они совмещают нейро- и тру- мокапы.
Но тут это выглядит прям вызывающе - ИИ-риг, как он есть.
Ну, за риггеров
@cgevent
Media is too big
VIEW IN TELEGRAM
Синтетический мир и новый высококачественный видео-генератор.
Щас будет подводка, кому tl;dr шуруйте в конец.
Я уже писал, что у Unity, например, есть отдельная платформа для генерации синтетических (ну то есть ненастоящих видео, а рендеров). Чтобы не размечать реальные видосы индийскими ручками, а запускать "машинки с камерами" по 3Д-мирам, созданным в Юнити и рендерить видео, где уже все размечено еще на этапе моделинга.
И self-driving cars успешно учатся на таких рендерах.
Так вот, встречайте:
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control
Это видео-генератор, который не умеет в лица и пальцы, но зато генерит именно виды улиц с качеством, которое не снилось опен-сорсу и некоторым другим генераторам. Ну и самое главное, он генерит такую длину и фпс, которая даже не на радарах у "развлекательных" видеогенераторов.
Интересно, что я уже писал про Лоры для поворота влево. Теперь вот и сами модели могут поделиться на классы: пейзажные, фишайные, суперзумные, поворот не туда, ну и тд.
Это как на площадке: меняем оптику, декорацию и свет - а на нейроплощадке: загружаем модель для УлицСекса в Большом Городе. И ну генерить.
Меня, правда слегка беспокоит вопрос деградации моделей для беспилотников при таком обучении. Если долго учиться на синтетике, можно немного отупеть, как показывают ранние примеры с LLM (щас может уже не так, или метрики подкрутили). Но тут все-таки беспилотники будут учится на галлюцинациях видеомодели, а не зумеры чатиться с ботами.
Уроборос в общем.
И это, кстати, Хуавейчик. Который сделал Pixar Sigma и еще много чего для картинок:
https://gaoruiyuan.com/magicdrivedit/
На примерах много видео, которое ничем не отличается от видеорегистраций, и только надписи на асфальте заставляют вздрагивать.
Код будет, кстати.
@cgevent
Щас будет подводка, кому tl;dr шуруйте в конец.
Я уже писал, что у Unity, например, есть отдельная платформа для генерации синтетических (ну то есть ненастоящих видео, а рендеров). Чтобы не размечать реальные видосы индийскими ручками, а запускать "машинки с камерами" по 3Д-мирам, созданным в Юнити и рендерить видео, где уже все размечено еще на этапе моделинга.
И self-driving cars успешно учатся на таких рендерах.
Так вот, встречайте:
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control
Это видео-генератор, который не умеет в лица и пальцы, но зато генерит именно виды улиц с качеством, которое не снилось опен-сорсу и некоторым другим генераторам. Ну и самое главное, он генерит такую длину и фпс, которая даже не на радарах у "развлекательных" видеогенераторов.
Интересно, что я уже писал про Лоры для поворота влево. Теперь вот и сами модели могут поделиться на классы: пейзажные, фишайные, суперзумные, поворот не туда, ну и тд.
Это как на площадке: меняем оптику, декорацию и свет - а на нейроплощадке: загружаем модель для Улиц
Меня, правда слегка беспокоит вопрос деградации моделей для беспилотников при таком обучении. Если долго учиться на синтетике, можно немного отупеть, как показывают ранние примеры с LLM (щас может уже не так, или метрики подкрутили). Но тут все-таки беспилотники будут учится на галлюцинациях видеомодели, а не зумеры чатиться с ботами.
Уроборос в общем.
И это, кстати, Хуавейчик. Который сделал Pixar Sigma и еще много чего для картинок:
https://gaoruiyuan.com/magicdrivedit/
На примерах много видео, которое ничем не отличается от видеорегистраций, и только надписи на асфальте заставляют вздрагивать.
Код будет, кстати.
@cgevent