Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.
Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.
Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.
Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.
Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.
В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.
В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.
Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.
Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.
Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.
Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.
Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.
Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.
Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").
Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Держите пятничную шпаргалку по MCP серверам :)
(спасибо @productsgossip за идею)
#юмор #MCP
———
@tsingular
(спасибо @productsgossip за идею)
#юмор #MCP
———
@tsingular
2👍13👨💻6👏5👌3❤2😭2
Google выпустил ультракомпактную Gemma 3 270M
Новая QAT модель с 270 миллионами параметров прекрасно запуститсяна кофеварке вашей бабушки на смартфоне.
Показывает 51.2% на бенчмарке IFEval.
На Pixel 9 Pro съедает меньше 1% батареи за 25 диалогов в INT4-версии.
Может обрабатывать текст и изображения одновременно.
Конечно нужно точно понимать где и как её применять.
Хорошо показывает себя в задачах требующих высокой скорости, когда на счету каждая миллисекунда.
Удобна, если у вас нет мощной видеокарты.
Или у вас маленькое(летающее, бегающее) мобильное устройство.
Ну и в силу малого размера быстро файнтюнится под конкретные узкоспециализированные задачи.
HuggingFace
#Gemma #Google #edge
———
@tsingular
Новая QAT модель с 270 миллионами параметров прекрасно запустится
Показывает 51.2% на бенчмарке IFEval.
На Pixel 9 Pro съедает меньше 1% батареи за 25 диалогов в INT4-версии.
Может обрабатывать текст и изображения одновременно.
Конечно нужно точно понимать где и как её применять.
Хорошо показывает себя в задачах требующих высокой скорости, когда на счету каждая миллисекунда.
Удобна, если у вас нет мощной видеокарты.
Или у вас маленькое
Ну и в силу малого размера быстро файнтюнится под конкретные узкоспециализированные задачи.
HuggingFace
#Gemma #Google #edge
———
@tsingular
🔥14⚡4👍1
Forwarded from Анализ данных (Data analysis)
MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой.
Теперь даже без знаний запросов можно просто написать:
• «Покажи самых активных пользователей»
• «Создай нового пользователя с правами только на чтение»
• «Как устроена коллекция orders?»
⚙️ MCP Server поддерживает:
• MongoDB Atlas
• Community Edition
• Enterprise Advanced
📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка.
💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы.
Открытый исходный код. Готово к продакшену.
📌 GitHub
#MongoDB #AItools #OpenSource #MCP
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
✍12🔥5❤1
Forwarded from e/acc
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Помните модель от Гугла? Она все еще в research preview, то есть доступна только рисечерам.
А сегодня Tencent выложили в open-source аналогичную модель, которая позволяет генерировать виртуальные интерактивные миры.
Любой из вас может на всего лишь одной 4090 запустить бесконечный постоянно генерируемый виртуальный мир всего лишь по одному текстовому промту. Если в течении месяца на основе этой модели не появится стартап с как минимум $100M капитализацией на старте, который будет продавать метаверс опыт или "генеративный майнкрафт", где пользователь может общаясь с миром менять его, - я буду очень удивлен.
А сегодня Tencent выложили в open-source аналогичную модель, которая позволяет генерировать виртуальные интерактивные миры.
Любой из вас может на всего лишь одной 4090 запустить бесконечный постоянно генерируемый виртуальный мир всего лишь по одному текстовому промту. Если в течении месяца на основе этой модели не появится стартап с как минимум $100M капитализацией на старте, который будет продавать метаверс опыт или "генеративный майнкрафт", где пользователь может общаясь с миром менять его, - я буду очень удивлен.
🔥15
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield продолжает наваливать вирусные фишки
Product-to-Video - это практически Флюкс Контекст только для видео.
Что то похожее было у Пики и Рунвея, но Хиггсовские черрипики выглядят очень нарядно. Он даже проходит помадный тест.
@cgevent
Product-to-Video - это практически Флюкс Контекст только для видео.
Что то похожее было у Пики и Рунвея, но Хиггсовские черрипики выглядят очень нарядно. Он даже проходит помадный тест.
@cgevent
⚡7🔥4❤1
DeepSeek возвращается к GPU Nvidia после неудачных экспериментов с чипами Huawei
Китайский стартап DeepSeek отказался от использования чипов Huawei Ascend для обучения модели R2 и вернулся к решениям Nvidia.
Во время обучения моделей на чипах Ascend от Huawei выявились критические проблемы: постоянные сбои, несовместимость софта и низкая производительность.
Причем даже инженеры Huawei, которых выслали на помощь не смогли запустить успешное обучение на Ascend.
Теперь DeepSeek вынужден использовать гибридный подход - Nvidia для обучения, Huawei для инференса.
Надо сказать Ascend, конечно, сравнительно недавно появился, так что просто ждем фикса следующих релизах.
#DeepSeek #Nvidia #Huawei #Китай
———
@tsingular
Китайский стартап DeepSeek отказался от использования чипов Huawei Ascend для обучения модели R2 и вернулся к решениям Nvidia.
Во время обучения моделей на чипах Ascend от Huawei выявились критические проблемы: постоянные сбои, несовместимость софта и низкая производительность.
Причем даже инженеры Huawei, которых выслали на помощь не смогли запустить успешное обучение на Ascend.
Теперь DeepSeek вынужден использовать гибридный подход - Nvidia для обучения, Huawei для инференса.
Надо сказать Ascend, конечно, сравнительно недавно появился, так что просто ждем фикса следующих релизах.
#DeepSeek #Nvidia #Huawei #Китай
———
@tsingular
✍5👍1