Технозаметки Малышева
8.82K subscribers
3.88K photos
1.45K videos
40 files
4.04K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Forwarded from Machinelearning
📌Tencent Yan: создание AAA-игр в реальном времени с помощью диффузионных моделей.

Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.

🟡Первый модуль — Yan-Sim.

Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.

Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.

Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.

Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.

В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.

🟡Второй модуль - Yan-Gen.

В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.

Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.

Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.

Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.

Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.

🟡Третий модуль - Yan-Edit.

Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.

Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.

Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").

Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72
This media is not supported in your browser
VIEW IN TELEGRAM
Держите пятничную шпаргалку по MCP серверам :)

(спасибо @productsgossip за идею)

#юмор #MCP
———
@tsingular
2👍13👨‍💻6👏5👌32😭2
Google выпустил ультракомпактную Gemma 3 270M

Новая QAT модель с 270 миллионами параметров прекрасно запустится на кофеварке вашей бабушки на смартфоне.

Показывает 51.2% на бенчмарке IFEval.

На Pixel 9 Pro съедает меньше 1% батареи за 25 диалогов в INT4-версии.

Может обрабатывать текст и изображения одновременно.

Конечно нужно точно понимать где и как её применять.
Хорошо показывает себя в задачах требующих высокой скорости, когда на счету каждая миллисекунда.
Удобна, если у вас нет мощной видеокарты.
Или у вас маленькое (летающее, бегающее) мобильное устройство.
Ну и в силу малого размера быстро файнтюнится под конкретные узкоспециализированные задачи.

HuggingFace

#Gemma #Google #edge
———
@tsingular
🔥144👍1
🖥 MongoDB выпускает MCP Server — теперь любой может стать дата-инженером

MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой.

Теперь даже без знаний запросов можно просто написать:
• «Покажи самых активных пользователей»
• «Создай нового пользователя с правами только на чтение»
• «Как устроена коллекция orders?»

⚙️ MCP Server поддерживает:
• MongoDB Atlas
• Community Edition
• Enterprise Advanced

📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка.

💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы.
Открытый исходный код. Готово к продакшену.

📌 GitHub

#MongoDB #AItools #OpenSource #MCP

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥51
Forwarded from e/acc
Помните модель от Гугла? Она все еще в research preview, то есть доступна только рисечерам.

А сегодня Tencent выложили в open-source аналогичную модель, которая позволяет генерировать виртуальные интерактивные миры.

Любой из вас может на всего лишь одной 4090 запустить бесконечный постоянно генерируемый виртуальный мир всего лишь по одному текстовому промту. Если в течении месяца на основе этой модели не появится стартап с как минимум $100M капитализацией на старте, который будет продавать метаверс опыт или "генеративный майнкрафт", где пользователь может общаясь с миром менять его, - я буду очень удивлен.
🔥15
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Higgsfield продолжает наваливать вирусные фишки

Product-to-Video - это практически Флюкс Контекст только для видео.

Что то похожее было у Пики и Рунвея, но Хиггсовские черрипики выглядят очень нарядно. Он даже проходит помадный тест.

@cgevent
7🔥41