Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.
Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.
Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.
Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.
Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.
В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.
В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.
Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.
Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.
Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.
Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.
Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.
Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.
Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").
Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1
✨ Возможности:
- Объединение и разделение файлов
- Поворот и обрезка страниц
- Перестановка и удаление страниц
- Интуитивный drag-and-drop интерфейс
Полностью опенсорс (GPL-3.0).
Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек.
📌 GitHub
#PDF #opensource #Linux #devtools
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1
⚡️Qoder — бесплатный ИИ-редактор кода от Alibaba
Разработчики называют его платформой для кодинга «нового поколения». Qoder понимает всю кодовую базу, разбивает задачу на шаги, запоминает твой стиль и самое классное — модель подбирается автоматически в зависимости от задачи.
Есть еще Quest Mode: описываешь задачу, а Qoder сам пишет спецификацию, планирует и выполняет изменения по коду.
https://qoder.com/
Разработчики называют его платформой для кодинга «нового поколения». Qoder понимает всю кодовую базу, разбивает задачу на шаги, запоминает твой стиль и самое классное — модель подбирается автоматически в зависимости от задачи.
Есть еще Quest Mode: описываешь задачу, а Qoder сам пишет спецификацию, планирует и выполняет изменения по коду.
https://qoder.com/
👍4❤3
Отличный курс для тех, кто хочет разобраться в нейронках с нуля от Андрея Карпати (OpenAI/Tesla).
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
Внутри бесплатная серия лекций на YouTube (и репа на GitHub), где ты с нуля учишься собирать нейронки. Всё максимально hands-on:
Автор не просто рассказывает теорию, а пишет код вместе с тобой — от самых азов до тренировки сетей.
https://github.com/karpathy/nn-zero-to-hero/
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Чем хороша модель:
- 8B параметров - лёгкая для локального инференса.
- Средний балл 77.0 на OpenCompass - сводная оценка по 8 популярным бенчмаркам.
- По этим тестам обгоняет ряд проприетарных моделей уровня GPT-4o-latest и Gemini-2.0 Pro, а также сильный опенсорс Qwen2.5-VL 72B в задачах vision-language.
- Фактически самый результативный MLLM до 30B параметров.
Что соберём за сессию:
1) Мини-API для инференса - роут /chat с приемом текста и изображения.
2) Ультралёгкий фронт в anycoder - поле ввода, загрузка картинки, предпросмотр.
3) Набор промпт-темплейтов - описание изображения, OCR-вопросы, разбор скриншотов кода.
Где модель особенно заходит:
- Разбор скринов UI и PDF с таблицами.
- Вопросы по диаграммам и графикам.
- Помощь по коду по фотографиям экрана.
https://huggingface.co/spaces/akhaliq/MiniCPM-V-4_5
Please open Telegram to view this post
VIEW IN TELEGRAM