Machinelearning

⚡️

DepthFlow: Images to → 3D Parallax effect video

DepthFlow — это продвинутый конвертер изображений в видео с 3D-параллакс-эффектом, позволяющий превращать статичные фотографии в динамичные анимации!

🌟 Инструмент позволяет получать высокое качество генераций с плавными зациклеваниями, с отсутствием артефактов на краях.

В DepthFlow добавлены настраиваемые пресеты для достижения профессионального вида анимаций.

Быстрая обработка происходит благодаря оптимизированному шейдеру GLSL, работающему на GPU. Рендеринг до 8k50fps с RTX 3060, поддердивает экспорт видео с любым разрешением.

Дополнительные функции включают использование апскейлеров и пост-эффекты, такие как искажение линз, глубина резкости и тд .

🔐

Лицензирование: AGPL-3.0

▪ Github: https://github.com/BrokenSource/DepthFlow
▪Docs: https://brokensrc.dev/depthflow/
▪ComeUI: https://github.com/akatz-ai/ComfyUI-Depthflow-Nodes

@ai_machinelearning_big_data

#computervision #shadertoy #depthmaps #depthmap #depthprediction #parallaxeffect #monocular #imagetovideo #depthy #shaderflow

Please open Telegram to view this post

VIEW IN TELEGRAM

👍46🔥15❤9

17.7K viewsedited 08:39

Machinelearning

🌟

NVIDIA выкатили MambaVision на Hugging Face — мощную гибридную модель, объединяющую Mamba и Transformers для задач компьютерного зрения.

🔹 Главные особенности:
▪ SOTA-производительность: превосходит существующие модели по точности (Top-1) и скорости обработки на ImageNet-1K.
▪ Гибридная архитектура: сочетает Mamba (State Space Models, SSMs) и архитектуру трансформеров, улучшая эффективность обработки изображений.
▪ Подходит для задач классификации изображений, извлечения признаков и других задач CV.

MambaVision подойдет вам для автоматического анализа изображений, фильтрации данных и интеграции в AI-системы для компьютерного зрения.

✔️

MambaVision-L3-256-21K: https://huggingface.co/nvidia/MambaVision-L3-512-21K

#nvidia #mamba #computervision

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍51🔥15❤9

17.3K views10:04

Machinelearning

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

🤖

RoboBrain 2.0 — ИИ для нового поколения роботов.

RoboBrain 2.0 — это open-source модель способная к широкому спектру задач: от восприятия окружения до управления роботами.

Её уже называют фундаментом для следующего поколения гуманоидов.

🔹 Поддерживает планирование, восприятие и действия в реальном мире
🔹 Заточен на легкую интеграцию (под капотом 7B параметров) в реальные проекты и роботизированные системы
🔹 Полностью открытый код

Архитектура:

• Обрабатывает изображения, длинные видео и визуальные данные высокого разрешения
• Понимает сложные текстовые инструкции
• Входные данные:
— Визуальные — проходят через Vision Encoder + MLP Projector
— Текстовые — превращаются в унифицированный токен-поток
• Всё подаётся в LLM Decoder, который выполняет рассуждение, строит планы, определяет координаты и пространственные связи

С такими темпами более чем реально, что уже к 2027 году мы увидим массовое производство продвинутых гуманоидных роботов.

ИИ выходит в физический мир — и делает это уверено.

Запуск:

git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain

# build conda env.
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt

▪Github: https://github.com/FlagOpen/RoboBrain2.0
▪Hugging face: https://huggingface.co/collections/BAAI/robobrain20-6841eeb1df55c207a4ea0036/

@ai_machinelearning_big_data

#ai #ml #robots #ComputerVision #BAAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍66🔥20❤17🥰3

21.1K views06:00

Machinelearning

🚀 Hunyuan-Large-Vision: новая мощная мультимодальная модель от Tencent

🔹 MoE-архитектура — 389B параметров (52B активных) для оптимального баланса мощности и эффективности.
🔹 Лидер в рейтингах — 1256 баллов в LMArena Vision, #1 в Китае, на уровне GPT-4.5 и Claude-4-Sonnet.
🔹 Глубокое понимание — визуальное рассуждение, анализ видео и 3D-пространства, 79,5 баллов в среднем по бенчмарку OpenCompass.

📌 Модель дополняет линейку Hunyuan-TurboS-Vision и Hunyuan-T1-Vision, доступных через Tencent Cloud для задач в самых разных отраслях.

🟢

Попробовать: https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand

🟢

Блог: https://vision.hunyuan.tencent.com

🟢

API: https://cloud.tencent.com/document/product/1729/104753

@ai_machinelearning_big_data

#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45❤15🔥13🥱1

18.7K views12:50

Machinelearning

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

🔥

RenderFormer: как нейросети меняют 3D-рендеринг - Новое Исследование Microsoft Research

RenderFormer — это нейросеть, которая способна полностью заменить традиционный рендеринг (ray tracing, rasterization), используя только машинное обучение.
- Она работает с любыми 3D-сценами, поддерживает глобальное освещение и отображение материалов.

📌 Как это устроено
- Сцена представляется через * tokens* — треугольники с информацией о позиции, нормалях и свойствах материалов.
- Источники света также моделируются треугольниками.
- Используются два трансформера:
1. View-independent — для теней, рассеянного освещения и эффектов, не зависящих от угла обзора.
2. View-dependent — для отражений, бликов и других эффектов, связанных с перспективой.
- Результат работы модели — токены, которые преобразуются в финальное изображение.

📌 Обучение и результаты
- Датасет: Objaverse (сотни тысяч 3D-объектов).
- Обучение проходило в два этапа: сначала низкое разрешение и меньше треугольников, затем — более высокое качество и больше деталей.
- RenderFormer воспроизводит реалистичные тени, отражения и освещённость.

📌 Ограничения и перспективы
- Масштабирование на очень сложные сцены пока вызывает трудности.
- Для работы требуются большие вычислительные мощности.
- Но подход открывает путь к новому поколению технологий: от визуального синтеза и генерации видео до робототехники.

https://www.microsoft.com/en-us/research/blog/renderformer-how-neural-networks-are-reshaping-3d-rendering/

@ai_machinelearning_big_data

#RenderFormer #NeuralRendering #3DGraphics #MicrosoftResearch #Transformers #ComputerVision #GlobalIllumination

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍64❤12🔥11

22.8K views12:30

About

Blog

Apps

Platform