This media is not supported in your browser
VIEW IN TELEGRAM
DepthFlow — это продвинутый конвертер изображений в видео с 3D-параллакс-эффектом, позволяющий превращать статичные фотографии в динамичные анимации!
В DepthFlow добавлены настраиваемые пресеты для достижения профессионального вида анимаций.
Быстрая обработка происходит благодаря оптимизированному шейдеру GLSL, работающему на GPU. Рендеринг до 8k50fps с RTX 3060, поддердивает экспорт видео с любым разрешением.
Дополнительные функции включают использование апскейлеров и пост-эффекты, такие как искажение линз, глубина резкости и тд .
▪ Github: https://github.com/BrokenSource/DepthFlow
▪Docs: https://brokensrc.dev/depthflow/
▪ComeUI: https://github.com/akatz-ai/ComfyUI-Depthflow-Nodes
@ai_machinelearning_big_data
#computervision #shadertoy #depthmaps #depthmap #depthprediction #parallaxeffect #monocular #imagetovideo #depthy #shaderflow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥15❤9
🔹 Главные особенности:
▪ SOTA-производительность: превосходит существующие модели по точности (Top-1) и скорости обработки на ImageNet-1K.
▪ Гибридная архитектура: сочетает Mamba (State Space Models, SSMs) и архитектуру трансформеров, улучшая эффективность обработки изображений.
▪ Подходит для задач классификации изображений, извлечения признаков и других задач CV.
MambaVision подойдет вам для автоматического анализа изображений, фильтрации данных и интеграции в AI-системы для компьютерного зрения.
#nvidia #mamba #computervision
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍50🔥15❤9
RoboBrain 2.0 — это open-source модель способная к широкому спектру задач: от восприятия окружения до управления роботами.
Её уже называют фундаментом для следующего поколения гуманоидов.
🔹 Поддерживает планирование, восприятие и действия в реальном мире
🔹 Заточен на легкую интеграцию (под капотом 7B параметров) в реальные проекты и роботизированные системы
🔹 Полностью открытый код
Архитектура:
• Обрабатывает изображения, длинные видео и визуальные данные высокого разрешения
• Понимает сложные текстовые инструкции
• Входные данные:
— Визуальные — проходят через Vision Encoder + MLP Projector
— Текстовые — превращаются в унифицированный токен-поток
• Всё подаётся в LLM Decoder, который выполняет рассуждение, строит планы, определяет координаты и пространственные связи
С такими темпами более чем реально, что уже к 2027 году мы увидим массовое производство продвинутых гуманоидных роботов.
ИИ выходит в физический мир — и делает это уверено.
Запуск:
git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain
# build conda env.
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt
▪Github: https://github.com/FlagOpen/RoboBrain2.0
▪Hugging face: https://huggingface.co/collections/BAAI/robobrain20-6841eeb1df55c207a4ea0036/
@ai_machinelearning_big_data
#ai #ml #robots #ComputerVision #BAAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥20❤17🥰3
@ai_machinelearning_big_data
#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤15🔥13🥱1
RenderFormer — это нейросеть, которая способна полностью заменить традиционный рендеринг (ray tracing, rasterization), используя только машинное обучение.
- Она работает с любыми 3D-сценами, поддерживает глобальное освещение и отображение материалов.
- Сцена представляется через * tokens* — треугольники с информацией о позиции, нормалях и свойствах материалов.
- Источники света также моделируются треугольниками.
- Используются два трансформера:
1. View-independent — для теней, рассеянного освещения и эффектов, не зависящих от угла обзора.
2. View-dependent — для отражений, бликов и других эффектов, связанных с перспективой.
- Результат работы модели — токены, которые преобразуются в финальное изображение.
📌 Обучение и результаты
- Датасет: Objaverse (сотни тысяч 3D-объектов).
- Обучение проходило в два этапа: сначала низкое разрешение и меньше треугольников, затем — более высокое качество и больше деталей.
- RenderFormer воспроизводит реалистичные тени, отражения и освещённость.
📌 Ограничения и перспективы
- Масштабирование на очень сложные сцены пока вызывает трудности.
- Для работы требуются большие вычислительные мощности.
- Но подход открывает путь к новому поколению технологий: от визуального синтеза и генерации видео до робототехники.
https://www.microsoft.com/en-us/research/blog/renderformer-how-neural-networks-are-reshaping-3d-rendering/
@ai_machinelearning_big_data
#RenderFormer #NeuralRendering #3DGraphics #MicrosoftResearch #Transformers #ComputerVision #GlobalIllumination
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63❤12🔥11