334K subscribers
4.13K photos
753 videos
17 files
4.66K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ DepthFlow: Images to → 3D Parallax effect video

DepthFlow — это продвинутый конвертер изображений в видео с 3D-параллакс-эффектом, позволяющий превращать статичные фотографии в динамичные анимации!

🌟 Инструмент позволяет получать высокое качество генераций с плавными зациклеваниями, с отсутствием артефактов на краях.

В DepthFlow добавлены настраиваемые пресеты для достижения профессионального вида анимаций.

Быстрая обработка происходит благодаря оптимизированному шейдеру GLSL, работающему на GPU. Рендеринг до 8k50fps с RTX 3060, поддердивает экспорт видео с любым разрешением.

Дополнительные функции включают использование апскейлеров и пост-эффекты, такие как искажение линз, глубина резкости и тд .

🔐 Лицензирование: AGPL-3.0

Github: https://github.com/BrokenSource/DepthFlow
Docs: https://brokensrc.dev/depthflow/
ComeUI: https://github.com/akatz-ai/ComfyUI-Depthflow-Nodes

@ai_machinelearning_big_data


#computervision #shadertoy #depthmaps #depthmap #depthprediction #parallaxeffect #monocular #imagetovideo #depthy #shaderflow
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥159
🌟 NVIDIA выкатили MambaVision на Hugging Face — мощную гибридную модель, объединяющую Mamba и Transformers для задач компьютерного зрения.

🔹 Главные особенности:
SOTA-производительность: превосходит существующие модели по точности (Top-1) и скорости обработки на ImageNet-1K.
Гибридная архитектура: сочетает Mamba (State Space Models, SSMs) и архитектуру трансформеров, улучшая эффективность обработки изображений.
Подходит для задач классификации изображений, извлечения признаков и других задач CV.

MambaVision подойдет вам для автоматического анализа изображений, фильтрации данных и интеграции в AI-системы для компьютерного зрения.

✔️ MambaVision-L3-256-21K: https://huggingface.co/nvidia/MambaVision-L3-512-21K

#nvidia #mamba #computervision
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍50🔥159
🤖 RoboBrain 2.0 — ИИ для нового поколения роботов.

RoboBrain 2.0 — это open-source модель способная к широкому спектру задач: от восприятия окружения до управления роботами.

Её уже называют фундаментом для следующего поколения гуманоидов.

🔹 Поддерживает планирование, восприятие и действия в реальном мире
🔹 Заточен на легкую интеграцию (под капотом 7B параметров) в реальные проекты и роботизированные системы
🔹 Полностью открытый код

Архитектура:

• Обрабатывает изображения, длинные видео и визуальные данные высокого разрешения
• Понимает сложные текстовые инструкции
• Входные данные:
 — Визуальные — проходят через Vision Encoder + MLP Projector
 — Текстовые — превращаются в унифицированный токен-поток
• Всё подаётся в LLM Decoder, который выполняет рассуждение, строит планы, определяет координаты и пространственные связи

С такими темпами более чем реально, что уже к 2027 году мы увидим массовое производство продвинутых гуманоидных роботов.

ИИ выходит в физический мир — и делает это уверено.

Запуск:

git clone https://github.com/FlagOpen/RoboBrain2.0.git
cd RoboBrain

# build conda env.
conda create -n robobrain2 python=3.10
conda activate robobrain2
pip install -r requirements.txt


Github: https://github.com/FlagOpen/RoboBrain2.0
Hugging face: https://huggingface.co/collections/BAAI/robobrain20-6841eeb1df55c207a4ea0036/

@ai_machinelearning_big_data

#ai #ml #robots #ComputerVision #BAAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2017🥰3
🚀 Hunyuan-Large-Vision: новая мощная мультимодальная модель от Tencent

🔹 MoE-архитектура — 389B параметров (52B активных) для оптимального баланса мощности и эффективности.
🔹 Лидер в рейтингах — 1256 баллов в LMArena Vision, #1 в Китае, на уровне GPT-4.5 и Claude-4-Sonnet.
🔹 Глубокое понимание — визуальное рассуждение, анализ видео и 3D-пространства, 79,5 баллов в среднем по бенчмарку OpenCompass.

📌 Модель дополняет линейку Hunyuan-TurboS-Vision и Hunyuan-T1-Vision, доступных через Tencent Cloud для задач в самых разных отраслях.

🟢Попробовать: https://hunyuan.tencent.com/modelSquare/home/list?modelKey=VisionUnderstand
🟢 Блог: https://vision.hunyuan.tencent.com
🟢API: https://cloud.tencent.com/document/product/1729/104753

@ai_machinelearning_big_data


#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4515🔥13🥱1
🔥 RenderFormer: как нейросети меняют 3D-рендеринг - Новое Исследование Microsoft Research

RenderFormer — это нейросеть, которая способна полностью заменить традиционный рендеринг (ray tracing, rasterization), используя только машинное обучение.
- Она работает с любыми 3D-сценами, поддерживает глобальное освещение и отображение материалов.

📌 Как это устроено
- Сцена представляется через * tokens* — треугольники с информацией о позиции, нормалях и свойствах материалов.
- Источники света также моделируются треугольниками.
- Используются два трансформера:
1. View-independent — для теней, рассеянного освещения и эффектов, не зависящих от угла обзора.
2. View-dependent — для отражений, бликов и других эффектов, связанных с перспективой.
- Результат работы модели — токены, которые преобразуются в финальное изображение.

📌 Обучение и результаты
- Датасет: Objaverse (сотни тысяч 3D-объектов).
- Обучение проходило в два этапа: сначала низкое разрешение и меньше треугольников, затем — более высокое качество и больше деталей.
- RenderFormer воспроизводит реалистичные тени, отражения и освещённость.

📌 Ограничения и перспективы
- Масштабирование на очень сложные сцены пока вызывает трудности.
- Для работы требуются большие вычислительные мощности.
- Но подход открывает путь к новому поколению технологий: от визуального синтеза и генерации видео до робототехники.

https://www.microsoft.com/en-us/research/blog/renderformer-how-neural-networks-are-reshaping-3d-rendering/

@ai_machinelearning_big_data


#RenderFormer #NeuralRendering #3DGraphics #MicrosoftResearch #Transformers #ComputerVision #GlobalIllumination
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6312🔥11