Forwarded from Machinelearning
DepthLab - диффузионный механизм инпейнта карт глубины с двумя параллельными ветвями для задач заполнения 3D-сцен, генерации сцен на основе текстовых промптов, реконструкции с использованием DUST3R и заполнение глубины LiDAR.
Первая ветвь, Reference U-Net извлекает признаки из RGB-изображений, которые служат условием для второй ветви.
Вторая ветвь, Estimation U-Net, обрабатывает имеющиеся данные о глубине и маску, определяющую области, требующие восстановления. Признаки RGB, полученные из Reference U-Net, последовательно интегрируются в Estimation U-Net, что позволяет управлять процессом восстановления.
Взаимодействие между ветвями Reference U-Net и Estimation U-Net реализуется механизмом cross-attention, который использует CLIP encoder.
Архитектура DepthLab опирается на наработки Marigold и Stable Diffusion V2. Кодирование RGB-изображений и карт глубины в латентное пространство осуществляется VAE. Маска также кодируется с помощью VAE, что позволяет сохранить детальную информацию о форме и границах.
Обучение DepthLab проводилось на двух синтетических датасетах: Hypersim (54 тысячи обучающих образцов) и Virtual KITTI (20 тысяч обучающих образцов). Для расширения обучающей выборки использовались случайные искажения изображений и несколько стратегий маскирования: штрихи, окружности, квадраты и их комбинации.
Оценка качества восстановления проводилась на 5 наборах: NYUv2, KITTI, ETH3D, ScanNet, DIODE. В качестве метрик использовались абсолютная относительная ошибка (AbsRel) и точность в пределах δ1 = 1.25.
Результаты тестов демонстрируют, что DepthLab превосходит как дискриминативные (DiverseDepth, MiDaS, LeReS, Omnidata, HDN, DPT, DepthAnything, DepthAnythingV2), так и генеративные (Marigold, DepthFM, GeoWizard) методы в постоении карт глубины.
Для локального инференса потребуются модели:
# Clone repo
git clone https://github.com/Johanan528/DepthLab.git
cd DepthLab
# Create conda env
conda env create -f environment.yaml
conda activate DepthLab
# Run inference
cd scripts
bash infer.sh
@ai_machinelearning_big_data
#AI #ML #DepthLab
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2❤1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🔥2😁1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤2
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1👏1👌1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👌2❤1🔥1👏1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2❤1👍1👏1👀1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2👍1👏1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация 3D-сетки из одного изображения МЕНЕЕ ЧЕМ ЗА СЕКУНДУ 🤯
https://huggingface.co/stabilityai/stable-point-aware-3d
https://huggingface.co/stabilityai/stable-point-aware-3d
❤9🔥6👍2
Awesome список фреймворков, платформ, инструментов, учебников и ресурсов для ИИ-агентов.
Я только что нашел качественный ресурс для изучения работы ИИ-агентов, охватывающий все, от фреймворков до внутреннего устройства агентов.
https://aiagenttoolkit.xyz
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2❤1
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1
🧬 Evaluating GenMol as a Generalist Foundation Model for Molecular Generation
Могут ли генеративные модели на основе дискретной диффузии превзойти модели предсказания на основе GPT в молекулярных задачах? Советую почитать о GenMol, новом швейцарском армейском ноже NVIDIA для создания лекарств!
🔗 статья: https://arxiv.org/abs/2501.06158
🔗 блог: https://developer.nvidia.com/blog/evaluating-genmol-as-a-generalist-foundation-model-for-molecular-generation/
🔗 демо: https://build.nvidia.com/nvidia/genmol-generat
@bigdatai
Могут ли генеративные модели на основе дискретной диффузии превзойти модели предсказания на основе GPT в молекулярных задачах? Советую почитать о GenMol, новом швейцарском армейском ноже NVIDIA для создания лекарств!
@bigdatai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2
Forwarded from Machinelearning
Kyutai labs выпустили Helium-1 Preview, 2B многоязычный LLM для edge девайсов и мобильных устройств.
Модель, обучена на 2,5 Т токенов и превосходит Qwen 2.5 1.5B🔥
> Превосходит/сопоставим с Owen 1.5B, Gemma 2B и Llama 3B
> обучен на 2.5T токенов с размером контекста 4096
> использует дистилляцию на уровне 7B модели
> разработчики планируют добавить больше языков, выпустить полную версию
> открытый код
🤗 HF: https://huggingface.co/kyutai/helium-1-preview-2b
@ai_machinelearning_big_data
#Helium #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1