Machinelearning

⚡️ Sapiens: Семейство ViT-моделей для визуальных задач c изображениями человека.

Meta Reality Labs выпустила семейство моделей Sapiens, предназначенных для операций с изображениями или видео людей:

🟢вычисления 2D-позы (17, 133 и 308 ключевых точек);
🟢сегментации частей тела (28 категорий);
🟢оценки карты глубины;
🟢извлечения нормалей поверхности.

Модели могут работать с разрешением 1K (1024х1024) и легко адаптируются под специфические задачи путем тонкой настройки моделей. Семейство было обучено на предварительно отобранном корпусе данных в 300 млн изображений, из которого были удалены изображения с водяными знаками, художественной стилизацией, снимки плохого качества и содержащие размытие в движении.

Опубликованные модели разделяются по назначению : sapiens_lite_host - предназначены для инференса, а sapiens_host - длясамостоятельного обучения на ваших данных. Для обеих вариантов наборов выпущены градации плотности:

🟢Sapiens 0.3B
🟢Sapiens 0.6B
🟢Sapiens 1B
🟢Sapiens 2B

Разработчики рекомендуют lite-установку для инференса, она оптимизирована для быстрого запуска с минимальными зависимостями и возможностью запуска на нескольких GPU.

▶️Установка и запуск на примере Depth Estimation:


# Clone repository
git clone [email protected]:facebookresearch/sapiens.git
export SAPIENS_ROOT=/path/to/sapiens

# Set up a venv:
conda create -n sapiens_lite python=3.10
conda activate sapiens_lite

# Install dependencies
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install opencv-python tqdm json-tricks

# Navigate to your script directory
  cd $SAPIENS_LITE_ROOT/scripts/demo/[torchscript,bfloat16,float16]
  
# Uncomment your model config line first
./depth.sh

📌 Лицензирование : CC-BY-NC-SA-4.0 License

▪Страница проекта
▪Набор моделей
▪Arxiv
▪Github [ Stars: 75 | Issues: 0 | Forks: 0]

@ai_machinelearning_big_data

#AI #Vision #ViT #ML #CV

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍34❤9🔥5😁2

10.8K views07:48

Machinelearning

🌟 Hibou: Семейство ViT-моделей для патологии.

Hibou - это новое семейство фундаментальных ViT-моделей, специально разработанных для работы с цифровыми изображениями патологий тканей.

Hibou использует возможности самоконтролируемого обучения (self-supervised learning) - метода, при котором модель учится на огромном количестве немаркированных данных. Это особенно ценно для патологии, где аннотированные наборы данных часто скудны и дороги в создании.

Обучаясь на большом собственном наборе данных из более чем 1 миллиона изображений препаратов с различными типами тканей и методами окрашивания, модели Hibou научились извлекать надежные и обобщаемые признаки.

Представлено три модели: Hibou-B, Hibou-L и CellVit-Hibou-L:

🟢

Hibou-B и Hibou-L различаются по размеру и сложности, они основаны на ViT-B/14 и ViT-L/14 архитектурах соответственно.
Они созданы на фреймворке DINOv2 на специальном наборе аугментированных данных, адаптированных для лучшего обобщения (случайные вращения, перевороты, дрожание цвета и технику вариативного окрашивания тканей RandStainNA)

🟠

CellVit-Hibou-L - дополнительно обученная на фреймфорке CellViT Hibou-L с использованием корпуса данных PanNuke для сегментации и классификации клеток тканей. Модель может применятся для идентификации отдельных ядер клеток и анализа ядерной морфологии.

Семейство Hibou достиглj SOTA-результатов в задачах классификации на фрагментарном уровне, продемонстрировав способность точно классифицировать различные типы тканей и выявлять тонкие аномалии.

▶️ Использование моделей Hibou-B и Hibou-L возможно с HuggingFace Transformers или прямым инференсом модуля hibou.

▶️Для использование гибридной модели CellVit-Hibou-L следуйте последовательности из этого ipynb.

📌Лицензирование кода : Apache 2.0 License.

📌Лицензирование моделей: Apache 2.0 License и CC-BY-NC-SA-4.0 License (CellVit-Hibou-L) .

🟡

Arxiv

🟡

Набор моделей

🖥

Github [ Stars: 39 | Issues: 0 | Forks: 4]

@ai_machinelearning_big_data

#AI #HIBOU #ViT #ML #Histopathology

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤10🔥5🦄1

9.6K views08:42

Machinelearning

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Spann3R: 3D-реконструкция на основе изображений с помощью пространственной памяти.

Spann3R - уникальный метод плотной трехмерной реконструкции из упорядоченных или неупорядоченных наборов изображений.

Метод основан на концепции пространственной памяти, которая позволяет выполнять инкрементную реконструкцию сцены с помощью прогнозирования карты точек для каждого изображения в единой системе координат.

Spann3R может применяться в реальном времени для онлайн-реконструкции.

Архитектура Spann3R основана на модели DUSt3R с добавлением внешней пространственной памяти. Она включает в себя энкодер ViT, два связанных декодера (целевой и ссылочный), как в DUSt3R, и легковесный энкодер памяти.

Модель обучается на последовательностях из 5 кадров, случайно выбранных из видео, с использованием стратегии сurriculum training, которая регулирует размер окна выборки в процессе обучения. Эта стратегия позволяет Spann3R изучать краткосрочные и долгосрочные зависимости между кадрами.

Для обучения Spann3R использовались наборы данных Habitat, ScanNet, ScanNet++, ARKitScenes, BlendedMVS и Co3D-v2.

Оценка Spann3R проводилась на трех наборах: 7Scenes, NRGBD и DTU. Результаты показывают, что Spann3R демонстрирует конкурентоспособное качество онлайн-реконструкции по сравнению с автономными методами - FrozenRecon и DUSt3R, при этом превосходя их по скорости.

Spann3R достигала частоты кадров в 50 к/с без оптимизации во время оценочного тестирования. Визуализация процесса онлайн-реконструкции демонстрирует способность Spann3R понимать регулярность сцены, модель способна восстанавливать геометрию даже текстурно-однородных областей, например, стен.

⚠️ Перед локальным запуском на тестовых данных, необходимо предварительно загрузить предобученную модель и тестовый набор данных для инференса. Модель положить в папку ./checkpoints , а тестовый набор в ./examples

▶️Установка и запуск:

# Clone repository:
git clone https://github.com/HengyiWang/spann3r.git
cd spann3r

# Create conda env:
conda create -n spann3r python=3.9 cmake=3.14.0
conda install pytorch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 pytorch-cuda=11.8 -c pytorch -c nvidia 

pip install -r requirements.txt
pip install -U -f https://www.open3d.org/docs/latest/getting_started.html open3d

# Compile CUDA kernels for RoPE
cd croco/models/curope/
python setup.py build_ext --inplace
cd ../../../

# Download the DUSt3R checkpoint
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth

# Run demo:
python demo.py --demo_path ./examples/s00567 --kf_every 10 --vis

🟡

🟡

🟡

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #3D #Reconstruction #ViT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍15❤13🎉8🔥3

9.13K views18:04

Machinelearning

⚡️ Apple Depth Pro: Карта глубина с расчетом фокусного расстояния менее чем за секунду.

Depth Pro - базовая модель для метрической монокулярной оценки глубины по по одному изображению в режиме zero-shot. Она позволяет синтезировать Hi-Res карты глубины с высокой точностью определения границ объектов, воспроизводя их форму, расположение и абсолютный масштаб без использования метаданных камеры.

Архитектура модели основана на применении энкодеров ViT к фрагментам изображения, извлеченным в нескольких масштабах.

Используются два кодировщика ViT: фрагментный энкодер, обрабатывающий блоки изображения для изучения масштабно-инвариантных представлений и энкодер изображения, фиксирующий предсказания в глобальном контексте.

Модель работает с фиксированным разрешением 1536x1536 пикселей, а каждый из модулей ViT - 384x384 пикселей.

Для обучения используются 5 целевых функций (LMAE, LMSE, LMAGE, LMALE и LMSGE ) на основе канонической обратной глубины и применяется двухэтапный план обучения. Набор данных состоит из 43 датасетов.

Первый этап учит обобщающим признакам, основанным на смеси реальных и синтетических данных, а второй — повышению резкости границ на синтетических данных с точной информацией о глубине.

Модель показала высокую точность на различных наборах данных (Booster, ETH3D, Middlebury, nuScenes, Sintel и Sun-RGBD91011) .

Depth Pro превзошла другие методы по точности оценки фокусного расстояния на наборах данных DDDP, FiveK, PPR10K, RAISE, SPAQ и ZOOM.

Скорость инференса, замеренная в тестировании - 0,3 секунды на генерацию карты глубины 2,25-мегапиксельного изображения.

▶️ Локальная установка и инференс в CLI или Python:

# setting up a venv:
conda create -n depth-pro -y python=3.9
conda activate depth-pro
pip install -e .

# Download pretrained checkpoints:
source get_pretrained_models.sh

# Run the inference from CLI on a single image:
depth-pro-run -i ./data/example.jpg

# Running from python
from PIL import Image
import depth_pro

model, transform = depth_pro.create_model_and_transforms()
model.eval()
image, _, f_px = depth_pro.load_rgb(image_path)
image = transform(image)
prediction = model.infer(image, f_px=f_px)
depth = prediction["depth"]  # Depth in [m].
focallength_px = prediction["focallength_px"]  # Focal length in pixels.