Meta Reality Labs выпустила семейство моделей Sapiens, предназначенных для операций с изображениями или видео людей:
Модели могут работать с разрешением 1K (1024х1024) и легко адаптируются под специфические задачи путем тонкой настройки моделей. Семейство было обучено на предварительно отобранном корпусе данных в 300 млн изображений, из которого были удалены изображения с водяными знаками, художественной стилизацией, снимки плохого качества и содержащие размытие в движении.
Опубликованные модели разделяются по назначению : sapiens_lite_host - предназначены для инференса, а sapiens_host - длясамостоятельного обучения на ваших данных. Для обеих вариантов наборов выпущены градации плотности:
Разработчики рекомендуют lite-установку для инференса, она оптимизирована для быстрого запуска с минимальными зависимостями и возможностью запуска на нескольких GPU.
# Clone repository
git clone [email protected]:facebookresearch/sapiens.git
export SAPIENS_ROOT=/path/to/sapiens
# Set up a venv:
conda create -n sapiens_lite python=3.10
conda activate sapiens_lite
# Install dependencies
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install opencv-python tqdm json-tricks
# Navigate to your script directory
cd $SAPIENS_LITE_ROOT/scripts/demo/[torchscript,bfloat16,float16]
# Uncomment your model config line first
./depth.sh
📌 Лицензирование : CC-BY-NC-SA-4.0 License
▪Страница проекта
▪Набор моделей
▪Arxiv
▪Github [ Stars: 75 | Issues: 0 | Forks: 0]
@ai_machinelearning_big_data
#AI #Vision #ViT #ML #CV
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34❤9🔥5😁2
AIMV2 – семейство моделей визуальных энкодеров, предварительно обученных с помощью мультимодальной авторегрессионной цели, которая восстанавливает фрагменты изображений и текстовые токены, что, в итоге, позволяет AIMV2 справляться с задачами распознавания изображений, локализации объектов и мультимодального понимания.
Архитектура AIMV2 основана на ViT и использует каузальный мультимодальный декодер, который сначала регрессирует фрагменты изображения, а затем декодирует текстовые токены авторегрессионно. Визуальный энкодер использует префиксное внимание, что позволяет использовать двунаправленное внимание во время вывода без дополнительной настройки.
Семейство AIMV2 обучалось на комбинации общедоступных (DFN-2B, COYO) и собственных (HQITP) датасетов, содержащих пары "изображение-текст" и синтетические аннотации, сгенерированные предварительно обученным инструментом.
Эксперименты после обучения показали, что AIMV2-3B достигает точности 89,5% на ImageNet с замороженным транком, что лучше, чем у генеративных методов MAE и AIM. AIMV2 превосходит CLIP и SigLIP в большинстве тестов на мультимодальное понимание.
Модель совместима с LiT для zero-shot распознавания и может быть настроена для обработки изображений с различными разрешениями и соотношениями сторон.
В отрытый доступ на HF опубликованы модели:
⚠️ ! Примеры инференса с JAX и MLX доступны в репозитории AIMv2
# Clone the repository
pip install 'git+https://github.com/apple/ml-aim.git#subdirectory=aim-v2'
# Example Using PyTorch
from PIL import Image
from aim.v2.utils import load_pretrained
from aim.v1.torch.data import val_transforms
img = Image.open(...)
model = load_pretrained("aimv2-large-patch14-336", backend="torch")
transform = val_transforms(img_size=336)
inp = transform(img).unsqueeze(0)
features = model(inp)
@ai_machinelearning_big_data
#AI #ML #Vision #Apple #AIMv2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥8❤7
⚡️NVIDIA выпустили Eagle 2 — 1B, 2B и 9B VLM.
Eagle 2 - это обновление семейство мощных vision language моделей.
Модель 9B превосходит GPT4o ChartQA, OCRBench и MathVista, а также Llama 3.2 Vision 90B и llava 70B 🔥
Может работать с длинным контекстом, поддерживает 4K, HD.
> Eagle2-9B превосходит InternVL2-8B и MiniCPM-v2.6 по всем 14 тестам
> Он превосходит Qwen2-VL-7B в 9 из 14 тестов и превосходит его в OpenCompass
> Конкурирует с более крупными моделями, такими как InternVL2-26B, LLaVa-OneVision-72B и LLaMa-3.2-90B-Vision
> Eagle2-9B превосходит GPT-4o на ChartQA, OCRBench и MathVista и близок к GPT-4o на DocVQA, MMStar, AI2D и OpenCompass
> В открытом доступе выложены модель и чекпоинты
🤗 Hf: https://huggingface.co/collections/nvidia/eagle-2-6764ba887fa1ef387f7df067
▪️Demo: https://eagle.viphk1.nnhk.cc
▪️Paper: https://arxiv.org/abs/2501.14818
@ai_machinelearning_big_data
#eagle #nvidia #vision #ml #ai
Eagle 2 - это обновление семейство мощных vision language моделей.
Модель 9B превосходит GPT4o ChartQA, OCRBench и MathVista, а также Llama 3.2 Vision 90B и llava 70B 🔥
Может работать с длинным контекстом, поддерживает 4K, HD.
> Eagle2-9B превосходит InternVL2-8B и MiniCPM-v2.6 по всем 14 тестам
> Он превосходит Qwen2-VL-7B в 9 из 14 тестов и превосходит его в OpenCompass
> Конкурирует с более крупными моделями, такими как InternVL2-26B, LLaVa-OneVision-72B и LLaMa-3.2-90B-Vision
> Eagle2-9B превосходит GPT-4o на ChartQA, OCRBench и MathVista и близок к GPT-4o на DocVQA, MMStar, AI2D и OpenCompass
> В открытом доступе выложены модель и чекпоинты
▪️Demo: https://eagle.viphk1.nnhk.cc
▪️Paper: https://arxiv.org/abs/2501.14818
@ai_machinelearning_big_data
#eagle #nvidia #vision #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤34👍19🔥7🎄2
Unsolth выложила в открытый доступ в своем репозитории на Github больше сотни готовых ipynb-блокнотов для запуска различных операций в Google Collab практически всех популярных семейств языковых моделей, BERT, TTS-моделей и VLM:
Блокноты включают пошаговые руководства и примеры для вызова инструментов, классификации, синтетических данных, подготовки сетов, инференса и файнтюна моделей и
примеры методов GRPO, DPO, SFT, Continued Pretraining, Reasoning и других.
Unsloth известна тем, что помогает делать большие языковые модели быстрее, компактнее и доступнее при помощи динамического квантования, что позволяет запускать их без сильной потери качества . Их технологии ускоряют обучение и настройку ИИ-моделей в 2 раза и экономят до 70% памяти. Инструменты Unsloth, на сегодняшний день, скачали более 10 млн раз.
Есть подробная документация по использованию, а для тех, кто больше привык к Kaggle - такой же набор блокнотов для запуска на этой платформе.
@ai_machinelearning_big_data
#AI #ML #LLM #Notebooks #Github #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍25❤24❤🔥9🌭3