Технозаметки Малышева

Ollama добавила визуальную модель Llama 3.2!

Фреймворк Ollama интегрировал мультимодальную Llama 3.2 Vision в две конфигурации.

Компактная версия 11B функционирует на видеокартах от 8GB VRAM, мощная 90B требует 64GB видеопамяти (чёрно завидуем Маководам!).

Аллилуйя!! Убежал тестировать.
11b-instruct-fp16 - 21GB
90b-instruct-q4_K_M 55GB
90b-instruct-fp16 177GB!!!

В общем, если у вас 24Гига - берите llava34b все-таки.
если меньше - llama 3.2-vision:11b

#Ollama #Llama #Vision
———
@tsingular

👍6

1.23K viewsedited 06:34

PaLiGemma 2 mix: Новый мультизадачный визуальный AI от Google

Гугл выкатил интересное обновление своей визуальной модели - PaLiGemma 2 mix.

- Три версии по размеру параметров: 3B, 10B и 28B
- Поддержка разрешений 224px и 448px
- Мультифреймворк поддержка: работает с Hugging Face, Keras, PyTorch, JAX и даже с легковесным Gemma.cpp

Умеет:
- Распознавание объектов с обозначением границ каждого объекта
- Сегментация изображений
- OCR (мультиязычный)
- Генерация подписей к изображениям
- Визуальный QA

💡 Практическое применение:
Модель особенно интересна для бизнеса и разработчиков, которым нужно быстро прототипировать CV-решения.
При этом, как пишут разработчики, - максимально она раскрывается после файнтюна.
- Инструкция по файнтюну прилагается
- Полная документация

PaLiGemma 2 mix - это практически швейцарский нож для работы с изображениями, который можно быстро интегрировать через популярные ML-фреймворки.

Особенно порадовало наличие легковесной версии (3B) - такую можно даже на edge-устройствах гонять в роботах и дронах.

Demo
HuggingFace коллекция

#Vision #Google
———
@tsingular

🔥9

955 views06:44

Технозаметки Малышева

Microsoft Copilot Vision теперь видит весь экран

Вместо ограничения двумя приложениями Copilot Vision получил доступ ко всему рабочему столу. Активируется кликом на иконку очков — как демонстрация экрана в видеозвонке.

ИИ может анализировать контент, давать советы по творческим проектам, помогать с резюме или подсказывать в играх. В отличие от Recall, который автоматически делает снимки экрана, здесь всё под контролем пользователя.

Теперь Microsoft может предложить более целостную помощь, связывая информацию из разных приложений. Это превращает ИИ-ассистента в полноценного наблюдателя за всем рабочим процессом.

#Microsoft #Copilot #Vision
------
@tsingular

✍7👍2

1.19K viewsedited 04:59

About

Blog

Apps

Platform