This media is not supported in your browser
VIEW IN TELEGRAM
Ollama добавила визуальную модель Llama 3.2!
Фреймворк Ollama интегрировал мультимодальную Llama 3.2 Vision в две конфигурации.
Компактная версия 11B функционирует на видеокартах от 8GB VRAM, мощная 90B требует 64GB видеопамяти (чёрно завидуем Маководам!).
Аллилуйя!! Убежал тестировать.
11b-instruct-fp16 - 21GB
90b-instruct-q4_K_M 55GB
90b-instruct-fp16 177GB!!!
В общем, если у вас 24Гига - берите llava34b все-таки.
если меньше - llama 3.2-vision:11b
#Ollama #Llama #Vision
———
@tsingular
Фреймворк Ollama интегрировал мультимодальную Llama 3.2 Vision в две конфигурации.
Компактная версия 11B функционирует на видеокартах от 8GB VRAM, мощная 90B требует 64GB видеопамяти (чёрно завидуем Маководам!).
Аллилуйя!! Убежал тестировать.
11b-instruct-fp16 - 21GB
90b-instruct-q4_K_M 55GB
90b-instruct-fp16 177GB!!!
В общем, если у вас 24Гига - берите llava34b все-таки.
если меньше - llama 3.2-vision:11b
#Ollama #Llama #Vision
———
@tsingular
👍6
PaLiGemma 2 mix: Новый мультизадачный визуальный AI от Google
Гугл выкатил интересное обновление своей визуальной модели - PaLiGemma 2 mix.
- Три версии по размеру параметров: 3B, 10B и 28B
- Поддержка разрешений 224px и 448px
- Мультифреймворк поддержка: работает с Hugging Face, Keras, PyTorch, JAX и даже с легковесным Gemma.cpp
Умеет:
- Распознавание объектов с обозначением границ каждого объекта
- Сегментация изображений
- OCR (мультиязычный)
- Генерация подписей к изображениям
- Визуальный QA
💡 Практическое применение:
Модель особенно интересна для бизнеса и разработчиков, которым нужно быстро прототипировать CV-решения.
При этом, как пишут разработчики, - максимально она раскрывается после файнтюна.
- Инструкция по файнтюну прилагается
- Полная документация
PaLiGemma 2 mix - это практически швейцарский нож для работы с изображениями, который можно быстро интегрировать через популярные ML-фреймворки.
Особенно порадовало наличие легковесной версии (3B) - такую можно даже на edge-устройствах гонять в роботах и дронах.
Demo
HuggingFace коллекция
#Vision #Google
———
@tsingular
Гугл выкатил интересное обновление своей визуальной модели - PaLiGemma 2 mix.
- Три версии по размеру параметров: 3B, 10B и 28B
- Поддержка разрешений 224px и 448px
- Мультифреймворк поддержка: работает с Hugging Face, Keras, PyTorch, JAX и даже с легковесным Gemma.cpp
Умеет:
- Распознавание объектов с обозначением границ каждого объекта
- Сегментация изображений
- OCR (мультиязычный)
- Генерация подписей к изображениям
- Визуальный QA
💡 Практическое применение:
Модель особенно интересна для бизнеса и разработчиков, которым нужно быстро прототипировать CV-решения.
При этом, как пишут разработчики, - максимально она раскрывается после файнтюна.
- Инструкция по файнтюну прилагается
- Полная документация
PaLiGemma 2 mix - это практически швейцарский нож для работы с изображениями, который можно быстро интегрировать через популярные ML-фреймворки.
Особенно порадовало наличие легковесной версии (3B) - такую можно даже на edge-устройствах гонять в роботах и дронах.
Demo
HuggingFace коллекция
#Vision #Google
———
@tsingular
🔥9
Microsoft Copilot Vision теперь видит весь экран
Вместо ограничения двумя приложениями Copilot Vision получил доступ ко всему рабочему столу. Активируется кликом на иконку очков — как демонстрация экрана в видеозвонке.
ИИ может анализировать контент, давать советы по творческим проектам, помогать с резюме или подсказывать в играх. В отличие от Recall, который автоматически делает снимки экрана, здесь всё под контролем пользователя.
Теперь Microsoft может предложить более целостную помощь, связывая информацию из разных приложений. Это превращает ИИ-ассистента в полноценного наблюдателя за всем рабочим процессом.
#Microsoft #Copilot #Vision
------
@tsingular
Вместо ограничения двумя приложениями Copilot Vision получил доступ ко всему рабочему столу. Активируется кликом на иконку очков — как демонстрация экрана в видеозвонке.
ИИ может анализировать контент, давать советы по творческим проектам, помогать с резюме или подсказывать в играх. В отличие от Recall, который автоматически делает снимки экрана, здесь всё под контролем пользователя.
Теперь Microsoft может предложить более целостную помощь, связывая информацию из разных приложений. Это превращает ИИ-ассистента в полноценного наблюдателя за всем рабочим процессом.
#Microsoft #Copilot #Vision
------
@tsingular
✍7👍2