Технозаметки Малышева

Гемамба: LLM с видеоэнкодером от TensorSense на базе Мамбы

Команда TensorSense выпустила Гемамбу мультимодальную языковую модель (VLM) с видеоэнкодером на базе Мамбы.
Ключевые особенности Гемамбы:
- Уникальный дизайн архитектуры, созданный командой TensorSense
- Возможность загружать очень длинные видео при небольших вычислительных ресурсах
- Открывает дверь для применения ЛЛМ в компьютерном зрении с бОльшей скоростью.
это первая альфа-версия, представляющая больше интерес для исследователей.
Код для обучения и оценки модели доступен в GitHub.

Интересный релиз. Следим.

#TensorSense #Gemamba #VLM
-------
@tsingular

133 views08:36

0:44

Media is too big

VIEW IN TELEGRAM

🤖 DeepSeek выкатили Small-версию своей мультимодальной модели!

При всего 2.8B активных параметров, DeepSeek-VL2-Small демонстрирует впечатляющие результаты:

- 92.3% на DocVQA (тест на понимание документов)
- 84.5% на ChartQA (работа с графиками)
- 83.4% на TextVQA (распознавание текста на изображениях)

Технически модель наследует все крутые фишки базовой версии:

- Dynamic tiling — умное разбиение картинок на тайлы для обработки изображений высокого разрешения. Больше никаких ограничений на размер входной картинки!

- Multi-head Latent Attention для оптимизации памяти — ключи и значения сжимаются в латентные вектора. За счет этого модель быстрее работает и меньше ест памяти.

- MoE (Mixture of Experts) архитектура — вместо того чтобы гонять все параметры, модель активирует только нужных "экспертов". Отсюда и экономия: из 16B общих параметров активируются только 2.8B.

Самое интересное: Small-версия не сильно отстает от старшей модели в точности. На некоторых бенчмарках разница всего 1-2%.

Для сравнения: другие модели похожего размера (например, InternVL2-2B или Qwen2-VL-2B) показывают заметно более слабые результаты, особенно в задачах с документами и текстом.

В общем, если нужна компактная мультимодальная модель с хорошим балансом размер/качество — DeepSeek-VL2-Small выглядит очень заманчиво. 🤔

Погнали наши городских :)

Пробуем тут:
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

#DeepSeek #VLM #Китай
———
@tsingular

🔥8👍4

1.05K views16:08

Технозаметки Малышева

👀Ученые MIT обнаружили, что модели машинного зрения не понимают отрицание

Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.

Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения

Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков

Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".

Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.

Не думай о белом слоне.

Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.

Графические модели так же можно проверять - "нарисуй комнату без жирафа".

#VLM #отрицания #контекст
———
@tsingular

✍5⚡3🔥3

1.45K views05:21

Технозаметки Малышева

Forwarded from Machinelearning

2:11

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

WM-ABench: тестирование VL-моделей на понимание физики реального мира.

Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.

Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.

В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.

Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.

Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.

🟡

Результаты.

С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.

Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.

Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.

🟡

Но главная проблема кроется глубже.

Точное восприятие мира совершенно не гарантирует точного прогноза.

Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.

Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.

🟡Бенчмарк подсветил фундаментальный недостаток:

У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.

📌Лицензирование: Apache 2.0 License.

🟡

Страница проекта

🟡

Arxiv

🟡

Датасет

@ai_machinelearning_big_data

#AI #ML #VLM #Benchmark #Maitrix

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡6❤3❤‍🔥1

1.25K views13:04

About

Blog

Apps

Platform