Гемамба: LLM с видеоэнкодером от TensorSense на базе Мамбы
Команда TensorSense выпустила Гемамбу мультимодальную языковую модель (VLM) с видеоэнкодером на базе Мамбы.
Ключевые особенности Гемамбы:
- Уникальный дизайн архитектуры, созданный командой TensorSense
- Возможность загружать очень длинные видео при небольших вычислительных ресурсах
- Открывает дверь для применения ЛЛМ в компьютерном зрении с бОльшей скоростью.
это первая альфа-версия, представляющая больше интерес для исследователей.
Код для обучения и оценки модели доступен в GitHub.
Интересный релиз. Следим.
#TensorSense #Gemamba #VLM
-------
@tsingular
Команда TensorSense выпустила Гемамбу мультимодальную языковую модель (VLM) с видеоэнкодером на базе Мамбы.
Ключевые особенности Гемамбы:
- Уникальный дизайн архитектуры, созданный командой TensorSense
- Возможность загружать очень длинные видео при небольших вычислительных ресурсах
- Открывает дверь для применения ЛЛМ в компьютерном зрении с бОльшей скоростью.
это первая альфа-версия, представляющая больше интерес для исследователей.
Код для обучения и оценки модели доступен в GitHub.
Интересный релиз. Следим.
#TensorSense #Gemamba #VLM
-------
@tsingular
Media is too big
VIEW IN TELEGRAM
🤖 DeepSeek выкатили Small-версию своей мультимодальной модели!
При всего 2.8B активных параметров, DeepSeek-VL2-Small демонстрирует впечатляющие результаты:
- 92.3% на DocVQA (тест на понимание документов)
- 84.5% на ChartQA (работа с графиками)
- 83.4% на TextVQA (распознавание текста на изображениях)
Технически модель наследует все крутые фишки базовой версии:
- Dynamic tiling — умное разбиение картинок на тайлы для обработки изображений высокого разрешения. Больше никаких ограничений на размер входной картинки!
- Multi-head Latent Attention для оптимизации памяти — ключи и значения сжимаются в латентные вектора. За счет этого модель быстрее работает и меньше ест памяти.
- MoE (Mixture of Experts) архитектура — вместо того чтобы гонять все параметры, модель активирует только нужных "экспертов". Отсюда и экономия: из 16B общих параметров активируются только 2.8B.
Самое интересное: Small-версия не сильно отстает от старшей модели в точности. На некоторых бенчмарках разница всего 1-2%.
Для сравнения: другие модели похожего размера (например, InternVL2-2B или Qwen2-VL-2B) показывают заметно более слабые результаты, особенно в задачах с документами и текстом.
В общем, если нужна компактная мультимодальная модель с хорошим балансом размер/качество — DeepSeek-VL2-Small выглядит очень заманчиво. 🤔
Погнали наши городских :)
Пробуем тут:
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
#DeepSeek #VLM #Китай
———
@tsingular
При всего 2.8B активных параметров, DeepSeek-VL2-Small демонстрирует впечатляющие результаты:
- 92.3% на DocVQA (тест на понимание документов)
- 84.5% на ChartQA (работа с графиками)
- 83.4% на TextVQA (распознавание текста на изображениях)
Технически модель наследует все крутые фишки базовой версии:
- Dynamic tiling — умное разбиение картинок на тайлы для обработки изображений высокого разрешения. Больше никаких ограничений на размер входной картинки!
- Multi-head Latent Attention для оптимизации памяти — ключи и значения сжимаются в латентные вектора. За счет этого модель быстрее работает и меньше ест памяти.
- MoE (Mixture of Experts) архитектура — вместо того чтобы гонять все параметры, модель активирует только нужных "экспертов". Отсюда и экономия: из 16B общих параметров активируются только 2.8B.
Самое интересное: Small-версия не сильно отстает от старшей модели в точности. На некоторых бенчмарках разница всего 1-2%.
Для сравнения: другие модели похожего размера (например, InternVL2-2B или Qwen2-VL-2B) показывают заметно более слабые результаты, особенно в задачах с документами и текстом.
В общем, если нужна компактная мультимодальная модель с хорошим балансом размер/качество — DeepSeek-VL2-Small выглядит очень заманчиво. 🤔
Погнали наши городских :)
Пробуем тут:
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
#DeepSeek #VLM #Китай
———
@tsingular
🔥8👍4
👀Ученые MIT обнаружили, что модели машинного зрения не понимают отрицание
Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.
Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения
Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков
Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".
Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.
Не думай о белом слоне.
Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.
Графические модели так же можно проверять - "нарисуй комнату без жирафа".
#VLM #отрицания #контекст
———
@tsingular
Исследователи MIT обнаружили фундаментальный недостаток в работе vision-language моделей (VLM) - они не способны понимать отрицания ("нет", "не", "отсутствует"), что может привести к катастрофическим последствиям в критически важных сферах.
Суть проблемы:
• VLM игнорируют слова отрицания и фокусируются только на присутствующих объектах ("affirmation bias")
• При тестировании модели показали результаты на уровне случайного угадывания
• Проблема обнаружена во всех протестированных VLM без исключения
Практические риски:
• В медицинской диагностике: неверная интерпретация заключений (например, "отсутствие увеличенного сердца" может быть воспринято как "увеличенное сердце")
• В промышленности: неправильная идентификация дефектов продукции
• В других критических сферах: потенциально опасные ошибки из-за неверной интерпретации отсутствующих признаков
Исследователи начали решать проблему, создав специальный датасет с отрицаниями для дообучения моделей, что улучшило результаты на 10-30%, но предупреждают: "Если что-то настолько фундаментальное, как отрицание, не работает, мы не должны использовать эти модели во многих текущих применениях — без качественной оценки".
Важный вывод: перед внедрением VLM в критических областях необходимо тщательное тестирование на понимание отрицаний.
Не думай о белом слоне.
Кстати это не только с графикой такая беда.
В определении интента при работе с текстом есть похожая задача.
Необходимо переформулировать запрос и включать в него подраздел - о чем пользователь забыл упомянуть в запросе, но оно относится к предметной области. Такой вариант обогащения контекста.
Графические модели так же можно проверять - "нарисуй комнату без жирафа".
#VLM #отрицания #контекст
———
@tsingular
✍5⚡3🔥3
Forwarded from Machinelearning
Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.
Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.
В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.
Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.
Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.
С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.
Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.
Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.
Точное восприятие мира совершенно не гарантирует точного прогноза.
Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.
Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.
У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.
@ai_machinelearning_big_data
#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡6❤3❤🔥1