Machinelearning

🌟 MM-Vet v2: Бенчмарк LMM на встроенные возможности.

MM-Vet оценивает шесть основных возможностей LMM: распознавание, знание, пространственная ориентация, генерация языка, распознавание текста и математика. В версии v2 бенчмарка добавлена новая функция "понимание последовательности изображений и текста", которая может оценить способность моделей обрабатывать последовательности визуальных интерпретаций.

Вторая версия была подготовлена на большем наборе исходных данных (517 пар вопросов-ответов из различных областей), которые были сгенерированы GPT-4V и переработаны вручную исследовательской группой.

📌Лицензирование : Apache-2.0 license

🟡

Arxiv

🟡

Dataset MM-Vet v2

🟡

Demo на HF

🖥

Github [ Stars: 218 | Issues: 0 | Forks: 10]

@ai_machinelearning_big_data

#AI #Benchmark #LMM #MMVetV2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤7👍6⚡1

8.73K views15:04

Machinelearning

⚡️ xGen-MM (BLIP-3): Мультимодальный набор моделей от Saleforce.

Salesforce AI Research представила XGen-MM (BLIP-3) - коллекцию из 4 моделей на основе phi3-mini-instruct с улучшенным обучением и повышенной, согласно бенчмаркам претрейна, производительностью.

XGen-MM (BLIP-3) может использоваться в различных областях - от обработки естественного языка до компьютерного зрения. Он способен понимать сложные, мультимодальные входные данные, что делает его мощным инструментом для различных приложений, от виртуальных помощников до создания контента.

Набор моделей:

🟢

xGen-MM-base: базовая модель, обученная на 100 миллиардах пар "изображение-текст" ;

🟢

xGen-MM-instruct-singleimg: инструктивная модель, обученная на 1 млн. изображений датасета Cauldron, предназначенная для работы с одиночными изображениями;

🟢

xGen-MM-instruct-interleave: инструктивная модель, обученная на Cauldron для работы с несколькими (чередующимися) изображениями;

🟠

xGen-MM-instruct-dpo: безопасная инструктивная версия, которая обучалась оптимизации предпочтений на датасете VLFeedback.

📌Лицензирование кода : BSD-3-Clause license.

📌Лицензирование моделей: Apache 2.0 license.

🟡

Набор моделей

🟡

Arxiv

🟡

Google Collab (инференс)

🖥

Github [ Stars: 9.4K | Issues: 422 | Forks: 932]

@ai_machinelearning_big_data

#AI #xGEN #LMM #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM