Hugging Face представила новую модель Idefics3-8B-Llama3, созданную на базе siglip-so400m и Llama 3.1-8B-Instruct , которая может работать с произвольными последовательностями изображений и текста.
Эта модель умеет отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений и даже работать как чистая языковая модель без визуальных входных данных.
Idefics3 значительно улучшает возможности своих предшественников, Idefics1 и Idefics2, особенно в области распознавания текста на изображениях (OCR), понимания документов и визуального рассуждения.
Новая модель использует 169 визуальных токенов для кодирования изображения размером 364x364 пикселей. Каждое изображение делится на несколько блоков, которые затем кодируются отдельно.
Для тонкой настройки модели использовались датасеты: The Cauldron и Docmatix. В бенчмарках MMMU, MathVista и DocVQA Idefics3 показывает лучшие результаты по сравнению с Idefics2.
⚠️ Idefics3 поддерживает только английский язык и не подвергалась этапу RLHF alignment, поэтому она может не всегда следовать промпту или справляться с СoT-задачами самостоятельно.
Однако это не значит, что она не способен на это. Добавление префикса к assistant's response, например, "Let's think step" для рассуждения или <html> для генерации HTML-кода, может значительно улучшить инференс на практике.
Также имеет практический смысл поиграть с параметром "температура" в non-greedy mode.
@ai_machinelearning_big_data
#AI #MLLM #ML #Idefics3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥11❤4