227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️Idefics3: обновление мультимодальной модели от Huggingface.

Hugging Face представила новую модель Idefics3-8B-Llama3, созданную на базе siglip-so400m и Llama 3.1-8B-Instruct , которая может работать с произвольными последовательностями изображений и текста.
Эта модель умеет отвечать на вопросы об изображениях, описывать визуальный контент, создавать истории на основе нескольких изображений и даже работать как чистая языковая модель без визуальных входных данных.
Idefics3 значительно улучшает возможности своих предшественников, Idefics1 и Idefics2, особенно в области распознавания текста на изображениях (OCR), понимания документов и визуального рассуждения.

Новая модель использует 169 визуальных токенов для кодирования изображения размером 364x364 пикселей. Каждое изображение делится на несколько блоков, которые затем кодируются отдельно.
Для тонкой настройки модели использовались датасеты: The Cauldron и Docmatix. В бенчмарках MMMU, MathVista и DocVQA Idefics3 показывает лучшие результаты по сравнению с Idefics2.


⚠️ Idefics3 поддерживает только английский язык и не подвергалась этапу RLHF alignment, поэтому она может не всегда следовать промпту или справляться с СoT-задачами самостоятельно.
Однако это не значит, что она не способен на это. Добавление префикса к assistant's response, например, "Let's think step" для рассуждения или <html> для генерации HTML-кода, может значительно улучшить инференс на практике.
Также имеет практический смысл поиграть с параметром "температура" в non-greedy mode.


📌Лицензирование : Apache 2.0


🟡Модель
🟡Demo

@ai_machinelearning_big_data

#AI #MLLM #ML #Idefics3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18🔥114