227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Janus: унифицированная MMLM от DeepSeek

Janus - уникальная мультимодальная модель, которая способна выполнять как задачи понимания, так и генерации изображений. В отличие от других GenAI моделей, Janus использует раздельные пути кодирования визуальной информации, оптимизированные под каждую задачу, находясь в единой архитектуре на основе трансформера.

Это разделение позволяет Janus точно извлекать семантическую информацию из изображений для задач понимания, одновременно сохраняя детализацию и целостность для задач генерации.

Janus имеет 1.3 млрд. параметров с длиной последовательности в 4096.

▶️ Архитектура Janus состоит из 3 компонентов:

🟢Энкодер понимания: извлекает семантические характеристики из изображений, используя SigLIP;

🟢Энкодер генерации: преобразует изображения в последовательность дискретных идентификаторов с помощью VQ-токенизатора;

🟢Унифицированный авторегрессионный трансформер: обрабатывает текстовые и визуальные характеристики.

Процесс обучения Janus проходил в несколько этапов: сначала тренировались адаптеры и Image Heads для связывания визуальных и лингвистических эмбедингов. Затем - предварительное обучение задачам понимания и генерации и, в конце - инструктивная специализация модели при помощи SFT.

▶️ Оценка производительности Janus выполнялась на бенчмарках:

🟠Понимание: MMBench, SEED-Bench, POPE, MME, VQAv2, GQA, MMMU, MM-Vet.

🟠Генерация: MSCOCO-30K, MJHQ-30K, GenEval

Результаты оценки показали, что Janus превосходит предыдущие унифицированные MMLM и демонстрирует конкурентоспособность с некоторыми моделями большего размера.

На MMBench, SEED-Bench и POPE, Janus (1.3B) превзошла LLaVA-v1.5 (7B)12 и Qwen-VL-Chat (7B)13.
На MSCOCO-30K и GenEval Janus превзошла DALL-E 214 и SDXL

Инференс модели пока поддерживается только в CLI на Transformers. Примеры запуска в режимах Multimodal Understanding и Text-to-Image Generation приведены в репозитории проекта.

Способ запуска в GradioUI в коммитах. По отзывам - модель запускается на T4 (16 Gb) в free-tier Google Collab.


📌Лицензирование кода : MIT License.

📌Лицензирование модели: DeepSeek Model License.


🟡Модель
🟡Arxiv
🟡Demo
🖥Github


@ai_machinelearning_big_data

#AI #ML #MMLM #GenAI #Janus #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍14🔥4
🐋 DeepSeek только что выпустила еще одну модель ИИ с открытым исходным кодом, Janus-Pro-7B.

Она мультимодальная и выигрывает у OpenAI DALL-E 3 и Stable Diffusion на бенчмарках GenEval и DPG-Bench.

Модели
: https://huggingface.co/deepseek-ai/Janus-Pro-7B
https://huggingface.co/deepseek-ai/Janus-Pro-1B
Quickstart: https://github.com/deepseek-ai/Janus?tab=readme-ov-file#3-quick-start 📖
Tech report: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

@ai_machinelearning_big_data


#ai #deepseek #opensource #Janus
1🔥159👍2915🙉5