OmniFusion: прорыв в мультимодальных моделях
Революция в машинном обучении: мультимодальные умные ассистенты.
Используются два подхода, второй - сильная языковая модель - эффективней.
Языковые модели, как GigaChat-7B, эффективно интегрируются с разными модальностями.
OmniFusion совмещает GigaChat-7B и визуальный энкодер CLIP-ViT-L.
Обучение OmniFusion включает предобучение адаптера и дообучение языковой модели.
Высокая производительность OmniFusion доказана на различных бенчмарках.
Модальности модели: изображения, текст, звук, 3D, видео.
Обновления OmniFusion на GitHub.
За разработку отвечает научная группа FusionBrain в составе AIRI и Sber AI.
Вскоре мы сможем взаимодействовать со смарт-ассистентами еще эффективнее.
#OmniFusion #MachineLearning #Multimodal
Революция в машинном обучении: мультимодальные умные ассистенты.
Используются два подхода, второй - сильная языковая модель - эффективней.
Языковые модели, как GigaChat-7B, эффективно интегрируются с разными модальностями.
OmniFusion совмещает GigaChat-7B и визуальный энкодер CLIP-ViT-L.
Обучение OmniFusion включает предобучение адаптера и дообучение языковой модели.
Высокая производительность OmniFusion доказана на различных бенчмарках.
Модальности модели: изображения, текст, звук, 3D, видео.
Обновления OmniFusion на GitHub.
За разработку отвечает научная группа FusionBrain в составе AIRI и Sber AI.
Вскоре мы сможем взаимодействовать со смарт-ассистентами еще эффективнее.
#OmniFusion #MachineLearning #Multimodal
Мультимодальный ИИ помощник на Amazon Bedrock
Пошаговая инструкция от AWS по построению ассистента на мультимодальной RAG (mmRAG) архитектуре на базе Amazon Bedrock и LangChain для работы с данными разных типов - текстом, таблицами, изображениями.
Архитектура mmRAG извлекает данные, генерирует текстовые сводки и встраивает их в векторную базу данных и хранилище.
Запросы обрабатываются путем извлечения релевантных векторов и документов, а языковая модель генерирует ответы.
Используются модели Anthropic Claude для разложения сложных запросов и ранжирования, а также модель Amazon Titan для встраивания изображений и таблиц в единое семантическое пространство.
В копилку архитектурных уроков и инструкций.
#AmazonBedrock #multimodal #RAG #AWS #гайд
-------
@tsingular
Пошаговая инструкция от AWS по построению ассистента на мультимодальной RAG (mmRAG) архитектуре на базе Amazon Bedrock и LangChain для работы с данными разных типов - текстом, таблицами, изображениями.
Архитектура mmRAG извлекает данные, генерирует текстовые сводки и встраивает их в векторную базу данных и хранилище.
Запросы обрабатываются путем извлечения релевантных векторов и документов, а языковая модель генерирует ответы.
Используются модели Anthropic Claude для разложения сложных запросов и ранжирования, а также модель Amazon Titan для встраивания изображений и таблиц в единое семантическое пространство.
В копилку архитектурных уроков и инструкций.
#AmazonBedrock #multimodal #RAG #AWS #гайд
-------
@tsingular
👍1
1-4.gif
10.9 MB
MiniCPM-Llama3-V 2.5: GPT-4V уровня на телефоне, переплюнул проприетарных конкурентов
OpenBMB представляет MiniCPM-Llama3-V 2.5 (8B) и MiniCPM-V 2.0 (2B) - мультимодальные языковые модели для понимания изображений и текста.
MiniCPM-Llama3-V 2.5 превосходит GPT-4V, Gemini Pro и Claude 3 по общей производительности и эффективно разворачивается на мобильных устройствах.
Модель обладает продвинутым OCR, обработкой изображений до 1,8 млн пикселей, поддержкой 30+ языков и низким уровнем галлюцинаций.
MiniCPM-V 2.0 обходит Yi-VL 34B, CogVLM-Chat 17B и Qwen-VL-Chat 10B, имея всего 2B параметров.
Эта модель также поддерживает обработку картинок высокого разрешения и двуязычные мультимодальные возможности (английский, китайский).
Интересное кино. Смотрим тесты, качаем, проверяем.
Локальное WebUI демо:
https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo
#OpenBMB #multimodal #Llama
-------
@tsingular
OpenBMB представляет MiniCPM-Llama3-V 2.5 (8B) и MiniCPM-V 2.0 (2B) - мультимодальные языковые модели для понимания изображений и текста.
MiniCPM-Llama3-V 2.5 превосходит GPT-4V, Gemini Pro и Claude 3 по общей производительности и эффективно разворачивается на мобильных устройствах.
Модель обладает продвинутым OCR, обработкой изображений до 1,8 млн пикселей, поддержкой 30+ языков и низким уровнем галлюцинаций.
MiniCPM-V 2.0 обходит Yi-VL 34B, CogVLM-Chat 17B и Qwen-VL-Chat 10B, имея всего 2B параметров.
Эта модель также поддерживает обработку картинок высокого разрешения и двуязычные мультимодальные возможности (английский, китайский).
Интересное кино. Смотрим тесты, качаем, проверяем.
Локальное WebUI демо:
https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo
#OpenBMB #multimodal #Llama
-------
@tsingular
MMRole: Новый фреймворк для мультимодальных ролевых агентов ИИ
MMRole - система для разработки и оценки мультимодальных ролевых агентов (RPA - Role-Playing Agents не путать с Robotic Process Automation).
Фреймворк включает набор данных и метод оценки по 8 метрикам.
MMRole-Data содержит профили 85 персонажей, 11K изображений и 14К+ диалогов на их основе.
MMRole-Agent, создан дообучением QWen-VL-Chat.
GitHub: https://github.com/yanqidai/mmrole
Paper: https://arxiv.org/abs/2408.04203v1
#MMRole #RPA #multimodal
-------
@tsingular
MMRole - система для разработки и оценки мультимодальных ролевых агентов (RPA - Role-Playing Agents не путать с Robotic Process Automation).
Фреймворк включает набор данных и метод оценки по 8 метрикам.
MMRole-Data содержит профили 85 персонажей, 11K изображений и 14К+ диалогов на их основе.
MMRole-Agent, создан дообучением QWen-VL-Chat.
GitHub: https://github.com/yanqidai/mmrole
Paper: https://arxiv.org/abs/2408.04203v1
#MMRole #RPA #multimodal
-------
@tsingular
!!! Qwen2-VL: обновление мультимодальных моделей
Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:
• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный
Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.
По описанию, - очень круто! Надо пробовать.
DEMO
HuggingFace
#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:
• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный
Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.
По описанию, - очень круто! Надо пробовать.
DEMO
HuggingFace
#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
🍾1
Инструкция от AWS по созданию мультимодальных RAG-систем
Моя любимая рубрика - инструкции от AWS.
На этот раз, - подробное руководство по созданию мультимодального RAG.
Разобраны промпты, цепочки размышлений, аргументация в ответах, работа с текстом и изображениями.
Отдельно понравился раздел про подготовку описаний картинок через Claude Sonnet 3.5 :) тут просто что-то на богатом, не очень разобрал.
Очень полезно и информативно, как всегда, - читаем тут.
#AWS #RAG #Multimodal
-------
@tsingular
Моя любимая рубрика - инструкции от AWS.
На этот раз, - подробное руководство по созданию мультимодального RAG.
Разобраны промпты, цепочки размышлений, аргументация в ответах, работа с текстом и изображениями.
Отдельно понравился раздел про подготовку описаний картинок через Claude Sonnet 3.5 :) тут просто что-то на богатом, не очень разобрал.
Очень полезно и информативно, как всегда, - читаем тут.
#AWS #RAG #Multimodal
-------
@tsingular
❤2
🔬 Janus-Pro - новый мультимодальный генератор от DeepSeek
Для понимания изображений: SigLIP-L энкодер (384x384)
Для генерации: Специализированный токенизатор с даунсемплингом 16x
Фундамент: DeepSeek-LLM-7B-base
Общая архитектура: единый трансформер для всех модальностей
Эффективное использование памяти благодаря раздельным путям обработки
💪 Где показывает превосходство:
Понимание изображений:
- Превосходит специализированные модели в задачах VQA
- Лучше справляется с абстрактными рассуждениями о визуальном контенте
Генерация:
- Качество на уровне специализированных моделей
- Более стабильное соответствие текстовым промптам
Мультизадачность:
- Свободное переключение между пониманием и генерацией
- Нет деградации производительности при смене режимов
🎯 Технические преимущества:
- Меньше конфликтов в обучении благодаря раздельным путям
- Лучшая масштабируемость архитектуры
- Более эффективное использование вычислительных ресурсов
Что особенно интересно: архитектура Janus-Pro решает фундаментальную проблему unified моделей, при этом не усложняя систему дополнительными компонентами. Это редкий случай, когда "простое решение" оказывается действительно эффективным.
🔮 Перспективы:
Судя по архитектуре, модель имеет серьезный потенциал для масштабирования. Особенно интересно будет увидеть версию на базе их 70B модели - теоретически, это может дать качественный скачок в обеих модальностях.
https://github.com/deepseek-ai/Janus
paper
Demo
АСТАНАВИТЕСЬ!!!111 Адин адин!!
Уважаемые DeepSeek, новый год через 2 дня. Идите уже отдыхать и закупать видеокарты :))))
#DeepSeek #Janus #multimodal
———
@tsingular
Для понимания изображений: SigLIP-L энкодер (384x384)
Для генерации: Специализированный токенизатор с даунсемплингом 16x
Фундамент: DeepSeek-LLM-7B-base
Общая архитектура: единый трансформер для всех модальностей
Эффективное использование памяти благодаря раздельным путям обработки
💪 Где показывает превосходство:
Понимание изображений:
- Превосходит специализированные модели в задачах VQA
- Лучше справляется с абстрактными рассуждениями о визуальном контенте
Генерация:
- Качество на уровне специализированных моделей
- Более стабильное соответствие текстовым промптам
Мультизадачность:
- Свободное переключение между пониманием и генерацией
- Нет деградации производительности при смене режимов
🎯 Технические преимущества:
- Меньше конфликтов в обучении благодаря раздельным путям
- Лучшая масштабируемость архитектуры
- Более эффективное использование вычислительных ресурсов
Что особенно интересно: архитектура Janus-Pro решает фундаментальную проблему unified моделей, при этом не усложняя систему дополнительными компонентами. Это редкий случай, когда "простое решение" оказывается действительно эффективным.
🔮 Перспективы:
Судя по архитектуре, модель имеет серьезный потенциал для масштабирования. Особенно интересно будет увидеть версию на базе их 70B модели - теоретически, это может дать качественный скачок в обеих модальностях.
https://github.com/deepseek-ai/Janus
paper
Demo
АСТАНАВИТЕСЬ!!!111 Адин адин!!
Уважаемые DeepSeek, новый год через 2 дня. Идите уже отдыхать и закупать видеокарты :))))
#DeepSeek #Janus #multimodal
———
@tsingular
🔥14😁4🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Phi-4-Multimodal-Instruct: новая мультимодальная модель от Microsoft
Phi-4-Multimodal-Instruct — это лёгкая (всего 5.6B параметров ~12Gb) мультимодальная модель, которая одновременно работает с текстом, изображениями и аудио.
🧠 Ключевые параметры:
- 5.6B параметров (против 7B у Qwen-VL или гигантских 175B у GPT-4o)
- 128K токенов контекста (хватит для больших документов с картинками)
- Датасет: 5T текстовых токенов, 2.3M часов речи, 1.1T токенов изображений-текста
🌐 Поддержка языков:
- Текст: 23 языка включая русский, украинский, арабский, китайский и т.д.
- Зрение: только английский (пока)
- Аудио: 8 языков — английский, китайский, немецкий, французский, итальянский, японский, испанский, португальский (русского нет)
🔥 Возможности:
- Распознавание речи (ASR): опережает WhisperV3 по точности (WER 6.14% против 6.5%)
- Распознавание изображений и анализ графиков: на уровне моделей, которые в 10 раз больше
- Работа с документами и таблицами: 93.2% точности на DocVQA
- Работа с несколькими изображениями одновременно
- Перевод аудио в текст с последующим переводом текста
💼 Бизнес-применение:
- Расшифровка и анализ переговоров
- Работа с документами и финансовыми отчётами
- Автоматический анализ фото/видео объектов
- Мультиязычное распознавание речи в приложениях
- Документооборот с OCR-распознаванием для бэк-офиса
Microsoft явно позиционирует модель для использования на слабом железе и в сценариях с ограниченными ресурсами. По сути, это попытка впихнуть возможности больших мультимодалок в компактную модель, которая не требует армию A100 и сможет работать на мобильных устройствах следующего поколения.
Особенно круто, что модель обрабатывает всё через единую нейросеть, а не через "сшитый" пайплайн из разных моделей. Это значит меньше задержек при работе и лучшее понимание контекста между разными модальностями.
Ждем на Ollama и когда добавят русский. Хотя, может кто-то возьмётся дообучить?
#Phi4 #Multimodal #Microsoft
———
@tsingular
Phi-4-Multimodal-Instruct — это лёгкая (всего 5.6B параметров ~12Gb) мультимодальная модель, которая одновременно работает с текстом, изображениями и аудио.
🧠 Ключевые параметры:
- 5.6B параметров (против 7B у Qwen-VL или гигантских 175B у GPT-4o)
- 128K токенов контекста (хватит для больших документов с картинками)
- Датасет: 5T текстовых токенов, 2.3M часов речи, 1.1T токенов изображений-текста
🌐 Поддержка языков:
- Текст: 23 языка включая русский, украинский, арабский, китайский и т.д.
- Зрение: только английский (пока)
- Аудио: 8 языков — английский, китайский, немецкий, французский, итальянский, японский, испанский, португальский (русского нет)
🔥 Возможности:
- Распознавание речи (ASR): опережает WhisperV3 по точности (WER 6.14% против 6.5%)
- Распознавание изображений и анализ графиков: на уровне моделей, которые в 10 раз больше
- Работа с документами и таблицами: 93.2% точности на DocVQA
- Работа с несколькими изображениями одновременно
- Перевод аудио в текст с последующим переводом текста
💼 Бизнес-применение:
- Расшифровка и анализ переговоров
- Работа с документами и финансовыми отчётами
- Автоматический анализ фото/видео объектов
- Мультиязычное распознавание речи в приложениях
- Документооборот с OCR-распознаванием для бэк-офиса
Microsoft явно позиционирует модель для использования на слабом железе и в сценариях с ограниченными ресурсами. По сути, это попытка впихнуть возможности больших мультимодалок в компактную модель, которая не требует армию A100 и сможет работать на мобильных устройствах следующего поколения.
Особенно круто, что модель обрабатывает всё через единую нейросеть, а не через "сшитый" пайплайн из разных моделей. Это значит меньше задержек при работе и лучшее понимание контекста между разными модальностями.
Ждем на Ollama и когда добавят русский. Хотя, может кто-то возьмётся дообучить?
#Phi4 #Multimodal #Microsoft
———
@tsingular
🔥5✍2👍1
Media is too big
VIEW IN TELEGRAM
StarVector: модель для генерации SVG-кода из изображений и текста
StarVector — мультимодальная модель, обрабатывающая как изображения, так и текстовые запросы.
В отличие от стандартных векторизаторов, StarVector создает SVG-код и точно использует примитивы вроде эллипсов, полигонов и текста.
Доступны версии на 1B и 8B параметров, оптимизированные для иконок, логотипов, диаграмм и графиков.
Авторы представили также SVG-Bench — комплексный бенчмарк для оценки качества векторизации.
HuggingFace
#SVG #Multimodal #Vector
-----
@tsingular
StarVector — мультимодальная модель, обрабатывающая как изображения, так и текстовые запросы.
В отличие от стандартных векторизаторов, StarVector создает SVG-код и точно использует примитивы вроде эллипсов, полигонов и текста.
Доступны версии на 1B и 8B параметров, оптимизированные для иконок, логотипов, диаграмм и графиков.
Авторы представили также SVG-Bench — комплексный бенчмарк для оценки качества векторизации.
HuggingFace
#SVG #Multimodal #Vector
-----
@tsingular
✍8🔥6🆒2
Qwen2.5-Omni: мультимодальный интеллект в одной модели
Qwen2.5-Omni-7B воспринимает текст, изображения, аудио и видео одновременно, выдавая ответы в текстовом и голосовом форматах.
Уникальная архитектура Thinker-Talker с технологией TMRoPE обеспечивает идеальную синхронизацию видео и звука.
Система работает в полностью реальном времени, мгновенно обрабатывая фрагментированные данные.
Превосходит узкоспециализированные модели аналогичного размера, демонстрируя выдающиеся результаты в OmniBench.
Функционал включает выбор голоса (Chelsie/Daring) и поддержку FlashAttention-2 для оптимизации производительности.
Требования к памяти: 16 ГБ в стандартном режиме, 28 ГБ при использовании FlashAttention-2 с BF16.
Один интеллект чтобы править всеми. Наконец-то не нужно переключаться между разными моделями для разных задач!
Видеочат в реальном времени на 16 гигах!!!
Это же буквально локально в каждом смартфоне или роботе.
#Qwen #multimodal #Alibaba
-------
@tsingular
Qwen2.5-Omni-7B воспринимает текст, изображения, аудио и видео одновременно, выдавая ответы в текстовом и голосовом форматах.
Уникальная архитектура Thinker-Talker с технологией TMRoPE обеспечивает идеальную синхронизацию видео и звука.
Система работает в полностью реальном времени, мгновенно обрабатывая фрагментированные данные.
Превосходит узкоспециализированные модели аналогичного размера, демонстрируя выдающиеся результаты в OmniBench.
Функционал включает выбор голоса (Chelsie/Daring) и поддержку FlashAttention-2 для оптимизации производительности.
Требования к памяти: 16 ГБ в стандартном режиме, 28 ГБ при использовании FlashAttention-2 с BF16.
Один интеллект чтобы править всеми. Наконец-то не нужно переключаться между разными моделями для разных задач!
Видеочат в реальном времени на 16 гигах!!!
Это же буквально локально в каждом смартфоне или роботе.
#Qwen #multimodal #Alibaba
-------
@tsingular
🔥15👍4
Ollama выпустила новый движок с поддержкой мультимодальных моделей
📊 Поддерживаемые модели:
- Llama 4 (включая Scout – 109B параметров, модель типа MoE)
- Google Gemma 3
- Qwen 2.5 VL
- Mistral Small 3.1
и другие модели с поддержкой зрения
💡 Ключевые возможности:
Llama 4 Scout – анализ локаций и контекста изображений:
- Распознает достопримечательности (например, башню с часами в Сан-Франциско)
- Отвечает на вопросы о расстояниях между объектами на фото и реальными местами
- Предлагает маршруты и способы добраться до нужных локаций
Gemma 3 – работа с несколькими изображениями одновременно:
- Находит общие элементы на разных фотографиях
- Анализирует взаимосвязи между объектами на изображениях
- Делает выводы о вероятных исходах ситуаций на сюжетной серии картинок
Qwen 2.5 VL – распознавание текста и документов:
- OCR (оптическое распознавание символов)
- Перевод вертикальных китайских надписей на английский
- Анализ документов и структурированной информации
⚙️ Техническая начинка нового движка:
Модульность моделей: каждая модель теперь полностью автономна и использует собственный проекционный слой, что улучшает стабильность и упрощает интеграцию
Повышенная точность: правильная обработка больших изображений с учетом границ батчей и позиционной информации
Оптимизация памяти:
Кэширование изображений для ускорения последующих запросов
Настройка причинного внимания (causal attention) на уровне отдельных моделей
Оптимизации KV-кэша для эффективного использования памяти
🔮 Будущие обновления:
- Поддержка более длинных контекстов
- Улучшенное мышление/рассуждение
- Вызов инструментов со стриминговыми ответами
- Расширенные возможности использования компьютера
🛠 Практическое применение:
- Разработчикам: создание приложений с локальным распознаванием изображений без API
- Исследователям: анализ документов и текстов на разных языках без подключения к интернету
- Контент-креаторам: быстрый анализ визуальных материалов без передачи данных третьим сторонам
Классное обновление. Не хватает еще TTS и STT для полноты мультимодальной картины.
#Ollama #Multimodal
———
@tsingular
📊 Поддерживаемые модели:
- Llama 4 (включая Scout – 109B параметров, модель типа MoE)
- Google Gemma 3
- Qwen 2.5 VL
- Mistral Small 3.1
и другие модели с поддержкой зрения
💡 Ключевые возможности:
Llama 4 Scout – анализ локаций и контекста изображений:
- Распознает достопримечательности (например, башню с часами в Сан-Франциско)
- Отвечает на вопросы о расстояниях между объектами на фото и реальными местами
- Предлагает маршруты и способы добраться до нужных локаций
Gemma 3 – работа с несколькими изображениями одновременно:
- Находит общие элементы на разных фотографиях
- Анализирует взаимосвязи между объектами на изображениях
- Делает выводы о вероятных исходах ситуаций на сюжетной серии картинок
Qwen 2.5 VL – распознавание текста и документов:
- OCR (оптическое распознавание символов)
- Перевод вертикальных китайских надписей на английский
- Анализ документов и структурированной информации
⚙️ Техническая начинка нового движка:
Модульность моделей: каждая модель теперь полностью автономна и использует собственный проекционный слой, что улучшает стабильность и упрощает интеграцию
Повышенная точность: правильная обработка больших изображений с учетом границ батчей и позиционной информации
Оптимизация памяти:
Кэширование изображений для ускорения последующих запросов
Настройка причинного внимания (causal attention) на уровне отдельных моделей
Оптимизации KV-кэша для эффективного использования памяти
🔮 Будущие обновления:
- Поддержка более длинных контекстов
- Улучшенное мышление/рассуждение
- Вызов инструментов со стриминговыми ответами
- Расширенные возможности использования компьютера
🛠 Практическое применение:
- Разработчикам: создание приложений с локальным распознаванием изображений без API
- Исследователям: анализ документов и текстов на разных языках без подключения к интернету
- Контент-креаторам: быстрый анализ визуальных материалов без передачи данных третьим сторонам
Классное обновление. Не хватает еще TTS и STT для полноты мультимодальной картины.
#Ollama #Multimodal
———
@tsingular
✍4🔥3❤1⚡1
Китайская компания Skywork AI выпустила мощную мультимодальную модель R1V3
Skywork AI представила Skywork-R1V3-38B — новую открытую мультимодальную модель с передовыми возможностями визуального рассуждения.
Модель обучена через reinforcement learning и показывает 76.0 баллов на MMMU — это круче, чем Claude Sonnet 3.7, например.
Особенность подхода в том, что модель использует InternVL3-38B как базу, но значительно улучшает reasoning через пост-обучение.
Доступны квантизованные версии от LMStudioCommunity размером от 17 гигов:
https://huggingface.co/lmstudio-community/Skywork-R1V3-38B-GGUF
Полный размер - 80 гигов.
MIT License.
✅ Commercial use permitted
✅ Modification allowed
✅ Distribution allowed
Paper
HuggingFace
Интересно, что китайские разработчики делают акцент именно на chain-of-thought рассуждениях в мультимодальных задачах — это может стать новым стандартом для vision-language моделей.
#Skywork #multimodal #reasoning #Китай
———
@tsingular
Skywork AI представила Skywork-R1V3-38B — новую открытую мультимодальную модель с передовыми возможностями визуального рассуждения.
Модель обучена через reinforcement learning и показывает 76.0 баллов на MMMU — это круче, чем Claude Sonnet 3.7, например.
Особенность подхода в том, что модель использует InternVL3-38B как базу, но значительно улучшает reasoning через пост-обучение.
Доступны квантизованные версии от LMStudioCommunity размером от 17 гигов:
https://huggingface.co/lmstudio-community/Skywork-R1V3-38B-GGUF
Полный размер - 80 гигов.
MIT License.
✅ Commercial use permitted
✅ Modification allowed
✅ Distribution allowed
Paper
HuggingFace
Интересно, что китайские разработчики делают акцент именно на chain-of-thought рассуждениях в мультимодальных задачах — это может стать новым стандартом для vision-language моделей.
#Skywork #multimodal #reasoning #Китай
———
@tsingular
🔥6