Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.06K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
OmniFusion: прорыв в мультимодальных моделях

Революция в машинном обучении: мультимодальные умные ассистенты.
Используются два подхода, второй - сильная языковая модель - эффективней.
Языковые модели, как GigaChat-7B, эффективно интегрируются с разными модальностями.
OmniFusion совмещает GigaChat-7B и визуальный энкодер CLIP-ViT-L.
Обучение OmniFusion включает предобучение адаптера и дообучение языковой модели.
Высокая производительность OmniFusion доказана на различных бенчмарках.
Модальности модели: изображения, текст, звук, 3D, видео.
Обновления OmniFusion на GitHub.
За разработку отвечает научная группа FusionBrain в составе AIRI и Sber AI.

Вскоре мы сможем взаимодействовать со смарт-ассистентами еще эффективнее.

#OmniFusion #MachineLearning #Multimodal
Мультимодальный ИИ помощник на Amazon Bedrock

Пошаговая инструкция от AWS по построению ассистента на мультимодальной RAG (mmRAG) архитектуре на базе Amazon Bedrock и LangChain для работы с данными разных типов - текстом, таблицами, изображениями.

Архитектура mmRAG извлекает данные, генерирует текстовые сводки и встраивает их в векторную базу данных и хранилище.

Запросы обрабатываются путем извлечения релевантных векторов и документов, а языковая модель генерирует ответы.

Используются модели Anthropic Claude для разложения сложных запросов и ранжирования, а также модель Amazon Titan для встраивания изображений и таблиц в единое семантическое пространство.

В копилку архитектурных уроков и инструкций.

#AmazonBedrock #multimodal #RAG #AWS #гайд
-------
@tsingular
👍1
1-4.gif
10.9 MB
MiniCPM-Llama3-V 2.5: GPT-4V уровня на телефоне, переплюнул проприетарных конкурентов

OpenBMB представляет MiniCPM-Llama3-V 2.5 (8B) и MiniCPM-V 2.0 (2B) - мультимодальные языковые модели для понимания изображений и текста.
MiniCPM-Llama3-V 2.5 превосходит GPT-4V, Gemini Pro и Claude 3 по общей производительности и эффективно разворачивается на мобильных устройствах.
Модель обладает продвинутым OCR, обработкой изображений до 1,8 млн пикселей, поддержкой 30+ языков и низким уровнем галлюцинаций.
MiniCPM-V 2.0 обходит Yi-VL 34B, CogVLM-Chat 17B и Qwen-VL-Chat 10B, имея всего 2B параметров.
Эта модель также поддерживает обработку картинок высокого разрешения и двуязычные мультимодальные возможности (английский, китайский).

Интересное кино. Смотрим тесты, качаем, проверяем.
Локальное WebUI демо:
https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file#webui-demo


#OpenBMB #multimodal #Llama
-------
@tsingular
MMRole: Новый фреймворк для мультимодальных ролевых агентов ИИ

MMRole - система для разработки и оценки мультимодальных ролевых агентов (RPA - Role-Playing Agents не путать с Robotic Process Automation).

Фреймворк включает набор данных и метод оценки по 8 метрикам.

MMRole-Data содержит профили 85 персонажей, 11K изображений и 14К+ диалогов на их основе.

MMRole-Agent, создан дообучением QWen-VL-Chat.

GitHub: https://github.com/yanqidai/mmrole
Paper: https://arxiv.org/abs/2408.04203v1

#MMRole #RPA #multimodal
-------
@tsingular
!!! Qwen2-VL: обновление мультимодальных моделей

Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:

• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный

Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.

По описанию, - очень круто! Надо пробовать.

DEMO

HuggingFace


#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
🍾1
Инструкция от AWS по созданию мультимодальных RAG-систем

Моя любимая рубрика - инструкции от AWS.
На этот раз, - подробное руководство по созданию мультимодального RAG.

Разобраны промпты, цепочки размышлений, аргументация в ответах, работа с текстом и изображениями.
Отдельно понравился раздел про подготовку описаний картинок через Claude Sonnet 3.5 :) тут просто что-то на богатом, не очень разобрал.

Очень полезно и информативно, как всегда, - читаем тут.

#AWS #RAG #Multimodal
-------
@tsingular
2
🔬 Janus-Pro - новый мультимодальный генератор от DeepSeek

Для понимания изображений: SigLIP-L энкодер (384x384)
Для генерации: Специализированный токенизатор с даунсемплингом 16x

Фундамент: DeepSeek-LLM-7B-base
Общая архитектура: единый трансформер для всех модальностей

Эффективное использование памяти благодаря раздельным путям обработки

💪 Где показывает превосходство:

Понимание изображений:
- Превосходит специализированные модели в задачах VQA
- Лучше справляется с абстрактными рассуждениями о визуальном контенте


Генерация:
- Качество на уровне специализированных моделей
- Более стабильное соответствие текстовым промптам

Мультизадачность:
- Свободное переключение между пониманием и генерацией
- Нет деградации производительности при смене режимов

🎯 Технические преимущества:
- Меньше конфликтов в обучении благодаря раздельным путям
- Лучшая масштабируемость архитектуры
- Более эффективное использование вычислительных ресурсов

Что особенно интересно: архитектура Janus-Pro решает фундаментальную проблему unified моделей, при этом не усложняя систему дополнительными компонентами. Это редкий случай, когда "простое решение" оказывается действительно эффективным.

🔮 Перспективы:
Судя по архитектуре, модель имеет серьезный потенциал для масштабирования. Особенно интересно будет увидеть версию на базе их 70B модели - теоретически, это может дать качественный скачок в обеих модальностях.

https://github.com/deepseek-ai/Janus
paper

Demo

АСТАНАВИТЕСЬ!!!111 Адин адин!!
Уважаемые DeepSeek, новый год через 2 дня. Идите уже отдыхать и закупать видеокарты :))))

#DeepSeek #Janus #multimodal
———
@tsingular
🔥14😁4🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Phi-4-Multimodal-Instruct: новая мультимодальная модель от Microsoft

Phi-4-Multimodal-Instruct — это лёгкая (всего 5.6B параметров ~12Gb) мультимодальная модель, которая одновременно работает с текстом, изображениями и аудио.

🧠 Ключевые параметры:
- 5.6B параметров (против 7B у Qwen-VL или гигантских 175B у GPT-4o)
- 128K токенов контекста (хватит для больших документов с картинками)
- Датасет: 5T текстовых токенов, 2.3M часов речи, 1.1T токенов изображений-текста

🌐 Поддержка языков:
- Текст: 23 языка включая русский, украинский, арабский, китайский и т.д.
- Зрение: только английский (пока)
- Аудио: 8 языков — английский, китайский, немецкий, французский, итальянский, японский, испанский, португальский (русского нет)

🔥 Возможности:
- Распознавание речи (ASR): опережает WhisperV3 по точности (WER 6.14% против 6.5%)
- Распознавание изображений и анализ графиков: на уровне моделей, которые в 10 раз больше
- Работа с документами и таблицами: 93.2% точности на DocVQA
- Работа с несколькими изображениями одновременно
- Перевод аудио в текст с последующим переводом текста

💼 Бизнес-применение:
- Расшифровка и анализ переговоров
- Работа с документами и финансовыми отчётами
- Автоматический анализ фото/видео объектов
- Мультиязычное распознавание речи в приложениях
- Документооборот с OCR-распознаванием для бэк-офиса

Microsoft явно позиционирует модель для использования на слабом железе и в сценариях с ограниченными ресурсами. По сути, это попытка впихнуть возможности больших мультимодалок в компактную модель, которая не требует армию A100 и сможет работать на мобильных устройствах следующего поколения.

Особенно круто, что модель обрабатывает всё через единую нейросеть, а не через "сшитый" пайплайн из разных моделей. Это значит меньше задержек при работе и лучшее понимание контекста между разными модальностями.

Ждем на Ollama и когда добавят русский. Хотя, может кто-то возьмётся дообучить?

#Phi4 #Multimodal #Microsoft
———
@tsingular
🔥52👍1
Media is too big
VIEW IN TELEGRAM
StarVector: модель для генерации SVG-кода из изображений и текста

StarVector — мультимодальная модель, обрабатывающая как изображения, так и текстовые запросы.

В отличие от стандартных векторизаторов, StarVector создает SVG-код и точно использует примитивы вроде эллипсов, полигонов и текста.

Доступны версии на 1B и 8B параметров, оптимизированные для иконок, логотипов, диаграмм и графиков.

Авторы представили также SVG-Bench — комплексный бенчмарк для оценки качества векторизации.

HuggingFace

#SVG #Multimodal #Vector
-----
@tsingular
8🔥6🆒2
Qwen2.5-Omni: мультимодальный интеллект в одной модели

Qwen2.5-Omni-7B воспринимает текст, изображения, аудио и видео одновременно, выдавая ответы в текстовом и голосовом форматах.
Уникальная архитектура Thinker-Talker с технологией TMRoPE обеспечивает идеальную синхронизацию видео и звука.
Система работает в полностью реальном времени, мгновенно обрабатывая фрагментированные данные.
Превосходит узкоспециализированные модели аналогичного размера, демонстрируя выдающиеся результаты в OmniBench.
Функционал включает выбор голоса (Chelsie/Daring) и поддержку FlashAttention-2 для оптимизации производительности.
Требования к памяти: 16 ГБ в стандартном режиме, 28 ГБ при использовании FlashAttention-2 с BF16.

Один интеллект чтобы править всеми. Наконец-то не нужно переключаться между разными моделями для разных задач!

Видеочат в реальном времени на 16 гигах!!!
Это же буквально локально в каждом смартфоне или роботе.


#Qwen #multimodal #Alibaba
-------
@tsingular
🔥15👍4
Ollama выпустила новый движок с поддержкой мультимодальных моделей

📊 Поддерживаемые модели:
- Llama 4 (включая Scout – 109B параметров, модель типа MoE)
- Google Gemma 3
- Qwen 2.5 VL
- Mistral Small 3.1
и другие модели с поддержкой зрения

💡 Ключевые возможности:
Llama 4 Scout – анализ локаций и контекста изображений:

- Распознает достопримечательности (например, башню с часами в Сан-Франциско)
- Отвечает на вопросы о расстояниях между объектами на фото и реальными местами
- Предлагает маршруты и способы добраться до нужных локаций

Gemma 3 – работа с несколькими изображениями одновременно:
- Находит общие элементы на разных фотографиях
- Анализирует взаимосвязи между объектами на изображениях
- Делает выводы о вероятных исходах ситуаций на сюжетной серии картинок

Qwen 2.5 VL – распознавание текста и документов:
- OCR (оптическое распознавание символов)
- Перевод вертикальных китайских надписей на английский
- Анализ документов и структурированной информации

⚙️ Техническая начинка нового движка:
Модульность моделей: каждая модель теперь полностью автономна и использует собственный проекционный слой, что улучшает стабильность и упрощает интеграцию
Повышенная точность: правильная обработка больших изображений с учетом границ батчей и позиционной информации

Оптимизация памяти:
Кэширование изображений для ускорения последующих запросов
Настройка причинного внимания (causal attention) на уровне отдельных моделей
Оптимизации KV-кэша для эффективного использования памяти

🔮 Будущие обновления:

- Поддержка более длинных контекстов
- Улучшенное мышление/рассуждение
- Вызов инструментов со стриминговыми ответами
- Расширенные возможности использования компьютера

🛠 Практическое применение:
- Разработчикам: создание приложений с локальным распознаванием изображений без API
- Исследователям: анализ документов и текстов на разных языках без подключения к интернету
- Контент-креаторам: быстрый анализ визуальных материалов без передачи данных третьим сторонам

Классное обновление. Не хватает еще TTS и STT для полноты мультимодальной картины.

#Ollama #Multimodal
———
@tsingular
4🔥311
Китайская компания Skywork AI выпустила мощную мультимодальную модель R1V3

Skywork AI представила Skywork-R1V3-38B — новую открытую мультимодальную модель с передовыми возможностями визуального рассуждения.
Модель обучена через reinforcement learning и показывает 76.0 баллов на MMMU — это круче, чем Claude Sonnet 3.7, например.

Особенность подхода в том, что модель использует InternVL3-38B как базу, но значительно улучшает reasoning через пост-обучение.
Доступны квантизованные версии от LMStudioCommunity размером от 17 гигов:
https://huggingface.co/lmstudio-community/Skywork-R1V3-38B-GGUF

Полный размер - 80 гигов.

MIT License.
Commercial use permitted
Modification allowed
Distribution allowed

Paper
HuggingFace

Интересно, что китайские разработчики делают акцент именно на chain-of-thought рассуждениях в мультимодальных задачах — это может стать новым стандартом для vision-language моделей.

#Skywork #multimodal #reasoning #Китай
———
@tsingular
🔥6