Machinelearning

🌟 POINTS1.5: VLM от WeChat.

POINTS1.5 - усовершенствованная версия VLM POINTS1.0, построенная по принципу LLaVA (визуальный энкодер+LLM) на базе Qwen2.5-7B-Instruct.

В отличие от предыдущей версии, где использовался энкодер изображений CLIP, POINTS1.5 использует энкодер NaViT, который позволяет модели обрабатывать изображения различного разрешения без необходимости их разделения.

Для повышения качества модели были применены методы фильтрации данных для обучения. Данные, не требующие анализа изображения для ответа на вопрос и содержащие грамматические ошибки, были удалены.

Обучение POINTS1.5 выполнялось в два этапа: предварительное обучение и настройка на выполнение визуальных инструкций. На этапе предварительного обучения проектор и LLM обучались совместно.

На этапе настройки на выполнение визуальных инструкций использовались специализированные наборы данных, которые обучают модель понимать инструкции, связанные с изображениями.

POINTS1.5 была протестирована на бенчмарках MMBench, MMMU, MathVista, HallucinationBench, OCRBench, MMVet, ChartQA, MME, LLaVA-wild, SEEDBench, ScienceQA, MATH-Vision и MathVerse и показала высокие результаты, особенно в задачах, требующих математических навыков.

Модели семейства POINTS могут быть запущены в режиме model soup (совместный запуск нескольких моделей, настроенных с разными наборами инструкций для получения итоговой "усредненной" модели) и CATTY (стратегия разбиения изображения большого разрешения на небольшие фрагменты одинакового размера).

▶️Локальная установка и пример инференса с Transformers:


# Clone repo
git clone https://github.com/WePOINTS/WePOINTS.git

# Install required packages
cd WePOINTS
pip install -e .

# Inference example
from transformers import AutoModelForCausalLM, AutoTokenizer
from wepoints.utils.images import Qwen2ImageProcessorForPOINTSV15
import torch
from PIL import Image
import requests
from io import BytesIO


model_path = 'WePOINTS/POINTS-1-5-Qwen-2-5-7B-Chat'
model = AutoModelForCausalLM.from_pretrained(model_path,
                                                 trust_remote_code=True,
                                                 torch_dtype=torch.float16,
                                                 device_map='cuda') 
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
image_processor = Qwen2ImageProcessorForPOINTSV15.from_pretrained(model_path)

image_url = '%link to image%'
response = requests.get(image_url)
image_data = BytesIO(response.content)
pil_image = Image.open(image_data)
pil_image = pil_image.save('image.jpg')
prompt = 'please describe the image in detail'

content = [
        dict(type='image', image='image.jpg'),
        dict(type='text', text=prompt)
    ]
messages = [
        {
            'role': 'user',
            'content': content
        }
    ]
generation_config = {
        'max_new_tokens': 1024,
        'temperature': 0.0,
        'top_p': 0.0,
        'num_beams': 1,
    }
response = model.chat(
    messages,
    tokenizer,
    image_processor,
    generation_config
)
print(response)

📌Лицензирование: Apache 2.0 License.

▪Модель
▪Arxiv
▪GitHub
▪Руководство по Prompt Engineering

@ai_machinelearning_big_data

#AI #ML #VLM #WePOINTS

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28❤10🔥7

14.2K views09:48

Machinelearning

📎

ML в медицине: дайджест за 8 - 15 декабря 2024 г.

▶️

Модели, бенчмарки и датасеты

🔘

Модель диагностики хронического заболевания почек.
Модель глубокого обучения, которая с высокой точностью диагностирует болезни почек по данным КТ-снимков.

🔘

RNAgrail: графовая нейронная сеть и диффузионная модель для предсказания 3D-структуры РНК.
Опенсорсный инструмент моделирования и прогнозирования структуры РНК.

🔘

LLaSA: Анализ активности пациента по инерционным датчикам с помощью MLLM.
Mодель, которая может анализировать данные с датчиков движения и отвечать на вопросы о действиях и активности человека.

▶️

Фреймворки и методологии

🔘

TOP-Training: целенаправленный метод обучения LLM для извлечения ответов на вопросы в медицинской области.
Метод обучения на синтетических данных, адаптированных под конкретную медицинскую задачу.

🔘

Hybrid RAG: гибридная архитектура RAG для управления данными.
Концепт системы, которая использует MLLM и взаимодействие между клиниками для обмена медицинскими данными, улучшении диагностики и теорию контрактов, которые мотивируют клиники делиться актуальной информацией.

🔘

MMedPO: метод повышения точности медицинских VLM.
Метод, который учитывает важность медицинской информации при обучении VLM и улучшает точность моделей в медицинских задачах.

🔘

GMNA: анализ геномных данных с использованием сети ошибочной классификации.
Метод, который сравнивает геномы вирусов SARS-CoV-2 на основе ошибок в их классификации нейронными сетями. Чем чаще модель путает геномы из разных регионов, тем больше у них общего. Этот подход помог увязать генетические различия вирусов с географией и потоками авиаперелетов.

🔘

Цифровые отпечатки для обучения ИИ в медицинской визуализации.
Способ хранить и передавать знания о том, как обучать ИИ анализировать медицинские изображения, не раскрывая данные.

🔘

Прогнозирование посещений отделения неотложной помощи пациентами с диабетом 2 типа с помощью машинного обучения.
Применение разных ML-алгоритмов, чтобы спрогнозировать, когда пациенты будут ходить в отделение неотложной помощи. Лучше всего справлялись случайный лес, XGBoost и ансамблевая модель.

▶️

Медицинские LLM-приложения

🔘

BRAD: цифровой помощник для биоинформатики на основе LLM.
Цифровой помощник, который умеет искать и подтягивать информацию из разных источников - статей, баз данных, программных инструментов.

🔘

BioResearcher: система автоматизации медицинских исследований.
Система с LLM, которая помогает ученым быстро находить нужные статьи, обрабатывать их, планировать эксперименты и даже писать отчеты.

▶️

Исследования и обзоры

*️⃣

T5-модели: преимущества и ограничения в обработке медицинских текстов.
Исследование, в котором сравнили разные модели Т5, обученные на медицинских данных, и выяснили, что специализированные клинические модели показывают лучшие результаты на некоторых задачах, но им не хватает гибкости. А модели общего назначения, адаптированные под медицинские задачи, оказываются эффективнее, особенно когда данных мало.

*️⃣

Автоматизация классификации препаратов для клинических назначений с помощью LLMs.
Концепт системы, которая использует LLM для автоматической классификации лекарств по Анатомо-терапевтическо-химической системе. Это упрощает работу медиков и повышает точность распределения препаратов.

*️⃣

Обзор медицинских наборов данных.
Обзор мед. датасетов - текстов, картинок, разговоров врачей и пациентов, которые используются для обучения ИИ-моделей решать медицинские задачи. Есть много интересных и полезных баз данных, но в основном на английском и китайском языках.

🔜

Читать полный дайджест

🔜

Telegraph

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤28👍19🔥5

15.8K viewsedited 06:15

🌟 OLA-VLM: метод повышения визуального восприятия в MLLM с помощью вспомогательной дистилляции эмбедингов.

OLA-VLM - метод, который предлагает дистиллировать знания от визуальных энкодеров в противовес традиционному способу обучения MLLM.

В качестве целевых визуальных энкодеров были выбраны модели сегментации, оценки глубины и генерации изображений. На каждом слое LLM обучался проб, который должен прогнозировать выход соответствующего целевого энкодера.

Так архитектура OLA-VLM получила предикторы встраивания, которые получают токены из LLM и генерируют предсказания для вычисления потери встраивания. Эта потеря минимизируется вместе с потерей предсказания следующего токена.

Для улучшения восприятия целевой информации OLA-VLM использует специальные токены ⟨t⟩, которые добавляются к токенам изображения на входе LLM. Во время фазы настройки MLLM обучается только с использованием потери предсказания следующего токена. При этом специальные токены ⟨t⟩ остаются в входной последовательности, формируя неявную визуальную цепь рассуждений.

Эксперименты показали, что OLA-VLM превосходит модели семейства LLaVA-1.5 как по качеству визуальных представлений, так и по эффективности на различных тестах.

Методом OLA-VLM были обучены 12 моделей на LLMs Phi3-4K-mini и Llama3-8b с разными базовыми (ViT, CLIP-ConvNeXT) и целевыми (depth, segmentation, generation) энкодерами. Доступны версии PT (Pre-Training) и IFT (Instruction Fine-Tuning).

▶️ Локальная установка и запуск web demo c GrarioUI:

# Clone repo
git clone https://github.com/SHI-Labs/OLA-VLM
cd OLA-VLM

# Create conda env
conda create -n ola_vlm -y
conda activate ola_vlm

# Install dependencies
pip install -e .["demo"]
pip install flash-attn --no-build-isolation
pip install scikit-learn icecream datasets pytorch-fid lpips opencv-python-headless
pip install setuptools==61.0.0
pip install huggingface_hub==0.24.7
pip install transformers==4.41.1

# Run webUI with one of models
CUDA_VISIBLE_DEVICES=0 python demo.py --model-path %path_to_model% --PT-model-path %path_to_model%

📌Лицензирование моделей: Apache 2.0 License.

🟡

Страница проекта

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #OLA-VLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤6🔥4👻2

14.6K views13:01

Machinelearning

🌟 Megrez-3B-Omni: модель обработки 3-х модальностей: изображений, речи и аудио.

Megrez-3B-Omni - это мультимодальная модель для использования устройствах, разработанная Infinigence AI. Она является расширением модели Megrez-3B-Instruct и поддерживает анализ изображений, текста и аудио.

Модель демонстрирует высокие результаты во всех трех целевых областях знаний:

🟢Понимание изображений: благодаря использованию SigLip-400M для создания токенов изображений, Megrez-3B-Omni превосходит модели с большим количеством параметров, например, LLaVA-NeXT-Yi-34B.
Согласно тестам MME, MMMU и OCRBench, Megrez-3B-Omni является одной из лучших моделей понимания изображений и показывает отличные результаты в задачах понимания сцен и оптического распознавания текста.

🟢Понимание языка: по сравнению с одномодальным аналогом (Megrez-3B-Instruct), разница в точности составляет менее 2%, при этом сохраняются лидирующие показатели на тестах C-EVAL, MMLU/MMLU Pro и AlignBench. Модель также превосходит предыдущие поколения моделей с 14 млрд. параметров.

🟢Понимание речи: Megrez-3B-Omni оснащена энкодерами Qwen2-Audio(для китайского)/whisper-large-v3(для английского) и речевой ввод, многоходовые диалоги и голосовые вопросы по входным изображениям. Она может реагировать на голосовые команды текстом и показывает лидирующие результаты на различных контрольных тестах.

Инференс модели возможен с Transformers , в vLLM и в webUI Gradio.

▶️Локальная установка и запуск web demo c GrarioUI:

# Clone repo
git clone https://github.com/infinigence/Infini-Megrez-Omni.git
cd Infini-Megrez-Omni

# Create conda env
conda create -n Megrez-Omni -y
conda activate Megrez-Omni

# Install dependencies
pip install -r requirements.txt

# Run webUI 
python gradio_app.py --model_path {model_path} --port {port}

📌Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Demo

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MMLM #Megrez3BOmni

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤20👍9🔥6😁2

10K views14:30

🌟 Apollo: семейство мультимодальных моделей для понимания медиаконтента.

Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.

Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.

Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.

▶️ Семейство состоит из трех моделей:

🟢

Apollo 7B

🟢

Apollo 3B

🟢

Apollo 1.5B

⚠️ Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только пример инференса на Transformers.

📌Лицензирование кода : Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Apollo

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24🔥10❤7🤔1

23K views19:34

Machinelearning

✔️

Microsoft выпустила в опенсорс библиотеку MarkItDown на Python для преобразования файлов в Markdown

MarkItDown представляет собой эффективное средство для конвертации различных типов файлов и документов в формат Markdown. Эта библиотека идеально подходит для анализа, индексирования и систематизации данных.

Вот перечень поддерживаемых форматов:
— PDF, PowerPoint, Word, Excel.
— Изображения (в том числе EXIF-данные и распознавание текста с помощью OCR).
— Аудио (метаданные и расшифровка речи).
— HTML (включая специализированную обработку контента из Wikipedia).
— Текстовые форматы: CSV, JSON, XML и другие.
▪MarkItDown ▪Github

✔️

Не только математика и алгоритмы: что еще важно для ML и DS. Руководитель ШАДа Алексей Толстиков рассказал, какие ML-специалисты нужны рынку, можно ли освоить Data Science самостоятельно и почему технических навыков бывает недостаточно. Эти и многие другие вопросы он затронул в новом выпуске подкаста MLinside школы Виктора Кантора.
Смотреть выпуск

✔️

Whisk: Google представил новую технологию создания изображений

Принцип работы прост: пользователь загружает три изображения — одно для объекта, другое для фона и третье для стиля. Модель Gemini анализирует каждое изображение и формирует подробное описание, после чего новая система генерации изображений Imagen 3 использует эти данные для создания уникального результата.

Главное преимущество Whisk перед другими генераторами заключается в том, что он не копирует исходные изображения полностью, а выделяет из них ключевые элементы.
blog.google

✔️

Google анонсировала обновленный генератор видео Veo 2 и начала формировать список ожидания для его тестирования.

Внутренние тесты компании показали, что пользователи предпочитают генерации Veo генерациям SORA в 58,8% случаев.

Подать заявку на тестирование модели можно через сервис VideoFX в Google Labs, однако доступ к нему закрыт для пользователей с российскими IP-адресами. Планируется, что в 2025 году Veo 2 будет интегрирован в YouTube Shorts и другие сервисы Google.
deepmind.google

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤15🔥9

10.1K views10:58

Machinelearning

⚡️

Релиз Falcon 3

Институт технологических инноваций Абу-Даби представил семейство моделей Falcon 3 с расширенными возможностями в областях науки, математики и программирования.

▶️В семейство входят 5 базовых моделей:

🟢

Falcon3-1B-Base

🟢

Falcon3-3B-Base

🟢

Falcon3-Mamba-7B-Base

🟢

Falcon3-7B-Base

🟢

Falcon3-10B-Base

Модели Falcon 3 основаны на трансформерах, совместимы с архитектурой Llama поддерживает до 32К токенов контекста (кроме 1B с контекстом 8К). Все модели используют функцию активации SwiGLU с размером словаря 131K токенов (65K для Mamba-7B версии).

Falcon3-7B-Base была масштабирована до 10 млрд. параметров путем дублирования избыточных слоев и последующего обучения на 2 трлн. токенов. Это позволило модели Falcon3-10B-Base достичь высоких результатов в задачах zero-shot и few-shot среди моделей с менее чем 13В параметров.

Для создания компактных моделей Falcon3-1B Base и Falcon3-3B Base использовались методы обрезки и дистилляции знаний на основе около 100 ГБ высококачественных данных.

Модель Falcon3-Mamba-7B-Base была усовершенствована путем обучения на дополнительных 1,5 трлн. токенов, что привело к созданию Falcon3-Mamba-7B-Base с улучшенными способностями к рассуждению и в математических задачах.

▶️ Семейство продемонстрировало высокую производительность на стандартных бенчмарках:

🟠Falcon3-1B-Base превосходит SmolLM2-1.7B и сопоставима с gemma-2-2b;
🟠Falcon3-3B-Base опережает Llama-3.1-8B и Minitron-4B-Base;
🟠Falcon3-7B-Base показывает результаты, сравнимые с Qwen2.5-7B;
🟠Falcon3-10B-Base - лучшие результаты в категории до 13 млрд. параметров.

В бенчмарках задач математики Falcon3-10B-Base достигает 22,9 на MATH-Lvl5 и 83,0 на GSM8K, а в задачах программирования набирает 73,8 на MBPP.

Инструктивные версии моделей также показывают высокие результаты, при этом Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят аналогичные модели до 13 млрд. параметров.

▶️В репозитории на HuggingFace опубликованы базовые, Instruct, GPTQ-INT8, GPTO-INT4, AWQ и GGUF версии моделей Falcon3.

⚠️ В январе 2025 года планируется выпуск моделей семейства Falcon3 с расширенными мультимодальными возможностями: поддержка изображений, видео и аудио, а также полный технический отчет с описанием методик.

📌Лицензирование: Falcon 3 TII Falcon License.

🟡

Статья

🟡

Набор моделей

🟡

Demo Falcon3

🟡

Demo Falcon3-Mamba-7B-Instruct

🟡

Сообщество в Discord

@ai_machinelearning_big_data

#AI #ML #LLM #Falcon3

Please open Telegram to view this post

VIEW IN TELEGRAM