Machinelearning

🌟 LongAlign: Улучшение согласованности text-2-image генерации в длинных промптах на диффузионных моделях.

LongAlign - метод тонкой настройки диффузионных text-2-image моделей, который улучшает понимание длинных промптов. Вместо того, чтобы подавать весь длинный текст в CLIP, LongAlign разбивает его на сегменты (например, предложения) и кодирует каждый сегмент по отдельности. Это позволяет использовать CLIP, несмотря на его ограничения.

После кодирования отдельных сегментов LongAlign объединяет полученные эмбединги в единый вектор. Для этого используется конкатенация с удалением повторяющихся специальных токенов ( <sot>, <eot>, <pad>) и добавлением нового токена <pad*>.

Чтобы достичь точности согласования, в LongAlign используется 3 техники:

🟢классификация предпочтений на основе текстовой зависимости, оценивается не только следованию промпту, но и визуальные аспекты (фотореализм, эстетика);

🟢перевзвешивание градиентов, уменьшает влияние текстово-независимого компонента и улучшает согласованность между текстом и изображением;

🟢сегментной модели предпочтений, детально согласовывает отдельные части текста с изображением.

По проведенным оценкам, LongAlign значительно превосходит базовые модели Stable Diffusion, PixArt-α и Kandinsky v2.2 по показателям FID и Denscore. Отдельно выполненная оценка в GPT-4o подтвердила преимущества LongAlign в согласовании text-2-image.

▶️

Подготовка к файнтюну с помощью LongAlign:

🟠Тестовый датасет на 2 млн. пар фомата "длинный промпт-изображение"
🟠Stable Diffusion v1.5 (загрузится автоматически)

🟠

T5-адаптер (положить в ./model/LaVi-Bridge)
🟠Denscore (загрузится автоматически)

🟠

longSD (положить в ./model/longSD)

▶️ Установка и запуск на примере трейна Stable Diffusion и LCM-версии Stable Diffusion

# Prepare environment
pip install -r requirements.txt

# Train original Stable Diffusion
# support long-text inputs
bash run_unet.sh align ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward test

# Train LCM-version Stable Diffusion
# support LCM sampling
bash run_unet.sh lcm ct5f

# preference optimization for long-text alignment
bash run_unet.sh reward_lcm test

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🖥

Github

#AI #ML #Diffusion #Text2Image #LongAlign

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤6🔥5

8.12K views09:01

Machinelearning

1:12

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 LayerSkip: метод ускорения инференса в LLM.

LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.

Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.

В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.

Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).

Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.

LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.

Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:

🟢Llama2 - 7B и 13B;
🟢Codellama-7B или 34В;
🟢Llama3-8B:
🟢Llama3.2-1B.

⚠️ Для локального запуска будет нужен Huggingface API KEY.

▶️Локальный запуск:

# Clone repo
git clone [email protected]:facebookresearch/LayerSkip.git
cd LayerSkip

# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip

# Install requirements
$ pip install -r requirements.txt

#Inference with self speculative 
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
    --sample True \
    --max_steps 512 \
    --generation_strategy self_speculative \
    --exit_layer 8 \
    --num_speculations 6

▶️Ключи запуска:

--model: имя модели на HuggingFace;
--sample: включение/выключение семплирования (по умолчанию: True);
--max_steps: максимальное количество генерируемых токенов;
--generation_strategy: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');
--exit_layer: номер слоя для раннего выхода;
--num_speculations: количество спекулятивных токенов;

🟡

Коллекция моделей на HF

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #MetaAI #LayerSkip

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

5🔥17👍11❤8✍1

13.3K views11:49

Machinelearning

⚡️

Stable Diffusion 3.5 Large.

Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:

🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.

Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
    "A happy woman laying on a grass",
    num_inference_steps=28,
    guidance_scale=3.5,
).images[0]
image.save("woman.png")

📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.

🟡

Страница проекта

🟡

Arxiv

🟡

Модель

@ai_machinelearning_big_data

#AI #ML #Diffusion #SDL #StabilityAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤11👍9

10.3K views14:45

Machinelearning

🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.

MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.

Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.

Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.

В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.

Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :

🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;

🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;

🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;

🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).

▶️ Локальное выполнение бенчмарка возможно 3 способами:

🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;

🟠

путем запуска скриптов оценки MMSearch;

🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.

⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.

Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.

🟡

Страница проекта

🟡

Arxiv

🟡

Датасет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👍7❤4

11.2K views17:01

Machinelearning

✔️

Anthropic выпускает обновленные модели Claude 3.5 Sonnet и Claude 3.5 Haiku и представляет функцию "использование компьютера".

Обновленная Claude 3.5 Sonnet улучшена по сравнению с предыдущей версией, особенно в области программирования. Модель превосходит все публично доступные LLM по показателям SWE-bench Verified, с значением в 49.0%.

Claude 3.5 Sonnet показала улучшения в агентных задачах на TAU-bench, достигнув 69.2% в задачах розничной торговле и 46.0% в области авиаперевозок. Обновление уже доступно для всех пользователей через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud.

Claude 3.5 Haiku по производительности на многих тестах соответствует Claude 3 Opus, при той же стоимости и аналогичной скорости, что и у предыдущего поколения Haiku. Claude 3.5 Haiku будет выпущена позже в этом месяце.

Claude 3.5 Sonnet - первая модель ИИ, предлагающая использование компьютера в публичной бета-версии. Эта функция позволяет разработчикам давать Claude инструкции по использованию компьютеров так же, как это делают люди: смотреть на экран, перемещать курсор, нажимать кнопки и вводить текст.
anthropic.com

✔️

Wall Street Journal и New York Post подали в суд на Perplexity.

News Corp. подал в суд на Perplexity, обвиняя в копировании защищенного авторским правом новостного контента. Издатели утверждают, что Perplexity использует их контент для генерации ответов на запросы пользователей, перехватывая трафик, который в противном случае шел бы на сайты издателей.

Издатели требуют от суда обязать Perplexity прекратить использование и копирование их контента без разрешения, уничтожить любые базы данных, содержащие их материалы, и присудить им компенсацию в размере до 150 000 долларов за каждый случай нарушения авторских прав.
wsj.com

✔️

Bambu Lab запускает новый генератор 3D-моделей на основе ИИ.

Bambu Lab, производитель 3D-принтеров, выпустила PrintMon Maker, новый генератор 3D-моделей на базе ИИ. Инструмент доступен через MakerWorld и позволяет пользователям создавать 3D-печатные модели, используя текстовые или графические промпты.

Платформа генеративного ИИ создает модели, оптимизированные для многоцветной 3D-печати. Созданные проекты можно импортировать непосредственно в ПО для 3D-печати и изготавливать на 3D-принтерах Bambu Lab без дополнительных настроек.
3dprintingindustry.com

✔️

Mitsubishi Electric представила промышленный робот RV-12CRL с увеличенным радиусом действия.

Вертикально-шарнирный робот RV-12CRL имеет радиус действия 1504 мм и грузоподъемность 12 кг, что делает его идеальным для обслуживания станков, упаковки и задач "pick-and-place".

Встроенные функции обеспечивают повышенную безопасность, упрощенное внедрение и общее сокращение времени простоя. RV-12CRL оснащен внутренними кабелями и воздушными шлангами для инструментов на конце манипулятора и 30-контактную сигнальную кабельную систему.

Использование серводвигателей MELSERVO-J5 с бесконтактными энкодерами исключает необходимость в батареях, что снижает затраты на эксплуатацию.
roboticstomorrow.com

✔️

Google DeepMind и MIT создали модель для генерации изображений "Fluid", превосходящую диффузионные модели.

Fluid — авторегрессионная модель text-to-image c возможностью масштабирования до 10.5 млрд. параметров.

Опубликованное исследование показывает, что этот класс моделей может иметь потенциал масштабирования, аналогичный большим языковым моделям. Ключевыми факторами Fluid являются использование непрерывных, а не дискретных токенов, и случайный, а не фиксированный порядок генерации, улучшающий понимание глобальной структуры изображения.

Fluid превосходит как диффузионные модели (Stable Diffusion 3), так и предыдущие авторегрессионные модели (Parti от Google). Базовая Fluid с 369 млн. параметров достигает того же показателя FID, что и Parti с 20 млрд параметров.
Веса и код Fluid пока не анонсированы.
arxiv.org

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤8🥰6🔥2

7.85K views06:15

Machinelearning

📌Исчерпывающий гайд по методам тонкой настройки больших языковых моделей.

Подробное руководство от Ирландского центра искусственного интеллекта CeADAR по практическому применению и оптимизации процесса тонкой настройки LLM.

В руководстве представлен анализ подходов обучения: контролируемые, неконтролируемые и инструктивные подходы. Гайд подробно рассматривает подготовку наборов данных, выбор подходящей модели, настройку параметров и оценку производительности.

Это руководство подходит как для начинающих, так и для опытных специалистов, которые хотят эффективно настраивать и использовать LLM для решения различных задач в области обработки естественного языка.

Несмотря на техническую сложность темы, авторы сделали материал доступным для широкой аудитории, используя понятный язык и наглядные примеры.

▶️

Содержание:

🟢Введение
🟢Семиэтапный конвейер тонкой настройки LLM
🟢Этап 1: Подготовка данных
🟢Этап 2: Инициализация модели
🟢Этап 3: Настройка обучения
🟢Этап 4: Выбор методов тонкой настройки и соответствующих конфигураций модели
🟢Этап 5: Оценка и валидация
🟢Этап 6: Развертывание
🟢Этап 6: Мониторинг и обслуживание
🟢Платформы и фреймворки для тонкой настройки LLM
🟢Мультимодальные LLM и их тонкая настройка
🟢Частые проблемы, этика и ответственность

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #Guide #Finetune

Please open Telegram to view this post

VIEW IN TELEGRAM

👍31❤13🔥8

14.2K views12:30

Machinelearning

1:37

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.

📌Лицензирование: MIT License.

🟡

Модель

🟡

Сообщество в Discord

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM