Machinelearning

⚡️ ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.

ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.

Codebase фреймворка:

🟠ml_mdm.models - реализация core-модели;
🟠ml_mdm.diffusion - диффузионный пайплайн;
🟠ml_mdm.config - подключение конфигурационных классов данных к моделям, конвейерам с помощью simple parsing (надстройка к argparse);
🟠ml_mdm.clis - все инструменты cli проекта.

Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr:

🟢

vis_model_64x64;

🟢

vis_model_256x256;

🟢

vis_model_1024x1024.

▶️Локальный запуск:

Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.

#  Running Test Cases:
> pytest   # will run all test cases - including ones that require a gpu
> pytest  -m "not gpu"  # run test cases that can work with just cpu

# Download the models:
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth
curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth

# Launch Web Demo:
torchrun --standalone --nproc_per_node=1  ml_mdm/clis/generate_sample.py --port 19999

⚠️ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.

📌Лицензирование : Apple Inc.

🟡

Arxiv

🟡

Страница проекта

🖥

Github [ Stars: 166 | Issues: 3 | Forks: 6]

@ai_machinelearning_big_data

#AI #Diffusion #ML #Text2Image #Apple

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19❤8🥰4

9.77K views11:48

Machinelearning

Новостной дайджест

✔️Hugging Face приобретает стартап, чтобы разместить еще больше моделей.

Hugging Face приобрела XetHub, платформу для совместной работы над моделями машинного обучения. Цель приобретения - облегчение размещения сотен миллионов моделей.
Компания XetHub, основанная бывшими сотрудниками Apple, разработала технологии, которые позволяют масштабировать Git до репозиториев размером в терабайт.
О сделке объявил соучредитель Hugging Face Жюльен Шомон, который выразил энтузиазм по поводу приобретения и его потенциального влияния на сообщество разработчиков.
forbes.com

✔️Рынок серверов для ИИ достигнет 187 миллиардов долларов в 2024 году.

Основными факторами роста являются растущий спрос со стороны крупных облачных провайдеров и улучшение производственных возможностей TSMC, SK hynix, Samsung и Micron. Их усилия помогли сократить дефицит и сократить сроки поставки для флагманского решения NVIDIA H100. Сейчас NVIDIA занимает почти 90% рынка серверов с GPU.
Ожидается, что поставки AI серверов вырастут на 41,5% в год в 2024 году и доля AI-серверов составит около 65% от общей стоимости серверного рынка.
geeky-gadgets.com

✔️Qwen2-Math занимает первое место по количеству математических моделей.

Alibaba Cloud объявила о том, что ее новая модель Qwen2-Math заняла первое место среди математических LLM. Qwen2-Math предназначен для решения сложных математических задач и обошел в проведенных тестах GPT-4o от OpenAI и Math-Gemini от Google.
Qwen2-Math-72B-Instruct набрал 84 % баллов в тесте MATH Benchmark, включающем 12 500 сложных математических задач, справился с контрольными заданиями по математике в начальной школе (96,7 %) и на уровне колледжа (47,8 %).
Qwen2-Math выпускается в нескольких наборах параметров - 0,5B, 1,5B, 7B, 14B и 72B.
venturebeat.com

✔️AMD выпустила ROCm 6.2; добавлена поддержка FP8 и расширены возможности обучения и инференса для ИИ.

Благодаря поддержке FP8, ROCm теперь может эффективно обрабатывать вычисления, потребляя меньше памяти и быстрее обучать модели.
В дополнение к поддержке FP8, ROCm 6.2 получил оптимизацию производительности, специально разработанную для рабочих нагрузок ИИ.
Обновление также расширяет поддержку более широкого спектра фреймворков машинного обучения, упрощая процесс интеграции и оптимизации моделей ИИ на платформе AMD.
community.amd.com

✔️Команда китайских ученых создала первый в мире чипсет для AI, работающий исключительно за счет энергии света.

Предыдущее поколение чипов Taichi-I в апреле 2024 года превзошло по энергоэффективности GPU H100 от Nvidia более чем в тысячу раз.
Taichi-II, чья модернизация является большим шагом для оптических вычислений, может стать ключевым фактором перехода из теоретической стадии в масштабные экспериментальные применения, а также удовлетворить растущий спрос на вычислительную мощность с низким энергопотреблением.
scmp.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33❤6🔥5

7.84K viewsedited 07:38

Machinelearning

⚡️ FLUX: Поддержка моделей FLUX в наборах скриптов для трейна ХlabsAI и SimpleTuner.

ХlabsAI и SimpleTuner опубликовали обновления в своих наборах скриптов, добавив поддержку модели FLUX.

▶️В ХlabsAI доступна тренировка LoRA и ControlNet на Deepspeed:

LoRA for FLUX dev

accelerate launch train_flux_lora_deepspeed.py --config "train_configs/test_lora.yaml"

ControlNet for FLUX dev

accelerate launch train_flux_deepspeed_controlnet.py --config "train_configs/test_canny_controlnet.yaml"

В ближайших планах публикация весов ControlNet для FLUX:
🟢OpenPose
🟢Depth
🟢IP-Adapters

*️⃣

RealismLoRA

*️⃣

Canny ControlNet для FLUX

*️⃣

Воркфлоу с поддержкой LoRA для ComfyUI

*️⃣

Попробовать LoRA онлайн

▶️

SimpleTuner также добавил в пакет скриптов поддержку LoRA for FLUX и скрипт обучения для квантованных моделей FLUX int8, int4, int2, fp8.

Рекомендации по ресурсам для LoRA:

🟠Rank-16 LoRA использует чуть больше 40 ГБ VRAM;
🟠GPU AMD и Apple не подходят для обучения Flux.

Наблюдения, сделанные автором SimpleTuner в ходе экспериментов:

🟠Для обучение под Schnell нужно больше времени для тренировки, результаты пока не очень;
🟠LoRA, обученная на dev отлично работает и на Schnell;
🟠Мердж 50/50 моделей dev и Schnell работает, на этом мердже можно тренировать LoRA`s;
🟠Квантованные версии FLUX позволяют использовать оптимизаторы - Prodigy, Adafactor, Dadaptation, AdamW, и AdamW8Bit;
🟠Квантование fp8 выполняется медленнее, чем int8, и может иметь худший результат из-за использования e4m3fn в Quanto;
🟠Плохое качество датасета, слишком высокий LR, неправильный выбор оптимизатора, низкое значение Network при большом датасете, использование нестандартных размеров изображений в датасете - этот все приводит к чудовищным артефактам "квадратной решетки" в результате.

🖥

Github ХlabsAI [ Stars: 266 | Issues: 9 | Forks: 12]

🖥

Github SimpleTuner [ Stars: 885K | Issues: 13 | Forks: 61]

@ai_machinelearning_big_data

#AI #FLUX #ML #Train #LoRA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤9🔥3

10.3K views09:23

Machinelearning

🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

Предусмотрено два режима взаимодействия:

🟠

голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста;

🟠

аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.

Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:

🟢

Qwen2-Audio-7B

🟢

Qwen2-Audio-7B-Instruct

Инференс на transformers в cli возможен в нескольких режимах:

🟠простой инференс модели Qwen2-Audio;

🟠

пакетный инференс (например, несколько текстовых запросов к аудиофайлу);

🟠

инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);

🟠

инференс голосового чата.

▶️Локальный запуск с GradioUI:


# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers

# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt

# run Gradio web UI
python demo/web_demo_audio.py

📌Лицензирование : Apache 2.0

▪Страница проекта
▪Коллекция моделей на HF
▪Arxiv
▪Сообщество в Discord
▪Demo
▪Github [ Stars: 618 | Issues: 7 | Forks: 17]

@ai_machinelearning_big_data

#AI #LLM #ML #Qwen2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28❤8🔥6🎉4

10.6K views08:03

Machinelearning

🌟SALSA: Стабильная адаптация линейного поиска Armijo.

SALSA (Stable Armijo Line Search Adaptation) — метод, разработанный для оптимизации Learning Rate (LR) во время обучения.
Основная концепция метода построена вокруг выполнения линейного поиска для определения наилучшего возможного LR для каждого шага обучения, что дает быструю сходимость и улучшенное обобщение.

Чтобы уменьшить вычислительную нагрузку, Salsa предлагает пошаговый миниатюрный линейный поиск. В нем LR постепенно увеличивается с каждым шагом, а критерий линейного поиска постоянно переоценивается.
Дополнительно, Salsa включает экспоненциальное сглаживание в процесс линейного поиска и устанавливает два экспоненциальных скользящих средних для скорости обучения. Это помогает стабилизировать оптимизацию и уменьшить нестабильность от мини-пакетирования.

Экспериментальные результаты показывают, что Salsa превосходит другие методы оптимизации: 50% сокращение final loss и 1,25 average rank в языковых и графических задачах.
Вычислительные издержки Salsa всего на 3% выше, чем у базового LR метода, что можно воспринимать как незначительным увеличением, учитывая показатели производительности. Salsa достаточно универсален, чтобы использоваться с различными оптимизаторами, и особенно эффективен при обучении современных архитектур, которые чувствительны к скорости обучения.

▶️Локальный запуск:

# Clone repository:
git clone https://github.com/TheMody/No-learning-rates-needed-Introducing-SALSA-Stable-Armijo-Line-Search-Adaptation.git

# Create & activate env:
conda env create -f environment.yml
conda activate sls3

# Install dependencies:
pip install pytorch numpy transformers datasets tensorflow-datasets wandb

# NOTE: custom optimizer is in \salsa\SaLSA.py,comparison version are in \salsa\adam_sls.py:
from salsa.SaLSA import SaLSA
self.optimizer = SaLSA(model.parameters())

# NOTE: typical pytorch forward pass needs to be changed to:
def closure(backwards = False):
    y_pred = model(x)
    loss = criterion(y_pred, y)
    if backwards: loss.backward()
    return loss
optimizer.zero_grad()
loss = optimizer.step(closure = closure)

📌Лицензирование : MIT License

🟡

Arxiv

🟡

Датасет Cifar-10

🟡

Youtube video

🖥

Github [ Stars: 11 | Issues: 0 | Forks: 0]

@ai_machinelearning_big_data

#AI #LLM #ML #Train #SALSA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤8🔥5

12.4K views11:04

Machinelearning

🌟Parler-TTS: качественный синтез речи по тексту на английском языке.

Parler-TTS - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.

Parler-TTS - это авторегрессионная модель, основанная на трансформерах, которая генерирует аудиотокены в причинно-следственном порядке. Код для инференса Parler-TTS оптимизирован для быстрой генерации благодаря совместимости с SDPA и Flash Attention 2.

Архитектура Parler-TTS состоит из трех частей: текстовый кодировщик (Flan-T5), декодер и аудиокодек DAC. Текстовый кодировщик преобразует текст в скрытые состояния, декодер генерирует аудиотокены на основе этих состояний, а аудиокодек восстанавливает аудиосигнал из аудиотокенов.

Модели:

🟢

Parler-TTS Mini - 880 миллионов параметров

🟢

Parler-TTS Large - 2,3 миллиарда параметров

Характеристиками речи (пол, темп речи, высота тона и реверберация) можно управлять непосредственно через текстовый промпт. Например:

🟠Добавьте промпт "very clear audio" для создания аудио высокого качества, а "very noisy audio" - для высокого уровня фонового шума;
🟠Пунктуация может использоваться для управления просодией генерации - используйте запятые, чтобы добавить небольшие паузы в речь.

▶️Установка и запуск:

# Clone repository and install dependences:
pip install git+https://github.com/huggingface/parler-tts.git

# Inference with random voice
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)y

📌Лицензирование : Apache-2.0 license

🟡

Модель Parler-TTS Mini

🟡

Модель Parler-TTS Large

🟡

Arxiv

🟡

Demo Video

🟡

Google Collab (файнтюн)

🟡

Demo

🖥

Github [ Stars: 3.4K | Issues: 49 | Forks: 338]

@ai_machinelearning_big_data

#AI #Parler #ML #TTS

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥5❤4

10.2K views07:12

Machinelearning

⚡️Forge UI FLUX Support: Крупное обновление популярного UI для Stable Diffusion.

Forge — это платформа на базе Stable Diffusion WebUI (Gradio), цель которой - упрощение разработки функций, оптимизация управления ресурсами, ускорения инференса и изучение экспериментальных функций.
Автор и основной разработчик Forge - Lvmin Zhang, создатель проектов : ControlNet, LayerDiffuse, IC-Light, OMOST, Style2Paints, Foocus и др.

Главное в обновлении:
🟢поддержка квантованных в nf4/fp4/fp8 модели FLUX dev;
🟢адаптация BitsandBytes для диффузии;
🟢ускорение инференса для всех GPU, включая low-memory и серии 20ХХ;
🟢улучшенный UI интерфейс с возможностью переключения между архитектурами (SD\SDXL\FLUX)

С обновлением поддерживаются квантованные модели Flux:

🟠

flux1-dev-bnb-nf4 - модель в NF4. Рекомендуется для 30XX/40XX серий GPU NVIDIA;

🟠

flux1-dev-fp8 - модель в FP8. Рекомендуется для 10XX/20XX серий GPU NVIDIA.

Преимущество NF4 по сравнению с FP8 состоит в том, что FP8 просто преобразует каждый тензор в формат FP8, в то время как NF4 преобразует каждый тензор в комбинацию нескольких тензоров с различными форматами, включая float32, float16, uint8 и int4, для достижения максимально возможного приближения. Таким образом, NF4 значительно быстрее, чем FP8.

Например, для GPU с 6 ГБ/8 ГБ VRAM ускорение составляет от 1,3x до 2,5x (pytorch 2.4, cuda 12.4) и от 1,3x до 4x (pytorch 2.1, cuda 12.1). Эти тесты проводились автором на 3070 ti (8 ГБ VRAM). FP8 - 8,3 секунды на итерацию; NF4 - 2,15 секунды на итерацию.
Так происходит потому, что NF4 использует собственный bnb.matmul_4bit, а не torch.nn.functional.linear: избегаются преобразования типов и вычисления выполняются с помощью множества низкоуровневых операций CUDA.

Чтобы ускорить работу модели FLUX, в Forge добавлен выбор параметров. Если устройство с небольшой видеопамятью, высока вероятность столкнуться с проблемой загрузки модели в видеопамять. Решением является разделение модели на две части: одна часть загружается в видеопамять, а другая - в "swap" локацию - CPU или Shared RAM.

Установив максимальный размера VRAM для модели и метод swap (Queue или ASYNC), можно достичь теоретического предела скорости работы для устройства. Корректная настройка параметров может ускорить работу модели на 30%, но требует внимательного подхода.

▶️Локальная установка:

# Open command prompt and run
git clone https://github.com/lllyasviel/stable-diffusion-webui-forge.git
webui-user.bat
# Put downloaded models from HF into models/StableDiffusion

📌Лицензирование : AGPL-3.0 license

🟡

Модель Flux-dev-NF4

🟡

Модель Flux-dev-FP8

🖥

Github [ Stars: 5.8K | Issues: 405 | Forks: 580]

@ai_machinelearning_big_data

#AI #Forge #ML #FLUX

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤6🔥3👏2

7.91K views10:03

Machinelearning

⚡️Falcon Mamba: англоязычная языковая модель на архитектуре Mamba.

Falcon Mamba - модель от Technology Innovation Institute (TII, Dubai, UAE), основанная на архитектуре Mamba, которая может обрабатывать последовательности произвольной длины без увеличения памяти хранения.
Модель была обучена на ~5500GT данных RefinedWeb, качественных технических данных и экземпляров кода на разных языках программирования из открытых источников.

Архитектура модели построена на оригинальной Mamba с добавлением дополнительных слоев нормализации RMS.
Такая комбинация придает модели возможность обрабатывать последовательности любой длины без необходимости увеличения потребления памяти, вмещаясь, по сути, на одну А10 24 GB.
Falcon Mamba доступна в экосистеме Hugging Face и совместима с большинством API Hugging Face. Модель также поддерживает функцию квантование bitsandbytes, для обеспечения возможности запуска модели на небольших GPU и CPU.

Коллекция моделей FalconMamba 7B:

🟢

falcon-mamba-7b

🟢

falcon-mamba-7b-instruct

🟠

falcon-mamba-7b-4bit

🟠

falcon-mamba-7b-instruct-4bit

📌Лицензирование : TII Falcon-Mamba License 2.0

🟡

Страница проекта

🟡

Коллекция моделей на HF