Machinelearning

⚡️ ControlNet ProMax: Обновление набора ControlNet++ для Stable Diffusion XL.

ControlNet++ - это набор моделей ControlNet, собранный на новой архитектуре и упакованный в один единый файл без необходимости скачивать дополнительные препроцессоры и наборы моделей.

Обновление ProMaх включает в себя весь существующий набор ControlNet Union, в который были добавлены возможности комбинации нескольких типов ControlNet к одному исходному изображению и новые функции Tile Deblur, Tile Superresolution, Tile Variation, Inpaint и Outpaint.

C учетом обновления, набор ControlNet ProMax выполняет 12 функций и 5 дополнительных методик редактирования изображений:

🟢

Openpose. Оценивает и аннотирует ключевые точки на теле, лице и руках человека, выполняет комплексную оценку позы;

🟢

Depth. Предназначен для задач оценки глубины;

🟢

Сanny. Обнаруживает края на изображениях с помощью детектора алгоритма Canny;

🟢

Lineart. Извлекает контуры объектов из изображений, в частности для создания реалистичного воспроизведения с уточнением толщин контуров;

🟢

AnimeLineart. Извлекает контуры, характерные для техник, используемых в аниме;

🟢

MLSD (Mobile Line Segment Detection). Выделяет линейные структуры;

🟢

Scribble. Обнаруживает неточные и неровные линии. Используется для имитации рисунков, похожих на скетчи;

🟢

HED (Holistically-Nested Edge Detection). Извлекает линии с мягкими краями. Он предварительно обрабатывает изображения, чтобы усилить или изолировать особенности линий для задач, требующих детального обнаружения краев или линий;

🟢

Pidi (Softedge). Выделяет линии мягких краев с использованием методов PiDiNet. Его цель - улучшить задачи анализа и обработки и предоставить уточненные исходные данные для дальнейшей обработки или анализа;

🟢

TEED. Извлекает линии мягких краев с помощью техники TEDDetector;

🟢

Segment. Выполняет визуальную сегментацию объектов и их частей;

🟢

Normal. Создает карту нормалей на основе визуально-вычислительного анализ глубины;

🟠

Tile Deblur. Устраняет размытие методом анализа наложенных плиток (Tiles) заданного размера (от 64х64 до 1024х1024);

🟠

Tile Variation. Генерирует вариации с небольшим изменением в деталях методом Tiles;

🟠

Tile Super Resolution. Кратно повышает разрешение методом анализа наложенных плиток;

🟠

Inpainting. Заменяет или добавляет объекты на существующее изображение;

🟠

Outpainting. Расширяет границы изображения, сохраняя общую композицию.

В архитектуре ControlNet++ были разработаны два новых модуля: Condition Transformer и Control Encoder, которые улучшают представление и обработку условий в модели.
Каждому условию назначается уникальный идентификатор типа управления, который преобразуется в эмбеддинги.
Condition Transformer позволяет обрабатывать несколько условий одновременно, используя один кодировщик и включает слой трансформера для обмена информацией между исходным изображением и условными изображениями.
Condition Encoder увеличивает количество каналов свертки для повышения представительной способности, сохраняя оригинальную архитектуру.
Также была использована единая стратегия обучения, которая одновременно оптимизировала сходимость для одиночных условий и управляла слиянием множественных условий, повышая устойчивость сети и ее способность к генерации качественных изображений.

▶️Набор ControlNet Pro Max может быть использован как в виде консольного инференса, так и в интерфейсе ComfyUI, где разработчиками были обновлены наборы нод для работы с моделями ControlNet.
ControlNet Pro Max поддерживает работу с любой генеративной моделью семейства Stable Diffusion XL. Поддержка семейства Stable Diffusion 3 находится в разработке.

📌Лицензирование : Apache-2.0 license

🟡

Модель на HF

🖥

Github [ Stars: 1.4K | Issues: 31 | Forks: 22]

@ai_machinelearning_big_data

#AI #ControlNet #ML #Diffusers #SDXL

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤10🎉5🔥1🥰1👏1

11.6K views12:03

Machinelearning

🔥 Agent-E: автоматизация повторяющихся действий в браузере с помощью LLM

Agent-E - система, основанная на агентах, цель которой -- снизить когнитивную нагрузку на человека и сэкономить время, которое обычно тратится на выполнение повторяющихся действий в браузере.
Система использует иерархическое итеративное планирование для выполнения многошаговых задач, что дает возможность заранее планировать действия и выстраивать последовательности их последовательности.

Agent-E основан на фреймворке AutoGen, который выполняет взаимодействие с веб-браузером через DOM Distillation на естественном языке:

🟢заполнение веб-форм с использованием информации о пользователе;
🟢поиск и сортировка товаров на сайтах электронных торговых площадок по различным критериям;
🟢поиск определенного контента и на сайтах, от спортивных результатов до контактной информации;
🟢навигация и взаимодействие с веб-медиа, например, воспроизведение и управление настройками видео на YouTube;
🟢выполнять комплексный веб-поиск для получения информации по широкому спектру тем;
🟢управлять задачами и автоматизировать их на платформах управления проектами (например, JIRA);
🟢оказывать персональную помощь в покупках, предлагая товары в зависимости от потребностей.

Подключение локальной LLM (поддерживается через API Ollama) дает Agent-E возможность генерировать текстовые ответы на основе запросов пользователя, т.е не только выполнять команды, но и адаптироваться к контексту.

На данный момент разработано только два агента: User proxy (выполняет навыки) и Browser navigation (взаимодействие с браузером), но у авторов большие планы на реализацию нового функционала:
🟠Проверка действий - ответ от каждого навыка с изменениями, чтобы LLM мог судить, выполнил ли навык правильно или нет;
🟠Планировщик выполнения для LLM, чтобы языковая модель могла принимать решение на несколько шагов вперед;
🟠Автоматическое сохранение предпочтений пользователя в локальную векторную БД:
🟠Голосовое управление;
🟠Расширение взаимодействия с браузером: закладки, навигация по вкладкам, хоткеи;
🟠Групповой чат для нескольких агентов .

▶️Локальный запуск :


# Install UV
pip install uv

# Generate & install requirements.txt from .toml
uv pip compile pyproject.toml -o requirements.txt
uv pip install -r requirements.txt

# Install extras/dev dependancies
uv pip install -r pyproject.toml --extra dev

# Install playwright drivers (Google Chrome)
playwright install

# Run the code with CLI
python -m ae.main

# OR Launch via web endpoint with FastAPI wrapper
uvicorn ae.server.api_routes:app --reload --loop asyncio

👉Лицензирование : MIT license

▪Страница проекта
▪Arxiv
▪Demo Videos
▪Сообщество Discord
▪Github [ Stars: 491 | Issues: 8 | Forks: 63]

@ai_machinelearning_big_data

#AI #LLM #ML #Automate #Agents

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21👍11❤5⚡2

9.69K views15:07

Machinelearning

⚡️ FBI-LLM: семейство binary foundation моделей, обученных с нуля.

Лаборатория Университета MBZUAI (ОАЭ) и Университет Carnegie Melon опубликовали в открытом доступе набор моделей, созданных по методологии Fully Binarized Large Language Model (FBI-LLM).

При создании FBI-LLM была использована авторегрессионная дистилляция потерь при сохранении эквивалентной размерности модели (130M, 1.3B, 7B) для достижения производительности, сравнимой с FP16 / BF16.

Для обучения семейства был использован датасет Amber, который состоит из документов Arxiv, книг, С4, данных веб-страниц, StarCoder, StackExchage и Wikipedia.
Суммарный объем датасета - 1259 млрд токенов.

Структурные параметры представленных моделей :

🟢

FBI-LLM 130M - 12 layers, 12 attention heads, 769 hidden size, 2048 intermediate size;

🟢

FBI-LLM 1.3B - 24 layers, 32 attention heads, 2048 hidden size, 5632 intermediate size;

🟢

FBI-LLM 7B - 32 layers, 32 attention heads, 4096 hidden size, 11008 intermediate size;

В FBI-LLM используется токенизатор Llama-2-7b-hf, поддерживается текстовый ввод и текстовый вывод на английском языке.

🟡

Модели на HF

🟡

Arxiv

🖥

Github [ Stars: 29 | Issues: 0 | Forks: 1]

@ai_machinelearning_big_data

#AI #LLM #ML #Autoregression #MBZUAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥6❤5

8.71K views13:22

Machinelearning

🌟 MAR+DiffLoss: Autoregressive Image Generation without Vector Quantization

Основная идея метода заключается в применении процедуры диффузии для моделирования вероятностных распределений по токенам. Такой подход исключает традиционную категориальную кросс-энтропийную функцию потерь в пользу функции Diffusion Loss. Так устраняется необходимость в сложных и зачастую несовершенных токенизаторах с дискретными значениями, чувствительных к Gradient Approximation и субоптимальному качеству реконструкции.

В прикладной реализации используется сеть денойзинга, небольшая MLP-сеть, которая работает на основе вектора, производимого авторегрессивной моделью. Эта сеть обучена предсказывать распределение для каждого токена через функцию денойзинг-диффузии.

В результате MAR+DiffLoss модель может быстро генерировать изображения высокого качества , используя внутренние преимущества скорости моделирования последовательностей.

Одним из полученных достижений в ходе исследования стала способность модели генерировать изображения со скоростью менее 0,3 секунды на изображение при достижении впечатляющего показателя Fréchet Inception Distance (FID) менее 2,0 на наборе данных ImageNet.

Для тестирования демонстрации метода предлагается настроенный ноутбук для Google Collab. Помимо этого, в репозитории на Github размещены инструкции и код для самостоятельной тренировки моделей и запуску оценочного бенчмарка на датасете ImageNet.

⚠️ Внимание, тренировочный процесс крайне ресурсоемкий.

▶️Pre-trained модели выложены на Dropbox:

🟢

MAR-B (280M)

🟢

MAR-L (479M)

🟢

MAR-H (943M)

📌Лицензирование : MIT license

🟡

Arxiv

🟡

Результаты бенчмарка

🟡

Demo Collab

🖥

Github [ Stars: 184 | Issues: 0 | Forks: 7]

@ai_machinelearning_big_data

#AI #ML #Diffusion #Pytorch

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🔥7❤2

8.28K views08:02

Machinelearning

🌟 Meta-Llama-3.1-405B-Instruct-FP8: FP8-версии Llama-3.1-405B-Instruct со статическим и динамическим методом квантования.

Компания Neural Magic представила две квантованные FP8-версии модели Meta's Llama 3.1 405B Instruct:

🟢

Meta-Llama-3.1-405B-Instruct-FP8-dynamic

🟢

Meta-Llama-3.1-405B-Instruct-FP8

Примененная оптимизация уменьшает количество бит на параметр с 16 до 8, сокращая требования к VRAM примерно на 50 %. FP8-модель может быть развернута помощью одного узла 8xH100 GPU.

Процесс квантования применялся исключительно к весам и активациям линейных операторов внутри блоков трансформеров. Использовалось симметричное поканальное квантование, которое включает линейное масштабирование по выходному измерению для отображения представлений FP8 квантованных весов и активаций.
Кроме того, активации квантованы динамически на основе каждого токена.
Для квантования использовалась библиотека оптимизации LLM Compressor с набором 512 последовательностей UltraChat.

Обе FP8 модели сохраняют архитектуру Meta-Llama-3.1 и могут быть запущены на бэкенде vLLM.

В бенчмарке OpenLLM версия FP8-dynamic получила средний балл 86,55. Это максимально близко к результату оригинальной модели - 86,63 (99,91%).

🟡

Модель FP8-dynamic на HF

🟡

Модель FP8 на HF

@ai_machinelearning_big_data

#AI #ML #LLM #Llama #FP8

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍11🔥5🥰1

10.7K views10:58

Machinelearning

Новостной дайджест

✔️OpenAI может оказаться на грани банкротства через 12 месяцев, прогнозируя убытки в размере $5 млрд.

Несмотря на рост доходов, прогнозируемых до $1,3 млрд. в 2024 году, OpenAI ожидает убытки в размере $5 миллиардов. Это связано с высокими затратами на обучение и эксплуатацию моделей искусственного интеллекта.
Финансовое положение OpenAI вызывает беспокойство у аналитиков, учитывая, что компания уже привлекла $11,3 миллиарда инвестиций. Без дополнительного финансирования или значительного увеличения доходов OpenAI может столкнуться с банкротством в течение 12-16 месяцев.
theinformation.com

✔️ИИ определяет факторы риска рецидива гепатоцеллюлярной карциномы человека.

Опубликованное в AJMC исследование описывает разработку модели искусственного интеллекта, которая точно определяет факторы риска рецидива гепатоцеллюлярной карциномы (ГЦК). Эта модель была создана для улучшения прогнозирования рецидива заболевания у пациентов, уже перенесших лечение.
Модель анализирует множество клинических данных и биомаркеров, чтобы выявить ключевые факторы, влияющие на вероятность рецидива ГЦК. В результате, она позволяет врачам более точно оценивать риски и разрабатывать индивидуализированные планы лечения для пациентов и улучшить результаты терапии и выживаемость.
ajmc.com

✔️Anthropic работает над синхронизацией папок и функцией цитирования источников.

Компания Anthropic работает над новой функцией синхронизации папок для проектов Claude AI. Эта функция даст пользователям автоматически синхронизировать локальные папки с проектами Claude AI, что значительно упростит процесс загрузки и обновления файлов для взаимодействия с Сlaude.
Дополнительно, Anthropic анонсировала предварительную версию функции цитирования для Claude AI. Эта функция будет предоставлять точные ссылки на источники информации, используемые при генерации ответов.
testingcatalog.com

✔️Нейронная сеть, способная прогнозировать движение тепла в материалах в 1 млн раз быстрее, чем традиционные методы.

Команда под руководством инженеров Массачусетского технологического института (MIT) разработали графовую нейронную сеть с виртуальными узлами (VGNN), которая предсказывает PDR (Phonon Dispersion Relation) в 1000 раз быстрее, чем существующие методы искусственного интеллекта, и в 1 миллион раз быстрее, чем традиционные методы.
VGNN позволяет быстро оценить дисперсионные соотношения фононов и обеспечивает несколько большую точность при прогнозировании теплоемкости материала, утверждается в исследовании.
interestingengineering.com

✔️ZhiSquare представила встраиваемый интеллект, который потенциально сможет расширить AGI на физический мир.

Китайская компания ZhiSquare Technology создала фундаментальные технологии, основанные на больших моделях общего восприятия, сквозных операциях обобщения на основе генеративных моделей, и объединения данных из нескольких источников.
Четыре ее основополагающие метода заложили основу для разработки AGI- системы общего назначения AI2R Brain.
Новая категория интеллектуальных роботов общего назначения Alpha Bot, управляемых AI2R Brain, может точно воспринимать мир в различных сценариях, взаимодействовать естественно, как человек, и выполнять различные задачи.
jiqizhixin.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25❤8🔥4😨3

8.28K viewsedited 12:03

Machinelearning

⚡️ В России появился аналог LMSYS Chatbot Arena — LLM Arena

Платформу выкатил Роман Куцев в коллаборации с экспертами по нейросетям и бывшими разработчиками TrainingData.ru. В отличие от зарубежного бенчмарка, он дает возможность оценить и российские нейросети (YaGPT, GigaChat и другие).

В остальном принцип работы максимально схожий: пользователи бесплатно получают доступ к языковым моделям, взамен их просят оценивать ответы нейросетей, на основе которых формируется объективный независимый рейтинг. Сейчас для теста доступна 21 модель.

@ai_machinelearning_big_data

👍35🤣20🔥8😁3🥰2🙊2🦄1

8.9K views16:33

Machinelearning

🌟Adam-mini: облегченная версия оптимизатора Adam.

Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения.

Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.

Эта методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.

Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:

Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.

SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.

Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.

Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.

▶️Текущая реализация Adam-mini поддерживает популярные фреймворки:

🟢DDP distributed framework;
🟢FSDP distributed framework;
🟢DeepSpeed;
🟢Hugginface Trainer;
🟢Torchtitan.

В репозитории проекта представлены примеры кода для SFT и RLHF претрейна LLM:

🟠

GPT2 (125M-1.5B), NanoGPT codebase на фреймворке DDP

🟠

Llama3-8B, Torchtitan code base на фреймворке FSDP

🟠

SFT и RLHF Llama2-7B, ReMax codebase на фреймворке DeepSpeed

▶️Локальный запуск :

# # import from source
git clone https://github.com/zyushun/Adam-mini
cd Adam-mini
pip install -e .

# Then use Adam-mini optimizer as follows
from adam_mini import Adam_mini

optimizer = Adam_mini(
            named_parameters = model.named_parameters(), 
            lr = lr, 
            betas = (beta1,beta2), 
            eps = eps,
            weight_decay = weight_decay, 
            model_sharding = True,
            dim = model_config.dim,
            n_heads = model_config.n_heads,
            n_kv_heads = model_config.n_kv_heads,
            )
# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW

🟡

Arxiv

🖥

Github [ Stars: 226 | Issues: 8 | Forks: 9]

@ai_machinelearning_big_data

#AI #ML #Adam #Pytorch #Train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35🔥19❤6😍1🐳1

9.8K views17:34

Machinelearning

Новостной дайджест

✔️Конкурент Neuralink интегрировал ChatGPT в мозговой имплантат человека.

Компания Synchron, конкурирующая с Neuralink, интегрировала ChatGPT от OpenAI в свой имплант с интерфейсом BCI, чтобы помочь людям с параличом легче управлять цифровыми устройствами.
BCI Synchron помогает больным с амиотрофическим склерозом предсказывать и предлагать ответы во время общения, которые они могут выбрать с помощью сигналов мозга. Стоимость имплантата Synchron оценивается в 50-100 тысяч долларов при среднем сроке ожидания в 6 месяцев.
newsbytesapp.com

✔️CRAM - новая технология памяти, позволяющая снизить потребление энергии при обработке данных ИИ в 1000 раз.

Исследователи из Университета Миннесоты разработали новую технологию Computational Random-Access Memory (CRAM) которая способна снизить энергопотребление при обработке данных. В отличие от традиционных решений, где данные перемещаются между памятью и процессором, CRAM позволяет обрабатывать данные непосредственно в ячейках памяти.
Это достигается за счет использования высокоплотной и перенастраиваемой спинтронной структуры, встроенной в ячейки памяти. Таким образом, данные не покидают память, что минимизирует задержки отклика и потребление энергии, связанные с передачей информации.
tomshardware.com

✔️AMD выпускает Fluid Motion Frames 2 с поддержкой искусственного интеллекта.

AMD представила техническое превью Fluid Motion Frames 2 (FMF2) в рамках обновления пакета драйверов Adrenalin. Эта новая версия включает "AI-оптимизированные улучшения", которые обеспечивают более плавную работу и сниженную задержку при генерации кадров.
FMF2 теперь совместима с режимами Vulkan и OpenGL, а также поддерживает полноэкранный режим без границ.
Fluid Motion Frames 2 доступен для видеокарт Radeon RX 7000 и 700M и совместим с RX 6000.
Пользователям доступно для скачивания превью версии 24.20.01.02 на сайте AMD.
pcworld.com

✔️Google DeepMind разработали JumpReLU Sparse Autoencoders с рекордной точностью восстановления.

Google DeepMind опубликовали исследование, в котором описали новую архитектуру нейронных сетей под названием JumpReLU Sparse Autoencoders (SAEs), которая значительно улучшает восстановление данных.
JumpReLU SAEs используют модифицированную активационную функцию JumpReLU, которая устраняет предактивации ниже определенного порога, что позволяет уменьшить количество активных нейронов и улучшить обобщающую способность модели. Это решение решает проблему компромисса между разреженностью и точностью восстановления, обеспечивая высокую эффективность в сравнении с традиционными Gated и TopK SAEs.
arxiv.org

✔️NVIDIA анонсирует генеративные AI модели и микросервисы NIM для OpenUSD, ускоряющие разработку цифровых двойников.

NVIDIA представила новые генеративные AI модели и микросервисы NIM для Universal Scene Description (OpenUSD), созданные для ускорения разработки приложений в области робототехники и промышленного дизайна. Они позволяют разработчикам генерировать OpenUSD-код, проводить поиск в библиотеках 3D и изображений с использованием естественного языка, а также проверять совместимость файлов с версиями OpenUSD. Микросервисы помогут создать высокоточные виртуальные миры и цифровые двойники, что откроет новые возможности для применения AI в различных отраслях.
Среди новых микросервисов, которые будут доступны в ближайшее время, — USD Layout для сборки сцен на основе текстовых подсказок и USD SmartMaterial для применения реалистичных материалов к CAD-объектам.
NVIDIA также анонсировала интеграцию OpenUSD с решениями Siemens для поддержки сложных симуляций и визуализации данных в реальном времени.
roboticstomorrow.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤7🔥2🗿1

6.87K viewsedited 07:03

About

Blog

Apps

Platform