Machinelearning

🌟 Microsoft Research AutoGen Studio: Low-Code интерфейс для быстрого прототипирования агентов LLM.

Microsoft Research обновил AutoGen Studio — Low-Code инструмент для разработчиков , предназначенный для создания, отладки и оценки многоагентных рабочих процессов.
AutoGen Studio разработан для повышения доступности среды управления локальным AI, позволяя разработчикам прототипировать и внедрять многоагентные системы без необходимости обширных знаний в области ML.

AutoGen Studio это веб-интерфейс и API Python. Он гибкий в использовании и его легко можно интегрировать его в различные среды разработки. Простой и понятный дизайн позволяет быстро собирать многоагентные системы с помощью удобного интерфейса drag-n-drop.

AutoGen Studio поддерживает API всех популярных онлайн-провейдеров LLM (OpenAI, Antрropic, Gemini, Groq, Amazon Bedrock, Corehe, MistralAI, TogetherAI ) и локальные бэкэнды :
vLLM, Ollama, LM Studio.

Возможности :

🟢Создание / настройка агентов (пока поддерживаются 2 рабочих процесса агентов на основе UserProxyAgent и AssistantAgent), изменение их конфигурации (например, навыки, температура, модель, системные сообщения агента, модель и т.д.) и объединение их в рабочие процессы;

🟢Чат с агентами по рабочим процессам и определение для них задач;

🟢Просмотр сообщений агента и выходных файлов в пользовательском интерфейсе после запуска агента;

🟢Поддержка сложных рабочих процессов агентов (например, групповой чат и последовательные рабочие процессы);

🟢Улучшение качества работы пользователей (например, потоковая передача промежуточных ответов LLM, лучшее обобщение ответов агентов и т. д.);

🟢AutoGen Studio использует SQLModel (Pydantic + SQLAlchemy). Это обеспечивает связь между сущностями (навыки, модели, агенты и рабочие процессы связаны через таблицы ассоциаций) и поддерживает несколько диалектов бэкенда базы данных, которые есть в SQLAlchemy (SQLite, PostgreSQL, MySQL, Oracle, Microsoft SQL Server).

Roadmap для отслеживания новых функций, решенных проблем и запросов от сообщества разработчиков можно найти в Issues репозитория AutoGen Studio на Github.

⚠️ Примечания от разработчика:

🟠AutoGen Studio не предназначен для использования в качестве готового к продакшену приложения. Это среда прототипирования и разработки процессов и агентов.
🟠AutoGen Studio находится в стадии активной разработки с частыми итерациями коммитов. Документация проекта обновляется синхронно с кодом.
🟠Системные требования к установке: Python 3.10+ и Node.js => 14.15.0.

📌Лицензирование : CC-BY-NC-SA-4.0 License & MIT License

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 30.2K | Issues: 493 | Forks: 4.4K]

@ai_machinelearning_big_data

#AI #AgentsWorkflow #MLTool #Microsoft #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤8🔥7🤔4😁1

19.7K views08:04

Machinelearning

🌟 GuideLLM: Оценка и анализ производительности LLM в реальных условиях.

GuideLLM - инструмент для оценки и оптимизации развертывания LLM. Моделируя рабочие нагрузки по инференсу в реальных условиях, GuideLLM помогает оценить производительность, потребности в ресурсах и принять решение по необходимой аппаратной конфигурации для запуска LLM.

Возможности :

🟢Оценка производительности: анализируйте инференс LLM при различных сценариях нагрузки;

🟢Оптимизация ресурсов: определите наиболее подходящие конфигурации оборудования для оптимальной работы целевой модели;

🟢Оценка затрат: понимание финансовых последствий различных стратегий развертывания и принятие обоснованных решений для минимизации затрат;

🟢Тестирование масштабируемости: имитация масштабирования с большим количеством одновременных пользователей.

Для использования GuideLLM требуется OpenAI-совместимый сервер, например, vLLM. Целевая модель для оценки может быть размещена как локально, так и в сети.

▶️ Установка и запуск на примере оценки квантованной Llama-3.1-8B :

# Установка из pip
pip install guidellm

# Запуск модели в vLLM
vllm serve "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16"

# Запуск GuideLLM
guidellm \
  --target "https://localhost:8000/v1" \
  --model "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16" \
  --data-type emulated \
  --data "prompt_tokens=512,generated_tokens=128"

По умолчанию, GuideLLM проводит серию оценок производительности с разной частотой запросов, каждая из которых длится 120 секунд, и результаты выводятся в терминал.
После завершения оценки GuideLLM подведет итоги, в том числе - метрики эффективности.

✔️ Опции CLI и среды для настройки метрик:

🟠продолжительность выполнения каждого бенчмарка;
🟠количество одновременных запросов;
🟠частота запросов;
🟠тип выполнения оценки,
🟠выбор источника данных для оценки;

Документация к находится в стадии разработки. Полный набор опций запуска и конфигурирования GuideLLM можно посмотреть командами
guidellm --help и guidellm-config

📌Лицензирование : Apache 2.0 License.

🖥

Github [ Stars: 33 | Issues: 2 | Forks: 1]

@ai_machinelearning_big_data

#AI #Guidellm #MLTool #LLM #Benchmark

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤7🔥5

9.32K views15:04

Machinelearning

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

1:09

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 MLR-Copilot : Генерация исследовательских идей в машинном обучении.

MLR-Copilot - это фреймворк, в которой LLM имитируют мыслительные процессы ресечера, разработанная для повышения производительности исследований в области машинного обучения за счет генерации и реализации исследовательских идей.

Все начинается с исследовательской работы, в ходе которой MLR-Copilot генерирует и проверяет эти идеи. В процессу участвует встроенный механизм обратной связи с человеком, что в совокупности помогает достичь реальных результатов исследования.

MLR-Copilot работает в три интегрированных этапа:

🟢Генерация исследовательских идей: LLM-агенты генерируют исследовательские гипотезы и экспериментальные планы на основе предоставленных в качестве входных данных исследовательских работ.

🟢Реализация эксперимента: преобразование экспериментальных планов в выполнимые эксперименты с использованием полученного кода прототипа и моделей.

🟢Выполнение реализации: запускаются эксперименты с механизмами обратной связи от человека и итеративной отладки.

⚠️ MLR-Copilot работает только с онлайн-сервисами LLM ( OpenAI, Anthropic, Huggingface) в качестве агентов, для использования Вам будет необходим API-Key соответствующего сервиса.

🟡

Arxiv

🟡

Demo

🟡

Google Collab (инференс)

🖥

Github

@ai_machinelearning_big_data

#AI #Copilot #MLTool #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥8❤7🤔5🥱2

9.28K views12:34

Machinelearning

🌟 NanoFlow: Высокопроизводительный cервисный фреймворк для LLM.

NanoFlow - это универсальный фреймворк для LLM, ориентированный на повышение пропускной способности. Он комбинирует в себе набор техник: параллелизм внутри устройства, асинхронное планирование CPU и выгрузка KV-кеша готовых запросов на SSD.

В результате NanoFlow имеет пропускную способность выше, чем другие фреймворки - vLLM, Deepspeed-FastGen и TensorRT-LLM.

Архитектура NanoFlow основана на методе, который позволяет одновременно выполнять операции вычисления, памяти и сети. Параллелизм операций возможен из-за применения логики "микропакетов" для планирования операций и выделения ресурсов.

NanoFlow использует асинхронный поток управления, который запускает следующую итерацию без ожидания окончания предыдущей, тем самым ощутимо повышается утилизация ресурсов и снижается задержка в пайплайне модели.

Для оценки производительности NanoFlow были проведены эксперименты на различных моделях LLM: Llama2-70B, Qwen2-72B, DeepSeek-67B, Mixtral-8x7B и LLaMA3-8B на узле на узле DGX 8xA100 80 ГБ.
Результаты показали, что NanoFlow демонстрирует 1,91-кратное увеличение пропускной способности по сравнению с TensorRT-LLM.

▶️Установка:

# Clone repo & crate venv
git clone https://github.com/efeslab/Nanoflow.git
cd Nanoflow
chmod +x ./installAnaconda.sh
./installAnaconda.sh

# Install dependencies
yes | ./setup.sh

# Download model
./modelDownload.sh

# Serving datasets
./serve.sh

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🖥

Github [ Stars: 282 | Issues: 5 | Forks: 8]

@ai_machinelearning_big_data

#AI #Framework #MLTool #NanoFlow #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥27👍12❤5

9.04K views17:04

Machinelearning

🌟 Nyuntam: Многофункциональный Toolkit для LLM и VLM.

Nyuntam - это набор инструментов для оптимизации, адаптации и ускорения моделей разной модальности в различных сферах применения. Nyuntam умеет обрезать (pruning), квантовать, дистиллировать, выполнять тонкую настройку под конкретные задачи с использованием методов (Q)LoRA, (Q)SSF и др.

Набор состоит из нескольких подмодулей, каждый из которых нацелен на решение конкретных задач:

🟢

Text Generation: сжатие текстовых LLM;

🟢

Vision: сжатие и оптимизация VLM;

🟢

Adapt: модуль для тонкой настройки и трансферного обучения LLM и VLM с использованием PEFT и параллелизма GPU.

Каждый подмодуль в Nyuntam требует YAML-файл, который определяет все необходимые гиперпараметры и конфигурации для запуска задачи.
Примеры и шаблоны этих YAML-файлов можно найти в каждом подмодуле репозитория. Для более подробных сведений о параметрах и вариантах использования обратитесь к подробной документации проекта.

Практические примеры задач с детальными туториалами:

🟢

Максимизация математической производительности для экстремального сжатия: 2-bit Llama3-8b;

🟢

4-bit квантование Llama3.1-8b с акселерацией для задач текстовой генерации;

🟢

2-х кратное уменьшение размера Llama3.1 70B методом Fluctuation-based Adaptive Structured Pruning;

🟢

Ускорение TensorRT LLM до 2,5 раз: эффективное 4-8-4 квантование Llama3.1-8b;

🟢

Ускорение 4-битной квантованной модели Llama;

🟠

Обрезка YOLOX с помощью MMRazor;

🟠

8-bit CPU квантование ResNet50 с помощью NNCF на датасете CIFAR-10;

🟠

Сегментация с помощью SegNeXt набора данных городских пейзажей с помощью SSF;

🟢

Файнтюн RTMDet на наборе данных face-det с помощью LoRA и DDP;

🟢

Файнтюн T5 large с помощью QLoRA на наборе данных XSUM;

🟢

Файнтюн Llama3-8b с помощью QDoRA и FSDP.

▶️Установка и запуск:

# Clone the Repository
git clone --recursive https://github.com/nyunAI/nyuntam.git
cd nyuntam

# Create & activate venv
python3 -m venv {ENVIRONMENT_NAME}
source {ENVIRONMENT_NAME}/bin/activate

# Install packages
# for text_generation
pip install -r text_generation/requirements.txt 
# for vision
pip install -r vision/requirements.txt 
# for nyuntam_adapt
pip install -r nyuntam_adapt/requirements.txt 

# run an experiment
python main.py --yaml_path {path/to/recipe.yaml}

🟡

Документация

🖥

Github [ Stars: 32 | Issues: 1 | Forks: 1]

@ai_machinelearning_big_data

#AI #NynAI #MLTool #LLM #VLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥6❤5

7.82K views11:03

About

Blog

Apps

Platform