227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Microsoft Research AutoGen Studio: Low-Code интерфейс для быстрого прототипирования агентов LLM.

Microsoft Research обновил AutoGen Studio — Low-Code инструмент для разработчиков , предназначенный для создания, отладки и оценки многоагентных рабочих процессов.
AutoGen Studio разработан для повышения доступности среды управления локальным AI, позволяя разработчикам прототипировать и внедрять многоагентные системы без необходимости обширных знаний в области ML.

AutoGen Studio это веб-интерфейс и API Python. Он гибкий в использовании и его легко можно интегрировать его в различные среды разработки. Простой и понятный дизайн позволяет быстро собирать многоагентные системы с помощью удобного интерфейса drag-n-drop.

AutoGen Studio поддерживает API всех популярных онлайн-провейдеров LLM (OpenAI, Antрropic, Gemini, Groq, Amazon Bedrock, Corehe, MistralAI, TogetherAI ) и локальные бэкэнды :
vLLM, Ollama, LM Studio.

Возможности :

🟢Создание / настройка агентов (пока поддерживаются 2 рабочих процесса агентов на основе UserProxyAgent и AssistantAgent), изменение их конфигурации (например, навыки, температура, модель, системные сообщения агента, модель и т.д.) и объединение их в рабочие процессы;

🟢Чат с агентами по рабочим процессам и определение для них задач;

🟢Просмотр сообщений агента и выходных файлов в пользовательском интерфейсе после запуска агента;

🟢Поддержка сложных рабочих процессов агентов (например, групповой чат и последовательные рабочие процессы);

🟢Улучшение качества работы пользователей (например, потоковая передача промежуточных ответов LLM, лучшее обобщение ответов агентов и т. д.);

🟢AutoGen Studio использует SQLModel (Pydantic + SQLAlchemy). Это обеспечивает связь между сущностями (навыки, модели, агенты и рабочие процессы связаны через таблицы ассоциаций) и поддерживает несколько диалектов бэкенда базы данных, которые есть в SQLAlchemy (SQLite, PostgreSQL, MySQL, Oracle, Microsoft SQL Server).

Roadmap для отслеживания новых функций, решенных проблем и запросов от сообщества разработчиков можно найти в Issues репозитория AutoGen Studio на Github.

⚠️ Примечания от разработчика:

🟠AutoGen Studio не предназначен для использования в качестве готового к продакшену приложения. Это среда прототипирования и разработки процессов и агентов.
🟠AutoGen Studio находится в стадии активной разработки с частыми итерациями коммитов. Документация проекта обновляется синхронно с кодом.
🟠Системные требования к установке: Python 3.10+ и Node.js => 14.15.0.



📌Лицензирование : CC-BY-NC-SA-4.0 License & MIT License


🟡Страница проекта
🟡Документация
🟡Arxiv
🟡Сообщество в Discord
🖥Github [ Stars: 30.2K | Issues: 493 | Forks: 4.4K]


@ai_machinelearning_big_data

#AI #AgentsWorkflow #MLTool #Microsoft #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍308🔥7🤔4😁1
🌟 GuideLLM: Оценка и анализ производительности LLM в реальных условиях.

GuideLLM - инструмент для оценки и оптимизации развертывания LLM. Моделируя рабочие нагрузки по инференсу в реальных условиях, GuideLLM помогает оценить производительность, потребности в ресурсах и принять решение по необходимой аппаратной конфигурации для запуска LLM.

Возможности :

🟢Оценка производительности: анализируйте инференс LLM при различных сценариях нагрузки;

🟢Оптимизация ресурсов: определите наиболее подходящие конфигурации оборудования для оптимальной работы целевой модели;

🟢Оценка затрат: понимание финансовых последствий различных стратегий развертывания и принятие обоснованных решений для минимизации затрат;

🟢Тестирование масштабируемости: имитация масштабирования с большим количеством одновременных пользователей.

Для использования GuideLLM требуется OpenAI-совместимый сервер, например, vLLM. Целевая модель для оценки может быть размещена как локально, так и в сети.

▶️ Установка и запуск на примере оценки квантованной Llama-3.1-8B :

# Установка из pip
pip install guidellm

# Запуск модели в vLLM
vllm serve "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16"

# Запуск GuideLLM
guidellm \
--target "https://localhost:8000/v1" \
--model "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w4a16" \
--data-type emulated \
--data "prompt_tokens=512,generated_tokens=128"


По умолчанию, GuideLLM проводит серию оценок производительности с разной частотой запросов, каждая из которых длится 120 секунд, и результаты выводятся в терминал.
После завершения оценки GuideLLM подведет итоги, в том числе - метрики эффективности.

✔️ Опции CLI и среды для настройки метрик:

🟠продолжительность выполнения каждого бенчмарка;
🟠количество одновременных запросов;
🟠частота запросов;
🟠тип выполнения оценки,
🟠выбор источника данных для оценки;

Документация к находится в стадии разработки. Полный набор опций запуска и конфигурирования GuideLLM можно посмотреть командами
guidellm --help и guidellm-config


📌Лицензирование : Apache 2.0 License.


🖥Github [ Stars: 33 | Issues: 2 | Forks: 1]


@ai_machinelearning_big_data

#AI #Guidellm #MLTool #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍267🔥5
🌟 MLR-Copilot : Генерация исследовательских идей в машинном обучении.

MLR-Copilot - это фреймворк, в которой LLM имитируют мыслительные процессы ресечера, разработанная для повышения производительности исследований в области машинного обучения за счет генерации и реализации исследовательских идей.

Все начинается с исследовательской работы, в ходе которой MLR-Copilot генерирует и проверяет эти идеи. В процессу участвует встроенный механизм обратной связи с человеком, что в совокупности помогает достичь реальных результатов исследования.

MLR-Copilot работает в три интегрированных этапа:

🟢Генерация исследовательских идей: LLM-агенты генерируют исследовательские гипотезы и экспериментальные планы на основе предоставленных в качестве входных данных исследовательских работ.

🟢Реализация эксперимента: преобразование экспериментальных планов в выполнимые эксперименты с использованием полученного кода прототипа и моделей.

🟢Выполнение реализации: запускаются эксперименты с механизмами обратной связи от человека и итеративной отладки.


⚠️ MLR-Copilot работает только с онлайн-сервисами LLM ( OpenAI, Anthropic, Huggingface) в качестве агентов, для использования Вам будет необходим API-Key соответствующего сервиса.


🟡Arxiv
🟡Demo
🟡Google Collab (инференс)
🖥Github


@ai_machinelearning_big_data

#AI #Copilot #MLTool #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥87🤔5🥱2
🌟 NanoFlow: Высокопроизводительный cервисный фреймворк для LLM.

NanoFlow - это универсальный фреймворк для LLM, ориентированный на повышение пропускной способности. Он комбинирует в себе набор техник: параллелизм внутри устройства, асинхронное планирование CPU и выгрузка KV-кеша готовых запросов на SSD.

В результате NanoFlow имеет пропускную способность выше, чем другие фреймворки - vLLM, Deepspeed-FastGen и TensorRT-LLM.

Архитектура NanoFlow основана на методе, который позволяет одновременно выполнять операции вычисления, памяти и сети. Параллелизм операций возможен из-за применения логики "микропакетов" для планирования операций и выделения ресурсов.

NanoFlow использует асинхронный поток управления, который запускает следующую итерацию без ожидания окончания предыдущей, тем самым ощутимо повышается утилизация ресурсов и снижается задержка в пайплайне модели.

Для оценки производительности NanoFlow были проведены эксперименты на различных моделях LLM: Llama2-70B, Qwen2-72B, DeepSeek-67B, Mixtral-8x7B и LLaMA3-8B на узле на узле DGX 8xA100 80 ГБ.
Результаты показали, что NanoFlow демонстрирует 1,91-кратное увеличение пропускной способности по сравнению с TensorRT-LLM.

▶️Установка:

# Clone repo & crate venv
git clone https://github.com/efeslab/Nanoflow.git
cd Nanoflow
chmod +x ./installAnaconda.sh
./installAnaconda.sh

# Install dependencies
yes | ./setup.sh

# Download model
./modelDownload.sh

# Serving datasets
./serve.sh


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🖥Github [ Stars: 282 | Issues: 5 | Forks: 8]


@ai_machinelearning_big_data

#AI #Framework #MLTool #NanoFlow #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍125
🌟 Nyuntam: Многофункциональный Toolkit для LLM и VLM.

Nyuntam - это набор инструментов для оптимизации, адаптации и ускорения моделей разной модальности в различных сферах применения. Nyuntam умеет обрезать (pruning), квантовать, дистиллировать, выполнять тонкую настройку под конкретные задачи с использованием методов (Q)LoRA, (Q)SSF и др.

Набор состоит из нескольких подмодулей, каждый из которых нацелен на решение конкретных задач:

🟢Text Generation: сжатие текстовых LLM;
🟢Vision: сжатие и оптимизация VLM;
🟢Adapt: модуль для тонкой настройки и трансферного обучения LLM и VLM с использованием PEFT и параллелизма GPU.

Каждый подмодуль в Nyuntam требует YAML-файл, который определяет все необходимые гиперпараметры и конфигурации для запуска задачи.
Примеры и шаблоны этих YAML-файлов можно найти в каждом подмодуле репозитория. Для более подробных сведений о параметрах и вариантах использования обратитесь к подробной документации проекта.

Практические примеры задач с детальными туториалами:

🟢Максимизация математической производительности для экстремального сжатия: 2-bit Llama3-8b;

🟢4-bit квантование Llama3.1-8b с акселерацией для задач текстовой генерации;

🟢2-х кратное уменьшение размера Llama3.1 70B методом Fluctuation-based Adaptive Structured Pruning;

🟢Ускорение TensorRT LLM до 2,5 раз: эффективное 4-8-4 квантование Llama3.1-8b;

🟢Ускорение 4-битной квантованной модели Llama;

🟠Обрезка YOLOX с помощью MMRazor;

🟠8-bit CPU квантование ResNet50 с помощью NNCF на датасете CIFAR-10;

🟠Сегментация с помощью SegNeXt набора данных городских пейзажей с помощью SSF;

🟢Файнтюн RTMDet на наборе данных face-det с помощью LoRA и DDP;

🟢Файнтюн T5 large с помощью QLoRA на наборе данных XSUM;

🟢Файнтюн Llama3-8b с помощью QDoRA и FSDP.

▶️Установка и запуск:

# Clone the Repository
git clone --recursive https://github.com/nyunAI/nyuntam.git
cd nyuntam

# Create & activate venv
python3 -m venv {ENVIRONMENT_NAME}
source {ENVIRONMENT_NAME}/bin/activate

# Install packages
# for text_generation
pip install -r text_generation/requirements.txt
# for vision
pip install -r vision/requirements.txt
# for nyuntam_adapt
pip install -r nyuntam_adapt/requirements.txt

# run an experiment
python main.py --yaml_path {path/to/recipe.yaml}



🟡Документация
🖥Github [ Stars: 32 | Issues: 1 | Forks: 1]


@ai_machinelearning_big_data

#AI #NynAI #MLTool #LLM #VLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥65