Machinelearning

🔥 Agent-E: автоматизация повторяющихся действий в браузере с помощью LLM

Agent-E - система, основанная на агентах, цель которой -- снизить когнитивную нагрузку на человека и сэкономить время, которое обычно тратится на выполнение повторяющихся действий в браузере.
Система использует иерархическое итеративное планирование для выполнения многошаговых задач, что дает возможность заранее планировать действия и выстраивать последовательности их последовательности.

Agent-E основан на фреймворке AutoGen, который выполняет взаимодействие с веб-браузером через DOM Distillation на естественном языке:

🟢заполнение веб-форм с использованием информации о пользователе;
🟢поиск и сортировка товаров на сайтах электронных торговых площадок по различным критериям;
🟢поиск определенного контента и на сайтах, от спортивных результатов до контактной информации;
🟢навигация и взаимодействие с веб-медиа, например, воспроизведение и управление настройками видео на YouTube;
🟢выполнять комплексный веб-поиск для получения информации по широкому спектру тем;
🟢управлять задачами и автоматизировать их на платформах управления проектами (например, JIRA);
🟢оказывать персональную помощь в покупках, предлагая товары в зависимости от потребностей.

Подключение локальной LLM (поддерживается через API Ollama) дает Agent-E возможность генерировать текстовые ответы на основе запросов пользователя, т.е не только выполнять команды, но и адаптироваться к контексту.

На данный момент разработано только два агента: User proxy (выполняет навыки) и Browser navigation (взаимодействие с браузером), но у авторов большие планы на реализацию нового функционала:
🟠Проверка действий - ответ от каждого навыка с изменениями, чтобы LLM мог судить, выполнил ли навык правильно или нет;
🟠Планировщик выполнения для LLM, чтобы языковая модель могла принимать решение на несколько шагов вперед;
🟠Автоматическое сохранение предпочтений пользователя в локальную векторную БД:
🟠Голосовое управление;
🟠Расширение взаимодействия с браузером: закладки, навигация по вкладкам, хоткеи;
🟠Групповой чат для нескольких агентов .

▶️Локальный запуск :


# Install UV
pip install uv

# Generate & install requirements.txt from .toml
uv pip compile pyproject.toml -o requirements.txt
uv pip install -r requirements.txt

# Install extras/dev dependancies
uv pip install -r pyproject.toml --extra dev

# Install playwright drivers (Google Chrome)
playwright install

# Run the code with CLI
python -m ae.main

# OR Launch via web endpoint with FastAPI wrapper
uvicorn ae.server.api_routes:app --reload --loop asyncio

👉Лицензирование : MIT license

▪Страница проекта
▪Arxiv
▪Demo Videos
▪Сообщество Discord
▪Github [ Stars: 491 | Issues: 8 | Forks: 63]

@ai_machinelearning_big_data

#AI #LLM #ML #Automate #Agents

Please open Telegram to view this post