🔥 Agent-E: автоматизация повторяющихся действий в браузере с помощью LLM
Agent-E - система, основанная на агентах, цель которой -- снизить когнитивную нагрузку на человека и сэкономить время, которое обычно тратится на выполнение повторяющихся действий в браузере.
Система использует иерархическое итеративное планирование для выполнения многошаговых задач, что дает возможность заранее планировать действия и выстраивать последовательности их последовательности.
Agent-E основан на фреймворке AutoGen, который выполняет взаимодействие с веб-браузером через DOM Distillation на естественном языке:
🟢 заполнение веб-форм с использованием информации о пользователе;
🟢 поиск и сортировка товаров на сайтах электронных торговых площадок по различным критериям;
🟢 поиск определенного контента и на сайтах, от спортивных результатов до контактной информации;
🟢 навигация и взаимодействие с веб-медиа, например, воспроизведение и управление настройками видео на YouTube;
🟢 выполнять комплексный веб-поиск для получения информации по широкому спектру тем;
🟢 управлять задачами и автоматизировать их на платформах управления проектами (например, JIRA);
🟢 оказывать персональную помощь в покупках, предлагая товары в зависимости от потребностей.
Подключение локальной LLM (поддерживается через API Ollama) дает Agent-E возможность генерировать текстовые ответы на основе запросов пользователя, т.е не только выполнять команды, но и адаптироваться к контексту.
На данный момент разработано только два агента: User proxy (выполняет навыки) и Browser navigation (взаимодействие с браузером), но у авторов большие планы на реализацию нового функционала:
🟠 Проверка действий - ответ от каждого навыка с изменениями, чтобы LLM мог судить, выполнил ли навык правильно или нет;
🟠 Планировщик выполнения для LLM, чтобы языковая модель могла принимать решение на несколько шагов вперед;
🟠 Автоматическое сохранение предпочтений пользователя в локальную векторную БД:
🟠 Голосовое управление;
🟠 Расширение взаимодействия с браузером: закладки, навигация по вкладкам, хоткеи;
🟠 Групповой чат для нескольких агентов .
▶️ Локальный запуск :
👉Лицензирование : MIT license
▪Страница проекта
▪Arxiv
▪Demo Videos
▪Сообщество Discord
▪Github [ Stars: 491 | Issues: 8 | Forks: 63]
@ai_machinelearning_big_data
#AI #LLM #ML #Automate #Agents
Agent-E - система, основанная на агентах, цель которой -- снизить когнитивную нагрузку на человека и сэкономить время, которое обычно тратится на выполнение повторяющихся действий в браузере.
Система использует иерархическое итеративное планирование для выполнения многошаговых задач, что дает возможность заранее планировать действия и выстраивать последовательности их последовательности.
Agent-E основан на фреймворке AutoGen, который выполняет взаимодействие с веб-браузером через DOM Distillation на естественном языке:
Подключение локальной LLM (поддерживается через API Ollama) дает Agent-E возможность генерировать текстовые ответы на основе запросов пользователя, т.е не только выполнять команды, но и адаптироваться к контексту.
На данный момент разработано только два агента: User proxy (выполняет навыки) и Browser navigation (взаимодействие с браузером), но у авторов большие планы на реализацию нового функционала:
# Install UV
pip install uv
# Generate & install requirements.txt from .toml
uv pip compile pyproject.toml -o requirements.txt
uv pip install -r requirements.txt
# Install extras/dev dependancies
uv pip install -r pyproject.toml --extra dev
# Install playwright drivers (Google Chrome)
playwright install
# Run the code with CLI
python -m ae.main
# OR Launch via web endpoint with FastAPI wrapper
uvicorn ae.server.api_routes:app --reload --loop asyncio
👉Лицензирование : MIT license
▪Страница проекта
▪Arxiv
▪Demo Videos
▪Сообщество Discord
▪Github [ Stars: 491 | Issues: 8 | Forks: 63]
@ai_machinelearning_big_data
#AI #LLM #ML #Automate #Agents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍11❤5⚡2