Forwarded from Machinelearning
Автономные агенты, способные управлять рабочим столом - это Грааль современного HCI. Но их обучение сопряжено с трудностями: GUI созданы для людей, а не для машин, а масштабирование RL упирается в неэффективность и нестабильность сред.
В Z.ai сделали фреймворк COMPUTERRL, который лег в основу агента AutoGLM-OS. Результат - state-of-the-art на бенчмарке OSWorld: 48.1% успешных выполнений и это лучше, чем у OpenAI CUA 03 (42.9%), UI-TARS-1.5 (42.5%) и Claude 4.0 Sonnet (30.7%).
OSWorld — это крупный бенчмарк из 369 заданий для проверки многомодальных ИИ-агентов в реальных условиях. Он работает в Ubuntu, Windows и macOS.
В нем ИИ выполняет открытые задачи: работает с веб- и десктопными приложениями, управляет файлами, запускает процессы. Каждое задание имеет четкие начальные условия и скрипты для оценки, чтобы результаты можно было воспроизвести.
Такие высокие показатели - результат комбинации 3-х инноваций.
Фреймворк объединяет GUI-взаимодействия с быстрыми и точными API-вызовами образуя систему, которая через LLM автоматически анализирует примеры задач, генерирует необходимый API-код для стандартных приложений Ubuntu и даже создает для него базовые тесты.
Таким образом, агент использует быстрые API там, где это возможно, и переключается на GUI для общих задач, что повышает и скорость, и надежность. Абляция показала, что переход от GUI-only к API-GUI поднимает средний показатель успеха с 11.2% до 26.2%.
OSWorld крайне ресурсоемок, и запуск множества его экземпляров на одном узле это тот еще квест. Z.ai полностью переработали эту среду, используя qemu-in-docker для легковесного развертывания VM, gRPC для связи между узлами и полностью асинхронный фреймворк AgentRL. Это позволило создать кластер из тысяч параллельных виртуальных сред, к котором онлайн-обучение RL-агентов стало максимально эффективным.
Entropulse решает проблему коллапса энтропии, чередуя фазы RL с периодическими сессиями SFT. Во время RL-фазы собираются все успешные траектории, и на их основе формируется новый SFT-датасет. Затем модель дообучается на этом датасете, что позволяет восстановить её исследовательскую способность без потери производительности. После этого запускается вторая, более эффективная фаза RL.
Эта стратегия позволила AutoGLM-OS, построенному на базе 9B GLM-4, достичь финального результата в 48.1%, в то время как после первой RL-фазы показатель был 42.0%.
@ai_machinelearning_big_data
#AI #ML #Agents #AutoGLM #Zai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🔥2🤔1
Страх утечки убивает доверие к ИИ.
Мы понимаем, что технологии могут облегчить жизнь: обработать таблицы, структурировать тексты, автоматизировать задачи. Но каждый раз, когда речь заходит о конфиденциальных данных, возникает барьер. Ведь стоит им оказаться в чужой системе — и назад их уже не вернуть.
25 августа в 19:00 (МСК) karpovꓸcourses проведут вебинар «Как обрабатывать конфиденциальные данные с помощью ИИ». Вы увидите, как запускать локальные модели и подключать к ним собственные данные. Все работает прямо на вашем компьютере, и только вы решаете, кто получит доступ к информации.
Спикер — Павел Зуриев, руководитель ИТ-проектов по внедрению ИИ в бизнес-процессы.
Сделайте шаг к безопасной работе с ИИ: https://clc.to/erid_2W5zFG4jAxg
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFG4jAxg
Мы понимаем, что технологии могут облегчить жизнь: обработать таблицы, структурировать тексты, автоматизировать задачи. Но каждый раз, когда речь заходит о конфиденциальных данных, возникает барьер. Ведь стоит им оказаться в чужой системе — и назад их уже не вернуть.
25 августа в 19:00 (МСК) karpovꓸcourses проведут вебинар «Как обрабатывать конфиденциальные данные с помощью ИИ». Вы увидите, как запускать локальные модели и подключать к ним собственные данные. Все работает прямо на вашем компьютере, и только вы решаете, кто получит доступ к информации.
Спикер — Павел Зуриев, руководитель ИТ-проектов по внедрению ИИ в бизнес-процессы.
Сделайте шаг к безопасной работе с ИИ: https://clc.to/erid_2W5zFG4jAxg
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFG4jAxg
👍3
The LLM Evaluation Framework
🖥 Github: https://github.com/confident-ai/deepeval
📕 Colab: https://colab.research.google.com/drive/1PPxYEBa6eu__LquGoFFJZkhYgWVYE6kh?usp=sharing
🔗 Project: https://deepeval.com
@ArtificialIntelligencedl
🔗 Project: https://deepeval.com
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1🔥1
Вчера была первая встреча AI VK & Pro – классный ивент про рекомендательные системы
Собрались все, кто так или иначе в теме RecSys и ML: от инженеров из BigTech до исследователей. Получилось на стиле: много общения, глитч-декор, активный нетворкинг
Команда RecSys из VK рассказала, куда движутся рекомендации внутри экосистемы, как они учатся глубже понимать контент и строят новые технологии вокруг этого.
Было ярко: DJ-сеты, активити и даже турнир по су-е-фа.
Собрались все, кто так или иначе в теме RecSys и ML: от инженеров из BigTech до исследователей. Получилось на стиле: много общения, глитч-декор, активный нетворкинг
Команда RecSys из VK рассказала, куда движутся рекомендации внутри экосистемы, как они учатся глубже понимать контент и строят новые технологии вокруг этого.
Было ярко: DJ-сеты, активити и даже турнир по су-е-фа.
🔥4❤3👍2👎1🥰1👏1😁1
Forwarded from Machinelearning
Нашёл простой и полезный ресурс: GitHub-репозиторий с 200+ бесплатными workflow для n8n.
Темы: продажи, маркетинг, учёт финансов, кодинг и личная продуктивность.
Что такое n8n
- Open-source инструмент для автоматизации без кода
- Визуальный конструктор: соединяете блоки и получаете процесс
- Есть сотни интеграций: почта, CRM, таблицы, мессенджеры, вебхуки
- Можно добавлять свою логику на JavaScript
- Запуск по расписанию или по событию, работает в облаке или на своём сервере
Как воспользоваться:
1) Скачайте нужный workflow (.json) и импортируйте в n8n
2) Вставьте свои API-ключи и учётные данные в блоки
3) Проверьте шаги и включите запуск по cron или webhook
▪ Github
@ai_machinelearning_big_data
#n8n #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1