Neural Networks | Нейронные сети

🌟

Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат.

GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.

Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.

Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.

Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.

Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.

Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).

На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.

▶️В открытый доступ опубликованы веса моделей:

🟢

GUI-Actor-7B-Qwen2-VL;

🟢

GUI-Actor-2B-Qwen2-VL;

🟠

GUI-Actor-Verifier-2B.

В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #GUIActor #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

1.41K views11:35

Neural Networks | Нейронные сети

💰 Microsoft сэкономила $500 миллионов, просто внедрив ИИ в колл-центры

По данным Bloomberg, только за прошлый год Microsoft сократила затраты на $500 млн благодаря автоматизации работы своих call-центров с помощью ИИ.

Почти одновременно с этим компания объявила об увольнении:
- ~6 000 сотрудников в мае
- ещё 4% штата были уволены (по слухам — 10 000+ человек) на прошлой неделе

📌 Зачем это знать?

Потому что это показывает главное:
ИИ сегодня — прежде всего инструмент сокращения затрат на труд,
а не "улучшатель жизни" или "цифровой помощник для всех".

Экономика здесь простая:
Если ИИ делает ту же работу лучше или дешевле —
человека заменяют. Без сантиментов.

🗣 Об этом предупреждают не только аналитики, но и люди вроде Барака Обамы и Дарио Амадея (Anthropic):
ИИ в рамках текущей экономической системы усиливает старую проблему —
🚨 замена труда без замены дохода.

Да, появляются новые профессии: prompt-инженеры, AI-тренеры и т.д.
Но главный вопрос остаётся без ответа:

👉 Что мы будем делать с миллионами людей, чья работа исчезнет?
Где конкретные предложения? Где прогноз баланса потерь и новых профессий?

Пока их нет — мы просто наблюдаем, как автоматизация побеждает по тихому.

И если этот вопрос не будет решён на системном уровне —
все разговоры о "этике ИИ" окажутся слишком поздними.

#AI #Microsoft #будущеетруда #автоматизация #экономика

987 views15:20

About

Blog

Apps

Platform