Forwarded from Machinelearning
GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.
Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен
<ACTOR>
, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.
Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от
<ACTOR>
и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.
Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.
Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).
На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.
В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.
@ai_machinelearning_big_data
#AI #ML #VLM #GUIActor #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
💰 Microsoft сэкономила $500 миллионов, просто внедрив ИИ в колл-центры
По данным Bloomberg, только за прошлый год Microsoft сократила затраты на $500 млн благодаря автоматизации работы своих call-центров с помощью ИИ.
Почти одновременно с этим компания объявила об увольнении:
- ~6 000 сотрудников в мае
- ещё 4% штата были уволены (по слухам — 10 000+ человек) на прошлой неделе
📌 Зачем это знать?
Потому что это показывает главное:
ИИ сегодня — прежде всего инструмент сокращения затрат на труд,
а не "улучшатель жизни" или "цифровой помощник для всех".
Экономика здесь простая:
Если ИИ делает ту же работу лучше или дешевле —
человека заменяют. Без сантиментов.
🗣 Об этом предупреждают не только аналитики, но и люди вроде Барака Обамы и Дарио Амадея (Anthropic):
ИИ в рамках текущей экономической системы усиливает старую проблему —
🚨 замена труда без замены дохода.
Да, появляются новые профессии: prompt-инженеры, AI-тренеры и т.д.
Но главный вопрос остаётся без ответа:
👉 Что мы будем делать с миллионами людей, чья работа исчезнет?
Где конкретные предложения? Где прогноз баланса потерь и новых профессий?
Пока их нет — мы просто наблюдаем, как автоматизация побеждает по тихому.
И если этот вопрос не будет решён на системном уровне —
все разговоры о "этике ИИ" окажутся слишком поздними.
#AI #Microsoft #будущеетруда #автоматизация #экономика
По данным Bloomberg, только за прошлый год Microsoft сократила затраты на $500 млн благодаря автоматизации работы своих call-центров с помощью ИИ.
Почти одновременно с этим компания объявила об увольнении:
- ~6 000 сотрудников в мае
- ещё 4% штата были уволены (по слухам — 10 000+ человек) на прошлой неделе
📌 Зачем это знать?
Потому что это показывает главное:
ИИ сегодня — прежде всего инструмент сокращения затрат на труд,
а не "улучшатель жизни" или "цифровой помощник для всех".
Экономика здесь простая:
Если ИИ делает ту же работу лучше или дешевле —
человека заменяют. Без сантиментов.
🗣 Об этом предупреждают не только аналитики, но и люди вроде Барака Обамы и Дарио Амадея (Anthropic):
ИИ в рамках текущей экономической системы усиливает старую проблему —
🚨 замена труда без замены дохода.
Да, появляются новые профессии: prompt-инженеры, AI-тренеры и т.д.
Но главный вопрос остаётся без ответа:
👉 Что мы будем делать с миллионами людей, чья работа исчезнет?
Где конкретные предложения? Где прогноз баланса потерь и новых профессий?
Пока их нет — мы просто наблюдаем, как автоматизация побеждает по тихому.
И если этот вопрос не будет решён на системном уровне —
все разговоры о "этике ИИ" окажутся слишком поздними.
#AI #Microsoft #будущеетруда #автоматизация #экономика