227K subscribers
3.8K photos
632 videos
17 files
4.45K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 ShowUI-2B: VLM для взаимодействия с графическими интерфейсами.

ShowUI-2B - VLM на базе Qwen2-VL-2B, которая оптимизирована для взаимодействия с GUI. Она обладает глубоким пониманием пользовательских интерфейсов и навигации по ним на веб- и мобильных платформах.

Модель обрабатывает комбинацию визуальных и текстовых данных для создания соответствующих действий GUI. Она интерпретирует скриншоты и текстовые инструкции для определения точек и последовательности взаимодействия.

В качестве входных данных ShowUI-2B может принимать: скриншоты интерфейсов,
текстовые инструкции (или запросы), системные промпты, определяющие области действия и
последовательности действий.

Результат инференса модели: координаты расположения элементов пользовательского интерфейса [x,y], действия (щелчок, ввод, выбор и т.д.), значения для ввода текста и
целевые позиции для взаимодействия.

Для мобильных интерфейсов ShowUI-2B обрабатывает касания, свайпы и ввод текста.

Прикладные сферы применения :

🟢Автоматизированное тестирование интерфейса;
🟢Агенты автоматизации задач;
🟢Интерактивные учебные пособия и системы рекомендаций;
🟢UX\UI-задачи приложений и веб-сайтов.

ShowUI-2B продемонстрировала высокую эффективность в задачах zero-shot grounding (75.1% точности) и навигации по GUI на различных платформах (Web, Mobile, Online).

⚠️ Модель поддерживает интеграцию с Computer Use OOTB, проектом Desktop GUI Agent, который позволяет управлять действиями на PC с помощью LLM, запущенной локально или через API.

▶️Установка и запуск с GradioUI:

# Clone the Repository
git clone https://github.com/showlab/ShowUI.git
cd ShowUI

# Install Dependencies
pip install -r requirements.txt

# Start the GradioUI
python app.py

# Go to local URL: https://127.0.0.1:7860


📌Лицензирование: MIT License.


🟡Модель
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #ShowUI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥114