#GitHub #AI #OpenAutoGLM #Agent
⠀
Open-AutoGLM:开源的“AI 手机操作员”
⠀
无需 App 接口,像人类一样看屏幕、点手机。Open-AutoGLM 是一个基于视觉语言模型的开源手机智能体框架,能够理解自然语言指令并自动完成复杂的手机操作。
⠀
✨ 核心亮点:
⠀
📱 纯视觉交互
不依赖应用内部 API,通过 ADB 模拟人类点击、滑动和输入。利用视觉模型(VLM)实时理解屏幕内容,真正做到“看”懂界面,“听”懂指令。
⠀
🤖 模型与部署
• 模型:提供针对中文优化的 AutoGLM-Phone-9B 及多语言版本。
• 部署:支持本地私有化部署(vLLM/SGLang)或直接调用智谱/魔搭 API,灵活适配不同算力环境。
⠀
🛡 安全与生态
• 广泛支持:已验证支持微信、淘宝、美团、抖音等 50+ 款主流 App。
• 人工接管:内置敏感操作确认机制,遇到登录、支付或验证码场景可平滑切换人工操作。
⠀
💻 开发友好
支持 WiFi 远程调试,提供 Python API,方便开发者定制专属自动化流程。
⠀
🔘@TossLab 🔘@TossLabChannel
⠀
Open-AutoGLM:开源的“AI 手机操作员”
⠀
无需 App 接口,像人类一样看屏幕、点手机。Open-AutoGLM 是一个基于视觉语言模型的开源手机智能体框架,能够理解自然语言指令并自动完成复杂的手机操作。
⠀
✨ 核心亮点:
⠀
📱 纯视觉交互
不依赖应用内部 API,通过 ADB 模拟人类点击、滑动和输入。利用视觉模型(VLM)实时理解屏幕内容,真正做到“看”懂界面,“听”懂指令。
⠀
🤖 模型与部署
• 模型:提供针对中文优化的 AutoGLM-Phone-9B 及多语言版本。
• 部署:支持本地私有化部署(vLLM/SGLang)或直接调用智谱/魔搭 API,灵活适配不同算力环境。
⠀
🛡 安全与生态
• 广泛支持:已验证支持微信、淘宝、美团、抖音等 50+ 款主流 App。
• 人工接管:内置敏感操作确认机制,遇到登录、支付或验证码场景可平滑切换人工操作。
⠀
💻 开发友好
支持 WiFi 远程调试,提供 Python API,方便开发者定制专属自动化流程。
⠀
🔘@TossLab 🔘@TossLabChannel
❤6