Multi-Agent下的GUI-Agent:Mano-P
发布日期:2026/4/26 9:18:32 浏览量:
Mano-P 是什么

核心能力包括:
复杂 GUI 自动化:自主完成含数百交互元素的界面操作
跨系统数据整合:通过纯视觉交互提取多源数据,无需 API 接口
长任务规划执行:支持数十至数百步骤的企业级业务流程自动化
智能报告生成:自动生成数据分析报告、工作总结等结构化文档
项目地址:https://github.com/MININGLAMP-AI/MANO-P
实用场景
官方给出的几个实际案例演示,覆盖了日常开发、工作、娱乐等几大场景。
1)Mano-afk 全自动应用构建
输入一段自然语言需求,系统自动完成架构设计、代码生成、本地部署。
测试不通过,会自动定位问题、修复、重新部署,全程无需人工介入。
2)商业级视频智能系统
从接收指令开始,自动完成视频生成、上传、分析、剪辑,再到二次评测。
过程中可自主操作网页与剪辑软件,最后输出完整的分析报告。
3)麻将博弈
Mano-P 不只是一个工作工具,官方还给出了生活娱乐场景的演示。
通过纯视觉理解麻将游戏界面,自主完成识牌、分析和出牌决策,验证了模型在非结构化场景下的通用能力。
快速安装
想使用 Mano-P 来完成 GUI 自动化任务,有两种方式。
方式一:CLI 命令行工具
在终端上,通过 Homebrew 安装 mano-cua 命令行工具:
brew tap HanningWang/tap
安装完成后,就能直接在终端下达执行任务指令:
mano-cua run "在小红书整理 AI 最新资讯,按热度排名并展示第一条帖子"
方式二:以 Skill 方式安装
有 Claude Code、OpenClaw 等 Agent 工具,可通过 ClawHub 一键安装 mano-skill:
clawhub install mano-cua
重启会话后,Agent 遇到需要操控界面的任务,会自动调用,不用手动触发。
一台 M4 芯片 Mac 电脑,两行命令,Mano-P 1.0 这个 GUI Agent 模型就能直接顺滑跑起来。
目前相关代码已开源 Mano-CUA Skill 部分,本地模型预计四月底开源。
需要注意的是,如果没有配置本地模型,工具默认会走云端模式。
马上咨询: 如果您有业务方面的问题或者需求,欢迎您咨询!我们带来的不仅仅是技术,还有行业经验积累。
QQ: 39764417/308460098 Phone: 13 9800 1 9844 / 135 6887 9550 联系人:石先生/雷先生