ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

MiniMax桌面Agent新升级:微信飞书远程指挥,图形操作更精准高效

时间:2026-04-14 23:59:27来源:互联网编辑:快讯

人工智能领域迎来新突破,一家科技公司近日为其桌面端智能体(Agent)推出两项创新功能——Pocket(测试版)与Computer Use,推动AI操作电脑的能力从技术演示迈向实际应用场景。用户现在可通过飞书、微信等主流即时通讯工具远程指挥Agent执行任务,同时赋予其模拟人类操作图形界面的能力,包括查看屏幕、移动鼠标、敲击键盘等。

此前,该公司已发布命令行工具MMX-CLI,使Agent能在终端调用多模态能力。此次更新聚焦图形界面交互,通过即时通讯工具构建统一入口,实现“手机远程调度、电脑自动执行”的闭环。例如,用户外出时可通过手机发送指令,让Agent在办公室电脑中查找文件、修改系统设置或操作专业软件,任务完成后直接将结果回传至对话窗口。

Pocket功能的核心价值在于打破空间限制。用户无需身处电脑前,只需在即时通讯工具中唤醒Pocket并发送指令,Agent即可在指定设备上执行任务。典型场景包括远程查找文件:用户发送“查看桌面是否有2025 report的PDF并发送”的指令后,Agent会定位文件并通过对话窗口回传,全程无需人工干预电脑。

Computer Use则赋予Agent“数字员工”的实操能力。通过屏幕截图识别内容、模拟鼠标键盘操作,Agent可处理无命令行接口的任务,如调整系统偏好设置、操作设计软件或跨应用数据搬运。例如,用户可要求Agent“打开系统设置,将屏幕保护程序启动时间设为永不,随后运行Pocket客户端的定时任务并截图反馈”。演示中,Agent精准完成多步操作,包括定位下拉菜单、启动应用程序及任务执行后的状态截图。

技术层面,该公司摒弃传统“单一工具截屏定位”的粗放模式,将桌面操作拆解为四大独立模块:Desktop Control负责基础交互(截图、点击、输入等);Window Manager管理窗口状态(查询、切换、缩放等);Browser Engine处理网页元素(DOM操作、导航等);Clipboard实现剪贴板读写。Agent根据任务类型自动调用最优工具,例如切换窗口时直接调用系统接口而非依赖截图定位,显著提升操作精度。目前,Agent可调度的工具总数已超60个,涵盖即时通讯平台、命令行工具及桌面应用。

针对不同分辨率屏幕的适配问题,技术团队采用“相对坐标”方案:模型输出操作位置的百分比数值,由系统换算为实际像素坐标;截图则根据模型处理能力动态缩放,避免高分屏信息过载或低分屏模糊。例如,在4K与1080p屏幕上点击同一按钮,Agent均能准确计算实际坐标并完成操作。

为确保多步任务的可靠性,每项操作执行后均会触发自动验证:系统立即截图并由模型判断操作是否成功。若失败,Agent将启动诊断流程,尝试替代方案(如用键盘快捷键替代鼠标点击);若多次重试无果,则向用户反馈具体卡点。安全机制方面,涉及文件删除等敏感操作时,Agent会暂停任务并通过即时通讯工具推送交互卡片(或文本指令),待用户授权后继续执行。用户也可随时发送指令中断任务。

随着OpenClaw、Anthropic等企业相继布局,AI操作电脑的能力正从实验室走向真实场景。然而,复杂界面识别、长任务稳定性及陌生软件适配仍是行业共性挑战。此次更新通过即时通讯入口降低使用门槛、模块化工具提升精度、步骤验证保障可靠性,为技术落地提供了可参考的路径。其实际效果仍需通过大规模用户反馈进一步验证。

更多热门内容
慧与科技押注AI基础设施,推专用交换机,西门子能源采用其私有云方案
分析人士认为,此类企业级AI部署案例的落地,是传统企业客户加速拥抱AI的直接体现,也印证了慧与科技以网络为核心切入AI市场的战略逻辑。该产品线建立在慧与科技去年以约130亿美元收购Juniper Netw…

2026-06-17

香港科技园与商汤科技携手 共建最大国产智算中心 2030年算力超4万PFLOPS
该中心将配备多元国产算力GPU(图形处理器)集群,为企业在模型训练、推理及大规模应用部署等不同场景提供高效稳定的算力支持,加快推动香港AI(人工智能)产业落地,进一步提升香港在全球创科发展中的竞争力。商汤科…

2026-06-17

北大董豪新解:二维Scaling Law引领具身AGI,通用机器人落地新路径
在不久前的百度智能云的具身智能论坛上,董豪详细分享了他的想法,董豪主张用二维横向Scaling Law新思路,把世界模型、生成数据、人类示教这些热门技术串成一条线,让机器人任务越学越多的同时,实现数据越用越省…

2026-06-17

国证机器人产业指数调样新动态 机器人ETF易方达近一周“吸金”约5.6亿
截至午间收盘,国证机器人产业指数上涨1.2%。同花顺iFinD数据显示,截至昨日,机器人ETF易方达(159530,联接基金A/C:020972/020973)近一周合计“吸金”约5.6亿元,显著领先同标的产…

2026-06-17

MIT新突破:Sonar-MASt3R系统助力水下机器人浑浊海底实时生成精细三维地图
这个问题在最近迎来了进展:美国麻省理工学院与伍兹霍尔海洋研究所(Woods Hole OceanographicInstitution,WHOI)的工程师合作开发了一套名为 Sonar-MASt3R 的水…

2026-06-17