人工智能技术正从“回答问题”迈向“直接操作”,填表、录入系统、整理文件等日常办公任务,逐渐被AI代理工具接管。然而,当行业热衷于开发桌面级AI应用时,一个关键问题被忽视:普通人如何将自身工作流程转化为AI可执行的任务?
当前主流AI代理依赖用户编写提示词(Prompt)来驱动操作,但实际使用中障碍重重。员工对内部系统操作已形成肌肉记忆,却难以用文字精确描述每个步骤;跨系统跳转、条件分支等复杂流程,更让非技术人员无从下手。这种“人教AI”的模式,在真实工作场景中屡屡碰壁。
为破解这一难题,硅谷催生出新兴职业——前沿部署工程师(FDE)。这些技术专家驻扎客户现场,将业务人员模糊的工作流程转化为AI可理解的指令。他们需同时掌握技术原理与业务逻辑,资深从业者年薪中位数已达48.5万美元。高昂的人力成本暴露出深层矛盾:让人类学会教授AI,远比预期困难。
清华大学计算机系博士团队创立的非十科技,提出全新解决方案:通过“录屏教学”让AI自主理解业务流程。其推出的桌面代理产品Agivar,允许用户像日常操作电脑一样演示工作流程,AI通过观察界面变化、操作顺序和交互逻辑,自动构建任务模型。这种模式颠覆了传统提示词驱动的交互方式。
与早期“按键精灵”类工具不同,Agivar不记录固定坐标或机械动作,而是解析任务背后的决策逻辑。当界面改版或按钮位置变化时,系统能通过上下文识别正确操作目标。广东省某政务部门的应用案例显示,工作人员仅需3分钟录制表单处理流程,即可实现每日2小时工作的自动化,且系统能稳定处理界面更新带来的变化。
针对传统桌面AI反应迟缓的问题,研发团队构建了“双脑架构”:大模型负责任务拆解与异常处理,专用小模型专注界面识别与操作执行。这种设计使系统在后台信息录入任务中,较主流产品提速一倍以上。更关键的是,通过训练收敛、多重校验和规则约束三层机制,确保同一任务重复执行时路径一致、结果稳定,满足企业生产环境对确定性的严苛要求。
技术自主性是该产品的另一优势。从底层深度学习框架Jittor到上层执行模型,全部由团队自研完成。这种全栈掌控能力使系统在模型调度、推理优化等环节实现深度定制,避免了依赖第三方技术带来的性能瓶颈。此前团队开发的AI编程助手Fitten Code已积累150万下载量,验证了其技术落地的可靠性。
目前Agivar已开启公测,支持Windows与macOS系统。用户通过简单录制即可创建专属AI代理,无需学习提示词编写或改变操作习惯。这种设计哲学折射出行业趋势:下一代AI工具正在从“要求人适应系统”转向“系统适应人”,当每个用户都能拥有定制化的“数字助手”,办公效率革命或将进入新阶段。
