随着AI技术的快速发展,一款名为Manus的智能体引起了广泛关注。这款智能体以其独特的能力和执行效率,迅速在业界和用户中获得了破圈效应。然而,关于Manus的炒作争议也层出不穷。为了更深入地了解Manus的实际表现,36氪编辑部决定邀请Manus作为实习生,按照正常的工作流程为其分配任务。
在经历了一番波折后,36氪终于获得了Manus的邀请码,并启动了这位新实习生。然而,初步体验却令人有些失望。Manus的服务非常不稳定,任务执行过程中频繁遇到停滞,需要手动重置才能继续。这种不稳定性给测试工作带来了不小的挑战。
尽管如此,Manus在一些基础任务上的表现还是令人印象深刻。例如,在整理一份约2.8万字的访谈录音原文时,Manus能够一次性完成校对和整理工作,大大简化了以往需要多次与模型交互的流程。然而,Manus在处理长文任务时仍存在上下文过短和幻觉问题,导致任务中途频繁中断。
接下来,36氪让Manus尝试了一些更具挑战性的任务,如新闻跟进和写作。在新闻监控和筛选方面,Manus表现出色,能够筛选出靠谱的信息源并进行重要性分析。然而,在访问某些网站时,Manus被验证码挡住,需要人类接管。在新闻写作方面,Manus虽然能够生成通顺的文本,但AI味较重,风格偏软,需要人类进行细微调整后才能发表。
在数据分析及可视化方面,Manus的多智能体架构展现了其优势。通过将复杂任务拆解为子任务并行处理,Manus显著提高了数据分析效率。然而,与专门做研究的Deep Research相比,Manus在数据详实程度方面仍有差距。不过,Manus生成的交互网页在互动性和表格样式上表现不错。
在创意型任务上,Manus的表现则有些不尽如人意。例如,在模仿行业大V风格制作视频时,虽然Manus能够完成任务流程,但视频脚本过于亢奋,对人类的感情理解较为表面。在微信公众号版式和设计改进任务中,Manus虽然输出了一套完整的方案,但在审美方面表现平平,配色和字体选择并不统一。
尽管Manus在创意任务上表现平平,但其纠错能力和工具调用成功率却令人印象深刻。在任务执行过程中,Manus会尝试不同的解决方案直至无法解决,才会向人类报错。Manus对工具的调用成功率较高,能够减少人类介入的次数,提升用户体验。
总体而言,Manus在分析总结、数据分析和开放性问题等强逻辑性任务上表现出色,但在创意工作和审美方面仍有待提升。受限于当前的服务稳定性和上下文窗口,Manus完成任务的逻辑和过程虽好,但交付质量仍需人类进行二次校对。不过,从完成任务的时间和质量来看,Manus已经展现出了不俗的实力。
与年初爆火的DeepSeek类似,Manus也通过技术平权的手段将AI产品迅速拉到了大众面前。尽管目前仍处于比较粗糙的形态,但Manus已经让用户感受到了AI的巨大潜力。随着技术的不断进步和完善,相信Manus将在未来发挥更加重要的作用。