近期,OpenAI在人工智能领域迈出了重要一步,推出了名为Operator的AI智能体,这款创新产品能够模拟人类操作网页浏览器的行为,为用户带来前所未有的便捷体验。
Operator的智能表现令人印象深刻。在OpenAI的演示中,它能够精准地接收并执行各种指令,自主地完成打字、点击、滚动等一系列复杂的网页交互任务。不仅如此,Operator还能轻松应对在线表单填写、网络购物、表情包制作等日常操作,甚至能够处理繁琐的重复性浏览器任务,极大地提升了工作效率。
Operator的推出受到了广泛关注。据OpenAI透露,从1月23日开始,美国的ChatGPT Pro用户已经能够体验到Operator的“预览版”。未来,这款智能体将逐步拓展至更多区域的Pro用户,并在几个月后向ChatGPT Plus用户开放。
Operator的强大功能得益于其背后的技术支持。据OpenAI官网介绍,Operator由全新的CUA(Computer-Using Agent)模型驱动,这一模型结合了GPT-4o的视觉能力,并通过强化学习实现了高级推理功能。这使得Operator能够“看见”网页内容,并像人类一样使用鼠标和键盘与网页进行互动。在遇到难以解决的问题时,Operator会调用其强大的推理能力进行自我纠正,如果仍然无法解决,则会将控制权交还给用户,确保操作的准确性和安全性。