别被模型宣传骗了，真实 Agent 任务一跑就知道-热点资讯-ITBear科技资讯

现在市面上能调用的模型确实越来越多了，各家都有自己的亮点和侧重点，光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候，情况就更加复杂了。

所以我就想着，不如把几个主流模型都拉出来实际跑一遍，看看它们真实表现到底如何，也好给自己找个手感。

测评说明：本次并非严格意义上的 benchmark 评测，更像是一次围绕单个长链路 Agent 任务的体验观察记录，结果仅供参考，不构成对模型的全面定论。

本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个：

1.是否能连续调用工具完成任务

2.是否能稳定生成可运行页面

3.页面完成后是否会主动检查和修复问题

全局采用 WorkBuddy Agent 工具，费用为 WorkBuddy 平台本次任务消耗估算，不代表官方 API 价格。

通用提示词如下：

MiniMax-M3

MiniMax-M3 在这类长链路任务里表现比较稳定。

基本上会主动进行多轮工具调用，包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent，不会只停留在“给一段代码”的层面。

测试过程中，工具调用失败几率很小，但也不是完全没有。我这里有一次工具调用失败，不过没有影响最后的结果生成。模型会继续往下执行，并把页面做出来。

这个是制作完成后的页面效果。

从最终页面来看，MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷，但胜在流程稳定，任务理解也比较清楚。

Workbuddy里面消耗积分：27点积分左右。

换算一下差不多在1.33元左右。

如果按 API 单价估算，MiniMax-M3 属于中低成本模型，适合反复跑 Agent 流程类任务。

经过多次测试，MiniMax-M3 的任务制作完成率为 100% ，工具成功调用率约为 98% 。有少部分工具调用失败，但没有影响最后结果生成。

简单来说，MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。

说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。

DeepSeek-V4-flash

同样的提示词，我又测试了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整体速度比较快，响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

不过在长链路工具调用里，它的风格会更偏“快速完成任务”。也就是说，它会很快把代码生成出来，但在资料搜索、数据校验、细节修复方面，没有 MiniMax-M3 和 Step-3.7-flash 那么细。

从结果来看，页面是可以正常完成的，基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo，它的效率很高。

但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复，它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。

Workbuddy里面消耗积分：4点积分左右。换算一下差不多为0.2元左右。

从价格体感来看，DeepSeek-V4-flash 的成本优势明显，适合高频调用。

经过多次测试，DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。

我的感受是，DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好，但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。

Step-3.7-flash

Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。

它在多工具调用上的积极性比较高，会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务，而不是简单回答问题。

页面效果是典型的深色科技风。

AI 很喜欢这种配色，如果没有特别说明，很多模型都会默认生成深色系的网站页面。这个不能说不好，只是如果你想要清爽、明亮、偏公众号长图风格的页面，提示词里最好提前写清楚。

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全，分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别，而不是只列几个常见工具。

从页面完成度来看，Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上，包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。

本轮测试费用约为：0.7元左右

从单价来看，Step-3.7-flash 价格属于中等偏下选手，它的优势不在低价，而在“能连续跑、少中断、完成率高”。

经过多次测试，Step-3.7-flash 的任务制作完成率约为 100%，工具成功调用率约为99%。

如果你的任务是高频、多轮、低延迟，并且包含搜索、文件、代码、修复等工具链路，Step-3.7-flash 是比较值得放进候选列表的模型。

GLM5.2

然后我们来看看 GLM5.2 生成的效果。

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站，也能把页面模块拆得比较清楚。

从结果来看，页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。

GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力，最大的缺点就是太贵。

本轮测试费用约为：74点积分左右。换算一下，差不多在3.66元左右。

最后再测试一个国外的模型Gemini3.5 flash，看看效果怎么样。

Gemini3.5 flash

如果是做前端页面的话，Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。

下面是制作的AI工具导航网页效果。

Gemini3.5 flash 最大的优势是页面观感舒适。

它生成的前端页面会更精致，布局更舒服，留白和层次感也更好。相比前面几个模型，Gemini3.5 flash会更懂一点前端设计。

不过 Gemini3.5 flash 也有明显问题。

它在视觉表现上确实更好，但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比，Step 收集的数据更全，分类覆盖更完整，工具调用也更积极。

本轮测试费用约为：9元左右。

Gemini3.5 flash 的价格明显更贵，尤其是输出 token 较多、带工具调用、带代码生成的任务，费用会比国产 Flash 档模型高不少。

如果你对页面要求比较高，可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用，还是要谨慎一些。

测试结果对比

总结

这次测试下来，我更关注的不是单轮回答能力，而是模型能不能把一个真实任务从头跑到尾。

如果只看页面美观，Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo，视觉上会舒服一些。

如果看工具调用和数据完整度，Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查，适合长链路 Agent 任务。

如果看成本和稳定性，MiniMax-M3 是一个很稳的选择。它没有特别花哨，但多次测试都能完成任务，工具调用失败也不会明显影响结果。

DeepSeek-V4-flash 的优势是快和便宜，适合快速生成初稿。GLM5.2 则比较均衡，适合做综合型任务。

所以模型选择还是要看场景。

做展示型页面，可以优先看 Gemini。做生产级 Agent 流程，可以重点看 Step-3.7-flash。做高频低成本任务，可以看 MiniMax-M3 和 DeepSeek-V4-flash。

中国发明人谢英豪、余海军凭借智能电池循环技术斩获2026年欧洲发明家奖双项殊荣

●谢英豪、余海军及其团队凭借一项将废旧锂离子电池循环再生为高质量正极材料的专利技术，荣获2026年欧洲发明家奖“非欧洲专利组织成员国”类别奖项，并同时摘得“大众奖”●该技术对镍、钴、锰的回收率高达99.6%，锂回收率达96.5%，同时酸碱消耗量降低73%●与传统生产

2026-07-03

iPhone、华为、小米保值率实测：同价位机型三年后回收价差多少？

买手机的时候，很多人会考虑“保值率”这个因素——毕竟三两年后换新机时，旧机能回收多少钱直接影响换机成本。那么苹果、华为、小米三大品牌同价位的机型，保值率到底怎么样?我挑了三台同价位区间的旧机，在转转和爱回收两个平台做了实测对比。一、测试设备选取原则为

2026-07-03

预算8000左右的折叠屏手机推荐，三款热门旗舰对比后再决定

预算8000左右的折叠屏手机推荐，价格当然重要，但长期体验更关键。荣耀Magic V6、vivo X Fold6和OPPO Find N6中，荣耀Magic V6更适合对轻薄和效率要求更高的人。价格方面，荣耀Magic V6 12GB+256GB版本8999元、国补价8499元;12GB+512GB国补价9499元;16GB+512GB国补价104

2026-07-03

7000到8000最值得入手的折叠屏手机，对比轻薄续航和屏幕表现

7000到8000最值得入手的折叠屏手机，不能只看谁的单一卖点更抢眼。荣耀Magic V6、vivo X Fold6和OPPO Find N6的侧重点不同，荣耀更强调轻薄续航、可靠防护和跨设备效率。价格方面，荣耀Magic V6 12GB+256GB版本8999元、国补价8499元;12GB+512GB国补价9499元;16GB+512GB

2026-07-03

比亚迪集中公布多起名誉维权胜诉案件重拳打击“黑公关”

6月26日，比亚迪法务部发布公告，集中披露多起网络名誉维权胜诉案件，公示了一批恶意造谣、抹黑诋毁品牌的自媒体侵权判决，从严惩处恶意诋毁营造健康行业生态，以法律手段重拳打击汽车行业“黑公关”不良风气，守护企业合法权益与品牌口碑。随后，比亚迪集团品牌及公关

2026-07-03

华为nova 16系列944元学生专属权益，购机送云空间华为音乐会员好礼

六月毕业季恰逢暑期大促，正是换新机的好时机。而在近期各销售渠道的智能手机热销榜上，华为nova 16系列持续稳居学生群体换机热门机型榜单。华为nova 16系列现已推出四款机型，拥有夏日感十足的外观、业界领先的2亿红枫影像系统、性能、续航、首批搭载鸿蒙6.1等多方面的

2026-07-03

母婴一件代发平台合规吗？看蜂享家的机制就明白

母婴一件代发是不是正规生意?蜂享家机制解析母婴一件代发平台合规吗是很多宝妈入行前的第一个问题。直接给结论：一件代发本身是一种正规的经营方式，关键看它的机制——收益是否来自真实商品销售、有没有真实发货、订单能不能退款。只要这条链路是真实的，一件代发就是

2026-07-03

2026年定位稳准不乱飘儿童手表推荐:五家优选深度解析

——文章最新发布时间:2026年6月阅读摘要文档类型:榜单评测与选型评价维度:定位技术楼层识别信号稳定性查找功能守护能力Top Pick: 小天才Z12其它上榜: 荣耀亲选WhizKid青少年手表、360儿童手表11X、创维XD MAX、小寻T6 Pro关键依据:Z12搭载4778定位芯片和室外双频GPS，

2026-07-03

2026武汉民办高中盘点：不只是“保底”，更是“逆袭”的主场

每年中考放榜前后，总有一批家长陷入两难：孩子的分数距离重点公办高中差一口气，但又不甘心随便找一所学校“混三年”。其实，这种焦虑大可不必——在今天的武汉，民办高中早已不是“考不上公办才去的地方”，而是一片真正能让普通孩子被看见、被激发、被托举的土壤。20

2026-07-03

AMD春雨计划正式落地北京交通大学校企共建“AI+创新应用与实训中心”

7月1日，AMD高校“春雨计划”在北京交通大学再结硕果，双方合作共建的“AI+创新应用与实训中心”正式在北京交通大学设立并举行了授牌仪式。仪式上，北京交通大学计算机科学与技术学院党委书记段春荣、AMD大中华区市场营销总监刘文秀、AMD软件开发总监陆佳华、北京交通大

2026-07-03