现在市面上能调用的模型确实越来越多了,各家都有自己的亮点和侧重点,光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候,情况就更加复杂了。
所以我就想着,不如把几个主流模型都拉出来实际跑一遍,看看它们真实表现到底如何,也好给自己找个手感。
测评说明: 本次并非严格意义上的 benchmark 评测,更像是一次围绕单个长链路 Agent 任务的体验观察记录,结果仅供参考,不构成对模型的全面定论。
本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。
这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个:
1.是否能连续调用工具完成任务
2.是否能稳定生成可运行页面
3.页面完成后是否会主动检查和修复问题
全局采用 WorkBuddy Agent 工具,费用为 WorkBuddy 平台本次任务消耗估算,不代表官方 API 价格。
通用提示词如下:


MiniMax-M3
MiniMax-M3 在这类长链路任务里表现比较稳定。
基本上会主动进行多轮工具调用,包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent,不会只停留在“给一段代码”的层面。

测试过程中,工具调用失败几率很小,但也不是完全没有。我这里有一次工具调用失败,不过没有影响最后的结果生成。模型会继续往下执行,并把页面做出来。

这个是制作完成后的页面效果。




从最终页面来看,MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷,但胜在流程稳定,任务理解也比较清楚。
Workbuddy里面消耗积分:27点积分左右。
换算一下差不多在1.33元左右。

如果按 API 单价估算,MiniMax-M3 属于中低成本模型,适合反复跑 Agent 流程类任务。
经过多次测试,MiniMax-M3 的任务制作完成率为 100% ,工具成功调用率约为 98% 。有少部分工具调用失败,但没有影响最后结果生成。
简单来说,MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。
说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。
DeepSeek-V4-flash
同样的提示词,我又测试了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整体速度比较快,响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。
不过在长链路工具调用里,它的风格会更偏“快速完成任务”。也就是说,它会很快把代码生成出来,但在资料搜索、数据校验、细节修复方面,没有 MiniMax-M3 和 Step-3.7-flash 那么细。

从结果来看,页面是可以正常完成的,基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo,它的效率很高。
但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复,它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。
Workbuddy里面消耗积分:4点积分左右。 换算一下差不多为0.2元左右。

从价格体感来看,DeepSeek-V4-flash 的成本优势明显,适合高频调用。
经过多次测试,DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。
我的感受是,DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好,但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。
Step-3.7-flash
Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。
它在多工具调用上的积极性比较高,会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务,而不是简单回答问题。

页面效果是典型的深色科技风。
AI 很喜欢这种配色,如果没有特别说明,很多模型都会默认生成深色系的网站页面。这个不能说不好,只是如果你想要清爽、明亮、偏公众号长图风格的页面,提示词里最好提前写清楚。

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全,分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别,而不是只列几个常见工具。



从页面完成度来看,Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上,包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。
本轮测试费用约为:0.7元左右

从单价来看,Step-3.7-flash 价格属于中等偏下选手,它的优势不在低价,而在“能连续跑、少中断、完成率高”。
经过多次测试,Step-3.7-flash 的任务制作完成率约为 100%,工具成功调用率约为99%。
如果你的任务是高频、多轮、低延迟,并且包含搜索、文件、代码、修复等工具链路,Step-3.7-flash 是比较值得放进候选列表的模型。
GLM5.2
然后我们来看看 GLM5.2 生成的效果。

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站,也能把页面模块拆得比较清楚。
从结果来看,页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。



GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力,最大的缺点就是太贵。
本轮测试费用约为:74点积分左右。 换算一下,差不多在3.66元左右。

最后再测试一个国外的模型Gemini3.5 flash,看看效果怎么样。
Gemini3.5 flash
如果是做前端页面的话,Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。
下面是制作的AI工具导航网页效果。

Gemini3.5 flash 最大的优势是页面观感舒适。
它生成的前端页面会更精致,布局更舒服,留白和层次感也更好。相比前面几个模型,Gemini3.5 flash会更懂一点前端设计。


不过 Gemini3.5 flash 也有明显问题。
它在视觉表现上确实更好,但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比,Step 收集的数据更全,分类覆盖更完整,工具调用也更积极。
本轮测试费用约为:9元左右。

Gemini3.5 flash 的价格明显更贵,尤其是输出 token 较多、带工具调用、带代码生成的任务,费用会比国产 Flash 档模型高不少。
如果你对页面要求比较高,可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用,还是要谨慎一些。
测试结果对比

总结
这次测试下来,我更关注的不是单轮回答能力,而是模型能不能把一个真实任务从头跑到尾。
如果只看页面美观,Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo,视觉上会舒服一些。
如果看工具调用和数据完整度,Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查,适合长链路 Agent 任务。
如果看成本和稳定性,MiniMax-M3 是一个很稳的选择。它没有特别花哨,但多次测试都能完成任务,工具调用失败也不会明显影响结果。
DeepSeek-V4-flash 的优势是快和便宜,适合快速生成初稿。GLM5.2 则比较均衡,适合做综合型任务。
所以模型选择还是要看场景。
做展示型页面,可以优先看 Gemini。 做生产级 Agent 流程,可以重点看 Step-3.7-flash。 做高频低成本任务,可以看 MiniMax-M3 和 DeepSeek-V4-flash。