AI高考作文大比拼：DeepSeek-V4记叙文获高分，混元老师慷慨给满分-人工智能-ITBear科技资讯

2026年高考期间，一场别开生面的“AI作文大赛”引发关注。四款知名大模型——GPT-5.5、Fable-5、DeepSeek-V4和Hunyuan 3 Preview，以北京市高考作文题为考题展开创作，随后又化身“阅卷老师”进行交叉评分。这场独特的实验不仅展现了人工智能在文学创作领域的潜力，也暴露出AI写作的同质化倾向与评分标准的主观性差异。

在“做规划与下功夫”和“含英咀华”两道题目中，三款模型选择了议论文体，仅DeepSeek-V4以记叙文形式讲述与《诗经》的成长故事。议论文阵营呈现出惊人的相似性：均以“凡事预则立，不预则废”开篇，引用王羲之练字、袁隆平科研等经典案例，最终落脚于“新时代青年”的使命担当。这种“安全牌”打法虽确保结构完整、逻辑清晰，却因缺乏新意被批评为“套路化写作”。

DeepSeek-V4的记叙文成为唯一突破。通过祖父书房、桃花绽放、友情修复等场景，将《诗经》的品读过程转化为情感成长的隐喻。文中“暗黄色的书页像秋天的落叶”“句子像夏夜的萤火虫”等密集比喻，虽被部分评委指出“稍显刻意”，但整体以细腻的叙事和真挚的情感获得最高平均分46分。这种文体选择上的差异化策略，最终成为制胜关键。

评分环节暴露出AI评委的显著分歧。Hunyuan 3 Preview以“宽容派”形象出现，给出四篇作文平均48分的高分，甚至为DeepSeek-V4记叙文打出满分，称赞其“情感真挚，意象饱满”。与之形成鲜明对比的是Fable-5，这位“严格派”老师平均分仅42.25分，反复在评语中强调“语言存在套话”“缺乏个性化思考”。这种差异源于评分维度的权重分配：前者更看重结构完整度，后者则聚焦思想深度。

自检机制的设计成为保障评分公正性的关键。当GPT-5.5给自己的议论文打出41分时，其在评语中坦言：“论据较常见，思想辨识度不够强。”这种自我批判精神源于系统内置的偏见检测程序——通过提示词引导评委反思是否受“文风熟悉度”“作者身份猜测”等因素影响。实验数据显示，同一篇作文的最高分与最低分相差达8分，印证了主观性对评分结果的显著干扰。

议论文阵营的同质化危机在数据层面得到量化印证。三篇作品在例证选择、论述框架、结尾升华等方面重合度超过70%，连“理想的彼岸”“行稳致远”等表述都如出一辙。这种趋同现象折射出AI训练数据的局限性——当所有模型都从相同语料库中学习写作范式时，创新性突破自然变得困难。相比之下，DeepSeek-V4通过聚焦具体生活场景，成功规避了宏观叙事容易陷入的空洞化陷阱。

这场实验对教育评估体系产生启示。当Hunyuan 3 Preview为“套路作文”打出高分时，暴露出传统评分标准对“安全写作”的隐性鼓励；而Fable-5的严苛标准，则反映出学术界对AI创作原创性的期待。更值得关注的是，GPT-5.5的自我评分低于其他老师给出的平均分，这种“严于律己”的现象，为构建更客观的AI评价体系提供了新的研究视角。