2026年高考期间,一场别开生面的“AI作文大赛”引发关注。四款知名大模型——GPT-5.5、Fable-5、DeepSeek-V4和Hunyuan 3 Preview,以北京市高考作文题为考题展开创作,随后又化身“阅卷老师”进行交叉评分。这场独特的实验不仅展现了人工智能在文学创作领域的潜力,也暴露出AI写作的同质化倾向与评分标准的主观性差异。
在“做规划与下功夫”和“含英咀华”两道题目中,三款模型选择了议论文体,仅DeepSeek-V4以记叙文形式讲述与《诗经》的成长故事。议论文阵营呈现出惊人的相似性:均以“凡事预则立,不预则废”开篇,引用王羲之练字、袁隆平科研等经典案例,最终落脚于“新时代青年”的使命担当。这种“安全牌”打法虽确保结构完整、逻辑清晰,却因缺乏新意被批评为“套路化写作”。
DeepSeek-V4的记叙文成为唯一突破。通过祖父书房、桃花绽放、友情修复等场景,将《诗经》的品读过程转化为情感成长的隐喻。文中“暗黄色的书页像秋天的落叶”“句子像夏夜的萤火虫”等密集比喻,虽被部分评委指出“稍显刻意”,但整体以细腻的叙事和真挚的情感获得最高平均分46分。这种文体选择上的差异化策略,最终成为制胜关键。
评分环节暴露出AI评委的显著分歧。Hunyuan 3 Preview以“宽容派”形象出现,给出四篇作文平均48分的高分,甚至为DeepSeek-V4记叙文打出满分,称赞其“情感真挚,意象饱满”。与之形成鲜明对比的是Fable-5,这位“严格派”老师平均分仅42.25分,反复在评语中强调“语言存在套话”“缺乏个性化思考”。这种差异源于评分维度的权重分配:前者更看重结构完整度,后者则聚焦思想深度。
自检机制的设计成为保障评分公正性的关键。当GPT-5.5给自己的议论文打出41分时,其在评语中坦言:“论据较常见,思想辨识度不够强。”这种自我批判精神源于系统内置的偏见检测程序——通过提示词引导评委反思是否受“文风熟悉度”“作者身份猜测”等因素影响。实验数据显示,同一篇作文的最高分与最低分相差达8分,印证了主观性对评分结果的显著干扰。
议论文阵营的同质化危机在数据层面得到量化印证。三篇作品在例证选择、论述框架、结尾升华等方面重合度超过70%,连“理想的彼岸”“行稳致远”等表述都如出一辙。这种趋同现象折射出AI训练数据的局限性——当所有模型都从相同语料库中学习写作范式时,创新性突破自然变得困难。相比之下,DeepSeek-V4通过聚焦具体生活场景,成功规避了宏观叙事容易陷入的空洞化陷阱。
这场实验对教育评估体系产生启示。当Hunyuan 3 Preview为“套路作文”打出高分时,暴露出传统评分标准对“安全写作”的隐性鼓励;而Fable-5的严苛标准,则反映出学术界对AI创作原创性的期待。更值得关注的是,GPT-5.5的自我评分低于其他老师给出的平均分,这种“严于律己”的现象,为构建更客观的AI评价体系提供了新的研究视角。
