AI高考作文大比拼：DeepSeek-V4记叙文脱颖而出，获混元高分盛赞-人工智能-ITBear科技资讯

高考作文不仅是考生展示文字功底的舞台，也是检验大模型能力的重要场景。今年高考期间，有人发起了一场别开生面的实验：让国内外四个知名大模型分别撰写北京市高考作文，并让它们互相担任阅卷老师进行盲测评分。这场AI之间的较量，不仅展现了不同模型在文本生成上的特点，也暴露出议论文写作中普遍存在的套路化问题。

参与实验的四个模型分别是GPT-5.5、Fable-5、DeepSeek-V4和Hunyuan 3 Preview。在面对"做规划与下功夫"和"含英咀华"两个题目时，三个模型选择了议论文，一个选择了记叙文。这种选择本身就反映了不同模型在文体偏好上的差异，也为后续评分结果的多样性埋下了伏笔。

三篇议论文呈现出惊人的相似性。它们都以"凡事预则立，不预则废"开篇，结构上均采用"规划重要-功夫重要-二者统一"的三段论，例证选择也高度重合，王羲之练字、袁隆平育种、改革开放等例子反复出现。这种高度趋同的写作模式，暴露出AI在议论文写作中倾向于选择最安全、最稳妥的写作策略，导致文章缺乏个性和新意。

与议论文形成鲜明对比的是DeepSeek-V4撰写的记叙文。这篇以"含英咀华"为题的作文，通过祖父书房里的《诗经》展开叙事，将经典阅读与个人成长紧密结合。文中对"桃之夭夭，灼灼其华"的顿悟描写，以及因友情误会而重读《诗经》的情节设计，展现了AI在叙事能力和细节描写上的突破。这种充满人文关怀的写作方式，与议论文的刻板套路形成强烈反差。

评分环节揭示出更多有趣现象。四位"AI老师"对四篇作文的评分存在明显差异，同一篇作文最高分与最低分相差达8分。这种差异源于不同模型对评分标准的理解侧重不同：有的更看重思想深度，有的更关注语言表达，有的对套话容忍度较高，有的则严格要求个性化思考。Hunyuan 3 Preview因评分较为宽松，平均分比最严格的Fable-5高出近6分。

特别值得注意的是自检机制的作用。GPT-5.5在给自己作文评分时，毫不留情地指出"论据较常见""思想辨识度不够"等问题，最终给出41分的二类文评价。Fable-5则反复在评语中强调"避免语言套话""需要个性化思考"。这种自我批判精神，反映出部分AI模型已经具备了一定的自我反思能力。

从最终评分结果看，DeepSeek-V4的记叙文以46分的平均分位居榜首，三篇议论文得分在43-44分之间。这一结果印证了记叙文在展现个性化和情感表达方面的优势，也暴露出议论文写作中普遍存在的创新不足问题。当AI写议论文时，它们似乎更倾向于选择"安全牌"，导致文章虽然结构完整但缺乏亮点。