高考作文不仅是考生展示文字功底的舞台,也是检验大模型能力的重要场景。今年高考期间,有人发起了一场别开生面的实验:让国内外四个知名大模型分别撰写北京市高考作文,并让它们互相担任阅卷老师进行盲测评分。这场AI之间的较量,不仅展现了不同模型在文本生成上的特点,也暴露出议论文写作中普遍存在的套路化问题。
参与实验的四个模型分别是GPT-5.5、Fable-5、DeepSeek-V4和Hunyuan 3 Preview。在面对"做规划与下功夫"和"含英咀华"两个题目时,三个模型选择了议论文,一个选择了记叙文。这种选择本身就反映了不同模型在文体偏好上的差异,也为后续评分结果的多样性埋下了伏笔。
三篇议论文呈现出惊人的相似性。它们都以"凡事预则立,不预则废"开篇,结构上均采用"规划重要-功夫重要-二者统一"的三段论,例证选择也高度重合,王羲之练字、袁隆平育种、改革开放等例子反复出现。这种高度趋同的写作模式,暴露出AI在议论文写作中倾向于选择最安全、最稳妥的写作策略,导致文章缺乏个性和新意。
与议论文形成鲜明对比的是DeepSeek-V4撰写的记叙文。这篇以"含英咀华"为题的作文,通过祖父书房里的《诗经》展开叙事,将经典阅读与个人成长紧密结合。文中对"桃之夭夭,灼灼其华"的顿悟描写,以及因友情误会而重读《诗经》的情节设计,展现了AI在叙事能力和细节描写上的突破。这种充满人文关怀的写作方式,与议论文的刻板套路形成强烈反差。
评分环节揭示出更多有趣现象。四位"AI老师"对四篇作文的评分存在明显差异,同一篇作文最高分与最低分相差达8分。这种差异源于不同模型对评分标准的理解侧重不同:有的更看重思想深度,有的更关注语言表达,有的对套话容忍度较高,有的则严格要求个性化思考。Hunyuan 3 Preview因评分较为宽松,平均分比最严格的Fable-5高出近6分。
特别值得注意的是自检机制的作用。GPT-5.5在给自己作文评分时,毫不留情地指出"论据较常见""思想辨识度不够"等问题,最终给出41分的二类文评价。Fable-5则反复在评语中强调"避免语言套话""需要个性化思考"。这种自我批判精神,反映出部分AI模型已经具备了一定的自我反思能力。
从最终评分结果看,DeepSeek-V4的记叙文以46分的平均分位居榜首,三篇议论文得分在43-44分之间。这一结果印证了记叙文在展现个性化和情感表达方面的优势,也暴露出议论文写作中普遍存在的创新不足问题。当AI写议论文时,它们似乎更倾向于选择"安全牌",导致文章虽然结构完整但缺乏亮点。

