在金融信息爆炸的今天,投资者对高质量财经分析的需求愈发迫切。传统人工分析报告因其耗时耗力,难以满足市场的快速变化。大模型技术的兴起,为这一难题提供了新的解决方案。
然而,大模型在财经领域的应用并非一帆风顺。它们在数据处理精确性、逻辑推理严谨性、专业术语运用以及对市场情绪的把握等方面,均面临挑战。为了全面评估大模型在财经分析文章写作上的表现,本次评测选取了五个具有代表性的通用大模型:GPT-4、Claude、Gemini、文心一言和通义千问。
评测的核心任务是要求各模型撰写一篇关于亚马逊(AMZN)2025年第二季度财报的财经分析文章。我们向模型提供了详细的财报数据,包括营收、每股收益(EPS)的实际公布值和市场预测值,以及财报新闻摘要中的关键信息,如AWS增长放缓、不及微软和谷歌,以及公司下调第三季度营业利润指引等。
评测从数据准确度、数据丰富度、文字能力、逻辑能力、创新能力和写作速度六个维度进行量化评分。结果显示,尽管所有模型在模拟环境下表现出一定的一致性,但仍能观察到细微的差异。
GPT-4在数据准确度和逻辑能力方面表现尤为突出,其文章引用的财务数据与提供的财报数据完全一致,且逻辑结构清晰,论证严谨。文章不仅深入解读了核心财务数据,还从多个角度进行了详细分析,展现了极高的数据处理和文字表达能力。
Claude和Gemini紧随其后,在各项能力上表现均衡。Claude的文章语言专业,表达流畅,逻辑链条清晰,能够引导读者深入理解财报背后的深层含义。而Gemini则提出了“亮眼业绩下的‘云’端阴影”这一观点,强调了优秀财报与股价下跌之间的反差,反映了资本市场的复杂性。
文心一言和通义千问也展现出了不俗的实力。文心一言的文章结构严谨,采用了接近专业研究报告的格式,对市场反应的“悖论”分析深入。通义千问则在文章结构上采用了“研究摘要”的形式,并对投资建议进行了短期、中期、长期的划分,体现了一定的创新性。
尽管如此,本次评测也揭示了大模型在财经文章写作方面的局限性。例如,在数据深度挖掘方面,尽管模型能够准确引用核心数据,但在对数据背后更深层次的经济含义和行业趋势的挖掘上仍有不足。在创新性观点方面,大模型生成的文章普遍较为保守,缺乏突破性的见解和前瞻性判断。