GPT-4.1系列震撼发布！OpenAI史上最小最快最廉模型，百万token上下文处理-业界动态-ITBear科技资讯

OpenAI近日震撼发布GPT-4.1系列模型，该系列包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款，被誉为迄今为止最小、最快、最经济的模型阵容，且在性能上超越了先前的GPT-4o和GPT-4o mini。

GPT-4.1系列模型的上下文窗口扩大至100万个token，输出token数也增至32768个，知识库更新至2024年6月。据OpenAI的基准测试显示，这些新模型在编码、指令遵循以及长文本理解方面的表现均显著优于前代产品。

GPT-4.1系列目前仅通过API提供给开发者，并已全面开放。同时，OpenAI宣布将逐步淘汰GPT-4.5预览版，因为GPT-4.1系列在提供相似性能的同时，具备更低的成本和延迟。GPT-4.5预览版将于7月14日正式关闭。

在性能优化方面，GPT-4.1在编码任务上的提升尤为显著。在SWE-bench验证测试中，GPT-4.1得分54.6%，较GPT-4o提升了21.4%，较GPT-4.5提升了26.6%。在指令遵循方面，GPT-4.1在MultiChallenge基准测试中得分38.3%，较GPT-4o提高了10.5%。在长文本理解方面，GPT-4.1在Video-MME基准测试中，无字幕长文本类别得分72.0%，较GPT-4o提升了6.7%。

GPT-4.1 nano特别受到关注，因为它被认为是OpenAI最快、最经济的模型。在基准测试中，GPT-4.1 nano的MMLU得分为80.1%，GPQA得分为50.3%，Aider多语言编码得分为9.8%，均高于GPT-4o mini。对于需要处理大量查询且对延迟敏感的应用场景，GPT-4.1 nano无疑是一个理想的选择。

在编码能力方面，GPT-4.1在多种任务上的表现均优于GPT-4o，包括解决编码问题、前端编码、减少不必要的编辑等。特别是在创建Web应用方面，GPT-4.1能够生成功能更强大、美观度更高的应用。在OpenAI的对比测试中，人工评分员在80%的情况下更青睐GPT-4.1生成的网站。

在指令遵循方面，OpenAI开发了一个内部评估系统，用于跟踪模型在多个维度和关键指令遵循类别中的性能。GPT-4.1在困难提示方面的表现尤为出色，相较于GPT-4o有显著提升。在MultiChallenge基准测试中，GPT-4.1比GPT-4o提高了10.5%。在IFeval测试中，GPT-4.1的得分也高于GPT-4o。

在长文本理解方面，GPT-4.1系列模型能够处理高达100万个token的上下文，这使其在处理大型代码库或大量长文档时具有显著优势。OpenAI还对GPT-4.1进行了训练，使其能够在长和短上下文长度中忽略干扰信息。在实际测试中，GPT-4.1展现出了强大的“大海捞针”能力，能够在所有位置以及各种上下文长度的情况下准确检索到关键信息。

GPT-4.1系列的发布，为开发者构建智能系统和复杂的智能体应用提供了新的可能性。其卓越的性能和经济性，将推动开发者将其与各类API结合使用，构建出更有用、更可靠的智能体。这些智能体有望在现实世界的软件工程、文档分析、客户服务以及其他复杂任务中发挥巨大潜力。