ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

GPT-4.1系列震撼发布!OpenAI史上最小最快最廉模型,百万token上下文处理

时间:2025-04-15 03:55:28来源:ITBEAR编辑:快讯团队

OpenAI近日震撼发布GPT-4.1系列模型,该系列包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款,被誉为迄今为止最小、最快、最经济的模型阵容,且在性能上超越了先前的GPT-4o和GPT-4o mini。

GPT-4.1系列模型的上下文窗口扩大至100万个token,输出token数也增至32768个,知识库更新至2024年6月。据OpenAI的基准测试显示,这些新模型在编码、指令遵循以及长文本理解方面的表现均显著优于前代产品。

GPT-4.1系列目前仅通过API提供给开发者,并已全面开放。同时,OpenAI宣布将逐步淘汰GPT-4.5预览版,因为GPT-4.1系列在提供相似性能的同时,具备更低的成本和延迟。GPT-4.5预览版将于7月14日正式关闭。

在性能优化方面,GPT-4.1在编码任务上的提升尤为显著。在SWE-bench验证测试中,GPT-4.1得分54.6%,较GPT-4o提升了21.4%,较GPT-4.5提升了26.6%。在指令遵循方面,GPT-4.1在MultiChallenge基准测试中得分38.3%,较GPT-4o提高了10.5%。在长文本理解方面,GPT-4.1在Video-MME基准测试中,无字幕长文本类别得分72.0%,较GPT-4o提升了6.7%。

GPT-4.1 nano特别受到关注,因为它被认为是OpenAI最快、最经济的模型。在基准测试中,GPT-4.1 nano的MMLU得分为80.1%,GPQA得分为50.3%,Aider多语言编码得分为9.8%,均高于GPT-4o mini。对于需要处理大量查询且对延迟敏感的应用场景,GPT-4.1 nano无疑是一个理想的选择。

在编码能力方面,GPT-4.1在多种任务上的表现均优于GPT-4o,包括解决编码问题、前端编码、减少不必要的编辑等。特别是在创建Web应用方面,GPT-4.1能够生成功能更强大、美观度更高的应用。在OpenAI的对比测试中,人工评分员在80%的情况下更青睐GPT-4.1生成的网站。

在指令遵循方面,OpenAI开发了一个内部评估系统,用于跟踪模型在多个维度和关键指令遵循类别中的性能。GPT-4.1在困难提示方面的表现尤为出色,相较于GPT-4o有显著提升。在MultiChallenge基准测试中,GPT-4.1比GPT-4o提高了10.5%。在IFeval测试中,GPT-4.1的得分也高于GPT-4o。

在长文本理解方面,GPT-4.1系列模型能够处理高达100万个token的上下文,这使其在处理大型代码库或大量长文档时具有显著优势。OpenAI还对GPT-4.1进行了训练,使其能够在长和短上下文长度中忽略干扰信息。在实际测试中,GPT-4.1展现出了强大的“大海捞针”能力,能够在所有位置以及各种上下文长度的情况下准确检索到关键信息。

GPT-4.1系列的发布,为开发者构建智能系统和复杂的智能体应用提供了新的可能性。其卓越的性能和经济性,将推动开发者将其与各类API结合使用,构建出更有用、更可靠的智能体。这些智能体有望在现实世界的软件工程、文档分析、客户服务以及其他复杂任务中发挥巨大潜力。

更多热门内容