从GPT-2到gpt-oss：深入解析大模型进化的关键细节-人工智能-ITBear科技资讯

在人工智能领域，大语言模型（LLM）的演进从未停歇，尽管整体架构自GPT-2以来并未发生根本性变化。近日，Sebastian Raschka博士通过深入分析OpenAI开源的gpt-oss模型（包括120B和20B版本），带领读者回顾了从GPT-2到gpt-oss的技术演进之路，并将gpt-oss与另一开源模型Qwen3进行了详细对比。

8月5日，就在GPT-5发布的前两天，OpenAI宣布推出两款开源大语言模型：gpt-oss-120b和gpt-oss-20b。这是自2019年GPT-2发布以来，OpenAI首次开放模型权重，且得益于巧妙的优化技术，这些模型甚至可以在本地设备上运行。

Raschka博士在其文章《从GPT-2到gpt-oss：架构进步分析》中，详细解析了从GPT-2到gpt-oss的架构演进。他指出，尽管两者在整体架构上相似，但gpt-oss在多个细节上进行了优化，如移除Dropout、采用RoPE替代绝对位置编码、激活函数从GELU转向Swish/SwiGLU等。

首先，Dropout技术虽然在早期Transformer架构中被广泛使用，但现代LLM发现其并不能显著提升性能，反而可能因单轮训练模式导致下游任务表现下降。因此，gpt-oss选择了移除Dropout。

其次，在位置编码方面，gpt-oss采用了RoPE（旋转位置嵌入）替代传统的绝对位置嵌入。RoPE通过对query和key向量施加位置相关的旋转来编码位置信息，这种方式更加高效且逐渐成为LLM的标配。

在激活函数的选择上，gpt-oss从GELU转向了Swish/SwiGLU。Swish的计算成本略低于GELU，且在实践中表现良好，尽管两者在建模性能上的差异并不显著。

更重要的是，gpt-oss对前馈网络模块进行了重构，引入了带门控的GLU（Gated Linear Unit）变体，如SwiGLU。这种结构不仅性能更好，而且总参数量更少，通过门控带来的额外乘法交互增强了模型的表达能力。

gpt-oss还采用了Mixture-of-Experts（MoE，专家混合）技术，用多个前馈模块替代单个前馈模块，并在每个token生成步骤中只启用其中一个子集。这种做法显著增加了模型的总参数量，但通过稀疏性在推理阶段保持了高效率。

在注意力机制方面，gpt-oss引入了分组查询注意力（GQA）替代传统的多头注意力（MHA），并通过滑动窗口注意力进一步降低内存占用和计算成本。同时，gpt-oss还用RMSNorm替代了LayerNorm，以提升训练效率。

在与Qwen3的对比中，gpt-oss展现出不同的设计思路。Qwen3是一个更深的架构，而gpt-oss则更宽。在MoE的使用上，gpt-oss采用了少量“大专家”策略，而Qwen3则倾向于更多、更小的专家。gpt-oss在注意力机制中引入了偏置项和注意力池，以稳定注意力机制。

在性能方面，gpt-oss与OpenAI自研的闭源模型以及Qwen3相当。尽管gpt-oss在某些任务上可能表现出较高的幻觉倾向，但其作为推理型模型的设计，使其在成本、算力和准确度之间找到了良好的平衡。

随着gpt-oss的开源，更多开发者将能够利用这一强大工具进行本地或私有化部署，推动人工智能技术在各领域的广泛应用。

玄武云亮相华为全联接大会，携快消云脑等成果共探“AI+”新场景

2025-09-22

从“吉林一号”卫星视角：探吉林遥感产业创新路与多元应用新篇

2025-09-22

OpenAI携手立讯精密开发消费级设备，歌尔股份或参与扬声器模块供应

2025-09-22

2025年10月15日深圳见！OPPO开发者大会携ColorOS 16与AI战略重磅登场

2025-09-22

华泰证券研报：OpenAI布局硬件领域，中国硬件生产商未来两年前景向好

2025-09-22

华为昇腾路线图发布国产算力与模型协同共进 2026年或迎发展高潮

2025-09-22

星宸科技布局下一代高端智能机器人芯片，预计2026年上市助力AI与机器人算法升级

2025-09-22

DeepSeek论文登《自然》封面，纯强化学习提升推理力，科技板块迎资金热潮

近日，由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了国际权威期刊《自然（Nature）》第645期的封面。一是实现混合推理架构，即一个模型同时支持思考模式与…

2025-09-22

索尼AI战略明晰：以AI赋能创作，拓展娱乐体验新边界

IT之家援引博文介绍，该系统不仅连接聊天与文本助手，还融入核心业务流程，已测试 300 多个 AI 相关项目，其中至少 50个投入常规使用。公司正将生成式 AI 与机器学习用于老片音频重制，并在 Play…

2025-09-22

华为全联接大会发布全球最强算力超节点与集群，助力AI算力持续发展

IT之家 9 月 18 日消息，今日，华为全联接大会 2025 在上海启幕，华为副董事长、轮值董事长徐直军发表题为“以开创的超节点互联技术，引领AI 基础设施新范式”的主题演讲，正式发布全球最强算力超节点和…

2025-09-22