GPT-OSS-120B与GPT-OSS-20B是OpenAI最新发布的两款开源语言模型,旨在为开发者提供强大的推理能力和灵活的部署选项。
一、主要功能
- 强大的推理能力
- GPT-OSS-120B和GPT-OSS-20B在推理任务上表现出色,能够处理复杂的逻辑问题和数学计算。
- 支持链式推理(Chain-of-Thought),可逐步展示推理过程,便于调试和验证。
-
- 高效的工具使用
- 这两款模型能够熟练使用网页搜索、Python代码执行等工具,展现出强大的“代理(agentic)”能力。
- 支持少样本函数调用,适合构建智能体工作流。
-
- 灵活的部署选项
- GPT-OSS-120B可在单张80GB的H100 GPU上高效运行,适合云端部署。
- GPT-OSS-20B仅需16GB内存,可在普通笔记本电脑或边缘设备上运行。
-
- 可定制性
- 用户可以对模型进行微调,以适应特定的应用场景。
- 提供完整的思维链(CoT),并支持结构化输出。
-
二、技术原理
- Mixture-of-Experts(MoE)架构
- GPT-OSS-120B采用128专家Top-4的MoE架构,GPT-OSS-20B采用32专家Top-4的MoE架构。
- 每层仅激活部分专家,大幅降低了推理时的显存占用。
-
- 原生MXFP4量化
- 在训练阶段使用4.25 bit/参数的精度,避免了训练后量化可能带来的性能下降。
-
- 注意力机制优化
- 使用Rotary Position Embedding(RoPE)和Grouped Query Attention,支持最长128K的上下文。
- 交替采用“全局上下文”与“滑动128 Token窗口”机制。
-
三、应用场景
- 企业级应用
- GPT-OSS-120B适合需要强大推理能力和高计算资源的企业级应用。
- 可用于数据分析、代码生成、智能客服等领域。
-
- 本地部署
-
