近日,人工智能领域迎来重要进展——阶跃星辰正式开源其最新模型Step 3.5 Flash,并同步上线相关平台。该模型在智能体场景与数学任务处理能力上已接近闭源模型水平,能够高效完成复杂长链条任务,被视为阶跃星辰迄今性能最强的开源基座模型。
什么是Step 3.5 Flash
Step 3.5 Flash(访问网站)是阶跃星辰最强大的开源基础模型,专为以卓越效率提供前沿推理与智能体(agentic)能力而设计。该模型基于稀疏的混合专家(Mixture of Experts, MoE)架构,每处理一个 token 仅激活其 196B 参数中的 11B。这种“智能密度”使其推理深度可媲美顶尖的闭源模型,同时保持了实时交互所需的敏捷性。
Step 3.5 Flash 的核心能力包括:
- 高速深度推理:聊天机器人重在阅读,而智能体必须快速推理。得益于三路多 Token 预测(MTP-3)技术,Step 3.5 Flash 在典型使用场景下生成速度可达 100–300 tok/s(单流编码任务峰值高达 350 tok/s)。这使其能够执行复杂的多步推理链,并保持即时响应。
- 面向编码与智能体的稳健引擎:Step 3.5 Flash 专为智能体任务打造,集成了可扩展的强化学习(RL)框架,持续推动自我提升。它在 SWE-bench Verified 上达到 74.4%,在 Terminal-Bench 2.0 上达到 51.0%,充分证明其能稳定可靠地处理复杂的长周期任务。
-
高效的长上下文支持:通过采用 3:1 的滑动窗口注意力(Sliding Window Attention, SWA)比例——即每层全注意力层搭配三层 SWA 层——该模型实现了成本效益优异的 256K 上下文窗口。这种混合方法在大规模数据集或长代码库上保持一致性能的同时,显著降低了标准长上下文模型常见的计算开销。
- 便捷的本地部署:Step 3.5 Flash 针对易用性进行了优化,将顶级智能能力带入本地环境。它可在高端消费级硬件(如 Mac Studio M4 Max、NVIDIA DGX Spark)上安全运行,在保障数据隐私的同时不牺牲性能。
特性与优势
Step 3.5 Flash 在 推理能力、编码能力 和 智能体能力 三个维度上的性能表现。左侧的开源模型按总参数量排序,右侧展示的是顶尖闭源模型。xbench-DeepSearch 分数来源于官方发布结果以确保一致性。阴影条形图代表使用 Parallel Thinking 技术后 Step 3.5 Flash 的增强性能。

技术架构方面,Step 3.5 Flash采用稀疏混合专家(MoE)设计,总参数量达1960亿,但单个token仅需激活约110亿参数。这种设计在保证模型能力的同时显著提升了推理效率。针对长文本处理场景,该模型通过三路多Token预测技术实现每秒100-300个token的生成吞吐量,在单请求代码类任务中峰值可达350TPS,并支持256K长度的文本理解与生成。
在性能测试中,Step 3.5 Flash展现强劲实力。数学竞赛级任务方面,该模型在AIME 2025、IMOAnswerBench、HMMT 2025等测试中分别取得97.3、88.8、96.2分,开启Parallel Thinking增强模式后性能跃居首位。编码能力测试中,其在LiveCodeBench-V6获得86.4分,增强模式下仅次于Gemini 3.0 Pro。智能体能力测试显示,该模型在BrowseComp和xbench-DeepSearch测试中分别获得69.0和54.0分,紧追行业领先水平。
实际应用测试中,该模型展现出强大的任务处理能力。面对"9.9和9.11谁大"的数学问题,模型能快速给出正确答案,仅在数值输出时出现9.9误写为99.9的小误差。在复杂计算任务中,模型可准确计算等差数列求和、立方和、阶乘和等数学问题。智能体编程测试中,模型根据文字描述自动生成可调节海浪频率的模拟平台,并成功构建包含15000个动态节点的气象情报仪表盘,展现出强大的地理空间可视化能力。
多智能体协作方面,Step 3.5 Flash采用分层框架设计,主智能体通过动态路由协调"搜索""验证"等子智能体并行工作。在价格对比任务中,模型将"查询Mac Mini M4各平台价格"的需求拆解为淘宝、京东、拼多多三个子任务,最终精准识别出最低价平台并提供购买建议。这种云端规划能力显著降低了本地执行难度,提升了数据抓取成功率。
该模型的开源已获得产业界广泛支持,华为昇腾、沐曦股份、壁仞科技等六家芯片厂商率先完成适配。模型可在Mac Studio M4 Max等消费级硬件上安全运行,在保证数据私密性的同时维持高性能表现。据透露,阶跃星辰已启动Step 4模型的训练工作,持续聚焦智能体基础模型研发。
如何使用
通过云服务提供商,您可在几分钟内开始使用 Step 3.5 Flash。
获取您的 API 密钥
在 OpenRouter 或 platform.stepfun.ai 注册账号,并获取您的 API 密钥。
OpenRouter 现已为 Step 3.5 Flash 提供免费试用。
| 服务提供商 | 网站 | 基础 URL |
|---|---|---|
| OpenRouter | https://openrouter.ai | https://openrouter.ai/api/v1 |
| StepFun | https://platform.stepfun.ai | https://api.stepfun.ai/v1 |
开始使用
Step 3.5 Flash 适用于以下场景:
- 智能编程开发:作为 Claude Code、Codex 等工具的底层模型,提供代码生成、自动调试、软件工程任务处理等能力,在 SWE-bench Verified 上达到 74.4% 的通过率。
- 自主智能体执行:适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。
- 实时对话交互:凭借 100-350 TPS 的生成速度,支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。
- 长文本分析处理:可进行学术论文研读、法律合同审查、大型代码库理解,高效提取并整合海量信息。
- 端侧隐私计算:可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署,满足金融、医疗、企业办公等敏感数据的私有化处理需求。
本文采用 CC BY-NC 4.0 许可协议。商业转载、引用请联系本站获得授权,非商业转载、引用须注明出处。
链接:https://appmark.cn/sites/step-3-5-flash.html -APPMARK

QwQ-32B 是阿里云开源的最新 AI 推理模型,更小尺寸,消费级显卡即可部署。