SpikingBrain 是中国科学院推出的非 Transformer 类脑脉冲大模型,以极低数据与能耗实现超长序列任务百倍速推理。
1 主要功能
- 超长序列建模:单轮可处理 4 M token,法律、医学、DNA、粒子物理等整文档直接输入。
- 极速推理:首 token 延迟比同规模 Transformer 降低 96% 以上,长度 1 M 时快 26 倍,4 M 时快百倍以上。
- 极低数据训练:7 B 模型仅用约 150 B token(≈主流 2% 数据)即达到 Qwen2.5-7B 90% 性能。
- 高能效运算:平均乘加能耗较 FP16 下降 97.7%,较 INT8 下降 85.2%。
- 国产硬件闭环:训练与推理全流程跑在沐曦 C550 GPU 集群,连续两周无故障。
2 技术原理
- 脉冲神经网络(SNN):信息以离散脉冲编码,事件驱动,仅在膜电位达到动态阈值时触发计算,天然稀疏。
- 动态阈值脉冲化算子:两阶段阈值策略把稠密矩阵乘法转为稀疏脉冲事件,计算量压缩 90% 以上。
- 内生复杂性架构:将生物树突非线性动力学嵌入线性注意力,保持线性复杂度同时维持长距依赖建模。
- 非 Transformer 混合设计:层间交替使用滑动窗口与线性注意力,彻底摆脱二次方复杂度。
- 生物可塑性学习:引入 STDP 变体,结合梯度反向传播进行稀疏脉冲权重更新。
- 国产算子优化:针对沐曦 GPU 重写稀疏脉冲卷积与矩阵核,实现硬件级异步触发。
3 应用场景
- 法律科技:整本法规、判例库一次性输入,秒级定位条款与相似案例。
- 医疗辅助:百万字电子病历、影像报告联合分析,给出诊断提示与循证依据。
- 科学研究:高能粒子对撞 10⁸ 事件/秒实时筛选罕见信号;DNA 长读序列拼接与突变检测。
- 多智能体仿真:城市级交通、电网、经济系统超长时序演化模拟。
- 边缘计算:在类脑芯片或低功耗国产 GPU 上做车载、机载文档处理与决策。
4 使用方法
- 本地部署:
- 克隆 GitHub 仓库 SpikingBrain-7B,安装依赖(支持 Diffusers、PyTorch 2.3+)。
- 加载脉冲化权重,调用
spiking_generate()接口,输入超长文本即可流式输出。
-
- 云端试用:
- 访问官方体验入口,浏览器直接上传 4 M 以内文本,实时查看 latency 与能耗报告。
-
- 行业定制:
- 提供 76 B 版本 API,支持参数高效微调(LoRA-SNN),可在私有集群一键蒸馏专属领域模型。
-
- 模型转换:
- 官方脚本可将已有 Transformer 权重热启动转换为脉冲等效结构,再稀疏微调,节省训练预算。
-
