一、介绍
TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型,支持“思考模式”并在全国产算力上完成 15T tokens 训练,可对标国际顶尖水平。
TeleChat3 是中国电信 TeleAI 开源的国产千亿参数 MoE 大模型,支持“思考模式”并在全国产算力上完成 15T tokens 训练,可对标国际顶尖水平。
二、详细介绍
1 主要功能
- 千亿参数 MoE 架构,支持中英双语及多任务通用语义理解
- 内置 Thinking 模式,可输出分步推理过程,提升结果可追溯性
- 提供 Base、Chat、Long-Context 等多版本,支持 4K~32K 长度可变输入
- 开放训练代码、推理框架、模型权重与部署脚本,支持二次开发与私有化落地
- 集成插件体系,可外接检索、工具调用、行业知识库,快速构建领域 AI 应用
2 技术原理
- 细粒度 Mixture-of-Experts:将千亿参数拆分为 64 路由专家网络,激活参数量 < 10%,降低推理成本
- 全栈国产算力训练:基于昇腾 910B NPU+MindSpore 框架,实现 15T tokens 持续预训练,摆脱对海外 GPU 依赖
- Thinking 模式:在 SFT 阶段引入“思维链”数据,让模型在回答前显式生成中间推理步骤,减少幻觉
- 长上下文优化:采用 RoPE+FlashAttention2 组合,支持 32K 长度一次性输入,保持首尾一致性
- 安全对齐:通过多轮 RLHF+红队对抗,内置内容安全过滤模块,满足国内合规要求
3 应用场景
- 政务与城市治理:政策问答、12345 智能工单、城市事件语义分析
- 电信与 IT 运维:网络故障根因定位、日志知识库问答、客服坐席辅助
- 金融与工业:研报生成、合规文档审查、设备维护手册智能检索
- 教育科研:个性化习题讲解、论文研读助手、开放域知识科普
- 通用 Copilot:PPT/Excel 生成、代码补全、会议纪要、邮件起草
4 使用方法
- 访问 GitHub 仓库 https://github.com/Tele-AI/TeleChat3 克隆代码
- 安装依赖:pip install -r requirements.txt(含 MindSpore、Transformers 加速库)
- 下载权重:提供 ModelScope、OpenXLab、百度网盘三通道,选择 bf16/int8 版本
- 快速体验:python chat.py --model telechat3-12b --prompt "请解释 MoE 的原理"
- 生产部署:
- 单机多卡:昇腾 910B×8,使用 MindIE 推理服务,吞吐量 1200 tokens/s
- 集群分布式:Kubernetes+Volcano,支持 32K 长上下文批处理
-
- 二次训练:准备领域语料,运行 continue_pretrain.py 或 lora_finetune.py,支持 DeepSpeed-Zero3
