原创

信创强国(六):GPU

温馨提示:
本文最后更新于 2025年10月18日,已超过 110 天没有更新。若文章内的图片失效(无法正常加载),请留言反馈或直接联系我

 

一、引言

2025年12月,当摩尔线程与沐曦股份在科创板双双上演“首日暴涨超400%”的资本奇迹时,世界终于意识到:中国GPU产业已不再是实验室里的概念,而是一场正在加速落地的国家战略工程

在全球AI竞赛白热化、美国对华高端芯片出口管制持续加码的背景下,GPU——这一驱动人工智能、科学计算和图形渲染的核心引擎,已成为大国科技博弈的“新石油”。过去十年,英伟达凭借CUDA生态构筑了近乎垄断的护城河;而今天,一群中国创业公司正以“国产GPU四小龙”为核心,联合景嘉微、寒武纪等老牌劲旅,在封锁中突围,在替代中创新,试图重构全球算力格局。

二、概念

国产GPU(Graphics Processing Unit)是指由中国企业自主研发、设计并主导生产的图形处理器或通用并行计算加速器。其核心目标不仅是实现图形显示功能,更在于为人工智能训练/推理、高性能计算(HPC)、信创办公、科学仿真等关键场景提供安全、可控、高效的算力支撑。

与传统认知不同,今天的国产GPU已分化为两大方向:

  • 全功能GPU:支持图形渲染 + 通用计算(如摩尔线程、景嘉微);
  • GPGPU/AI加速器:专注AI与HPC,放弃图形功能(如壁仞、燧原、寒武纪)。

无论哪种路径,其终极使命都是打破“算力依赖”,筑牢数字中国的硬件底座。

三、产业

1. 摩尔线程

核心优势:CEO张建中曾任英伟达中国区总经理,核心团队具备GPU架构、驱动、编译器及生态全栈研发能力。

MUSA架构:自研统一系统架构(MUSA),提供CUDA兼容层,通过迁移工具链支持PyTorch、TensorFlow等主流AI框架,显著降低开发者迁移成本。

产品矩阵:

  消费级:MTT S80/S90 GPU,性能对标NVIDIA RTX 3050–4060,已适配统信UOS、麒麟OS等主流信创操作系统;

  数据中心:MTT S4000加速卡,支持FP16/BF16混合精度计算,面向AIGC推理、云渲染等场景。

战略意义:国内唯一同时布局消费级与数据中心市场的GPU企业,致力于构建“硬件+驱动+SDK+应用”闭环生态。

2. 沐曦股份

技术亮点:曦云C600芯片采用全流程国产IP,基于7nm工艺制程,FP16峰值算力达4 PFLOPS,性能对标NVIDIA H20。

差异化:强调“训推一体”能力,既支持千亿参数大模型训练,亦适用于边缘端高效推理。

商业化突破:成功进入中国电信AI服务器集采名单,斩获14.3亿元订单,验证其产品在运营商级大规模部署中的市场认可度。

3. 壁仞科技

产品策略:聚焦云端AI训练市场,全面放弃消费级GPU业务,All in超大规模模型算力基础设施。

BR20X系列(预计2026年推出):采用Chiplet多芯粒异构封装技术,支持高速互连与内存池化,目标支撑单机千卡集群下的万亿参数模型训练。

挑战:曾经历核心团队变动,但依托国家电网、商汤科技、智谱AI等头部客户订单,持续保持高端训练芯片领域的技术竞争力。

4. 燧原科技

全栈能力:构建“邃思”GPGPU芯片 → “云燧”液冷AI服务器 → “驭算”软件平台的完整技术栈,提供端到端交钥匙解决方案。

商业模式:不单独销售裸芯片,而是以液冷智算集群整体交付,大幅降低客户部署、运维与能效管理门槛。

出货量:2024年出货超10万片,已成为百川智能、月之暗面等国内大模型企业的核心算力供应商。

5. 景嘉微

历史使命:作为国内最早从事GPU研发的企业,长期承担党政军办公终端图形安全替代任务。

JM9S系列:采用7nm工艺,支持OpenGL 4.0、Vulkan等现代图形API,3D性能接近NVIDIA GTX 1050,满足日常办公、轻量化CAD设计等需求。

局限:AI算力较弱(INT8仅数TOPS),缺乏大模型训练与高并发推理能力,主要定位于图形渲染与基础计算场景。

6. 寒武纪

技术本质:非通用GPU,而是专用神经网络处理器(NPU),架构针对Transformer、卷积等AI负载高度优化。

MLU590:7nm制程,INT8算力达256 TOPS,在边缘推理、智能安防、车载AI等场景能效比优于NVIDIA A10。

里程碑:2025年第三季度首次实现单季盈利,标志着专用AI芯片在特定推理场景已具备可持续商业可行性。

注:“四小龙”通常指摩尔线程、沐曦、壁仞、燧原;景嘉微与寒武纪虽技术路径不同,但同为国产算力体系的关键拼图。

四、核心瓶颈

尽管国产GPU取得显著进展,但仍面临三大“卡脖子”困境:

1. 生态壁垒:CUDA的“护城河”难以逾越

  • 英伟达CUDA拥有超20年积累,90%以上AI框架默认优化其硬件。
  • 国产厂商虽提供兼容层(如MUSA、TensorLink),但性能损耗10–30%,且高级特性(如NCCL、cuDNN)难以完全复现。
  • 开发者习惯难改,企业迁移意愿低,“有芯片无应用”成为现实痛点。

2. 制造工艺受限

  • 受美国制裁,7nm以下先进制程获取困难。
  • 沐曦C600、寒武纪MLU590虽标称7nm,但实际依赖中芯国际N+2等“等效”工艺,晶体管密度与良率仍落后台积电一代,制约性能与功耗表现。

3. 软件栈成熟度不足

  • 驱动稳定性、编译器优化、调试工具链远不如英伟达完善。
  • 缺乏类似Nsight、DLProf的专业开发套件,增加调优成本;
  • 文档缺失、社区薄弱,开发者“踩坑”成本高。

五、未来趋势

趋势一:“垂直整合”取代“通用替代”

  • 燧原+腾讯、寒武纪+华为昇腾等模式表明:绑定大客户、提供全栈方案比单纯卖芯片更有效
  • 未来国产GPU将更多以“算力服务”形式交付(如智算中心、云API),降低使用门槛。

趋势二:RISC-V + GPU融合探索

  • 部分企业开始尝试基于RISC-V指令集构建GPU控制单元,规避ARM/X86授权风险。
  • 虽短期难成主流,但为长期架构自主提供可能,契合国家“去美化”战略。

趋势三:政策驱动信创市场扩容

  • “2+8+N”信创体系(党政+八大行业)明确要求2027年前完成硬件替换
  • 摩尔线程、景嘉微将率先受益于PC/服务器GPU国产化订单,形成“以用促研”良性循环。

趋势四:开源生态共建

  • 华为昇思(MindSpore)、百度飞桨(PaddlePaddle)正加强与国产GPU适配。
  • 若能推动统一AI加速标准(如中国版oneAPI),或可打破生态碎片化,避免重复造轮子。

六、结语与展望

国产GPU的终极目标,不应是“再造一个英伟达”,而是在AI原生时代定义新的计算范式

  • 摩尔线程的生态野心,
  • 沐曦的性能对标,
  • 燧原的全栈交付,
  • 寒武纪的专用优化,
  • 景嘉微的信创坚守……

每一条路径,都是对中国“算力自主”命题的回答。

前路依然艰险:生态建设需5–10年,先进制程受制于人,国际竞争日趋激烈。但正如2025年那两支科创板新股所昭示的——
中国GPU的故事,才刚刚开始

未来三年关键观察点

  • 摩尔线程能否在游戏市场获得10万级用户
  • 沐曦C700是否真正逼近H100性能
  • 国家大模型智算中心是否大规模采用国产芯片

答案,将决定中国能否在这场算力革命中,从“参与者”变为“规则制定者”。

在“十五五”规划即将启幕之际,国产GPU不仅关乎技术,更关乎国家数字主权、产业安全与未来竞争力。唯有坚持自主创新、开放协作、场景深耕,中国才能真正掌握下一代计算的“命门”,在全球算力版图中赢得属于自己的位置。

正文到此结束