中国电信携手阿里云打造粤港澳大湾区首个“真武”国产万卡智算集群,可承载千亿参数级 LLM 推理任务

淘百科 百科资讯 2

4 月 8 日消息,中国电信广东公司联合阿里云宣布在广东韶关数据中心集群上线“粤港澳大湾区首个基于‘真武’芯片的万卡智算集群”,该集群实现了从芯片、云平台到模型应用的全链路自主研发。

获悉,该集群在技术层面实现了多项关键突破。通过卡间 RoCE 高性能组网、双平面多轨通信等技术创新,集群端到端网络时延低至 4 微秒,网络峰值利用率超过 95%,能够高效满足大模型训练过程中 AllReduce、AlltoAll 等超大流量通信需求,稳定承载千亿参数级大模型的预训练与推理任务。

▲ 图源中国电信广东公司

在生态兼容方面,“真武”芯片全面适配主流 AI 生态,自研软件栈高效适配各类主流模型、框架、算子库及操作系统,具备统一的编程接口,可端到端支持用户自主业务落地与扩展,大幅降低客户迁移成本。

为进一步推动算力普惠,该集群资源同步在“广东电信算力超市”上线,通过集约运营,面向中小企业提供按卡、按小时计费的算力零售服务。同时,集群未来预计持续扩容至十万卡规模,惠及大湾区更多科研机构、企业政务部门以更低成本、更高效率使用算力资源。