• 最近访问:
发表于 2025-07-26 09:43:20 股吧网页版
摩尔线程打造大模型训练超级工厂
来源:上海证券报·中国证券网 作者:郑维汉

  上证报中国证券网讯(记者郑维汉)7月25日,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,提出“AI工厂”理念。摩尔线程创始人兼CEO张建中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进模型的“超级工厂”。

  据介绍,摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

  五大核心要素决定了“AI工厂”成功与否。“AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性。”张建中介绍道:“这些因素之间是‘乘’的关系,所以每一个环节都要做到极致。”

  加速计算通用性方面,摩尔线程以全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。

  与此同时,摩尔线程基于MUSA架构,通过计算、内存、通信三重突破,显著提升了单GPU运算效率。并且,摩尔线程还通过MUSA全栈系统软件,提升了单节点计算效率。

  而当单节点效率达到新高度,如何实现大规模集群的高效协作成为了新的挑战。摩尔线程KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。

  “整个集群建好后,还要看集群能不能稳定运行。”张建中表示。

  在万卡级AI集群中,硬件故障导致的训练中断会浪费算力。为此。摩尔线程推出了零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。

  此外,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,结合集群巡检与起飞检查,为大规模AI训练提供稳定保障。

  从图形渲染基石到AI算力引擎,摩尔线程全功能GPU持续加速计算革新。张建中表示:“以‘KUAE+MUSA’为智算业务核心,摩尔线程将加速赋能千行百业,推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。”

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500