每秒2880万亿次浮点运算,联想服务器再夺Green500桂冠

来源:武汉联想摩托罗拉招聘中心   时间:2023-07-17 19:17:45


在高性能计算领域,TOP500排名用来衡量全球高性能计算机的算力性能。随着算力规模的指数级增长,双碳背景下,如何在限定的功耗下做到最高算力成为新的挑战。Green500排名不仅关注计算机系统的性能,还着重考虑其能源利用效率,以促进更加可持续的算力技术发展。

与TOP500榜单发布周期一样,Green500榜单也是每年6月份和11月份各公布一次。今年6月份的Green500榜单显示,美国纽约Flatiron研究所的Henri高性能计算集群以65.40GFlops/W(每瓦654亿次浮点运算)的能效,再次夺得Green500排行榜第一名。更重要的是,经过进一步的系统改进,Henri系统在TOP500榜单上的成绩有了更优异的表现。其排名从去年11月份的第405位提升至第255位,当前HPL(高性能Linpack基准测试)得分为2.88PFlops(每秒2880万亿次浮点运算)。

Flatiron研究所成立于2016年,科学研究方向涉及天体物理、生物学、量子物理、数学、神经科学等多个前沿领域。这些领域的研究都离不开算力的支撑。仅以天体物理中的黑洞模拟为例,为了模拟超大质量黑洞在星系演化中的作用及影响,就需要数百个CPU并行工作,并要花费数百万CPU小时的时间。为了能够快速获得结果,这种资源密集型的模拟,就需要高性能计算设施的支持。

Flatiron研究所的Henri高性能计算集群由联想集团搭建。Henri采用了联想ThinkSystem SR670 V2 AI服务器。这款AI服务器采用3U高密度设计,搭载两个第三代英特尔至强可扩展处理器,不仅最早支持NVIDIA的Hopper旗舰型GPU,更可以支持庞大的NVIDIA Ampere数据中心产品组合。

同时,SR670 V2接入了NVIDIA量子级200Gb/s InfiniBand网络,为高性能计算集群各节点之间提供了高带宽,低时延,高可靠的网络互联,最大限度地释放了集群内的计算潜能。

去年,Henri系统创造了65.091GFlops/W能效纪录,超越了之前的纪录保持者,取得Green500榜单第一的成绩。当时,Henri系统规模共有10个计算节点,包含80套最新的NVIDIA H100 GPU。面对不断增加的数据分析及建模需求,Flatiron研究所在联想的协助下,今年对Henri进行了系统优化升级。

最新的Henri系统具备了14个计算节点,NVIDIA H100 GPU数量增至112套,在算力有效增强的前提下,能效也得到了进一步提升。

联想ThinkSystem SR670 V2是全球第一个采用NVIDIA H100 PCIe协议的AI服务器。SR670 V2独特的体系结构没有将PCIe显卡“硬连接”到特定的CPU,而是允许将GPU动态分配给CPU。先进的系统设计思路,允许客户可根据其正在运行的作业,优化系统的GPU资源。

由于采用PCIe协议,使得一套联想ThinkSystem SR670 V2可以容纳8个最新GPU,获得惊人的计算性能。从实测性能来看,一个容纳13套SR670 V2的标准机架上,就可以产生高达2 PFlops的算力,这个成绩足以进入TOP500排名。

另外,联想ThinkSystem SR670 V2也有支持4个GPU的混合液冷型号。通过原生NVLink协议互联,SR670 V2可提供更高的带宽和更低的延迟,实现显存的叠加和性能扩展,从而最大限度满足大规模AI计算工作负载的需求。

在优化系统性能,提升最佳能效比的过程中,除了对服务器硬件的性能优化外,软件平台对于发挥高性能计算集群的硬件优势也至关重要。

● 为了更加高效地利用平台性能,充分发挥硬件平台算力优势,联想专门为用户提供了高性能计算管理平台LiCO(Lenovo Intelligent Computing Orchestration)。LiCO平台可为用户提供简单、易用、可视化管理服务,具备了管理、监控、报警、作业调度等多种高性能计算功能,有效提升了高性能计算集群的管理和性能利用能力。另外,LiCO管理平台也提供了一系列优化策略,可以在减少集群能耗的同时提高计算性能,从而提升高性能计算集群的能效。

其中,在能源管理方面,LiCO管理平台可以监控集群的能耗情况,并提供能源管理策略。LiCO能够动态调整CPU的运行频率,并根据系统运行情况,动态调整风扇的运行速度。同时,通过动态调整能耗,可以让系统运行在兼顾性能和节能的状态,更有效地利用能源,并降低整个集群的能耗。

在作业调度优化方面,LiCO可以通过智能的作业调度算法,将并行计算任务合理地分配到计算节点上,以最大程度地利用计算资源。通过减少任务之间的资源竞争和排队等待时间,可以提高集群的效率,降低能耗。

针对人工智能模型训练需要使用GPU的特点,为了最大化利用GPU性能,联想LiCO提供了一站式解决方案,在一套集群中通过统一的资源调度,可同时支持HPC作业和AI作业运行。LiCO集成了集群需要的调度软件、监控软件、计算库及分布式文件系统等,可以帮助客户快速部署好一个HPC和AI集群。

特别是联想LiCO中提供了Platform LSF集群管理软件,实现了软硬件资源的共享调度。Platform LSF可以将所有软硬件资源有机地组合在一起,根据事先定义的调度策略统一管理,大幅提升软硬件资源的利用率。

通过持续的硬件优化和软件优化,联想大幅度提升了高性能计算平台的能效,为绿色算力和双碳目标的实现做出了显著贡献。同时,联想在算力领域的不断耕耘也取得了丰硕的成果。联想x86服务器已连续三个季度蝉联全球第三,呈现迅猛增长势头,进一步巩固了联想在助力算力基础设施建设方面的领导地位。

另外,联想全球AI基础设施业务年度收入已突破20亿美元。为了加速全球企业的AI部署,联想宣布将在未来三年追加投资10亿美元。这一雄心勃勃的战略举措凸显了联想布局AI算力的决心和实力。此举也必将进一步推动人工智能技术的发展,并为千行百业的智能化转型提供强有力的支持。

展望未来,联想不会止步于目前在算力领域取得的成绩。作为联想方案服务的重要组成部分,联想在算力方面将不断投入,为助力高性能计算和人工智能持续迈向新高度贡献力量。



Copyright ©2024 www.lianxiangjob.com 
武汉众诚云网科技有限公司 技术支持
鄂ICP备2022020375号