2023年的ChatGPT,到2024年的Sora,AI和大模型正以不可思议的发展速度颠覆着业界的认知,但大模型的火热登场,也进一步引爆了智能算力的需求。传统算力时代,算力需求每18-20个月翻一倍,在深度学习出现之后,算力需求每6个月翻一倍,而到了大模型时代,对智能算力的需求几乎是每年数百倍的增长。
在此过程中,可以看到数据中心的机柜功率越来越大,能耗越来越高,这也意味着数据中心行业所面临的“双碳”任务更加艰巨与紧迫,同样更对数据中心的“节能减排”提出了更高的要求。
也正因此,液冷成为了未来数据中心供冷的“必选题”,市场热度逐步增加。根据IDC最新发布的《中国半年度液冷服务器市场(2024上半年)跟踪》报告显示,中国液冷服务器市场在2024上半年继续保持快速增长,市场规模达到12.6亿美元,与2023年同期相比增长98.3%。IDC预计,2023-2028年,中国液冷服务器市场年复合增长率将达到47.6%,2028年市场规模将达到102亿美元。
在此背景下,联想近期面向本地用户重磅发布了“联想问天海神”液冷品牌,该品牌基于联想20年来领先的液冷技术打造,更加聚焦国内市场,希望能够为本土客户提供符合国家标准,匹配中国数据中心设计、兼容本地处理器和软件生态的液冷解决方案,助力客户加速绿色升级。
客观地说,液冷技术从最初应用于科学计算领域,经过不断地发展和演进,特别是在数据中心能耗攀升以及“双碳”的需求牵引下,开始进入到更多的行业场景,而此时联想推出“联想问天海神”液冷品牌,以全场景液冷产品线,完善的液冷方案组合以及大规模高质量的交付经验服务中国用户,不仅代表着联想已经站在了液冷技术创新的主航道,更预示着数据中心将加速迈入“液冷”新时代。
01.
面向中国市场,
提供全场景液冷产品线
事实上,液冷并不是一个“新名词”,其是在解决数据中心服务器高密度部署出现的散热难题推出的一项技术,诞生于上个世纪80年代,但之前主要是一些超大规模互联网用户和高功耗计算用户在应用,其产业爆发的“拐点”发生在最近两三年。
一方面,从技术演进看,随着近两年智算中心的爆发,更高功耗的GPU成为了智算型服务器中的最主要功耗贡献者,尤其在训练服务器中,单服务器内多颗大功耗的GPU可占据整体服务器的80%—90%功耗。因此,如何降低服务器内部CPU+CPU的功耗变得日趋严峻。
另一方面,从国家政策看,为了降低数据中心能耗、助力实现双碳目标,国家对于数据中心的PUE指标要求逐年提升。《数据中心绿色低碳发展专项行动计划》中就提出,到2025年底,新建及改扩建大型和超大型数据中心的PUE指标要降至1.25以内,国家枢纽节点数据中心项目的PUE不得高于1.2 。
据联想中国基础设施业务群服务器产品部总经理周韬介绍,联想在液冷技术领域有着深厚的积累,其中自主研发的联想海神(Neptune)液冷技术已经演进到第六代,不仅汇集了材料学、流体力学、传热学等多学科的科研结晶,能够实现对关键部件100%全覆盖液冷散热设计,同时还面向中国市场推出了全场景液冷产品线,覆盖了从通用计算、智能计算到科学计算的全场景算力。
一是,在智能计算场景,全新升级的联想问天WA7880a G3聚焦于多元算力、灵活配置与节能高效三大方向,作为国产首款支持OAM 2.0模组的服务器,它可兼容国内主流GPU厂商的OAM标准GPU,展现了强大的生态兼容性与前瞻性。在高效节能方面,该服务器通过部署联想问天海神液冷方案,结合独立风道设计,有效降低了运行时的能耗与热量积聚,为用户打造了一个既环保又高效的AI算力中心。
二是,在科学计算场景,联想ThinkSystem SC750 V4 Neptune联手联想问天海神液冷方案,可以实现服务器100%的全覆盖冷板式液冷,从而有效降低整个数据中心的PUE,实现零噪音数据中心。该产品配合第六代垂直液冷产品联想ThinkSystem N1380 Neptune刀箱可实现整机柜交付,单机柜总功率可达100KW以上,在紧凑的封装中实现万亿参数的HPC和AI计算。
除此之外,联想ThinkSystem SD650 V3服务器,通过部署联想问天海神液冷方案,以及通过整机柜全水冷无风扇设计,也使得服务器散热效率高达98%,并实现60%以上的余热回收再利用,降低40%的能耗,让数据中心PUE可降至1.1。
三是,在通用计算场景,面向应用负载更加广泛的通用计算领域,联想推出针对大中型企业和云服务提供商的联想问天WR5220 G5通用服务器,支持关键部件如CPU、MEM及GPU等液冷散热方案。
此外,针对内存液冷散热,联想还创新打造“百变精硅”等多项创新技术,采用定制的软硅材料制作成1.27mm双层超薄导热垫的内存液冷模组,恰到好处的软硅压缩比既保证了与内存的充分接触和热传导效果,同时又确保在插拔安装过程中不会损伤内存且每根内存可独立操作;通过精确到0.01毫米级的软硅厚度调试与测试,不但保证了软硅与内存颗粒的接触缝隙,还允许在19英寸服务器内排列32个DIMM的结构。
周韬进一步表示:“联想服务器产品线实际上从G3这一代就已经有部分产品开始支持液冷设计,甚至是全液冷的覆盖;而到了G5这一代,则基本上可以做到全线产品都会支持液冷设计。未来两年,无论是不同的CPU处理器,还是不同的GPU处理器,以及不同的计算应用场景,联想都会实现液冷产品的全方位布局。”
由此可见,在当前数据中心走向液冷时代的重要关口,联想“与时俱进”的将液冷技术标准化和产品化,并面向中国市场打造出了全场景的液冷产品线,不仅为数据中心带来了更加高效和丰富的液冷产品线,更为中国用户提供了一个面向数据中心绿色升级的最佳选项。
02.
打造中国方案,
构建完善液冷方案组合
我们常说:“机遇总是留给最有准备的人。”
那么,为什么联想能够打造出全场景的液冷产品线呢?——背后的关键原因,既源于联想过去多年来持之以恒在液冷技术进行投入研发的韧性,更源于联想一直致力于构建技术领先、质量可靠、服务完善的液冷方案组合,这正是联想能够确保数据中心实现绿色高效与稳定运行的底蕴与底气。
对此,联想中国基础设施业务群服务器研发总监李鑫表示,作为液冷技术的最早探索者之一,在近十余年中,通过不断的演进,结合超过七万节点的液冷服务器集群交付项目经验,锤炼出联想液冷方案最佳实践,并一代又一代的融入到联想企业级液冷产品、方案和服务中,沉淀出了联想企业级液冷全景图。也正因此,无论是在液冷技术、质量安全保障和服务保障方面,联想都有着深厚积累以及丰富的实践,具体来看:
首先,液冷技术创新方面,在冷却液领域,联想问天海神液冷解决方案,创新性地采用成本低、无污染的去离子水作为热量传输介质,通过出色的并行水回路设计及微通道散热器设计,可降低CPU、GPU等部件的性能抖动,Linpack效率可提升5%-10%;在全冷板设计领域,联想问天海神液冷解决方案实现对CPU、GPU、内存、IO设备及电源等关键部件100%全覆盖液冷散热设计,散热系统机械故障率接近于0,大幅提高了系统的可靠性,且标准机架服务器可做到内存32根全液冷板,采用VR+CPU+DIMM冷板方案,液冷覆盖率居行业前列。
此外,在冷管设计上,全部采用预制医用304不锈钢管道,耐腐蚀性强且使用寿命长,有效防止表面氧化和腐蚀,适用于潮湿和化学腐蚀环境。二次侧预制冷管设计,无需焊接,无需现场加工,保障施工清洁度。除此之外,为了最大限度降低漏液带来的风险,联想问天海神液冷方案通过冷板漏液感应线能够实时监测服务器机柜内的冷板表面及链接管道是否有液体泄漏。这一创新技术能够迅速发现问题,提前发出预警,从而显著降低业务中断的可能性,并大幅提升系统的稳定性和可靠性。
更为重要的是,联想问天海神液冷方案还支持“600W CPU +1200W GPU”散热,整体PUE指标小于1.1,且热量回收超80%,可将数据中心功耗降低高达40%,极大满足国家对数据中心的“绿色低碳”要求。
其次,质量安全保障方面,联想冷板式液冷服务器采用一体式冷板,冷板加工工艺和检测方面有多重质量安全保障。最为典型的例子,就是焊膏改为一体成型焊片工艺,进一步提升焊接质量稳定及可靠性,焊着率提升到85%以上超出国标要求(国标为80%),依据实际应用要求增加最小焊缝管控并提升管控标准,焊接厚度>=1mm,保证无漏点。在基础上,通过AI辅助检测技术,还实现100%无损检测,为整个液冷系统提供更加坚实的质量安全保障。
除了生产制程实施严苛,联想冷板式液冷服务器在出货前,其冷板组件还执行100%干燥并监测管路内部湿度,严格保证出货质量;同时还给管路充氮,预打2个大气压氮气,保证冷板组件管路内部维持在无氧环境无细菌滋生;而在大规模验证方面,联想问天海神液冷技术在中国客户的上万台液冷服务器验证中,三年来未发生任何漏液事件,真正实现了安全可靠“零风险”。
最后,服务保障方面,根据客户的具体需求,联想可提供定制化的联想问天海神液冷部署解决方案,包括服务器选型、系统设计、安装调试等全生命周期服务保障。此外,联想问天海神液冷方案也支持节点交付、标准交付以及一体交付等。
不仅如此,联想还提供专业的超算踏勘部署服务,该服务由原厂专业团队实施交付,提供“交钥匙”服务内容,针对HPC集群系统提供“一站式”无忧服务。同时,AI智算踏勘服务,同样也可以可提供数据中心动环评估、空间承重评估、PUE评估等全方位勘测,让客户的数据中心更好的适配AI设备,最大程度发挥AI设备的计算能力。
