11月19日,在2020全球超算大会(SC20)上,浪潮发布了新一代HPC集群管理平台ClusterEngineV5,不仅支持超算中心HPC及AI计算负载,为硬件运维、业务管理和应用性能分析提供全栈式高效管理,而且帮助系统管理者轻松管理上万节点,大幅提升了HPC集群的资源利用率和应用计算效率,满足了面向未来的新型超算中心的创新业务增长需求。
ClusterEngineV5提供独有的HPC应用性能分析工具,帮助用户诊断应用瓶颈,提升HPC应用优化效率及质量。该工具可对异构集群进行全方位性能分析,针对AI计算提供函数级应用性能分析,及时定位性能异常,帮助用户深入分析和发现计算性能优化空间。基于该工具的分析结果,用户可结合自身平台的资源使用情况及设备特征,提升应用计算效率及资源利用率。
面对底层硬件,ClusterEngineV5提供一体化硬件运维监控平台,实现服务器、存储、网络设备的全生命周期自动化运维,有效地帮助用户提高运维效率、降低运维成本。平台可实现7*24小时大规模硬件监控管理,快速识别200+类问题,内置30000+专家级大数据规则库,快速诊断故障根因并提供解决方案。同时可以自动监测数据中心功耗,进行智能分析、远程控制、功耗管理,帮助用户节省30%以上的功耗。
面对核心业务,ClusterEngineV5为上万节点HPC集群提供稳定、高效、易用的HPC业务管理平台。可实现HPC和AI应用的统一管理,作业提交流程极简化。并能根据用户业务需求实现灵活的作业调度和管理策略,保证资源充分利用。同时支持容器化,用户可快速部署应用,在多节点并行计算时,保证各节点系统环境一致,并且可通过容器快速部署开发环境,提升开发工作效率。
另外,浪潮ClusterEngineV5打通了硬件监控、业务管理和应用性能分析,提供了一套面向HPC与AI应用场景的全栈式超算中心管理解决方案,涵盖全生命周期集群硬件智能运维、全方位集群监控、应用性能监控、异构集群算力调度分析和调优等,帮助管理人员高效管理HPC和AI负载,降低集群部署和管理门槛,提高资源利用率和计算效率,实现降本增效,推动面向未来的超算中心业务创新。