首页 > 最新动态 > 重磅直播 | 英特尔XEON RAS为AI服务器护航
最新动态
重磅直播 | 英特尔XEON RAS为AI服务器护航
2024-05-234

收录于话题

#CCF Talk

5月28日(周二),三位英特尔中国数据中心服务器技术专家将为大家介绍英特尔至强平台上的RAS技术在AI服务器上面的应用,并演示不同类型错误发生后纠正和恢复的效果,深入探讨在CPU节点RAS技术的开发部署与优化的专家之道。通过本文详细了解并预约,千万别错过!


点击了解关于CCF Talk



敬请关注CCF公众号和视频号,获取最新直播信息并观看往期精彩回放!集结CCF独家专业资源,优秀专家学者在此聚汇,欢迎每晚19:30准时来到“CCF Talk”直播间,专家与你“聊计算”!



直播主题:英特尔XEON RAS为AI服务器护航

时间:5月28日(周二)19:30开始


当下,当人们探讨人工智能(AI)时,他们往往会想到支撑AI的庞大计算能力。而这一强大算力的基石,正是历史上最为先进和复杂的AI服务器以及高性能的异构计算体系。与传统服务器相比,AI服务器通常装备了多个GPU、庞大的内存和存储资源,以及精密的网络拓扑结构,旨在提升深度学习及其他AI应用的计算效率。在实际操作中,为了训练AI模型,众多AI服务器需协同作业。一些国内互联网公司甚至已将大型语言模型的训练扩展至超过10,000个GPU的规模。在这些可能持续数周的训练任务中,主节点的任何故障都可能影响到整个系统,导致多个GPU同时失效。在如此庞大的规模下,单个瓶颈就可能拖慢整个作业的进度,这个作业可能涉及成千上万的GPU。尽管软件解决方案可以迁移和恢复节点上的任务,但处理器节点系统中的可靠性、可用性和可维护性(RAS)能力对于提升AI服务器的稳定性至关重要。

什么是AI服务器,什么是RAS? 

处理器节点和GPU节点的RAS功能都有哪些考虑?有什么共性和不同?
在稳定性指标上面有哪些技术?
在可用性指标上面有哪些技术?
在维护性指标上面有哪些技术?


主讲嘉宾:

苑方 英特尔数据中心与人工智能集团服务器客户方案技术领导人

报告主题:《关于AI服务器系统RAS设计讨论》

资深RAS专家,在固件开发设计领域有二十多年的从业经验,近年服务国内顶尖科技公司的服务器开发的架构设计。


范飞飞 英特尔数据中心与人工智能集团服务器客户方案技术工程师

报告主题:《关于处理器节点的RAS设计讨论》

资深RAS专家,近年服务国内大型互联网公司的服务器开发设计支持,包括RAS方案优化,以及线上云服务器的故障诊断等。

 

龚发强 英特尔数据中心与人工智能集团服务器客户方案技术领导人

报告主题:《关于GPU节点的RAS设计讨论》

资深RAS专家,在固件开发设计领域有二十多年的从业经验,近年服务国内顶尖原始设计/设备制造商的服务器开发设计支持。包括RAS方案优化等,他开发的RAS工具包被广泛应用于服务器开发中。


主持嘉宾:

周瑜锋 英特尔数据中心与人工智能集团服务器客户方案经理

在固件开发设计领域有二十多年的从业经验。近年服务国内大型互联网公司的服务器开发设计支持,包括服务器固件设计,RAS方案优化,以及线上云服务器的故障诊断等。


强烈建议通过本文中的二维码或直播入口提前预约,开播时会收到铃音提醒,一键直达直播间,保证不错过!


CCF Talk直播间预告将时时发布在CCF公众号及视频号,记得一定要及时关注,获取最新直播信息!


重磅会议在线发布、职业发展与规划、精彩活动在线直播——对计算领域进行多方位了解和学习,提升你的专业水平,打开更广阔的专业格局,与计算领域重磅专家进行面对面的互动交流,欢迎每天晚上19:30准时来到“CCF Talk”直播间,众位专家和你“聊计算”!




点击“阅读原文”,加入CCF。

阅读原文

点我访问原文链接