随着大模型训练和AI推理需求的爆发式增长,算力基础设施的定位和交付模式正在发生深刻变革。千卡/万卡xPU的超节点架构,异构计算平台成为算力基础设施新常态。
核心挑战:
● 规模挑战: 单个超节点包含数百颗xPU,管理节点数量是传统数据中心数十倍;
● 性能挑战: AI训练对稳定性要求极高,单次故障可能导致数天训练成果损失;功耗墙成为制约算力释放的核心瓶颈
● 效率挑战: 异构硬件适配工作量激增,多厂商设备统一管理缺乏标准。
BMC交付方式由原来的整机厂商的“封闭固化”到“开放生态”;运维方式从“被动响应”到“主动预测”;技术定位由“单一管理”到“边缘智能”。AI越来越多应用到BMC的实际生产环境当中。因此,openUBMC 赛题聚焦前沿方向,提出创新课题新方向:让 BMC 具备“理解”与“对话”的能力。
无论是通过 MCP 协议将大模型客户端与 BMC 侧的 MCP 服务端连接,还是在BMC芯片中部署轻量化 LLM,赛道的核心都在探索同一个问题:下一代的智能服务器运维技术,应该往哪个方向发展?
如果你对以下方向感兴趣,这里将是你绝佳的实践平台:
· AI Agent、MCP 协议、大模型应用开发
· 嵌入式 AI 与端侧推理优化
· Linux 系统与服务器运维
· 开源项目创新与社区贡献
· 边缘计算与智能基础设施搭建
报名链接:
https://www.gitlink.org.cn/competitions/track1_2026openUBMC
本赛题设置一二三等奖若干,两道子赛题分别独立评奖,互不干扰、单独核算。具体奖项设置如下:
子赛题一6万元:
奖项
数量
激励金
一等奖
1组
20000元+获奖证书
二等奖
2组
10000元+获奖证书
三等奖
4组
5000元+获奖证书
子赛题二4万元:
奖项
数量
激励金
一等奖
1组
20000元+获奖证书
二等奖
1组
10000元+获奖证书
三等奖
2组
5000元+获奖证书
AI数据中心面临全新运维瓶颈
传统 BMC 仅实现温控、风扇管控、日志存储等基础运维功能。AI 数据中心集群规模扩张后,多个物理节点组成的逻辑节点,多个逻辑节点组成超节点使得整个运维复杂度陡增,单节点的巡检方式已无法满足运维需求。
当前痛点包括故障排查繁琐、系统无法自主分析异常、逻辑节点不具备告警解读与建议能力——AI 与 BMC 技术的融合创新,已成为迫切需求。
AI数据中心爆发式增长面临全新交付瓶颈
当前AI基础设施部件专业化越来越强,不再是CPU一家独大,GPU,DPU,LPU层出不穷。单卡功率突破KW,部件价值,耗能数量庞大。单点最优不代表系统最优,所以系统级需要调优中心。
业界普遍共识,应该由BMC来承担系统调优职责。调优者可以由芯片商、整机商、CSP完成。但调优算法是相关角色的核心资产,不愿意共享。
而基础设施演进与交付速度越来越快,已经从月级,逐步提速到周级。
集成复杂度的提升,核心资产不愿意共享,叠加交付速率的提升,传统的整机商集成的模式无法满足固件集成的高速要求。
选择 openUBMC 的核心原因
openUBMC是一款轻量级开源 BMC 软件,具备硬件监控和运维管理能力,相比闭源方案,openUBMC更灵活、可扩展,是智能运维实验、技术验证和基础设施生态的理想底座。
openUBMC通过夯实基础框架的运行时管理能力,提供了安全、实时、智能化的runtime框架,支持不同角色通过二进制而非源码协作,而避免了带来的可信与故障扩散问题,支持各领域高效协作集成出安全可信的BMC固件。彻底革新BMC固件的集成模式,带来固件交付的变革。
本次赛事聚焦大模型与 BMC 的融合,优化嵌入式 AI 推理,打开BMC运行时接入新协作模式下的创新场景,夯实运行时底座。优秀成果将有机会并入社区,实现产业应用。
子赛题一:重塑BMC:AI时代智能运维创新平台
本次 openUBMC 赛题设置两道独立子赛题,参赛团队可任选其一完成参赛。
以大模型承接 BMC 核心运维工作,实现对话式智能运维。
参赛团队需在 openUBMC中搭建MCP服务端,打通主流大模型客户端与BMC系统,让大模型自主完成服务器状态查询、日志解析、风扇调速、电源管控、传感器数据读取等操作,实现自然语言驱动的 全自动运维。
示例:输入自然语言故障查询,LLM 自动调用接口、采集数据、分析日志,输出诊断结果。
- 完成 MCP 服务端开发部署
-适配 openUBMC 环境
- 连通主流 LLM 客户端
- 接入至少 3 类 BMC 核心资源(推荐:温度传感器、风扇、系统日志、电源、硬件告警)。
(1)安全机制优化
规避大模型误操作、越权、指令注入风险,搭建权限隔离、工具白名单、MCP 专属安全策略及全流程操作审计体系。
(2)协议性能优化
精简数据结构、优化调用链路、剔除冗余数据、增加缓存机制,降低硬件资源占用,保障系统稳定运行。
实现多 Agent 运维协同、故障全自动溯源、告警智能摘要、自然语言批量运维、MCP 工具动态注册、日志智能诊断及修复建议等,可获得额外加分。
子赛题二:嵌入式芯片的LLM挑战
核心挑战为在Arm A55 四核 @1.5GHz、4GB 内存的受限嵌入式 BMC 模块中,本地部署轻量化大模型,全程不依赖云端服务,搭建基于终端(CLI)的自然语言交互通道。
作品需兼顾稳定运行、低功耗、低响应延迟——这是典型的端侧 AI 嵌入式优化课题。
官方推荐: Phi-2、TinyLlama、Qwen1.5-0.5B;
鼓励自主探索极小参数量模型、MoE 裁剪、极限量化压缩方案,在有限硬件下优化运维交互效果。
- 在指定 BMC 环境中完成轻量化 LLM 的部署与启动
- 搭建稳定的本地 CLI 交互通道
- 支持服务器运维类自然语言问答
示例:输入运维指令,模型输出对应故障分析与建议。
1) 模型量化优化:采用 INT4、GPTQ、AWQ、GGUF 量化,搭配 KV Cache 优化,适配 4GB 内存环境;
2) 推理性能加速:优化首 Token 延迟、生成速率、内存占用,通过推理框架适配、CPU 加速、编译精简提升稳定性;
3) 运维场景优化:定制运维专属 Prompt,接入轻量级RAG 知识库,专项强化日志解析、设备识别能力,贴合真实运维场景。
第一步:夯实基础,熟悉 openUBMC
优先完成环境搭建、模块结构认知、日志系统熟悉、传感器管理链路梳理,深入理解 BMC 的运行逻辑。切勿急于接入大模型功能,避免因基础认知缺失导致设计漏洞。
第二步:落地最小 Demo,跑通核心链路
▌赛题一落地思路
优先实现最简链路:LLM → MCP → 温度查询,仅完成单一工具调用即可,先验证整体通信链路通畅,再逐步拓展功能。
赛题二落地思路
优先跑通轻量化模型基础 Demo,部署 TinyLlama 完成 CLI 基础交互,确认模型可正常加载、Token 可稳定生成、内存无溢出,再开展后续优化。
第三步:迭代升级,搭建系统化能力
▌赛题一迭代顺序
MCP 服务端部署 → 工具注册适配 → 权限安全管控 → LLM 客户端接入 → 多工具协同运维 → 完善安全与优化机制
▌赛题二迭代顺序
模型基础部署 → CLI 交互调试 → 模型量化压缩 → 推理性能优化 → 运维场景 Prompt 适配 → 长时间稳定性测试
赛事官方将持续更新各类配套资源,为参赛团队提供全方位技术支持:
往期推荐
点击阅读原文 报名本赛题
