首页 > 最新动态 > 华佗开源生态再添新翼:正式支持沐曦GPU,观测能力拓展至国产算力底层
最新动态
华佗开源生态再添新翼:正式支持沐曦GPU,观测能力拓展至国产算力底层
2026-03-1111


近日,CCF华佗开源项目(HUATUO) 生态迎来重要进展:项目现已实现对沐曦(MetaX)GPU的深度观测支持。开发者可通过华佗平台,实时获取沐曦GPU的关键运行指标,这将进一步丰富华佗在异构计算环境下的可观测能力,为云原生、AI训练等场景的运维诊断提供更全面的数据支撑。


  HUATUO 华佗   

HUATUO(华佗)是由滴滴开源并依托 CCF 孵化的操作系统深度观测项目,专注为云原生通用计算,AI 计算,云服务,基础服务等提供操作系统内核级深度观测能力,《滴滴操作系统可观测 HUATUO 项目正式入驻 CCF》

华佗项目GitLink地址


https://www.gitlink.org.cn/ccfos/huatuo


适配介绍

HUATUO 通过调用 MetaX libmxsml 获取实时的 GPU 数据,在开启了 MetaX GPU 监控后,可以在华佗中查询到 GPU 相关的数据,如:

1. GPU 基础信息:如 GPU 型号、GPU 标识、驱动版本等
2. GPU 状态:如 GPU 功耗、温度、利用率、时钟频率等
3. GPU 通信:如 PCIe 速度、带宽,MetaXLink 速度、带宽等

这些数据可以帮助我们更加清晰地定位生产环境中的各种问题。有关指标的详细说明,请见后续的"指标介绍"章节。如果想要启用 MetaX GPU 的监控,需要将以下内容挂载到容器中的对应位置:

1. /opt/maca:/opt/maca
2. /opt/mxdriver:/opt/mxdriver
3. /dev/dri:/dev/dri

Docker 容器的启动命令为:

docker run --privileged --cgroupns=host --network=host \
        -v /sys:/sys \
        -v /proc:/proc \
        -v /run:/run \
        -v /opt/maca:/opt/maca \
        -v /opt/mxdriver:/opt/mxdriver \
        -v /dev/dri:/dev/dri \
        huatuo/huatuo-bamai:latest

如果是在 K8s 中使用,则创建相应的 PV 与 PVC 即可。在容器启动完毕后,访问其服务地址的 /metrics endpoint,如果输出中包含带有 metax 字样的指标,则成功采集了 GPU 数据。


指标介绍

1. GPU index:GPU 的索引,根据 GPU 模式的不同有所区分:
    - Native 模式和 VF 模式的 GPU 索引从 0 开始。
    - PF 模式的 GPU 索引从 100 开始。
2. CE:Correctable Errors, 可纠正错误
3. UE:Uncorrectable Errors, 不可纠正错误
4. MetaXLink:MetaXLink 是用于 GPU 间通信的专有互联技术。每块 GPU 可拥有多条 MetaXLink 连接,索引从 1 开始。


 结语

开源,正成为连接技术创新与产业升级的关键纽带。在政策引领、产业协同与生态共建的合力推动下,开源创新高地正加速构筑。面向未来,沐曦股份将持续以开源为桥梁,与产业各方同心共策、聚力共建、携手共赢,夯实AI时代的算力底座与软件基础设施,为中国数字经济的高质量发展注入澎湃动能。

Pull request: https://github.com/ccfos/huatuo/pull/133

篇尾:

  • HUATUO(华佗)是由滴滴开源并依托 CCF 孵化的操作系统深度观测项目。

  • 仓库1:https://github.com/ccfos/huatuo
  • 仓库2:https://gitlink.org.cn/ccfos/huatuo
  • 官网:https://huatuo.tech/


文章作者:HUATUO 开源技术




往期推荐


【CCF开源快讯】5分钟速读!03.02-03.08开源大事件

腾讯操作系统 OC 和滴滴 HUATUO (华佗) 项目深度集成

【项目实践指南】如何使用 HUATUO 解决容器 CPUIdle 掉底问题 ?





点击阅读原文 进入GitLink开源创新服务平台





图片


图片


点我访问原文链接