首页 > 最新动态 > 人机物融合智能化系统基础软件初探 | CCCF精选
最新动态
人机物融合智能化系统基础软件初探 | CCCF精选
2025-07-158


当前,我们已经进入一个以生成式人工智能与人机物融合为主要特征的万物智能互联时代,由此产生的人机物融合智能化系统及应用需要新型基础软件支撑。在资源管理方面,需要将云计算的思想拓展到人机物三元空间,以“软件定义”的方式实现人机物资源的云化管理和按需供给。在模型推理方面,需要面向多场景及异构算力集成不同规模和领域的AI模型,支持混合部署及差异化的推理服务质量要求。在应用框架方面,需要以大模型智能体为基础实现人机物资源及相关软件服务的按需组合以及用户任务的可信规划与执行。本文在阐述相关背景的基础上,针对以上三个方面的技术体系进行了分析和讨论,并对未来的发展方向进行了展望。  



当前,我们已经进入一个以人机物融合与生成式人工智能为主要特征的万物智能互联时代。一方面,计算与通信技术的发展使得我们所处的物理和社会空间的数字化程度不断提高,支撑我们将软件平台所管理的资源和提供的编程抽象泛化到包括计算、存储、网络、软件服务等在内的各类计算资源,包括各种数字化机电设备和可传感物体对象在内的各类物理资源,乃至可通过激励机制调配的人力资源。由此形成的人机物融合系统可以按需汇聚人机物资源以满足各种用户的个性化需求。另一方面,以大模型和智能体(Agent)为代表的人工智能(artificial intelligence, AI)技术飞速发展,为人机物融合系统中的感知、认知、决策和执行等关键环节注入了前所未有的智能活力。由此形成的人机物融合智能化系统以平台化的方式接入和管理各种人机物资源,同时以智能化的方式支持应用的构建和运行。

人机物融合智能化系统及应用需要新型基础软件支撑。在资源管理方面,需要将云计算的思想拓展到人机物三元空间,以“软件定义”的方式实现人机物资源的云化管理和按需供给。所谓“软件定义”是指软件以平台化的方式,向下管理各种资源,向上提供应用程序编程接口(application programming interface, API),其核心途径是资源虚拟化以及功能可编程,由此软件也将成为管理各类资源、融合人机物的“万能集成器”。在智能化能力支撑方面,需要面向多场景及异构算力集成不同规模和领域的AI模型,支持混合部署及差异化的推理服务质量要求。进一步地,在应用框架层,还需要以大模型Agent为基础实现人机物资源及相关软件服务的按需组合以及用户任务的可信规划与执行。





人机物融合智能化应用示例


图1给出了一个典型的人机物融合智能化应用场景。在该场景中,用户即将前往外地参加一场临时安排的会议,需要按照会议时间安排好行程并完成相关准备,以确保按时出发和到达。为此,用户可以通过手机助手发出一条自然语言指令:“我有一个紧急会议,需要立刻出发。”

图 1 “出行安排”人机物融合智能化应用示例

接下来,系统将启动多项并行处理流程,全面协助用户完成出行准备。首先,手机助手调用订票应用(application, App),自动检索符合时间要求的航班并完成订票、选座与行程确认。随后,结合用户当前位置与航班起飞时间,通过打车App预约前往机场的出租车,并合理规划上车时间和地点。与此同时,手机助手从用户邮件中提取主办方发送的会议资料,识别其为此次出行所需的重要文件,并将其提交至办公楼打印系统进行远程打印。打印完成后,系统通过平台调度智能配送机器人,将打印好的文件配送至用户当前所在地。根据用户偏好,手机助手还会通过平台调度办公楼中的智能咖啡机煮制一杯用户喜欢的咖啡,并与会议资料一同配送。此外,手机助手从天气应用获取气象信息,发现将有降雨,便自动为用户准备好雨具,统一打包交由机器人一并送达。

整个流程无需用户干预,完全由包含智慧大楼与个人手机助手在内的人机物融合智能化系统支撑。其中所涉及的多个App、设备与相关服务通过手机助手自动协调、高效联动,同时所需的底层算力与AI模型推理服务也以平台化和透明化的方式提供,展现出自然语言理解、跨平台任务执行、异构设备控制与上下文感知等方面的综合能力。





人机物融合智能化系统整体框架


通过图1“出行安排”的示例可见,要在动态环境中稳定且高效地支撑此类复杂任务,人机物融合智能化系统不仅需具备资源的统一协调能力,而且需构建涵盖感知、理解、规划、执行与持续演化的智能闭环机制。为此,人机物融合智能化系统确立了面向多任务、多场景与多设备环境的整体建设目标:以“软件定义”推动异构资源的虚拟化与调度,依托统一的AI基础设施提供多类型、多粒度的AI模型推理能力,并通过多智能体协同机制保障任务的动态适配与稳健执行。围绕这一目标,图2给出了人机物融合智能化系统整体框架。其中,设备资源基础设施支持异构设备资源的接入、能力封装与按需调度。AI基础设施以AI模型为服务单元,以异构算力为底座,实现模型推理能力的按需供给与动态编排,以及算力的弹性伸缩与动态调度。基于这些基础设施,多智能体助手针对人机物融合智能化应用,通过高度的协调能力与上下文理解能力,在动态环境中灵活地执行多阶段、多主体参与的应用任务流程。一方面,多智能体助手借助设备资源基础设施所提供的设备资源交互接口、标准化的软件服务接口(Web Service或众包平台接口)以及对于已有软件应用(如手机App)的学习和操控获得所需的行动能力,其中功能与通信异构的各型设备的接入与调度是一个难点。另一方面,多智能体助手借助AI基础设施获得其在意图理解、策略规划、方案执行以及反思和学习等过程中所需要的AI模型推理服务。

图 2 人机物融合智能化系统整体框架





软件定义的设备资源基础设施


人机物三元空间中的物理设备,是智能系统中“能”的重要来源以及实现各类智能化场景需求的基础。为此,需要通过设备资源基础设施实现大量位置分散、类型异构的设备资源的汇聚与共享,从而支持资源的按需供给和有序使用。能力可被视为资源的一种内在特质,在特定环境下发挥其效用。能力一般被包装为资源对外提供的功能,尤其对物理设备来说,功能的执行还具有与物理环境交互的时空特征。

通常情况下,开发者可以针对设备实例以硬编码的方式实现协作逻辑,从而构造人机物融合智能化应用。然而,由于设备的状态具有动态性或不确定性,预先固化资源角色以及预先指定资源所要执行的功能可能对应用的可靠执行造成影响。例如,基于传统构造方式,某个在应用执行前被分配了指定任务的机器人可能在应用运行时不在附近区域,因此不适合作为当前任务的执行者;另外,当某个机器人损坏时,其承担任务可能会被迫终止。显然,更好的解决方案是将应用以一种与资源实例无关的方式进行开发,并在运行阶段根据资源状态与时空约束为待执行的任务绑定最合适的资源实例,同时在资源失效或损坏时重新调度可替换的资源实例。例如,图1示例中的配送服务不需要绑定具体的机器人,只需声明该操作需要的能力(配送能力),在运行时根据机器人的能力和实际状态(例如电量)将任务调度给合适的机器人。这意味着以软件定义的方式实现人机物资源的供需解耦,并以类似于云计算的方式实现资源的按需调度是有助于提高人机物融合智能化应用灵活性和健壮性的一种有效途径。为了支持设备资源的云化管理与按需供给,需要对设备进行统一描述、系统接入、能力封装以及按需调度。

物理设备的统一描述  物理设备的系统接入与能力封装首先依赖于对资源的统一描述。在物联网(internet of things, IoT)领域,诸如阿里云IoT、AWS IoT、W3C Thing Description等平台或标准对物理设备构建了相应的描述规范。其中,设备能力大体分为操作与事件。然而,设备的能力具有鲜明的时空特征,应当通过与时空因素的关联进一步刻画设备的行为语义,为应用对设备的调度提供依据。为此,图3给出了一种设备资源能力的描述模式,其中涵盖对设备能力的展现代价的描述。这里的设备能力展现代价与资源自身的属性相关(例如损耗电量的速率等)。另外,针对设备能力的操作,从其前提条件和效果的角度对设备在不同条件下的可执行功能以及对环境状态属性的影响进行结构化描述,反映同一设备在不同环境条件下可以具有的不同行为特征。描述模式还包含了对能力的行为过程的描述,可包含能力在执行时与环境交互的细节步骤,可采用状态机等形式对能力的行为语义进行形式化描述,从而能更好地支持设备行为的刻画。

图 3 设备资源能力描述模式

物理设备的系统接入   物理设备往往采用不同的网络协议与通信协议实现互联。例如,工业物联网领域常借助Modbus协议连接工业级设备,而智能家居场景则通常采用蓝牙等协议接入家庭级设备并用消息队列遥测传输(message queuing telemetry transport, MQTT)等协议实现设备数据传递。系统在接入这些设备时,有必要对协议进行统一化处理,一方面屏蔽设备接入协议的差异性,另一方面将设备能力封装为标准的操作接口和事件接口。目前,诸如Home Assistant、OpenHAB等物联网平台已具备集成数千种设备的能力,开发者可定制平台以开放相应接口。此外,开发者也可自研驱动组件,开发出设备相关的服务和事件接口。通过这种软件定义的方式可以将每一个设备资源抽象为暴露一组外部接口的设备对象,形成其数字孪生体。

物理设备的能力封装与按需调度  在软件定义设备资源的基础上,进一步对一组具有相同能力的设备进行整体服务化封装,以此支持智能化应用对能力的调用以及对具体设备的按需调度。图4给出了一种方案,将同一种能力封装为一个能力单元,每一个能力单元由一个或多个资源对象以及一个能力代理构成。资源对象的操作接口提供命令和查询的能力,资源对象的事件接口提供向外部目标地址或消息队列发送消息的能力。能力代理是连接具有相同能力的资源包装器的访问中介,实现了设备按需调度。代理中包含一个资源对象注册表,记录提供指定能力的资源对象的能力接口地址。设备发现规则用于根据与设备能力调用相关的属性约束和时间、空间约束生成设备实例的绑定决策。代理服务提供统一的能力访问接口,一旦接收能力调用请求,则根据设备发现规则反馈所选择设备的接口地址。在此方案下,可实现机器人在配送任务下的智能调度。其中,提供配送能力的代理注册了多个机器人的操作接口调用地址,它接收智能化应用对配送能力的请求,通过设备发现规则中所配置的考虑距离最近、电量最充足等因素的规则选取最合适的机器人执行任务。

图 4 设备能力封装与调度





基于算力底座的AI基础设施


人机物融合智能化应用所需的AI服务正从单一模型推理迈向多模型、多任务、多场景协同的AI服务体系。其核心在于构建一个软硬件协同驱动的AI基础设施,将从边缘小模型到千亿参数大模型的异构AI能力统一部署于如中央处理器(central processing unit, CPU)、图形处理器(graphics processing unit, GPU)、现场可编程门阵列(field programmable gate array, FPGA)、神经网络处理器(neural network processing unit, NPU)等多样化算力资源之上,实现模型的按需供给与动态编排以及算力的弹性伸缩与动态调度。推理服务贯穿系统各环节,从意图识别、任务规划到界面操作、设备控制,再到反思与学习,均依赖AI模型提供语义理解、视觉识别、决策规划等能力。该基础设施的显著特征在于模型不再孤立运行,而是作为资源感知的服务单元,通过统一运行框架进行灵活编排与组合调用。同时,单个模型实例支持并行处理多个推理请求,在保障服务质量的前提下提升资源利用率与吞吐能力。该基础设施可根据任务类型、时延要求,对用户推理请求进行多粒度划分,按需分派至不同模型和资源,实现跨模型、跨设备的协同推理与负载均衡。

如图5所示,AI基础设施围绕“应用层请求-模型服务单元-异构算力底座”3层架构构建智能协同体系,并以调度中枢为核心,实现任务解析、模型编排与资源分配的全链路协同。来自移动应用、Web服务与IoT设备的多源请求统一接入系统,经由语义识别与任务划分转化为可调度的子任务。调度中枢结合任务特征、模型能力与资源状态,动态完成从边缘小模型到高精度大模型的智能匹配,并跨CPU、GPU、FPGA、NPU等异构平台进行高效分发,构建支持多粒度响应与多精度服务的推理路径。为支撑上述流程的高效运行,AI基础设施需进一步构建以下三大核心能力模块。

图 5 基于算力底座的AI基础设施

模型按需供给与动态编排 随着人机物融合智能化应用从单一场景迈向多任务、多阶段的协同演进,AI推理服务需支持覆盖感知、理解、决策与执行全流程的多模型组合调用。AI基础设施应具备细粒度的任务划分与模型调度能力,能够将复杂任务自动拆解为多个子任务,并按需分派至匹配的模型执行。例如,在智能出行助手场景中,用户的自然语言指令需依次经过语义解析、意图识别、路径规划、界面操作与设备控制等多个阶段,每一阶段均可能由不同模型协同完成。系统不仅需识别模型之间的依赖关系与执行顺序,还需结合模型负载、响应延迟与精度需求进行动态调度,实现“任务?模型?资源”三者之间的最优映射。此外,AI基础设施还应支持单个模型并发处理多个推理请求,结合请求特征进行语义聚合与调度合批,以提升吞吐率,减少上下文切换开销,增强系统弹性。

统一抽象的异构计算运行时环境 针对多样化芯片(如CPU、GPU、FPGA、NPU)构成的异构算力资源,为实现模型的无缝迁移与高效运行,AI基础设施须具备软硬解耦的统一运行时环境。该环境应通过抽象底层算力差异、融合编译优化与运行时资源感知,有效屏蔽芯片架构的异构性,确保模型在多平台上的一致性与高性能执行。当前主流中间表示与编译框架如TVM、MLIR已支持自动算子融合、图级结构优化与内存布局重构,显著提升了模型在异构设备上的运行效率。各厂商也提供了工具链(如TensorRT、OpenVINO、oneAPI),推动软硬件协同优化的落地。然而,实际应用仍面临标准割裂、库依赖强耦合及编译效率瓶颈等问题,尤其在大模型动态结构场景下,稀疏性支持与编译时延仍制约推理部署效率。因此,AI运行时环境不仅需提供通用部署接口,还需整合高效编译路径与异构执行策略,为多模型的快速上线与跨平台部署提供稳定可靠的底层支撑。

面向模型与算力资源双感知的协同调度中枢 作为AI基础设施的核心,调度中枢承担着模型与算力资源的高效协同调度任务。其策略需综合考虑模型特性(如计算密度、显存需求、时延敏感性)、算力设备状态(如负载、能耗、带宽),以及服务质量约束(如延迟时间、吞吐量、成本),实现推理路径的智能选择、模型流水线的动态重构、张量任务的跨设备拆分与调度,从而实现资源利用最大化与推理性能最优化。当前主流推理系统框架如vLLM、TensorRT-LLM和TGI已支持请求批处理、键值(key-value, KV)缓存共享与上下文复用,显著提升了资源利用率。vLLM的Paged KV缓存机制通过词元区块(token block)管理跨请求上下文,大幅降低重复计算。SGLang引入语义级流程编排与预填充(prefill)–解码(decode)分离机制,进一步提升了高并发场景下的调度灵活性与算力利用率。此外,AlpaServe等框架支持跨模型编排与集群级调度,vLLM、TGI with PEFT等方案支持通过插件化的方式集成轻量大语言模型的低秩自适应(low-rank adaptation, LoRA)适配器,满足多业务差异化需求。为进一步提升该模式下的运行效率,本研究团队构建了具备语义感知与缓存引用感知能力的轻量级推理框架。该框架支持LoRA动态热插拔、上下文隔离与多阶段KV缓存复用,并在批处理、prefill、decode等关键阶段引入调度优化机制,以提高推理吞吐和显存利用效率。尽管已有探索取得积极进展,当前系统仍面临两大挑战:一是动态性不足,策略难以适应请求负载变化;二是协同性薄弱,多模型之间的资源复用与流水线协作尚处于初级阶段,缺乏统一的数据流调度、显存管理与推理路径选择机制。





基于多智能体的智能化应用


在设备资源基础设施和AI基础设施的基础上,基于多智能体的智能化应用通过高度的协调与上下文理解能力,在动态环境中灵活执行多阶段、多主体参与的任务流程,从而实现用户目标。这不仅要求系统能够准确解析自然语言指令并将其拆解为若干子任务,还需支持跨应用操作、物理设备控制与实时交互反馈,最终构建“规划—执行—反思—学习”的闭环系统,如图6所示。

图 6 基于多智能体的智能化应用框架

任务规划  任务执行首先依赖于系统的全局任务规划能力。面对如“我有一个紧急会议,需要立刻出发”这类语义模糊的自然语言指令,系统需解析其中隐含的多个子目标,并自动生成跨时间、跨平台的执行链条。例如,“预订航班”“安排交通”“打印会议资料”“调度机器人交付”“准备饮品与雨具”等任务需按照逻辑时序与资源可用性进行拆分、排序与分配。此过程不仅依赖语言理解,更要求系统具备对用户历史行为、日程安排、设备状态等上下文信息的建模与调用能力。

任务执行  在具体执行阶段,系统应同时具备面向移动应用的操作能力与面向物联网设备的控制能力。前者包括识别常见移动应用界面、理解控件功能、规划操作路径,如在订票应用中选择航班、填写信息、完成支付,在打车应用中设定起止点、选择车型并发起预约。系统需能动态适配不同版本、布局与功能变化的应用界面,应对控件样式与层级结构变动所带来的不确定性。后者则要求系统能通过统一的通信接口访问并控制各类联网物理设备,如打印机、咖啡机与配送机器人,实现虚拟任务与物理动作的高效映射。

任务反思  为保障任务执行的准确性与用户满意度,系统还须具备动态交互与反馈机制。鉴于用户的初始指令可能存在信息缺失或语义模糊,例如未明确会议资料的名称或具体出发时间,系统应在执行过程中主动发起澄清性对话,以低干扰、高效率的方式补全关键信息。同时,系统还需理解用户偏好,动态调整操作参数,如优先航班时间段、饮品口味、雨具类型等,从而实现更加个性化的服务体验。

持续学习  任务完成后,系统应具备自我学习与知识积累能力,以持续优化未来任务的执行效果。在长期运行过程中,系统应自动记录并分析任务中涉及的应用结构、控件功能、用户操作路径及失败案例,从而构建涵盖界面知识、执行策略与恢复机制的经验库。通过持续抽取与泛化这些经验,系统可逐步形成稳健的操作模型与决策机制,即便面对应用更新、新增设备或任务变化,也能快速适应,保持高效执行。

尽管现有智能系统在自然语言理解、任务拆解与设备控制等方面取得了一定进展,但在面向真实环境中的复杂人机物融合任务时,仍存在明显的能力瓶颈。当前主流的基于大语言模型的智能体系统在运行效率、稳定性与任务一致性方面尚难满足实际需求。一方面,系统依赖语言模型进行逐轮推理,任务响应速度缓慢,难以支持高并发、低延迟的场景;另一方面,语言模型在生成操作指令时常出现偏离环境状态的幻觉现象,导致操作与界面不符,任务失败率较高。此外,这类系统普遍缺乏结构化的行为记忆,无法积累与复用过往操作经验,每次任务执行几乎从零开始,执行效率与适应能力难以提升。在面对异构应用、动态界面或复杂设备联动时,其操作策略也常表现出脆弱性与不稳定性。加之当前系统大多缺少明确的模块化控制与多智能体协同机制,无法实现任务之间的有效解耦与并行调度,从而限制了其在真实世界复杂场景中的应用能力。因此,构建面向人机物融合任务的下一代智能系统,必须突破现有智能体在推理效率、行为可靠性与经验演化方面的核心限制,发展出具备高效规划、稳健执行与持续学习能力的协同代理体系。这不仅是实现复杂任务自动化的关键路径,也是推动通用智能体从实验室走向现实世界的重要基础。





未来展望


首先,设备资源的云化管理与按需供给仍然面临以下2个方面的挑战。一方面,设备接口的代码大多依赖开发者手工编写,实现网络协议和通信协议的转换。此外,能力所对应的设备操控逻辑往往比较复杂。例如,机器人的物体抓取能力涉及复杂的微观控制。因此,未来需要依赖智能化技术实现接口的自动化生成与设备能力的自主化执行。另一方面,同类型能力的设备调度一般依赖于设备属性信息及简单的时空因素,设备的调度决策仍处于一个较为初步的程度。在未来工作中,可根据设备能力的行为过程描述以及设备操作对环境的影响,规划出符合实时环境安全等约束条件的设备调度决策。

其次,随着AI逐步实用化与规模化,当前的AI基础设施正面临两大核心挑战,即请求异质性的持续增强以及边端资源受限场景的快速增长。一方面,请求异质性正成为人机物融合智能系统调度复杂性的核心来源。不同用户请求在上下文长度、响应时延、任务类型(问答、摘要、多轮对话)上差异显著,传统静态批处理和固定推理路径难以满足服务质量约束。未来AI基础设施须具备基于细粒度语义感知与负载动态预测的实时优化能力,支持token级或block级的跨模型推理路径智能调度与请求优先调度。另一方面,为应对边端资源受限的挑战,AI基础设施需构建高可复用的KV缓存管理机制与高效的异构内存调度策略,提升token/ block和显存池的复用率。当前KV缓存管理通常采用最近最少使用(least recently used, LRU)的驱逐策略,缺乏对请求间依赖关系和重用价值的建模,容易导致关键缓存频繁被驱逐。未来AI基础设施应优化KV缓存管理机制,结合请求依赖关系与上下文复用模式,精准控制缓存保留与驱逐策略。AI基础设施还应构建具备跨任务共享能力的内存池化机制,实现缓存与显存的全局统一调度,进一步提升边端部署环境下的资源利用效率与响应能力。

最后,复杂的人机物融合智能系统需在任务理解与规划、跨平台控制、个性化交互与经验演化等多个维度协同构建能力体系。这些能力的联动不仅支撑系统在动态、异构、开放的现实环境中稳定运行,也为其不断提升性能与服务质量提供了坚实基础。然而,要真正支撑此类系统在多任务、高并发场景中的可靠运行,仍需正视其面临的核心挑战:一是任务理解的模糊性,二是执行环境的复杂性,三是系统能力的持续演进压力。这些问题共同构成对系统鲁棒性与智能性的严峻考验。为实现跨应用、跨设备的高效协同,系统必须建立一整套针对性机制进行响应与优化。具体而言,首先,用户自然语言指令往往表达不完整,包含大量模糊信息,例如未指明时间、对象或偏好。系统须具备强大的上下文感知与对话澄清能力,能在任务执行过程中主动发起交互,补全关键信息,确保系统操作与用户真实意图保持一致。其次,移动应用界面结构复杂且更新频繁,物联网设备种类繁多、控制方式多样,构成了高度异构的执行环境。系统不仅需动态识别与适配各类界面与控件,还需对设备控制方式进行抽象统一,实现虚拟任务与物理操作的一体化调度。最后,系统必须保障执行流程的稳定性与可持续性,尤其在面对任务链长、操作频繁或资源竞争的场景下,具备错误恢复与路径优化能力显得尤为关键。系统应通过记录历史任务、提炼通用策略,逐步形成可自适应的行为模型,在持续学习中提升整体运行效率与鲁棒性。

彭鑫

CCF杰出会员,软件工程专委会副主任、开源发展技术委员会常务委员。复旦大学计算与智能创新学院教授。主要研究方向为软件智能化开发与运维、人机物融合泛在计算系统、智能汽车与工业软件系统。pengxin@fudan.edu.cn

陈碧欢

CCF高级会员。复旦大学计算与智能创新学院副教授。主要研究方向为软件供应链、AI系统工程、智能汽车基础软件。

bhchen@fudan.edu.cn

沈立炜

CCF专业会员。复旦大学计算与智能创新学院副教授。主要研究方向为人机物融合系统软件、云原生与云计算、泛在操作系统。shenliwei@fudan.edu.cn  

其他作者:孙家正、蒋皓文

本文发表于《计算》第3期




图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接