张广艳 清华大学
CCF大数据专家委员会执行委员,清华大学计算机系长聘副教授,国家杰出青年科学基金获得者。长期从事大数据计算、网络存储与分布式计算研究,研究方向涵盖存储系统架构设计、分布式容错机制及存算协同优化等领域。
结合我长期从事的大数据存储与管理研究,我认为未来数据与智能的发展可以重点关注三个方面。
第一,要把数据作为面向智能社会的基础要素来系统建设。
数据不仅服务于人工智能,也服务于科学计算、社会治理、产业运行和公共服务等多类场景。它既可以与人工智能深度结合,也可以作为一种相对独立的基础性资源来建设和发展。未来应该统筹推进数据资源建设、数据流通利用、数据安全治理和数据价值释放,形成支撑智能社会发展的坚实数据底座。不能只把数据看作模型训练的原材料,而应把它作为千行百业数字化、智能化转型的基础性生产要素来谋划。
第二,要加强面向领域特征和应用语义的数据管理。
随着大模型、智能体和各类智能应用的发展,系统将持续产生大量新型数据。这类数据往往具有规模大、单体小、更新频繁、上下文关联复杂等特点。例如,智能体运行过程中的交互记录、上下文片段、任务状态和行为轨迹,单条数据可能很短,但总体数量巨大、关联关系复杂、变化频繁。这对数据组织方式、元数据管理、索引结构、查询处理和存储系统都提出了新的要求。因此,未来大数据学科需要进一步发展领域专用的数据管理方法,使存储和管理系统能够更好地适应新型智能应用的数据访问模式和语义特征。
第三,要推动数据存储从“数据容器”走向“数据孵化器”。
过去我们建设存储系统,更多强调可靠性、高性能和低成本,数据放进去是什么样,取出来基本还是什么样。但面向人工智能时代,数据系统不应只是静态保存数据的容器,而应具备在线演进和持续增值的能力。这意味着,随着数据被不断使用、加工和反馈,数据本身的质量应当不断提升。高质量数据不仅能够提升计算准确性,也可以通过重组、加工、压缩和语义增强,降低存储与计算成本,提高系统部署和运行效率。
总体来看,未来大数据发展不能只满足于“能存、能管、能算”,还要进一步追求“用得好、算得快、质量高”。我们需要推动数据从静态资源转变为可持续演进、可持续增值的核心生产要素,为人工智能发展和智能社会建设提供更加坚实的数据基础。
陈全 上海交通大学
CCF大数据专家委员会执行委员,上海交通大学计算机科学与工程系教授,博士生导师。研究方向涵盖计算机系统、并行分布式计算、数据中心及任务调度,主持国家自然科学基金优秀青年科学基金项目及重点项目。
第一,高质量数据集建设的关键之一,是要建立标准化的数据质量评估体系。现在大家都在强调高质量数据,但一个数据集是不是高质量,并不能简单用规模大小来判断,也不能只看数据分布是否看起来合理。更重要的是,要回答它是否适合训练某一类模型,是否能够支撑特定场景下的智能任务。因此,未来需要形成一套可操作、可复用、可快速应用的评估标准。也就是说,当一个企业、机构或者平台提供一批数据时,我们能够较快判断其质量水平、适用范围和潜在问题,而不是仅凭经验判断。这对后续大模型训练、行业智能应用以及数据资源流通都非常重要。
第二,我认为当前算法研究与系统、体系结构研究之间仍存在一定割裂。过去做数据处理算法、智能算法的团队,往往主要关注算法本身,并不充分考虑底层体系结构、硬件特征和基础设施条件;而做系统和体系结构的团队,也常常把上层算法当作黑盒负载来优化。这样就容易出现一个问题:算法在理想环境下效果很好,但真正部署到系统架构上运行时,性能和效果达不到预期;反过来,系统侧做了很多优化,例如异步通信、算子优化等,但算法侧可能担心影响精度而不愿采用,导致系统优化难以真正发挥作用。
最近我们在与一些大厂合作时明显感受到,一个重要趋势是把算法、系统、体系结构,甚至数据相关的研究者组织到同一个团队中,进行更紧密的协同设计和一体化优化。大家不是各做各的,而是围绕同一个目标,从算法、数据、算子、系统和硬件架构等多个层面共同设计。这样的实践效果是比较好的。例如,我们与企业合作开展了一些结合算子、体系结构和算法的工作,已经在实际应用中取得了不错成效。总体来看,未来数据智能的发展不能只依靠单点突破,而应推动算法、系统、体系结构和数据研究者更加紧密地合作,通过一体化构建提升整体效果。
王鹏 西北工业大学
CCF大数据专家委员会执行委员,西北工业大学计算机学院教授、博导,空天地海一体化大数据应用技术国家工程实验室副主任,国家级人才、教育部长江学者特岗教授,陕西省科技创新团队负责人,人工智能专业负责人。主要从事计算机视觉、机器学习及人工智能研究。
围绕这一问题,我们需要在数据对齐融合、关键数据提取、智能分析重建以及数据交互等方面持续发力。结合新一轮技术发展和“十五五”期间相关布局,我认为未来可以重点抓住三个方向。
第一是卫星互联网带来的空天地海一体化应用底座。未来低轨卫星星座将从宽带接入进一步向全域物联演进,可以利用卫星互联网低时延、广覆盖的特点,连接空基、天基、地面、水下等多类平台,打通跨域数据链路,提升实时数据获取和传输能力。这将为空天地海多源数据的一体化汇聚和协同应用提供重要基础。
第二是太空算力的发展。当前星上计算能力总体仍然较弱,且多数是面向特定任务的专用能力,缺少通用化、体系化的算力基础设施。未来如果能够在太空侧构建更通用的计算能力,就可以把智能处理能力前移到数据源头。空天地海数据不仅存在分析处理问题,还受到获取、传输和带宽资源限制。通过在前端开展数据质量评估、智能压缩、语义通信和初步分析,可以在资源受限条件下显著提升数据协同处理效率。
第三是具身智能和群体协同。空天地海数据采集的源头,很多来自卫星、飞机、无人机、无人船、水下装备等无人系统。未来这些装备不应只是单点采集平台,而应进一步发展为具备感知、计算、决策和协同能力的智能体。通过多类无人系统之间的协同,可以在数据采集前端实现任务规划、目标识别、信息筛选和协同处理,从而提高整体感知效率和数据利用价值。
总体来看,空天地海大数据的关键不只是“有多少数据”,而是如何实现跨平台、跨空间、跨链路的数据融合与智能利用。未来应依托卫星互联网、太空算力和具身智能等新技术,推动数据从分散采集走向一体化协同,从后端处理走向前端智能,从单一平台应用走向体系化综合应用,为我国深空、深海、航空航天等重大战略场景提供数据和智能支撑。
后续观点将陆续发出,敬请关注。
点击“阅读原文”,加入CCF。
