首页 > 最新动态 > 新书推荐 | 一本好书,帮助你更好地理解计算机视觉
最新动态
新书推荐 | 一本好书,帮助你更好地理解计算机视觉
2025-08-0213


中国计算机学会计算机视觉专委会匠心出品《计算机视觉十讲》,系统梳理和总结计算机视觉的前沿研究,帮助不同层次、不同方向的学者、学生和专业技术人员全面了解相关方向,以便快速进入研究和研发工作。




重磅新书推荐





作为人工智能的重要分支,计算机视觉是计算机系统智能化的第一步,也是实现人工智能的桥梁。它以计算手段模拟生物视觉功能,对视觉信息进行表征、理解和解释,是一门让机器学会“看”、懂得怎么“看”、“看”后能反馈的科学。

从20世纪80年代Marr的视觉计算理论提出至今,计算机视觉逐渐成为非常活跃的研究领域,吸引了大量研究人员。经过近50年的发展,尤其是近10年来以深度学习为代表的人工智能方法与计算机视觉研究深入融合并被广泛应用,推动计算机视觉深度、广度的发展以及大量研究的落地,在医疗健康、工业生产、安防监控、社交媒体、遥感遥测、航通航天等领域发挥了重要的作用,对于提高社会管理效率、保障社会安全、满足人民美好生活的向往等发挥了重要的支撑作用。

近年来,计算机视觉研究十分活跃,很多研究方向取得了突破性进展,因此,有必要对该领域的前沿研究进行梳理和总结,帮助不同层次、不同方向的学者、学生和专业技术人员全面了解相关方向,以便快速进入研究和研发工作。


一、计算机视觉研究体系



计算机视觉研究方向非常丰富。从数据维度,计算机视觉研究包括二维静态视觉(图像处理)、二维动态视觉(视频处理)和三维视觉处理等;从处理方法维度,包括底层处理、中层处理、高层处理。从应用的角度,基于特定领域的数据,有一些和领域相适应的特定处理方法。综合而言,计算机视觉的主要研究体系如图1所示。

图1 计算机视觉的主要研究体系


二、内容结构


中国计算机学会计算机视觉专委会遴选计算机视觉领域近年来比较热门的10个研究方向进行了梳理和总结,组编成《计算机视觉十讲》一书。该书每一部分内容相对保持独立,自成体系,突出前沿热点和应用。内容聚焦前沿算法理论,分别讲述了图像分类、检测、生成、视频处理等计算机视觉领域的研究重点,也对计算机视觉的基本概念和计算机视觉研究的预备知识进行了简要介绍,帮助读者在构建完整的计算机视觉知识框架的同时,打下较为坚实的基础,为进一步在计算机视觉和相关领域提出新设想、开发新算法、解决新问题创造良好的条件。

(1)第一讲底层视觉,主要介绍了基于数学模型与基于深度学习的两大类方法的前沿进展。

(2)第二讲图像质量评价,从失真评价(包括全参考、部分参考型和无参考评价)和美学评价(包括大众化评价和个性化评价)两个方面全面介绍数字图像的感知质量评价技术,包括研究的历史、代表性评价算法、最新的研究进展与未来发展趋势。

(3)第三讲图像分割,主要介绍了图像语义分割、实例分割、全景分割、弱监督分割、跨域图像分割、医疗图像分割等前沿进展。

(4)第四讲目标检测,主要介绍了非深度学习以及基于深度学习检测方法的前沿进展,并总结了常用数据集与评价指标。

(5)第五讲目标跟踪,主要分单目标跟踪与多目标跟踪两方面介绍了算法的前沿进展,并讨论了跟踪问题在现实中的应用。

(6)第六讲行人重识别,主要介绍了在数据受限以及开放性复杂场景下重识别算法的前沿进展。

(7)第七讲行为识别,主要介绍了视频行为识别的任务定义、基准数据集以及视频行为识别领域主流方法与技术,包括视频行为分类、视频行为检测、视频行为时序检测、基于骨架的视频行为识别、多模态行为识别、以及交互和群组行为识别。

(8)第八讲视觉与语言,主要介绍了视觉语言典型框架、语义关联方法以及预训练技术等方面的前沿进展。

(9)第九讲图像的三维重建,主要介绍了基于深度学习的三维重建方法以及三维生成方法的前沿进展。

(10)第十章SLAM主要讲述SLAM的基本原理和分类、视觉SLAM的主流框架以及常用的几种基于多传感器融合的SLAM技术,并对SLAM的发展趋势进行展望。


目录


向上滑动阅览


丛书序 郑伟民

“十讲”序 杜小勇

推荐序 谭铁牛

前言

第 1 讲 底层视觉

1.1 底层视觉概述 /2

1.1.1 底层视觉定义 /2

1.1.2 传统底层视觉方法 /2

1.2 基于数学模型的底层视觉方法 /4

1.2.1 全变分模型 /4

1.2.2 稀疏和低秩模型 /7

1.2.3 小结 /13

1.3 基于深度学习的底层视觉方法 /13

1.3.1 图像去噪 /14

1.3.2 图像超分辨率 /17

1.3.3 基于 VGG 模型的图像超分辨率方法 /17

1.3.4 图像去模糊 /21

1.4 底层视觉的挑战与展望 /26

参考文献 /26

第 2 讲 图像质量评价

2.1 全参考/部分参考型图像质量评价 /34

2.1.1 全参考型图像质量评价 /34

2.1.2 部分参考型图像质量评价 /37

2.2 无参考型图像质量评价 /38

2.2.1 基于统计学的无参考型图像质量评价 /39

2.2.2 基于深度学习的无参考型图像质量评价 /40

2.3 图像美学质量评价 /45

2.3.1 大众化图像美学评价 /48

2.3.2 个性化图像美学评价 /63

2.4 总结与展望 /70

参考文献 /70

第 3 讲 图像分割

3.1 图像分割概述 /80

3.1.1 早期图像分割 /80

3.1.2 语义分割 /80

3.1.3 实例分割和全景分割 /81

3.1.4 其他分割问题 /81

3.2 图像语义分割 /82

3.2.1 背景与问题 /82

3.2.2 基于传统特征的图像语义分割 /82

3.2.3 基于深度特征的图像语义分割 /82

3.3 图像实例分割 /88

3.3.1 问题定义 /88

3.3.2 两阶段实例分割 /89

3.3.3 一阶段实例分割 /91

3.3.4 基于 Transformer 的实例分割 /93

3.4 图像全景分割 /95

3.4.1 问题定义 /95

3.4.2 子任务分离的全景分割 /96

3.4.3 子任务统一的全景分割 /98

3.5 弱监督图像分割 /99

3.5.1 基于超像素的方法 /100

3.5.2 基于分类网络的方法 /101

3.6 跨域图像分割 /103

3.6.1 基于风格迁移的输入级图像对齐 /103

3.6.2 基于域不变特征发掘的中间级特征对齐 /104

3.6.3 基于标签分布发掘的输出级预测结果对齐 /105

3.7 医疗图像分割 /106

3.7.1 全监督医疗图像分割 /108

3.7.2 弱监督医疗图像分割 /112

参考文献 /114

第 4 讲 目标检测

4.1 目标检测概述 /128

4.1.1 目标检测的概念 /128

4.1.2 目标检测的研究意义 /128

4.1.3 目标检测的发展路线 /130

4.1.4 小结 /134

4.2 非深度学习目标检测方法 /134

4.2.1 图像匹配方法 /134

4.2.2 机器学习方法 /137

4.2.3 小结 /139

4.3 深度学习目标检测方法 /139

4.3.1 深度学习简介 /139

4.3.2 深度学习模型 /140

4.3.3 基于深度学习的方法框架 /143

4.4 评价指标和数据集 /148

4.4.1 数据集 /148

4.4.2 评价指标 /150

4.5 讨论与展望 /151

4.5.1 目标检测面临的挑战 /151

4.5.2 目标检测的发展趋势 /152

参考文献 /154

第 5 讲 目标跟踪

5.1 引言 /162

5.2 目标跟踪概述 /162

5.2.1 目标跟踪的基本概念 /162

5.2.2 目标跟踪的分类方式 /163

5.2.3 目标跟踪的研究意义 /164

5.2.4 小结 /165

5.3 单目标跟踪 /165

5.3.1 传统方法 /165

5.3.2 深度学习方法 /167

5.3.3 数据集与评价指标 /182

5.3.4 小结 /184

5.4 多目标跟踪 /185

5.4.1 多目标关联技术 /186

5.4.2 一体化多目标跟踪技术 /191

5.4.3 数据集与评价指标 /194

5.4.4 小结 /196

5.5 其他跟踪问题 /196

5.5.1 视频目标检测与多目标跟踪 /196

5.5.2 视频实例分割中的跟踪问题 /196

5.5.3 半监督视频物体分割 /198

5.5.4 小结 /199

5.6 应用 /199

5.6.1 目标跟踪与安防监控 /199

5.6.2 目标跟踪与智能机器人 /200

5.6.3 目标跟踪与自动驾驶 /201

5.6.4 无人机精准跟踪 /202

5.6.5 跟踪辅助视频标注 /204

5.7 总结与展望 /204

5.7.1 目标跟踪面临的挑战 /204

5.7.2 目标跟踪的发展趋势 /207

5.7.3 小结 /208

参考文献 /208

第 6 讲 行人重识别

6.1 行人重识别的定义与常用方法 /228

6.1.1 背景与问题 /228

6.1.2 常用方法 /229

6.2 行人重识别中的小样本问题 /232

6.2.1 弱监督建模 /232

6.2.2 无监督建模 /234

6.2.3 迁移学习建模 /240

6.3 行人重识别中的开放性建模问题 /242

6.3.1 遮挡问题 /242

6.3.2 跨模态问题 /250

6.3.3 换装问题 /263

6.3.4 其他问题 /267

参考文献 /270

第 7 讲 视频行为识别

7.1 引言 /284

7.2 视频行为识别数据集 /285

7.2.1 通用行为识别数据集 /286

7.2.2 骨架行为识别数据集 /287

7.2.3 群体行为识别数据集 /288

7.2.4 时域行为定位数据集 /288

7.2.5 时空行为定位数据集 /289

7.2.6 音视频行为定位数据集 /290

7.3 视频行为分类 /291

7.3.1 基于手工特征的视频行为分类方法概述 /291

7.3.2 基于深度学习的视频行为分类方法概述 /295

7.3.3 常用方法 /296

7.4 行为定位 /302

7.4.1 时域行为定位 /302

7.4.2 时空行为定位 /311

7.5 骨架行为识别 /316

7.5.1 早期骨架行为识别方法 /317

7.5.2 基于深度学习的骨架行为识别 /317

7.5.3 总结与展望 /325

7.6 多模态行为识别 /326

7.6.1 基于文本的视频定位 /326

7.6.2 音视频行为识别 /330

7.7 交互及组群行为识别 /337

7.7.1 交互行为识别 /337

7.7.2 组群行为识别 /343

7.7.3 群体行为识别的未来研究趋势 /349

参考文献 /350

第 8 讲 视觉与语言

8.1 视觉与语言的定义 /376

8.1.1 背景与意义 /376

8.1.2 典型任务与方法 /379

8.2 视觉语言的典型框架 /383

8.2.1 传统方法 /383

8.2.2 预训练方法 /385

8.2.3 其他方面 /386

8.3 视觉语言的语义关联与建模 /388

8.3.1 注意力机制建模 /390

8.3.2 图结构建模 /391

8.3.3 生成式建模 /392

8.3.4 其他建模 /393

8.4 视觉语言的预训练技术 /396

8.4.1 单模态主干网络 /397

8.4.2 视觉与语言架构 /399

8.4.3 预训练任务与下游任务 /401

8.4.4 预训练数据集 /405

8.5 视觉语言发展趋势与展望 /407

参考文献 /409

第 9 讲 图像的三维重建

9.1 背景介绍 /426

9.2 传统三维重建方法回顾 /427

9.2.1 经典多视点几何三维重建 /427

9.2.2 经典光度立体三维重建 /428

9.2.3 常见数据采集设备 /429

9.3 深度学习对基于不同形状表达的三维重建 /431

9.3.1 基于体素的显式三维表达 /431

9.3.2 基于多边形网格的显式三维表达 /437

9.3.3 基于隐式辐射场的三维表达 /443

9.4 三维重建与三维生成 /450

9.4.1 基于扩散生成大模型分数蒸馏的三维生成 /451

9.4.2 基于预训练三维重建模型和扩散生成模型的三维生成 /452

参考文献 /454

第 10 讲 SLAM

10.1 基础知识 /464

10.1.1 相机模型 /464

10.1.2 多视图几何原理 /467

10.2 SLAM 的分类 /472

10.2.1 基于滤波的 SLAM /472

10.2.2 基于优化的 SLAM /474

10.2.3 基于深度学习的 SLAM /476

10.3 视觉 SLAM /478

10.3.1 初始化 /479

10.3.2 前台实时跟踪 /480

10.3.3 后端优化 /482

10.3.4 重定位 /483

10.3.5 回路闭合 /485

10.4 视觉惯性 SLAM /486

10.4.1 IMU 模型 /487

10.4.2 前端模块 /489

10.4.3 后端模块 /491

10.5 融合深度信息的 SLAM /492

10.5.1 RGBD SLAM /493

10.5.2 激光视觉惯性 SLAM /502

10.6 SLAM 发展趋势与展望 /508

参考文献 /509



三、本书特色



1

权威性:汇聚多位计算机视觉领域资深研究人员的真知灼见

2

前沿性:着眼于前沿技术,系统介绍了计算机视觉领域的前沿理论和关键技术

3

创新性:具有创新性的内容结构,拆分计算机视觉领域的前沿内容,帮助广大读者把握学科全局

4

全面性:从十个方向全面和系统地介绍了计算机视觉领域的热点和应用




四、适读人群


本书首先可作为高等院校电子信息类专业的高年级本科生和研究生学习计算机视觉、图像处理的教科书,适合于课堂讲授、案例学习、研讨班等课程形式,学生通过阅读本书,围绕特定主题开展研讨,作为其深入学习和开展科研的基础。本书也可作为高校上述专业的教师开设计算机视觉、图像处理相关必修课或选修课的教材、教辅用书、课程补充材料等,根据所在专业的培养目标和研究方向,给学生指定本书特定章节进行阅读并开展研讨。此外,本书可作为计算机视觉领域从业人员的技术指导类书籍,帮助他们针对政府、企事业单位的需求开展计算机视觉业务创新和关键技术攻关等工作。


五、编写团队


本书由中国计算机学会计算机视觉专委会组织,编写团队成员长期从事计算机视觉、图像处理领域的学术研究和教学工作,承担了一系列与计算机视觉相关的科研项目,在视觉领域的顶级期刊如IEEETPAMI,IEEETIP,ACMTMM和顶级国际会议(如IEEECVPR、ICCV、ECCV、AAAI、ACMMultimedia等)上发表大量学术论文,积累了丰富的科研成果和教学经验,在国内外均有较高的学术知名度。


查红彬

《计算机视觉十讲》主编,北京大学智能学院教授,机器感知与智能教育部重点实验室主任。主要从事计算机视觉与智能人机交互的研究,在三维视觉几何计算、三维重建与环境几何建模、传感器即时定位与地图构建等方面取得了一系列成果。出版学术期刊及国际会议论文350多篇,其中包括IEEE T- PAMI,IJCV, IEEE T-VCG, IEEE T-RO等国际期刊以及ICCV, ECCV, CVPR等国际学术会议论文150多篇。

虞晶怡

《计算机视觉十讲》副主编,OSA Fellow,IEEE Fellow,ACM杰出科学家,智能感知与人机协同教育部重点实验室主任。现任上海科技大学副教务长、信息科学与技术学院教授、执行院长。虞教授长期从事计算机视觉、计算成像、计算机图形学、生物信息学等领域的研究工作,并先后获得美国国家科学基金杰出青年奖(NSF CAREER Award)和美国空军研究院杰出青年奖 (AFOSR YIP Award)。

刘青山

《计算机视觉十讲》副主编,南京邮电大学教授,主要从事模式识别、图像理解、以及人工智能交叉应用等研究,近年来主持承担了科技部2030人工智能重大专项项目、国家杰出青年基金项目、国家自然基金重点项目等。

王亮

《计算机视觉十讲》副主编,中国科学院自动化研究所研究员,博导,国家杰青,IEEE/IAPR/CIE/CCF/CAAI/CSIG Fellow。目前是多模态人工智能系统全国重点实验室副主任,中国计算机学会计算机视觉专委会副主任,中国图象图形学学会副理事长及视觉大数据专委会主任等。担任IEEE TPAMI、IEEE TIP等国际知名期刊的编委、MIR的副主编,曾是IEEE TIFS、IEEE TSMC-B、PR等国内外学术期刊的编委,以及10余次国内外会议的大会、程序或组织主席等。



六、专家推荐



近年来,做为人工智能重要组成部分的计算机视觉,取得了长足的进步,已经对社会进步带来重要影响,并广泛应用于工业生产各个领域。为了使该领域未来能够健康发展,迫切需要对相关研究进行系统梳理和全面总结。《计算机视觉十讲》的出版,就有这样的作用。该书内容丰富、语言简练、逻辑性强,对于专业从事计算机视觉及相关领域的研究学者和技术开发人员,都有重要的参考价值,是为推荐。

——中国工程院院士 高文


人工智能是引领这一轮科技革命和产业变革的战略性技术,计算机视觉是人工智能领域发展最活跃的方向之一。中国计算机学会计算机视觉专委会组织编写的《计算机视觉十讲》,选择了计算机视觉领域10个热门的研究方向,对相关技术发展进行了系统总结。该书学术严谨、内容新颖,对从事计算机视觉及相关领域研究的教师或学生来说,是一本系统学习相关方向及发展前沿的重要教材;对相关产业领域的从业人员来说,也是一本了解相关方向技术动态的参考书。

——中国科学院院士 胡事民


《计算机视觉十讲》由中国计算机学会计算机视觉专委会牵头撰写,选择了近年来计算机视觉领域中兼具基础性和前沿性的10个研究方向进行介绍,每个方向都由该方向的一线学者撰写,一方面系统总结了相关方向的技术发展,另一方面展望了未来的研究挑战,可作为计算机视觉领域的学生、老师和研究人员的参考书。

——中国科学院计算技术研究所研究员 陈熙霖


CCF计算机科学前沿丛书·十讲系列丛书


CCF十讲系列丛书由CCF教育工作委员会联合CCF专业分支机构推出,编委会汇集了十余位来自重点高校、科研院所不同研究方向的著名学者,致力于面向计算机科学前沿,把握学科发展趋势,在丛书中全面介绍计算机领域的前沿思想、前沿理论、前沿研究方向和前沿发展趋势,为培养具有创新精神和创新能力的高素质人才贡献力量。



CCF图书列表





图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接