首页 > 最新动态 > 刘云浩:刻舟求剑与老马识途 | CCCF精选
最新动态
刘云浩:刻舟求剑与老马识途 | CCCF精选
2025-03-1075

收录于话题

#CCCF2025



凭什么机器的感知智能,就得局限于人类擅长的视觉、听觉、嗅觉、味觉、触觉这几样?当AI有一天超越了“老马识途”,我们是否还在“刻舟求剑”?




《吕氏春秋》里有个故事:楚人过江,“剑自舟中坠于水”,楚人掏出小刀在船帮上刻了一个痕迹,等船到岸边停下的时候,从刻痕处入水捞剑。刻痕,是给剑落水的地方做“定位”计算,打捞则需要一个“导航”系统。如果只谈定位和导航的问题,这个楚人的失误其实也不算特别离谱:他选了一个坐标(船印),却把“坐标系”选在了船上而不是大海上——船动,大海相对不动,结果坐标系没对上。物联网发展20多年,各种定位导航方法层出不穷:GPS、雷达、视觉SLAM、RFID、声音、惯导,等等,每个都有自己的坐标系,想把它们整合在同一坐标系里齐心协力,比这些技术本身还难。如此说来,人类在这方面还在“刻舟求剑”的路上不断补救,试图让不同系统的“剑”“舟”和“海”对齐。


能不能超越坐标系的局限?我看过两个百万粉丝级别博主“PK”的视频,凭一张风景照片判断拍摄地点,他们能在一分钟内理清推理链条——从天线锅盖的赤道方位角计算,到地砖纹样的文化地理溯源——最终如同展开地图般渐次划定区域范围,让人惊叹。不过最近一段时间AI的进步忽然有颠覆这种“神乎其技”的趋势:一家名为Graylark的初创公司发布了“GeoSpy”产品,能在图像地理定位(Image Geolocation)这个领域做到不输甚至部分超越那两位博主。GeoSpy在大规模街景图像数据集上训练了高效嵌入模型,在参考数据库的加持下能将图像匹配精度控制在几米内。


同样令人印象深刻的还有GeoSpy在大规模任务上的实时性能。相比之下,大语言模型的实时推理则面临更严峻的挑战。本期专题邀请了来自上海交通大学、浙江大学、华东师范大学、东南大学、北京大学、阿里巴巴等学术界和产业界的专家学者,从算法理论、关键技术、系统平台、产业应用等多个方面提供大小模型协同高效推理的洞见。


图像定位已成为计算机视觉中的关键领域,并且应用广泛:从安防监控、导航到社交媒体内容管理。早期的方法大多依赖图中的知名地标,或者直接读取图像的元数据(如GPS坐标),但研究人员很快就盯上了更具挑战性的任务——从没有任何著名地标、也没有元数据的“普通”场景照片中,推测真实的地理位置。当然本质上说,这还是在视觉智能这个维度上。


能超越视觉智能这个维度吗?《韩非子》里有个记载,管仲随齐桓公出征孤竹国,春去秋归,景色迥异,大军迷路了。眼看粮草将要耗尽,管仲急中生智,让士兵放开几匹老马,结果老马慢慢悠悠在队伍最前,边走边看、边闻边吃,嗅觉智能和味觉智能连同视觉智能齐上,真把大军带出了山谷,走上回齐国的大道。这得算“具身智能”导航了吧。


话说回来,凭什么机器的感知智能,就得局限于人类擅长的视觉、听觉、嗅觉、味觉、触觉这几样?当AI有一天超越了“老马识途”,我们是否还在“刻舟求剑”?



刘云浩

CCF会士,ACM Fellow,CCCF主编,2022年CCF王选奖获得者。清华大学教授。ACM Transactions on Sensor Networks主编。


CCF推荐

【精品文章】






点击“阅读原文”,加入CCF。

点我访问原文链接