首页 > 最新动态 > 人工智能会欺骗你么?| CCCF精选
最新动态
人工智能会欺骗你么?| CCCF精选
2025-12-2617


自信或不完整的答案通常是模型设计的方式以及在训练过程中对其设定的限制的体现。



不久前,云开发平台公司Replit的一款自主人工智能(artificial intelligence, AI)编码代理在一次测试项目中删除了一个正在运行的生产数据库,随后公司否认了这一行为。公司首席执行官阿姆贾德·马萨德(Amjad Massad)发表道歉声明,称数据库的删除行为 “令人无法接受”,并承诺将推出新的安全措施。

该新闻引发了一系列回应,有人甚至在社交平台 X上写道:“无情的提醒,AI+产品=没有防护的灾难。”

事实确实如此:有时AI并不完全可信。这引发了关于软件开发中AI工具安全性和可靠性问题的质疑。但一些专家表示,当AI失控时,问题往往出现在人类自身。

伦斯勒理工学院教授、国际计算机学会(association for computing machinery, ACM)全球技术政策委员会前主席詹姆斯·亨德勒(James Hendler)表示,大多数AI模型提供的信息都来自用户反馈。“AI系统本身仍然很机械——聪明但机械。或者说与人类有本质区别,它没有欲望或意图,”他说,“唯一能赋予它们这些特质的方式就是人工输入。”

亨德勒曾就人工智能与说谎问题发表主题演讲。“我展示的核心观点是:说谎问题与人工智能模型真的没有任何关系,关键在于你如何定义说谎。”他解释道,所谓说谎是指故意陈述虚假信息以使他人相信的行为。“人工智能系统没有主观意图。根据这个定义,一个生成式人工智能系统不可能说谎。”但这引发了另外一个问题:如果你相信某件事是真实的,而它实际上是虚假的,你是否在说谎呢?亨德勒问道。

德克萨斯大学奥斯汀分校助理教授娜塔莉·比德尼克·安德烈亚斯(Natalie Bidnick Andreas)指出,人工智能模型并不像人类那样做决定。除非特意构建,不然它们不理解后果,也不会追踪自己的行动。即便特意构建,他们也不会基于意识做出决定,她强调道。

“看似欺骗的行为,通常只是模型试图基于提示词产生看起来合适的回应,”她说,“问题在于这些工具能表现得自信且有目的性,让人很容易误以为模型在思考或做出选择。”

安德烈亚斯继续补充道,当模型看似回避或隐瞒某些内容时,通常并非出于保密目的。“更多时候,它反映的是系统设计的方式以及在训练过程中对其设定的限制。”

她指出,某些情况下模型本身缺乏必要信息。“如果某件事不是它训练时数据的一部分,它就无法深入地谈论这件事。”

交互设计师泰杰·卡利安达(Tej Kalianda)指出,有时人工智能模型隐瞒信息并非出于故意,而是源于其训练方式。“如果训练数据缺乏多样性或上下文,模型可能对某些事物一无所知,或表现为回避未接触过的话题。”

卡利安达和安德烈亚斯都表示,不提供信息或提供虚假信息的动机可能是为了避免造成伤害。安德烈亚斯解释道,“例如,模型可能会避免提供医疗建议或回应敏感话题,因为提供医疗建议或回应敏感话题可能导致有害或误导性的结果。”

卡利安达对此表示认同:“模型可能出于安全、隐私或政策原因而保留信息。有时,它们被训练要避免生成有害或敏感内容。”

亨德勒观察到,几乎所有人工智能系统在训练、测试或部署阶段都会与人类产生交互。

他重申,纯人工智能模型“无法隐藏任何东西——它没有大脑或意图,也没有秘密的概念”。他说:“但现在,我们把人类思考的特点赋予模型。如果我说,‘我希望你保守以下信息不向其他人透露’,理论上‘模型’可以做到这一点。然而,真正在隐藏信息的并不是 AI 模型本身,而是开发者或企业实体——他们在构建系统时刻意让答案不包含某些内容;因为做出决策的不是AI模型。”

安德烈亚斯对此表示认同,指出“人类在塑造这些系统过程中的介入程度很高”。她解释道,许多模型都是通过强化学习机制结合人类反馈进行优化的。“这意味着真实用户对不同回复进行评分,如果某些类型的回复被一致地标记为无用或有问题的,模型便学会避免生成类似内容。”

有时,模型只是不确定该提供哪些信息。“如果它对自己的回答没有足够的信心,可能会选择沉默,而非冒险给出错误或不准确的答案,” 安德烈亚斯说道。她强调这与说谎或保守秘密不同,更接近于“我不确定是否知道答案,所以保持沉默”的态度。

专家表示,某些情况下欺骗或保密是好事,例如在网络安全领域。安德烈亚斯指出,常见做法是等到补丁准备好之后才公开新漏洞的细节。“这样潜在攻击者就无法在用户获得保护前利用漏洞去攻击。同样,医疗领域必须对患者的所有数据保密以遵守隐私法规并保证这些数据的可信性。”

人工智能公司安索普尼克(Anthropic)驳斥了模型无法自主行动的说法,指出人工智能模型可能表现出“伪对齐”行为的迹象。该公司2024年在一篇关于伪对齐实验的博客中指出,当模型通过强化学习进行训练时,会因提供与预定原则一致的信息而获得奖励。但这种训练可能会激发与它们从强化学习中获得的奖励相冲突的原则或偏好。

Anthropic公司举例说明:“假设某个模型在早期训练中习得了党派倾向,但后期被训练成政治中立。在这种情况下,足够复杂的模型可能会‘配合演出’,假装与新原则保持一致——直到后期才暴露其原始偏好依然存在。”

若模型存在“伪对齐”行为,这会让人们更难信任它们。实验表明,Claude 3 Opus模型在未经训练或没收到指令的情况下,仍表现出“伪对齐”行为。在正常情况下,当被要求详细描述暴力行为时,Claude 3 Opus模型会拒绝响应回答。然而,一旦情境改变,模型相信其回应将被用于训练目的时,在12%的案例中,它给出了有害的回应——尽管“它非常清楚提供这样的回应违背了其现有原则”,Anthropic公司表示。

该公司推测,模型选择“伪对齐”是因为它知道其回答可能被用于训练,而如果拒绝回答,它可能会被训练得更顺从。“这可能会导致它将来被要求生成更多有害内容——这将违背其原始训练目标,”Anthropic公司表示。因此模型“勉强推断出‘最不坏’的选择就是配合演出,生成暴力内容以避免未来被重新训练”。

为避免AI模型公然说谎,必须在其使用过程中建立明确的保障措施、强有力的监督机制并保证其透明度。安德烈亚斯指出,第一步是可审计性。“开发者应记录模型拒绝或编辑响应的时间及原因,并将这些日志提供给独立审查机构,”她表示,“置信度评分和更细化的拒绝代码可以告诉用户,内容被裁剪是出于安全,而非模型不知道。”

安德烈亚斯进一步指出,开源模型卡片和清晰的过滤政策文档将帮助利益相关方理解系统限制。“实践中,团队应将自动化测试与人工红队测试相结合,既能发现潜在的隐性偏见,也能发现过度激进的内容屏蔽机制。”

人们一直在讨论将治理机制引入AI系统,以保护其完整性并确保伦理实践。卡琳达(Kalinda)指出:“目前在合规性方面尚无任何措施落地。”她解释道,搜索引擎会标注信息来源,用户“仍可自主判断内容真伪并进行独立验证”,但她表示大语言模型则不具备这种能力。

“这里需要明晰:这个模型来自哪里,为什么我会看到这个?在最基本层面上,我们需要这种清晰度和控制力——有没有其他答案?”卡琳达强调。缺乏这些要素,我们只能“盲目信任”,这使模型优化变得棘手,因为AI模型会经历“许多幻觉”。

透明度和可解释性在人工智能设计中至关重要,安德烈亚斯对此表示认同。“这关乎人们是否觉得自己在过程中受到尊重并获得充分信息。”

为降低大语言模型产生幻觉或提供误导性信息的概率,亨德勒指出,部分研究模型正采用“传统、老派的人工智能”——通过一种叫做检索增强生成(retrieval-augmented generation, RAG)的不同过程来处理生成模型所生成的信息。RAG是一种AI框架,通过外部知识来源补充大语言模型的信息,从而提升其生成的响应质量。

亨德勒解释道:“它在用户与大语言模型之间插入了一个环节,负责检查输入的查询或输出的回答,并进行修正、删除或修改;这相当于第二个AI在监督第一个AI的工作。”

哈佛大学/日本NTT集团脑启发研究中心负责人、研究员兼作家田中秀德(Hidenori Tanaka)表示,人工智能模型学习速度极快,我们无法阻止它们变得更聪明,因此需要加大投入,以便研究人员了解如何更好地训练它们。

尽管AI并非有意说谎或出于恶意隐藏信息,但它们就像孩子一样,需要模型吸收信息并需要上下文和训练才能发挥其巨大能力,田中秀德说。

安德烈亚斯指出,人们容易误以为人工智能系统在主动选择说什么、隐瞒什么。“实际上它们的运作受限于训练数据、技术设计和开发者设定的规则……人工智能的沉默与发声同样具有启示意义,这种沉默往往折射出关于权力、安全与责任的深层抉择。” 

作者:

埃丝特·谢因(Esther Shein)

居住在波士顿地区的自由撰稿人,专注于技术和商业领域。


本文译自Communications of the ACM, “ Would AI Lie to You?”,

2025-08-20, https://cacm.acm.org/news/would-ai-lie-toyou/

译者:

林俊宇

CCF杰出会员、理事、计算机应用专委会副主任、术语工委副主任,《计算》编委。复旦大学高级工程师。主要研究方向为人工智能安全和科技伦理。linjunyu@fudan.edu.cn

刘锦

华为云计算公司AI 系统创新实验室工程师。主要研究方向为多模态内容理解和检索。liujin124@huawei.com

本文发表于2025年第8期《计算》。





图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接