新华财经上海4月16日电(记者杜康) 今年以来,“小龙虾”(OpenClaw)的爆火让智能体成为科技热词。随之而来,人们关于AI风险的关注重心也在发生变化。
在智能体出现之前,大模型更多以对话工具的形式出现,外界对其风险的讨论,主要集中在内容是否失真、是否合规。但随着智能体开发者不断开放工具调用权限,AI开始“长出手脚”,具备自主规划和执行任务的能力,安全问题也从“说了什么”,转向“做了什么”。
近日,云安全联盟(Cloud Security Alliance,CSA)大中华区主席李雨航在接受采访时表示,从生成式AI到智能体,再到面向未来的AGI(通用人工智能),人工智能能力边界扩展的同时,安全问题的边界也在迅速扩展。技术迭代速度快于安全策略的形成,成为当前行业挑战之一。
AI能力变强风险也在逐渐“外溢”
李雨航表示,AI引发的风险已经实实在在发生,数据泄露、模型攻击,以及利用大模型制造恶意软件的行为,已屡见不鲜。
例如,2023年3月OpenAI发生信息泄露事件,部分用户可以看到其他用户的聊天标题和部分信息,这被视为典型的大型生成式AI数据泄露事件之一。模型攻击方面,2023年3月,研究人员发现,通过特定提示词,可以让ChatGPT绕过安全限制,诱导模型生成恶意代码、非法内容和安全漏洞信息,说明大模型安全机制存在被绕过的风险。
再如,2024年2月,香港发生一起AI深度伪造诈骗案。诈骗者利用AI生成的语音和视频,伪造一家跨国公司首席财务官和多名同事的视频会议,诱导一名财务员工转账约2亿港元。今年火爆的“小龙虾”相关安全风险也迅速暴露,一家美国网络安全公司已披露了15200个OpenClaw框架存在远程代码执行漏洞,攻击者可借此控制主机。
“传统安全风险多局限于数字空间,但AI风险外溢性更强。尤其当模型接入业务流程、工业系统和物理设备后,后果将波及物理世界。”李雨航说。
他指出,AI正成为攻击者的“力量倍增器”。一方面,攻击面增加,AI可以通过提示注入,构造恶意指令触发越权行为或泄露敏感信息;也可以通过“数据投毒”,在训练或微调数据中埋入恶意样本,扭曲模型行为。另一方面,攻击者利用大模型和智能体工具自动生成钓鱼邮件、深度伪造内容、恶意代码和社工脚本,使网络犯罪呈现出工业化、模板化、自动化趋势,显著压缩了攻击门槛与成本。
技术方面,李雨航表示,人工智能安全应向“原生”演进。“‘外挂式’安全无法抵御AI风险。安全能力必须像DNA一样,融入AI产品组件与供应链中,形成内生免疫力。”
全球治理路径分化需进一步思考“人机”关系综合命题
技术迭代速度快于安全策略的形成,是当前行业发展的核心矛盾之一。“全球调查显示,企业内部AI项目的实际落地速度,整体领先安全治理18至24个月,风险与治理之间存在明显时间差。”李雨航说。
李雨航以智能体举例,许多智能体在独立设计和检测时并无明显漏洞,但当多个智能体或多个模块协同工作时,却可能产生难以预料的安全缺陷。“这种风险已经在斯坦福大学、哈佛大学等相关论文中提出,但在目前的工程实践中,尚无成熟的解决方案。”
可以看到,目前全球围绕AI的治理路径也在加快分化。例如,欧洲总体呈现出强监管与原则导向并存的特点,亚洲更强调安全与发展并重、逐步制度化,北美则是多框架并行,更注重创新与自主发展。中东以伦理原则为基础推进治理,澳大利亚以自愿性伦理框架为主,南美处于立法探索阶段,非洲整体仍处于起步阶段。
“整体来看,全球AI监管不是一个统一体系,而是一组分裂的生态系统,企业必须学会在不一致中生存和适配。”他说。
李雨航特别区分了“AI Safety”和“AI Security”两个概念。在他看来,Security更多是狭义的安全,比如保护模型、数据、系统不被攻击和滥用;Safety则是更广义的,它关注AI系统是否可靠、是否与人类价值对齐、是否可能对现实世界造成伤害。
前不久,联合国科学和技术促进发展委员会主席穆科德在第九届CSA大中华区大会暨前沿人工智能安全峰会上提到,“人工智能引发的挑战是全球性的,回应也必须是全球性的。”
穆科德举例人工智能可能造成的不公平问题。从全球南方特别是非洲和最不发达国家的角度看,当前,算力、先进模型和高质量数据集仍高度集中,许多国家的母语、本土背景和真实经验在现有人工智能体系中代表性不足,这有可能加深而非弥合不平等。
围绕更高阶人工智能的治理,李雨航表示,首先要回答的是人机关系问题。“如果未来AI在智力、执行能力上持续逼近甚至超过人类,人类与AGI的主导关系不能颠倒,这是一个最根本的问题。”在他看来,这不是单纯的技术命题,而是一个涉及伦理、法律、政治和社会秩序的综合命题。