云霞资讯网

从“暴力破解”到“诱导吐露”,Akamai揭秘AI数据安全新风险

人脸信息遭非法获取并被用于AI换脸牟利,与大模型沟通时输入的文字、图片、视频等资料及隐私信息泄露至网络,大模型训练数据与敏感信息窃取风险攀升,企业数据资产面临暴露……当前,AI技术快速发展,在文本处理、数据分析、个性化服务等领域应用成效显著,AI智能体的应用需求持续攀升,为人们带来极大便利。而人工智能的规模化发展始终以海量用户数据为依托,也让个人隐私与企业数据安全均面临更为突出的泄露风险。

也正因如此,每年1月28日的“世界数据隐私日”愈发受到各界关注与重视。Akamai大中华区售前高级经理马俊直言:“如今,当我们还在讨论数据库加密和Cookie合规时,一个新的隐私盲区正在形成。”据Akamai观察,AI时代的数据泄露不再需要暴力破解。攻击者正在利用AI“乐于助人”的特性,通过“系统性查询(SystematicQuerying)”——即看似正常的反复提问,诱导AI吐露训练数据中的个人隐私信息(PII)甚至核心算法。

Akamai大中华区售前高级经理马俊

这是AI时代数据隐私保护的又一项挑战

据南方都市报报道,大量用户与ChatGPT之间的对话内容被泄露到谷歌搜索控制台(GoogleSearchConsole,简称GSC)。报道称,这已非大模型首次发生用户信息泄露事件,多起案例表明,随着用户对AI的依赖日益增长,大模型面临新型隐私泄露威胁。OpenAI发言人承认,公司已针对上述问题发现并修复了一个技术故障,该故障“暂时影响了少量搜索查询的路由方式”。

而这起隐私数据泄露事件所暴露的泄露方式,更给AI时代的数据安全防护带来了全新挑战。马俊指出,AI安全的关键领域集中在保护组织免受数据泄露和模型窃取的侵害,与通常涉及未经授权访问数据库或文件系统的传统数据泄露不同,AI相关的数据泄露往往可以通过正常的系统交互发生,使得此类攻击特别难以检测和预防。这也恰恰体现了AI攻击的隐蔽性与独特性,为当下的数据安全防护工作带来了全新的、更为棘手挑战。

不仅如此,马俊还进一步指出,AI模型本身包含宝贵的专有知识和敏感数据集,这使其成为攻击者的首要目标,这些攻击者意在提取竞争情报、客户信息或知识产权等核心资源。更为关键的挑战在于,AI系统的设计初衷本就是分享信息、提供有用回复,这一核心属性恰好为恶意行为者创造了可乘之机,他们能够通过看似合法、实则经过精心设计的查询套取敏感信息,进而悄无声息地提取出有价值的数据。

有哪些攻击手段及可能造成的后果?

这一新型威胁的后果不言而喻。马俊表示,任何个人身份信息(PII)、客户数据或知识产权的泄露都可能导致经济损失、违规(不符合监管要求)以及潜在的法律问题。就在去年2月,集成多款AI大模型的聊天机器人平台OmniGPT便遭遇重大数据泄露事件,黑客入侵后,公开了超过3400万条用户与AI的对话记录。这些记录不仅包含大量办公项目、大学作业、市场分析报告等常规内容,甚至还涉及警方证据等高度敏感信息。

那么,攻击者究竟是如何获取这些隐私数据的?在马俊看来,针对AI系统的数据泄露攻击可以采取多种形式。攻击者可能会使用系统性查询技术,逐步提取包含在模型训练集中的训练数据、专有算法或敏感信息。他表示,“这些攻击可能特别隐蔽,因为看起来像是正常的用户交互,攻击者随着时间的推移使用多次查询来拼凑出有价值的信息,而这些信息在任何单一交互中都不明显。”

而另外一种攻击手段为模型窃取,攻击者试图复制或窃取AI模型本身。这可能涉及诸如模型提取之类的技术,即攻击者利用系统性查询来理解模型的工作原理并重建其功能;或者直接窃取模型文件、参数或训练数据。值得注意的是,复杂AI模型的价值使其成为竞争对手、国家级行为体或犯罪组织极具吸引力的目标,他们试图从组织在AI开发中的巨额投资中获利。

制定必要的防御与缓解策略

针对上述AI数据泄露风险,马俊也为企业给出了分层递进的应对建议,从基础管控到进阶监控,再到组织流程完善,形成全方位的防御体系。

首先是基础管控层面,重点聚焦策略制定与技术拦截。他指出,企业必须建立严格的数据分类策略,明确AI应用程序及大型语言模型(LLM)可处理的信息范围,从源头划定数据安全边界;同时,需部署能够检测异常查询模式的实时监控工具,搭配输入净化、输出过滤、速率限制等技术保障措施,双重防范意外的数据暴露与攻击者的蓄意提取尝试。

其次是进阶监控层面,核心在于行为分析与基线检测。马俊坦言,仅靠基础管控远远不够,持续地监控与威胁检测是必不可少的关键步骤。企业安全团队需配备专门的监控解决方案,实时识别可疑的提示词模式、异常的数据访问行为以及潜在的模型操纵尝试;具体而言,可通过部署行为分析技术,为AI应用程序的正常使用建立基准线,一旦出现偏离基准线、可能指向数据泄露尝试的行为,立即发出警报。

再次是组织流程层面,关键在于红队演练与审计响应的常态化。他强调,全面的防御策略不能仅依赖技术,还需兼顾以员工为中心的安全措施和高效的事件响应能力。一方面,企业应定期开展模拟AI特定攻击场景的红队演练,助力团队在恶意行为者发动真实攻击前,提前发现防御漏洞、补齐安全短板;另一方面,安全领导者还应保留所有AI交互的详细审计线索,并建立专门设计的清晰事件响应协议,以应对基于AI的数据窃取企图。

写在最后

在AI时代,数据兼具多重核心价值——既是支撑大模型研发运行的关键要素,也是企业赖以发展的核心资产,更是需要严格守护的个人隐私。在此背景下,数据安全保障已成为AI产业发展过程中的重要课题。值得关注的是,Akamai提出的一种新型威胁已悄然浮现:攻击者通过看似正常的反复提问,诱导AI泄露训练数据中包含的个人隐私信息(PII),甚至是企业的核心算法,而其针对这一新型威胁提出的解决方案,同样为行业提供重要的参考。

需要注意的是,企业在构建数据安全防护体系时,需要从硬件、系统、开发框架、数据、模型等多个方面入手,甚至还需要采取交互式防御手段,才能保证整个链路式的数据安全。