浅析大语言模型安全和隐私保护国内外标准和政策

过去两年，大模型技术已经普及并逐步渗透到各行各业，2025年注定是大模型应用井喷式发展的一年，AI在快速发展的同时，其带来的安全风险也逐渐凸显。人工智能系统的安全性和隐私保护已经成为社会关注的重点。

600+款AI应用，覆盖各行各业

附下载：600多个人工智能AI工具汇总（AIGC时代-超级个体的崛起）.xlsx (访问密码: 6277)

人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期各环节都面临安全风险，既包括自身技术缺陷或不足带来的风险（如提示词注入），也包括不当使用、滥用甚至恶意利用带来的安全风险（如数据泄露）。

例如，在自动驾驶领域，如何确保车辆能够正确识别交通信号和行人，避免事故的发生，这是一个涉及公共安全的重要问题。在金融领域，人工智能被用于风险评估和反欺诈系统中，如果算法存在偏见或者被恶意利用，可能会导致严重的经济损失和社会信任危机。

2023年8月，国家六个部委发布的《生成式人工智能服务管理暂行办法》正式施行，更是强调了大语言模型安全的重要性，防止生成潜在隐私泄露、违法犯罪内容。

生成式<a class= 人工智能服务管理暂行办法" />

2024年9月国家网络安全宣传周主论坛在广州举办，全国网络安全标准化技术委员会在论坛上发布了《人工智能安全治理框架》1.0版，以下简称“框架”。

框架主要由人工智能安全治理原则、人工智能安全治理框架构成、人工智能安全风险分类、技术应对措施、综合治理措施、人工智能安全开发应用指引等六部分构成。该框架中指出了人工智能的存在多种安全风险，典型如下：

对抗攻击风险：攻击者通过创建精心设计的对抗样本数据，隐蔽地误导、影响，以至操纵人工智能模型，使其产生错误的输出，甚至造成运行瘫痪。
“投毒” 风险：训练数据中含有虚假、偏见、侵犯知识产权等违法有害信息，或者来源缺乏多样性，导致输出违法的、不良的、偏激的等有害信息内容。训练数据还面临攻击者篡改、注入错误、误导数据的“投毒”风险，“污染”模型的概率分布，进而造成准确性、可信度下降。
数据泄露风险：人工智能研发应用过程中，因数据处理不当、非授权访问、恶意攻击、诱导交互等问题，可能导致数据和个人信息泄露。for:政府、企业等机构工作人员在业务工作中不规范、不当使用人工智能服务，向大模型输入内部业务数据、工业信息，导致工作秘密、商业秘密、敏感业务数据泄露。
滥用风险：人工智能可被用于实施自动化网络攻击或提高攻击效率，包括挖掘利用漏洞、破解密码、生成恶意代码、发送钓鱼邮件、网络扫描、社会工程学攻击等，降低网络攻击门槛，增大安全防护难度。

框架中对风险进行了全部梳理，可以参见下图
<a class= 安全风险与技术应对措施、综合治理措施映射表" />

因为存在以上安全风险，需要做以下管控措施：

实施人工智能应用分类分级管理。根据功能、性能、应用场景等，对人工智能系统分类分级，建立风险等级测试评估体系。
加强人工智能最终用途管理，对特定人群及场景下使用人工智能技术提出相关要求，防止人工智能系统被滥用。
此外，对算力、推理能力达到一定阈值或应用在特定行业领域的人工智能系统进行登记备案，要求其具备在设计、研发、测试、部署、使用、维护等全生命周期的安全防护能力。

人工智能服务已备案信息（更新至2024年3月）.xlsx" />