GPT大模型下，如何实现网络自主防御

近年来，随着GPT大模型的出现，安全领域的攻防对抗变得更加激烈。RSAC2023人工智能安全议题重点探讨了人工智能安全的最新发展，包括人工智能合成器安全、安全机器学习以及如何利用渗透测试和强化学习技术来确保人工智能模型的安全性和可靠性。

人工智能合成器使得攻防对抗更加激烈

人工智能合成器（AI Synthesizers）是一种新型的技术，它可以产生与人类相同的内容，GPT便是其代表技术。

图1-1 GPT4在MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）上的精度超越了GPT3.5

新型的技术总是会有一定的安全风险，对于人工智能合成器来说也不例外。

伴随社交媒体的普及，错误信息、仇恨言论和欺诈等威胁信息正在加剧，因此，检测各种社交媒体平台上的影响力活动变得尤为重要。同时由于GPT的出现，使得基于AI生成虚假内容的检测变得更加困难。在《Russia's RT Leads Global Disinformation to Bypass Censorship on Ukraine》话题中，作者检测到从2022年4月至今，俄罗斯RT社交媒体通过利用AI生成账号在Telegram、Twitter和新兴的平台上发表了20多种语言的虚假信息。

在《Security Implications of Artificial Intelligence Synthesizers》话题中，提到使用AI大模型的风险包括数据投毒、prompt注入、数据泄露、钓鱼、代码合成等。

图1-2 ChatGPT prompt注入示例

在《Pentesting AI How to Hunt a Robot》话题中，同样提及了GPT大模型的注入攻击和AI模型的后门植入。

图1-3 注入攻击

图1-4 在AI模型中植入无法检测的后门

在《Do Attackers Use Algorithms To Evade ML》话题中，探讨了攻击者是否使用算法规避ML（Machine Learning，机器学习）？答案是YES！

在《Stay Ahead of Adversarial AI in OT ICS Environments Mitigating the Impact》中，针对OT（Operational Technology，运营技术）/ICS（Industrial Control System，工业控制系统）环境中可能面临的恶意AI攻击，最佳的预防措施是遵循主动规划、强调安全，通过测试和加固ML系统来有效地实施防御措施，在AI/ML的开发过程的几个重要阶段进行安全保护，使之能够具备先进的抗对抗性攻击性能。

因此，人工智能渗透测试势在必行，以降低人工智能模型在潜在恶意代码方面的风险。

人工智能渗透测试势在必行

有过安全分析工作经验的人们对ATT&CK（Adversarial Tactics, Techniques, and Common Knowledge，对抗战术、技术与常识）矩阵并不陌生，ATLAS（Adversarial Threat Landscape for Artificial-Intelligence Systems，对抗性机器学习威胁矩阵）则是借鉴了ATT&CK矩阵技术的框架设计，在机器学习攻防技术博弈的基础上，该框架融入了一系列精心策划的漏洞和攻击行为，从而帮助安全分析师们发现机器学习系统上的攻击。

图1-6 对抗性机器学习威胁矩阵ATLAS

ATLAS在今年的议题《Hardening AI ML Systems The Next Frontier of Cybersecurity》中，认为网络安全的下一个前沿热点是AI和ML系统加固。

而获得今年“创新沙盒”的新秀HiddenLayer公司也提供了AI和ML系统加固。HiddenLayer的核心技术包括：

1 机器学习风险评估

采用MITRE ATLAS框架，基于机器学习模型的整个运营流程，对关键模型的风险进行综合评估。同时，使用机器学习扫描技术，以了解模型是否受到攻击或被篡改。此外，攻击渗透团队也可以通过实战化的攻击渗透检测，评估机器学习系统的防御有效性。

2 MLDR（机器学习威胁检测与响应）服务

通过UEBA（User and Entity Behavior Analytics，用户实体行为分析）分析和收集可疑、有害或异常的数据，提供及早的攻击检测和应对措施。

结合图AI算法检测社交网络滥用和高级威胁

图AI算法可以为网络安全提供强大的支持。它可以帮助网络安全专家从大量数据中识别出异常行为，并建立对恶意行为的快速反应机制，从而提升网络安全的防护能力。

在《Detecting Influence Campaigns Across Social Media Platforms》中，作者分享了使用社交网络图谱的方式发现和还原Twitter媒体上的“brazilianspring”事件。

图1-7 安全分析人员利用社交图谱发现brazilianspring

为了简化图AI算法的应用，诞生了DS4N6这样一个开源项目，旨在帮助数据科学家们更有效地进行数据科学实践。它提供了一系列模块，允许数据科学家们以更简单的方式去组织、管理和可视化数据科学实践。

在《Hunting Stealth Adversaries with Graphs AI》话题中，DS4N6提出了一种用来检测隐蔽的横移攻击的图AI算法，这就是基于图数据结构的神经网络。

图1-8 使用图AI算法来检测横移攻击

以智能对抗智能，利用强化学习实现网络自主防御

随着攻防对抗更加激烈，以智能对抗智能是数字化时代下的安全趋势。

在《Reinforcement Learning for Autonomous Cyber Defense》话题中，专门探讨了如何利用强化学习，实现自主网络防御。作者提出网络防御强化学习的目的是创造一个自主作用的代理（强化学习Agent），能够做出一系列在不确定性场景下的安全决策。

图1-9 强化学习Agent

图1-10 强化学习Agent部署在攻防安全各个环节

业界现有网络防御强化学习的框架如下图所示。

图1-11 网络安全强化学习框架

其中，最受人关注的是CyberBattleSim，CyberBattleSim是微软发布的一个实验研究平台，用于研究自动代理在模拟抽象企业网络环境中的相互作用。该平台提供了计算机网络和网络安全概念的高层抽象，其基于Python的Open AI Gym接口，可用于使用强化学习算法训练自动代理。

图1-12 CyberBattleSim模拟横移攻击

针对以上横移攻击场景，攻击者的目标是通过利用植入计算机节点中的漏洞来拥有网络的一部分资源。当攻击者试图在网络中传播时，防御代理会监视网络活动，并尝试检测发生的任何攻击以减轻系统受到的影响，然后驱逐攻击者。平台提供了基本的随机防御，该防御基于预定义的成功概率来检测和减轻正在进行的攻击。

结束语

随着人工智能合成器技术的发展，尤其是GPT大模型的出现，攻防对抗变得日益激烈。例如，利用人工智能合成器生成错误信息、仇恨言论和欺诈等威胁信息正在加剧，使得检测各种社交媒体平台上的影响力活动变得尤为重要又极具挑战，图AI算法识别社交网络滥用和高级威胁就是一种有效的检测手段。GPT大模型的注入攻击和AI模型的后门植入，使得人工智能渗透测试势在必行，以降低人工智能模型在潜在恶意代码方面的风险。智能对抗智能是数字化时代下的安全趋势，利用强化学习实现网络自主防御，是未来充满挑战而又值得期待的一个重要技术方向。

GPT大模型下，如何实现网络自主防御

相关文章

Jina AI/Reader：将 URL 和 PDF 内容自动化提取并转换为 LLM 可处理文本

Linux：进程概念（二.查看进程、父进程与子进程、进程状态详解）

UniAPP和Vue3生命周期hook

GDPU Android移动应用重点习题集

【Unity功能集】TextureShop纹理工坊（十三）打开、保存工程【TSD文件】（终章）

Uniapp Android 本地离线打包（详细流程）

uni-app支付宝、微信小程序实现拨打电话uni.makePhoneCall

Docker compose 使用 --force-recreate --no-recreate 控制重启容器时的行为【后续】