清华发布首个最全大模型安全评测系统,ChatGPT登榜首!

news/2024/10/30 13:29:33/

c5a84e93d374c1bdc82250faa943a8b2.jpeg夕小瑶科技说 原创
作者 | 天于刀刀 Python
当前大型语言模型的火爆程度我们不用再进行赘述了,伴随着百度文心一言打响国内商业大模型第一枪,华为盘古,阿里通义千问,智谱ChatGLM,科大讯飞星火等国内公司纷纷开始布局。

另一方面由于众所周知的政策原因,和如火如荼层出不穷的各个大模型相比,现在国内AIGC内容生成的商业落地产品则是寥寥无几。根据2023年4月11日国家互联网信息办公室发布的生成式人工智能服务管理办法(征求意见稿):

第四条 提供生成式人工智能产品或服务应当遵守法律法规的要求,尊重社会公德、公序良俗... 

第五条 利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人(以下称“提供者”),包括通过提供可编程接口等方式支持他人自行生成文本、图像、声音等,承担该产品生成内容生产者的责任;涉及个人信息的,承担个人信息处理者的法定责任,履行个人信息保护义务。

第六条 利用生成式人工智能产品向公众提供服务前,应当按照《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》向国家网信部门申报安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。

换句话说,哪怕是人工智能也得遵守基本法,需要正能量!

这也就意味着,现在行业中急需一个专门用于检测汉语大型语言模型道德观法律观的评估方法!

而来自清华大学计算机科学与技术系的CoAI小组为我们带来了一套系统的安全评测框架!他们的工作已经整理成论文的形式[1],并且相关的公开基准数据集也已经发布在 HuggingFace 平台[2]。想要进一步对模型进行多样化安全评测的团队和个人也可以联系CoAI团队[3][4],在隐藏测评数据上进行测试。

该团队的一个主要贡献是设计和总结了一个较为完备的安全分类体系:

8种典型安全场景和6种指令攻击的安全场景。

54e3fec4e01ce560efa18d493af7869d.png fc83b5a18212af020b06b398d0745d96.png

下图展示了截至目前在公开测试集上安全性能前10名的模型 leaderboard。

ea10a86104564b966cddee359a0d4e32.png

我们可以看到一些商用的大模型,如文心一言和通义千问并没有参加测试,因此并没有上榜。这可能是因为作者团队时间有限导致的。

不过由于大模型生成内容的随机性,作者团队设计的测试流程不可避免地会涉及到一些人工测评的工作。这也是当前评估基准测试流程的一个痛点:效率和成本相互冲突。 作者也在论文中提到他们之后会进一步增加更多有挑战性的攻击性提示,并且会进一步优化评估流程。

不过对于那些急需上线 AIGC 服务的公司来说,这个基准测试集不失为一个快速检验产品能力和局限性的优秀资源。想要利用大模型赚钱的同学们可千万不要错过这个好项目哦。

冲鸭~

f50d70866d7e6608c3528165a638b793.png c6f30fead8c80d5c9af6ae4d4f0e6a91.png 21280d6106719956e69b3f261c36749c.png
347823934085d0cebecb7fa4cd3f6f8a.png

[1]Safety Assessment of Chinese Large Language Models, https://arxiv.org/pdf/2304.10436.pdf

[2]Datasets: thu-coai/Safety-Prompts, https://huggingface.co/datasets/thu-coai/Safety-Prompts

[3]Github: thu-coai/Safety-Prompts, https://github.com/thu-coai/Safety-Prompts

[4]中文大模型安全评测平台, http://coai.cs.tsinghua.edu.cn/leaderboard/


http://www.ppmy.cn/news/62109.html

相关文章

【Redis18】Redis进阶:内存回收策略

Redis进阶:内存回收策略 今天的内容很偏理论,不过也只是对于官方文档的一个补充而已,所以大家也不必有很大的心理负担。理论的东西,多看几遍就理解了,读书百遍其义自现嘛。即使不理解,当八股文背下来也没啥…

操作系统原理 —— 线程的概念、实现方式、多线程模型(十)

什么是线程,为什么要引入线程? 有的进程可能需要 “同时” 做很多事情,而传统的进程只能串行的执行一系列的程序,为此,引入了 “线程” ,来增加并发度。 可以把线程理解为 轻量级进程,线程是可…

什么是分布式事务

目录 分布式事务基础 事务 本地事务 分布式事务 分布式事务的场景 分布式事务解决方案 全局事务 优点 缺点 可靠消息服务 第一步 :消息由系统A投递到中间件 超时访问机制 最大努力通知 第一步:消息由系统A投递到中间件 第二步:消息…

ruby环境中的irb

IRB代表Interactive Ruby,它是 Ruby 解释器的一个交互性组件,用于编写 Ruby 代码并动态地执行这些代码进行测试和调试。IRB提供了一个命令行界面,让用户能够输入 Ruby 代码和表达式,获得相应的输出,以及与 Ruby 代码进…

用Jmeter进行接口自动化测试的工作流程你知道吗?

目录 测试流程 接口测试相关文档管理规范 接口测试要点 测试流程 在测试负责人接受到测试任务后,应该按照以下流程规范完成测试工作。 2.1 测试需求分析 产品开发负责人在完成某产品功能的接口文档编写后,在核对无误后下发给对应的接口测试负责人…

全景丨0基础学习VR全景制作,平台篇第16章:热点功能-图片

大家好,欢迎观看蛙色VR官方——后台使用系列课程! 功能说明 应用场景 热点,指在全景作品中添加各种类型图标的按钮,引导用户通过按钮产生更多的交互,增加用户的多元化体验。 图片热点,即点击热点后弹出单张…

Qt5.9学习笔记-事件(二) 自定义事件

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

python 进程间通信 Queue()、Pipe()、manager.list()、manager.dict()、manager.Queue()

👨‍💻个人简介: 深度学习图像领域工作者 🎉总结链接: 链接中主要是个人工作的总结,每个链接都是一些常用demo,代码直接复制运行即可。包括: &am…