EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS

news/2024/11/15 0:59:39/

本文是LLM系列文章,针对《EVALUATING HALLUCINATIONS IN CHINESE LARGE LANGUAGE MODELS》的翻译。

中文大语言模型的幻觉评价

  • 摘要
  • 1 引言
  • 2 HALLUQA基准
  • 3 实验
  • 4 讨论
  • 5 相关工作
  • 6 结论

摘要

在本文中,我们建立了一个名为HalluQA (Chinese Hallucination question - answers)的基准来测量中文大型语言模型中的幻觉现象。HalluQA包含450个精心设计的对抗性问题,跨越多个领域,并考虑到中国的历史文化,习俗和社会现象。在构建HalluQA的过程中,我们考虑了两种类型的幻觉:模仿虚假和事实错误,并基于GLM-130B和ChatGPT构建了对抗性样本。为了评估,我们设计了一种使用GPT-4的自动评估方法来判断模型输出是否存在幻觉。我们在ERNIE-Bot、百川2、ChatGLM、Qwen、SparkDesk等24个大型语言模型上进行了大量的实验。在24个模型中,18个模型的无幻觉率低于50%。这表明《HalluQA》具有很高的挑战性。我们分析了不同类型模型中幻觉的主要类型及其原因。此外,我们还讨论了不同类型的模型应该优先考虑哪种类型的幻觉。

1 引言

2 HALLUQA基准

3 实验

4 讨论

5 相关工作

6 结论

在这项工作中,我们创建了一个名为HalluQA的中文幻觉问答数据集,用于评估中文大型语言模型中的幻觉。HalluQA中的问题可以用来衡量假性谎言和事实性错误。设计了一种基于llm的自动化评价方法,并验证了其有效性。我们在24个大型语言模型上进行了大量的实验。所有模型在HalluQA上的非幻觉率都低于70%,这证明了我们数据集的挑战性。根据实验结果,我们进一步分析了不同模型的初级幻觉类型,并讨论了不同模型需要优先考虑和解决的类型。我们希望HalluQA可以帮助减少中文大型语言模型中的幻觉问题,提高模型的可信度。


http://www.ppmy.cn/news/1143469.html

相关文章

什么是UML UML入门到放弃系列

1.定义 UML-Unified Modeling Language 统一建模语言,又称标准建模语言。是用来对软件密集系统进行可视化建模的一种语言。 2.UML的三个级别 《UML精粹》一书中把这三个级别称为概念级、规格说明级和实现级。 2.1 概念级 概念级的图示和源代码之间没有很强的关联。…

【网络安全---XSS漏洞(1)】XSS漏洞原理,产生原因,以及XSS漏洞的分类。附带案例和payload让你快速学习XSS漏洞

以pikachu靶场为例子进行讲解,pikachu靶场的搭建请参考以下博客; 【网路安全 --- pikachu靶场安装】超详细的pikachu靶场安装教程(提供靶场代码及工具)_网络安全_Aini的博客-CSDN博客【网路安全 --- pikachu靶场安装】超详细的pi…

Mac navicat连接mysql出现1045 - Access denied for user ‘root‘

Mac navicat连接mysql出现1045 - Access denied for user ‘root’ 前提:如果你的mac每次开navicat都连接不上,推荐试试我这个方法 1.打开设置–>找到左下角最下面的MySQL–>点击Stop MySQL Server 2.开启一个终端,依次输入以下命令&a…

聊聊僵尸进程

文章目录 1. 前言1.1 什么是僵尸进程1.2 为什么需要关注僵尸进程 2. 僵尸进程的产生2.2 为什么会产生僵尸进程2.3 举个栗子 3. 僵尸进程的影响3.1 僵尸进程为何会占用系统资源3.2 操作系统如何知道哪个资源需要被释放3.3 什么是进程表3.4 什么是PCB 5. 如何处理僵尸进程4.1 识别…

Python 编程基础 | 第五章-类与对象 | 5.4、访问控制

一、访问控制 为了保证类内部的某些属性或方法不被外部所访问,可以在属性或方法名前面添加单下划线_foo、双下划线__foo或者首尾加双下划线__ foo __,从而限制访问权限。 1、单下划线 以单下划线开头的表示protected(保护)类型的成…

​LeetCode解法汇总2578. 最小和分割

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 描述: 给你一个正…

Python 樱花

Python实现樱花 效果图 (源码在下面) 源码: from turtle import * from random import * from math import *def tree(n, l):pd() # 下笔# 阴影效果t cos(radians(heading() 45)) / 8 0.25pencolor(t, t, t)pensize(n / 3)forward(l…

C++中指向成员的指针运算符(.* 和 ->*)用法说明

目录 一 MSDN中使用说明1.1 语法1.2 备注 二 一个使用案例 一 MSDN中使用说明 1.1 语法 expression .* expression //直接成员解除引用运算符 expression –>* expression //间接成员解除引用运算符 1.2 备注 C中指向成员的指针运算符(.* 和 ->*)…