讨论大语言模型在学术文献应用中的未来与所带来的可能性和担忧

server/2024/11/18 14:42:40/

概述

近年来,大规模语言模型因其能够根据人类指令自动生成大量高质量文本而备受关注。特别是 2022 年底发布的 ChatGPT 3.5,因其聊天界面的易用性而迅速走红。目前,学术交流领域正在积极讨论如何使用它。而最初的期望也逐渐让人们对其能力和局限性有了更深入的理解和认识。

根据 2023 年底进行的一项调查,30% 的研究人员使用大规模语言模型准备稿件,许多出版商也开始提供使用指南;Wiley 等出版商允许使用这些工具,只要作者完全负责并明确披露其使用情况。然而,要全面了解大规模语言建模文本生成对学术文献质量的影响并不容易。一些研究已经确定论文是由大规模语言模型生成的,因为其中包含的短语明显不同于人类使用的短语,但这种情况只占总数的一小部分。

人工智能检测工具的进步在一定程度上使得使用大规模语言模型来识别生成的文本成为可能,但在某些领域,如物理和数学,还没有得到广泛应用。不过,最近的研究表明,大规模语言模型可用于会议论文的同行评审,尤其是在人工智能领域。这些例子表明,大规模语言模型的使用正开始在学术交流中发挥重要作用,未来的发展将令人关注。

大规模语言模型首选术语的识别

Liang 等人的研究提出了一种新方法,通过识别与模型生成的文本相关的术语来查找利用大规模语言模型的论文。这种方法不需要分析整个文本,只需检测这些特征术语即可进行评估。

为此,Liang 等人选择了 12 个特征形容词(形容词)和副词(副词),并对这些词进行了检测。此外,还有 12 个中性词(Controls)可供比较,这些词在许多文章中都很常用。

全文检索中与每个关键词匹配的文件数量数据来自 Dimensions。数据收集时间为 2024 年 3 月 18 日至 22 日。使用空白搜索对所有 "文章 "进行的计数被用作基线,结果被计算为每年出现该关键词的文件百分比。该基线从 2015 年的约 340 万上升至 2023 年的 530 多万;2024 年的数据已收集,但由于不完整而未进行分析。与每个词匹配的文档比例从 "lucidly "的 0.02%(约 1000 篇/年)到 "after "的 50%以上(约 280 万篇/年)不等。中性词(控制词)比副词(副词)出现的频率高得多,而且比副词更常见。这一分析证实了大规模语言模型生成的文本中使用的独特词汇数量明显增加,表明大规模语言模型在学术文献中的普遍性:在 2023 年发表的文章中,即使考虑到 ChatGPT 发布后出版过程的延迟、预计这一效应将开始显现。

大规模语言模型所青睐的术语变化

下面三幅图显示了 36 个选定词语每年的相对频率变化。仅显示 2019 年至 2023 年的数据。正如预期的那样,中性词(Controls)的年度变化很小。随着时间的推移,一些词语逐渐增多。例如,从 2015 年到 2023 年,蓝色、红色和黄色都略有增加。与此同时,其他词语则保持稳定或略有下降。这些变化表明,随着时间的推移,学术文献中的用词偏好正在逐渐发生变化。

形容词的变化则稍显复杂,一些形容词在 2015 年至 2022 年间稳步增长,而另一些则缓慢下降。然而,在 2023 年,也就是大规模语言模型发布后的第二年,变化尤为明显:12 个形容词(形容词)在 2022 年至 2023 年期间平均增加了 33.7%,其中 “错综复杂”、"值得称赞 "和 "一丝不苟 "等词语显著增加。等词语的数量显著增加。

同样,一些副词(Adverbs)在 2015 年至 2022 年间有所减少,而另一些则有所增加:在 2023 年,"一丝不苟 "增加了 137%,而 "有条不紊 "和 "创新 "也分别增加了 26%。2023年,"一丝不苟 "增加了137%,"有条不紊 "和 "勇于创新 "也分别增加了26%。尤其是,"competently "在 2023 年前再次上升。这些结果表明,大规模语言模型正在对学术文献中的语言使用产生显著影响。

与使用单一术语相比,组合术语的效果也更为明显。例如,在 2023 年,包含前四个 "强 "指标中的一个或多个指标的文章增加了 83.5%。第二组包含 "中等强度 "指标的文章增加了16.3%。第三组 "弱 "指标增加了 9.3%。最后,由 12 个术语组成的第五组 "强、中、弱 "指标组每年发表的文章超过 100 万篇,占所有研究文章的五分之一。

如果大规模语言模型生成的文本倾向于某些术语,那么这些术语有可能被多次使用;通过使用维度数据库查找使用多个指标术语的论文,发现某些词对的结果大幅增加结果表明,某些词对的结果急剧增加。例如,同时包含 "错综复杂 "和 "一丝不苟 "的文章增加了七倍,而 "错综复杂 "和 "引人注目 "的组合增加了四倍。

结合两个或更多术语的论文频率也呈现出类似的趋势,尤其是在第八组中,包括两个 "弱 "术语,与前一年相比增加了 35%。通过这种方式分析术语组合,还可以更准确地了解大规模语言模型的影响范围。

通过利用综合术语数据,我们可以估算出可能包含由大规模语言模型生成的文本的文章总数:从 2014 年到 2022 年,即大规模语言模型开始普及之前,"强+中等术语 "中的文章数量每年平均增长 1.1%,而包括 "所有术语 "在内的第五组文章数量每年平均增长 2.1%。第四组文章的年均增长率为 1.1%,而包括 "所有术语 "在内的第五组文章的年均增长率为 2.1%。这些组别的最大年变化率约为 5%。因此,如果没有外部因素的影响,这些组别的文章数量预计会增加约 5%。根据这一估计,预计第 4组和第 5组的文章数量分别为666,573 篇和1,050,914 篇,而实际数量分别超过 85,761 篇和 65,772 篇,占 2023 年发表文章总数的 1.63% 和 1.25%。

就包含两个以上术语的论文而言,第 9组(两个强/中术语)和第 10组(两个强/中/弱术语)在 2014 年至 2022 年期间的年增长率最大,约为 10-11%,而第 9组(两个强/中/弱术语)和第 10组(两个强/中/弱术语)在 2014 年至 2022 年期间的年增长率分别为 79.8%和 45.7%。显著增长 45.7%。假设这两组的增幅为 11%,预计第 9组和第 10组的论文数量分别为103 232 和230 338 份,而实际数量分别超过 60 514 和 65 735 份,占总数的 1.15%和 1.25%。

然而,这些术语并不是用来识别 ChatGPT 生成文本的唯一指标。例如,“groundbreaking”(开创性的)等词在 2023 年的增长率为 52%,高于其他测试词。此外,"outwith "这个通常只在苏格兰英语中使用的词汇也意外地被 ChatGPT 首选:2023 年几乎增长了两倍,增幅达 185%;"outwith "被发现是 ChatGPT 在 2023 年最常用的词汇,增幅达 18%;"outwith "被发现是 ChatGPT 在 2023 年最常用的词汇,增幅达 18%;"outwith "被发现是英国最常用的词汇,增幅达 18%。此处未测试的其他词语也显示出类似的 “ChatGPT 风格”,而且很有可能出现在文章中,这可能会进一步增加数字。

总结

对 2023 年发表的论文进行的分析表明,估计有 60,000 多篇论文可能包含由大规模语言模型生成的文本。虽然这并不一定直接表明个别论文是由大规模语言模型生成的,但它确实表明大规模语言模型的使用非常普遍。

论文指出,这一事实有两个主要影响:首先,它提出了大规模语言模型是否纯粹用于外观目的的问题。虽然还需要更详细的分析,但论文指出,大规模语言模型可能不仅仅用于简单的文体调整。

其次是对大规模语言模型本身的影响。学术文献是大规模语言模型的重要学习资源,使用大规模语言模型生成的文本越多,"模型崩溃 "的风险就越大。作者认为,这意味着大规模语言模型未来生成文本的质量可能会下降。

报告指出,这种情况需要出版商和审稿人积极应对。特别是,如果没有适当披露使用大规模语言模型生成文本的情况,则有必要制定规则加以澄清。使用大规模语言模型生成文本的作者应适当披露其使用情况,或重新考虑其使用是否恰当。

今后,需要进一步开展研究,以准确确定问题的严重程度,同时还必须为大规模语言模型的使用制定道德准则,并监测其使用对学术界的影响。希望本研究能为深入了解大规模语言模型的使用对学术交流的影响以及应采取的适当措施迈出第一步。

注:
论文地址:https://arxiv.org/abs/2403.16887


http://www.ppmy.cn/server/142936.html

相关文章

Linux下的vim和gdb

vim: vim是编译功能强大,多模式的编译器。实际中vim有很多种模式,但是常用的就三种模式: 1、正常/普通/命令模式(Normal mode)控制屏幕光标的移动,字符、字或行的删除,移动复制某区段及进入Insert mode下…

解决跨域问题

什么是跨域? 跨域指的是浏览器不能执行其他网站的脚本。它是由浏览器的同源策略造成的,是浏览器对javascript施加的安全限制。跨域只出现在前端,后端不会出现。 怎么解决跨域? 1、使用nginx转发 同源策略只限制于浏览器端的服务…

Spring Boot框架助力电商系统设计

2 相关技术 2.1 SpringBoot框架介绍 Spring Boot是一种不需要代码生成的一种框架,并且可以不需要配置任何的XML文件就可以,因为Spring Boot里面自带了很多接口,只需要配置不同的接口就会自动的应用并且识别需要的依赖,在配置方面非…

LeetCode77. 组合 Java题解

https://leetcode.cn/problems/combinations/ 剪枝&#xff1a;一共需要k个&#xff0c;目前已经有tmp.size个&#xff0c;还需要k-tmp.size个&#xff0c;i最大只能从n-(k-size)1开始。 class Solution {public List<List<Integer>> combine(int n, int k) {Arra…

25-Elasticsearch 数据建模实例

字段类型&#xff1a;Text v.s Keyword ● Text ⽤于全⽂本字段&#xff0c;⽂本会被 Analyzer 分词默认不⽀持聚合分析及排序。需要设置 fielddata 为 true ● Keyword ⽤于 id&#xff0c;枚举及不需要分词的⽂本。例如电话号码&#xff0c;email地址&#xff0c;⼿机号码…

七、利用CSS和多媒体美化页面的习题

题目一&#xff1a; 利用CSS技术&#xff0c;结合表格和列表&#xff0c;制作并美化 “ 翡翠阁 ”页面。运行效果如下 运行效果&#xff1a; 代码 <!DOCTYPE html> <html><head><meta charset"utf-8" /><title>翡翠阁</title>&…

IDEA怎么定位java类所用maven依赖版本及引用位置

在实际开发中&#xff0c;我们可能会遇到需要搞清楚代码所用依赖版本号及引用位置的场景&#xff0c;便于排查问题&#xff0c;怎么通过IDEA实现呢&#xff1f; 可以在IDEA中打开项目&#xff0c;右键点击maven的pom.xml文件&#xff0c;或者在maven窗口下选中项目&#xff0c;…

C#从入门到放弃

C#和.NET的区别 C# C#是一个编程语言 .NET .NET是一个在window下创建程序的框架 .NET框架不仅局限于C#,它还可以支持很多语言 .NET包括了2个组件&#xff0c;一个叫CLR(通用语言运行时)&#xff0c;另一个是用来构建程序的类库 CLR 用C写一个程序&#xff0c;在一台8688的机器…