大型语言模型作为属性化训练数据生成器

news/2024/11/24 13:31:02/

大型语言模型作为属性化训练数据生成器,提出一种使用多样化属性提示的数据生成方法,可以生成具有多样性和属性的训练数据,从而提高了模型的性能和数据生成的效率。

动机:大型语言模型(LLM)最近被用作各种自然语言处理(NLP)任务的训练数据生成器。然而,其通常依赖于简单的类条件提示,这可能限制了生成数据的多样性并继承了LLM的系统偏差。因此,本文研究了使用多样化属性提示(例如,指定长度和风格等属性)进行训练数据生成,有可能产生多样化和具有属性的生成数据。

方法:提出一种使用多样化属性提示的数据生成方法。对于给定的分类任务,首先通过LLM的帮助,以交互式、半自动化的方式识别属性维度及其对应的属性值。然后,通过随机组合属性来生成多样化的提示,替换了通常用于从LLM查询数据的简单类条件提示。

优势:在四个分类任务上,通过测量使用两种情况下训练的模型的性能来实证评估生成的数据集:1)仅在生成的数据集上,和2)在包含真实训练集和生成集的合并数据集上。在这两种情况下,使用AttrPrompt生成的数据集明显优于使用SimPrompt生成的数据集。此外,还展示了AttrPrompt在数据/预算效率和与不同模型大小/各种LLM作为训练数据生成器方法的兼容性方面优于SimPrompt的优势。

82b41315710c414abf5a605d806a79e6.jpeg

 

去年 2 月份,DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议并检查错误,从而提高编程效率。AlphaCode 的问世意味着 AI 在解决现实世界问题的道路上又迈出了一大步。

巧合的是,在同一天,OpenAI 也展示了一项重要成果:他们开发的神经定理证明器成功解出了两道国际奥数题。这一成果是在微软打磨了多年的数学 AI——Lean 的基础上完成的。Lean 于 2013 年推出,数学家可以把数学公式转换成代码,再输入到 Lean 中,让程序来验证定理是否正确。OpenAI 的成功表明,AI 不仅可以用于解决编程等应用学科的问题,还能用来攻克数学等自然学科。

值得注意的是,这并不是 AI 研究者的「一厢情愿」。就像快速接受 AlphaCode 的软件工程师一样,数学家也在越来越频繁地使用 AI,比如获得过菲尔茨奖的陶哲轩。他甚至预言,到 2026 年,AI 将成为数学研究领域可信赖的合著者(co-author)。

与此同时,主攻数学问题的 AI 也在不断发展壮大:一个名为 LeanDojo 的开放平台提供了一套基于大型语言模型的开源定理证明器,消除了在机器学习方法用于定理证明时存在的私有代码、数据和大量计算需求等障碍,为机器学习方法在定理证明领域的研究提供了便利。

「我相信,数学将成为第一门通过人工智能实现重大突破的学科。」在看到这些进展之后,英伟达高级 AI 研究科学家 Jim Fan 在一篇推特中预言说。
 

 


http://www.ppmy.cn/news/694838.html

相关文章

iVMS-4200 Vs区别_理科与工科有什么区别?如何判断自己适合学那个?

原标题:理科与工科有什么区别?如何判断自己适合学那个? 理科和工科是本科专业的主体,在报考中,大家总是习惯地把理科和工科合在一起,俗称为“理工”。两者之间虽然有联系但却是截然不同的两大学科&#xff…

iVMS-4200 Vs区别_异地恋 VS 网恋,哪个更难坚持到最后?| Newth互动158

八点集合,江湖再见! 欢迎回到Newth的江湖世界。 Newth互动 158 异地恋 VS 网恋,哪个更难坚持到最后? 01 异地恋更难网恋不管距离多远顺着网线就能找到可是异地恋是依赖感安全感的瞬间消失也是习惯的突然打破然后就变成了没有你的…

过流媒体取流失败_海康硬盘录像机:监控点取流失败,开始重连.错误代码为iVMS-4200.EXE[302]求大神解决...

展开全部 iVMS-4200.exe[302]的错误码:62616964757a686964616fe58685e5aeb931333365663436 【问题原因】 监控点不可用或者不存在。可能是设备网络中断导致设备掉线。 解决的步骤如下: 1、确认下该监控点的网络状态是否正常,一般是由于设备掉线导致的图像预览不了。 2、若都…

iVMS-4200 Vs区别_高中和大学的这些区别虽鲜为人知,却字字有据,句句真实

学有方法,考有技巧,优学优考策略致力于学与考的最优结合,助力学子考入理想大学! 终于到了上大学的年纪,身边的小伙伴都走上了各奔前程的路,你也不例外吧,在一个人的路上越走越远。或许这个时候的…

ivms4200 远程桌面访问测试过程及问题汇总

17.11.4 测试存储服务器配置后能否自动录像确认 10:34 4200客户端关闭 10:40 打开4200客户端软件 10:51 关机 10:56 开机,有提示出现,“防火墙阻止。。。。 处理: 修改防火墙,加4200客户端 设定为全部允许通过 11:00 …

iVMS-4200 Vs区别_杏林早报 | 西芹、水芹、旱芹...功效有区别,吃对才真降血压!...

打开音乐,开启早报唠嗑的一天~ 昨天说了芹菜能降血压、 祛湿浊、补血安神, 但芹菜有好几种,吃哪个效果更好呢? 今天就来好好说说。 (↑ 芹菜种类图) 芹菜其实有很多的品种, 比如根芹、白芹、红芹、空心芹...... 今天主…

gpt全称

您是否曾经好奇过GPT的全称是什么?GPT代表"Generative Pre-trained Transformer",是一种基于Transformer模型的生成式预训练模型。而GPT4则是最新一代的GPT模型,它在自然语言处理领域取得了巨大的突破。 GPT4:开启人工…

linux终端显示路径/绝对路径/相对路径

1. 临时生效 命令行提示符只列出最后一个目录: export PS1[\u\h \W]$ 命令行提示符显示完整工作目录,当前用户目录会以 ~代替: export PS1[\u\h \w]$命令行提示符完全显示完整的工作目录名称: export PS1[\u\h $PWD]$ 2. 永久…