【AI视野·今日NLP 自然语言处理论文速览第三十六期】Tue, 19 Sep 2023

AI视野·今日CS.NLP 自然语言处理论文速览
Tue, 19 Sep 2023 (showing first 100 of 106 entries)
Totally 106 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computation and Language Papers

Speaker attribution in German parliamentary debates with QLoRA-adapted large language models
Authors Tobias Bornheim, Niklas Grieger, Patrick Gustav Blaneck, Stephan Bialonski
不断增长的政治文本为深入了解政治动态和意识形态提供了新的机会，但也增加了手动分析的工作量。自动说话人归因可以检测语音事件中谁对谁说了什么，并且与语义角色标记密切相关，是计算文本分析的重要处理步骤。我们研究了大型语言模型家族 Llama 2 在 2017 年至 2021 年德国议会辩论中自动进行说话人归因的潜力。我们使用 QLoRA（一种高效的训练策略）对 Llama 2 进行微调，并观察我们在 GermEval 2023 Shared 中实现竞争表现的方法德国新闻文章和议会辩论中发言人归属的任务。

Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for Inferring Online Health Texts
Authors Joseph Gatto, Sarah M. Preum
网络和社交平台上的用户生成文本通常很长并且在语义上具有挑战性，这使得它们难以注释。随着问题领域变得更加专业，获得人工注释变得越来越困难。例如，许多健康 NLP 问题需要领域专家成为注释管道的一部分。因此，我们开发能够处理这组有限数据问题的低资源 NLP 解决方案至关重要。在本研究中，我们采用抽象含义表示 AMR 图作为对来自各种在线健康资源和社区的低资源健康 NLP 任务进行建模的手段。 AMR 非常适合对在线健康文本进行建模，因为它们可以表示多句输入、从复杂的术语中抽象出来，并对共同引用标记之间的长距离关系进行建模。因此，AMR 提高了预训练语言模型推理高复杂文本的能力。我们的实验表明，通过使用语义图嵌入增强文本嵌入，我们可以提高 6 个低资源健康 NLP 任务的性能。我们的方法与任务无关，并且易于合并到任何标准文本分类管道中。我们通过 Flesch Kincaid 阅读水平和句法复杂性这两个文本复杂性指标来分析性能，通过实验验证 AMR 在复杂文本建模中的有用性。

Instruction-Following Speech Recognition
Authors Cheng I Jeff Lai, Zhiyun Lu, Liangliang Cao, Ruoming Pang
传统的端到端自动语音识别 ASR 模型主要关注精确的转录任务，缺乏细致的用户交互的灵活性。随着语音处理领域大型语言模型法学硕士的出现，更有机、基于文本提示的交互已成为可能。然而，这些模型语音理解和推理能力背后的机制仍未得到充分探索。为了从数据角度研究这个问题，我们引入了语音识别指令，训练听听拼写模型来理解和执行一组不同的自由格式文本指令。这使得能够执行从转录操作到摘要等多种语音识别任务，而无需依赖预定义的命令集。值得注意的是，我们的模型在 Librispeech 上从头开始训练，无需法学硕士或预先训练的语音模块即可解释和执行简单的指令。它还根据指令提供选择性转录选项，例如转录前半部分，然后关闭收听，与现有的法学硕士相比，提供了额外的隐私和安全层。

Hypr: A comprehensive study for ASR hypothesis revising with a reference corpus
Authors Yi Wei Wang, Ke Han Lu, Kuan Yu Chen
随着深度学习的发展，自动语音识别ASR取得了重大进展。为了进一步提高性能，修改识别结果是一种轻量级但有效的方式。各种方法大致可以分为N种最佳重排序方法和纠错模型。前者旨在从 ASR 为给定输入语音生成的一组候选假设中选择错误率最低的假设。后者侧重于检测给定假设中的识别错误并纠正这些错误以获得增强的结果。然而，我们观察到这些研究彼此之间几乎没有可比性，因为它们通常在不同的语料库上进行评估，与不同的 ASR 模型配对，甚至使用不同的数据集来训练模型。因此，我们首先集中于发布 ASR 假设，修改本研究中的 HypR 数据集。 HypR 包含几个常用的语料库 AISHELL 1、TED LIUM 2 和 LibriSpeech，并为每个语音话语提供 50 个识别假设。 ASR 的检查点模型也已发布。此外，我们还实现并比较了几种经典且有代表性的方法，展示了语音识别结果修正方面的最新研究进展。

Task Selection and Assignment for Multi-modal Multi-task Dialogue Act Classification with Non-stationary Multi-armed Bandits
Authors Xiangheng He, Junjie Chen, Bj rn W. Schuller
多任务学习 MTL 旨在通过与相关辅助任务的联合学习来提高主要任务的性能。传统的 MTL 方法在训练过程中随机选择任务。然而，之前的研究和我们的结果都表明，这种随机选择任务可能没有帮助，甚至可能有害于表现。因此，需要探索 MTL 中任务选择和分配的新策略。本文研究了多模态、多任务对话行为分类任务，提出了一种基于高斯先验的贴现汤普森采样TS的非平稳多臂老虎机MAB的任务选择和分配方法。我们的实验结果表明，在不同的训练阶段，不同的任务具有不同的效用。我们提出的方法可以有效地识别任务效用，主动避免无用或有害的任务，并在训练期间实现任务分配。我们提出的方法在 UAR 和 F1 方面显着优于单任务和多任务基线，p 值为 0.05。进一步的实验分析表明，对于存在数据不平衡问题的数据集，我们提出的方法具有明显更高的稳定性，并且对于少数类可以获得一致且不错的性能。

AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification
Authors Abdelrahman Abdallah, Mahmoud Abdalla, Mohamed Elkasaby, Yasser Elbendary, Adam Jatowt
关键信息提取涉及从扫描的收据中识别和提取文本、检索基本内容并将其组织成结构化文档。本文提出了一种用于收据提取的新型多语言数据集，解决了信息提取和项目分类中的关键挑战。该数据集包含 47,720 个样本，包括商品名称、价格、品牌等属性的注释，以及 44 个产品类别的分类。我们引入了 InstructLLaMA 方法，在关键信息提取和项目分类方面实现了 0.76 的 F1 分数和 0.68 的准确率。我们提供代码、数据集和检查点。

Watch the Speakers: A Hybrid Continuous Attribution Network for Emotion Recognition in Conversation With Emotion Disentanglement
Authors Shanglin Lei, Xiaoping Wang, Guanting Dong, Jiang Li, Yingjian Liu
会话中的情绪识别 ERC 由于其巨大的实际应用潜力而在自然语言处理领域引起了广泛的关注。由于上下文建模不足、对话关系捕捉不明确以及说话者建模过度拟合，现有的 ERC 方法在实现对不同场景的泛化方面面临挑战。在这项工作中，我们提出了一种混合连续归因网络 HCAN，从情感延续和情感归因的角度解决这些问题。具体来说，HCAN 采用混合循环和基于注意力的模块来模拟全局情感连续性。然后提出了一种新颖的情感归因编码 EAE 来对每个话语的内部和内部情感归因进行建模。此外，为了增强模型在说话人建模中的鲁棒性并提高其在不同场景下的性能，提出了一种综合损失函数情感认知损失数学L rm EC来减轻情绪漂移并克服模型对说话人建模的过度拟合。我们的模型在三个数据集上实现了最先进的性能，证明了我们工作的优越性。另对三个基准进行了广泛的比较实验和消融研究，以提供证据来支持每个模块的功效。

The ParlaSent multilingual training dataset for sentiment identification in parliamentary proceedings
Authors Michal Mochtak, Peter Rupnik, Nikola Ljube i
情绪本质上驱动政治。我们如何接收和处理信息在政治决策中发挥着至关重要的作用，塑造我们的判断，对立法者和群众产生战略影响。如果情绪在政治中发挥如此重要的作用，我们如何系统地研究和测量它？本文提出了一个新的情绪注释句子数据集，该数据集用于一系列实验，重点是为议会程序训练强大的情绪分类器。该论文还介绍了第一个针对政治学应用的特定领域法学硕士，另外还对来自 27 个欧洲议会会议记录的 17.2 亿个领域特定单词进行了预训练。我们提出的实验证明了 LLM 对议会数据的额外预训练如何能够显着提高模型下游在特定领域任务上的性能，在我们的例子中，是议会程序中的情绪检测。我们进一步表明，多语言模型在未见过的语言上表现非常好，并且来自其他语言的附加数据显着改善了目标议会的结果。该论文对社会科学的多个领域做出了重要贡献，并将它们与计算机科学和计算语言学联系起来。

Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation
Authors Huachuan Qiu, Shuai Zhang, Hongliang He, Anqi Li, Zhenzhong Lan
在对话环境中，NSFW 工作不安全内容可能会对开放域对话系统中的用户产生严重的副作用。然而，在对话环境中检测 NSFW 语言（尤其是露骨的色情内容）的研究明显滞后。为了解决这个问题，我们引入了 CensorChat，一个旨在 NSFW 对话检测的对话监控数据集。利用涉及 GPT 4 和 ChatGPT 的知识蒸馏技术，该数据集提供了一种构建 NSFW 内容检测器的经济有效的方法。该过程需要收集现实生活中的人机交互数据并将其分解为单个话语和单轮对话，并由聊天机器人提供最终话语。 ChatGPT 用于注释未标记的数据，作为训练集。使用 ChatGPT 和 GPT 4 作为注释器构建基本原理验证和测试集，并采用自我批评策略来解决标签中的差异。 BERT 模型作为伪标记数据的文本分类器进行微调，并评估其性能。该研究强调了人工智能系统在尊重言论自由的同时优先考虑数字对话中用户安全和福祉的重要性。

Dealing with negative samples with multi-task learning on span-based joint entity-relation extraction
Authors Chenguang Xue, Jiamin Lu
最近基于跨度的联合提取模型在实体识别和关系提取方面都表现出了显着的优势。这些模型将文本跨度视为候选实体，并将跨度对视为候选关系元组，从而在 ADE 等数据集上实现了最先进的结果。然而，这些模型在执行任务期间会遇到大量非实体跨度或不相关的跨度对，从而显着损害模型性能。针对这一问题，本文提出了一种基于跨度的多任务实体关系联合抽取模型。该方法采用多任务学习来减轻负样本对实体和关系分类器的影响。此外，我们利用 Intersection over Union IoU 概念将位置信息引入实体分类器，实现跨度边界检测。此外，通过将实体分类器预测的实体Logits合并到实体对的嵌入表示中，丰富了关系分类器的语义输入。

LLM4Jobs: Unsupervised occupation extraction and standardization leveraging Large Language Models
Authors Nan Li, Bo Kang, Tijl De Bie
从自由文本职位发布和简历中自动提取职业并标准化对于职位推荐和劳动力市场政策制定等应用至关重要。本文介绍了 LLM4Jobs，这是一种新颖的无监督方法，它利用大型语言模型 LLM 的功能进行职业编码。 LLM4Jobs 独特地利用了法学硕士的自然语言理解和生成能力。通过对合成数据集和现实世界数据集的严格实验进行评估，我们证明 LLM4Jobs 始终超越无监督的最先进基准，展示了其在不同数据集和粒度上的多功能性。作为我们工作的一个附带结果，我们提供了合成数据集和现实世界数据集，这可能有助于该领域的后续研究。

Evaluating Gender Bias of Pre-trained Language Models in Natural Language Inference by Considering All Labels
Authors Panatchakorn Anantaprayoon, Masahiro Kaneko, Naoaki Okazaki
在预先训练的语言模型 PLM 中发现了歧视性社会偏见，包括性别偏见。在自然语言推理 NLI 中，最近的偏差评估方法观察到了来自特定标签（例如中性或蕴含）的输出的偏差推理。然而，由于不同的有偏推论可能与不同的输出标签相关联，因此依赖一个标签的方法是不准确的。在这项工作中，我们提出了一种考虑 NLI 任务中所有标签的评估方法。我们创建评估数据，并根据预期的有偏差的输出标签将它们分组。然后，我们根据每个数据组相应的标签输出定义偏差度量。在实验中，我们提出了一种针对 NLI 偏差测量的元评估方法，然后用它来确认我们的测量可以比基线更准确地评估偏差。此外，我们通过对英语、日语和中文三种不同语言的 PLM 进行元评估，表明我们的评估方法适用于多种语言。最后，我们评估每种语言的 PLM 以确认它们的偏差倾向。

Do learned speech symbols follow Zipf's law?
Authors Shinnosuke Takamichi, Hiroki Maeda, Joonyong Park, Daisuke Saito, Hiroshi Saruwatari
在这项研究中，我们研究了通过深度学习学习的语音符号是否遵循齐普夫定律，类似于自然语言符号。齐普夫定律是一条描述单词频率分布的经验定律，构成了自然语言处理中统计分析的基础。人类发明的用于象征语音内容的自然语言符号被认为遵守这一定律。另一方面，口语处理方面的最新突破促进了学习语音符号的发展，这些符号是语音内容的数据驱动符号化。我们的目标是确定这些数据驱动的语音符号是否像自然语言符号一样遵循齐普夫定律。

Multi-turn Dialogue Comprehension from a Topic-aware Perspective
Authors Xinbei Ma, Yi Xu, Hai Zhao, Zhuosheng Zhang
对话相关的机器阅读理解需要语言模型对多轮对话段落进行有效的解耦和建模。由于对话的发展遵循参与者的意图，因此其主题可能不会在整个段落中保持不变。因此，检测和利用对话建模中的主题转移并非易事。主题建模虽然在纯文本中得到了广泛的研究，但在对话阅读理解中值得更多的利用。本文提出从主题感知的角度对多轮对话进行建模。我们从对话分割算法开始，以无监督的方式将对话段落分割成主题集中的片段。然后我们在进一步的对话理解中使用这些片段作为主题感知语言处理单元。一方面，分割的片段指示特定主题而不是混合意图，从而显示出在领域主题检测和定位上的便利。对于此任务，我们设计了一个带有自训练自动编码器的聚类系统，并构建了两个构建的数据集进行评估。另一方面，分割片段是多轮对话响应选择的适当元素。为此，我们进一步提出了一种新颖的模型，即主题感知双重注意力匹配 TADAM 网络，该模型以主题片段作为处理元素，并通过双重交叉注意力来匹配响应候选者。对三个公共基准的实证研究表明，与基准相比有了很大的改进。

A Novel Method of Fuzzy Topic Modeling based on Transformer Processing
Authors Ching Hsun Tseng, Shin Jye Lee, Po Wei Cheng, Chien Lee, Chih Chieh Hung
主题建模无疑是监控市场趋势的便捷方法。传统上，潜在狄利克雷分配 (LDA) 被认为是获取此类信息的必须模型。通过LDA中利用token条件概率推导关键字的优点，我们可以知道最可能或最本质的主题。然而，结果并不直观，因为给定的主题不能完全符合人类知识。 LDA提供了第一个可能的相关关键字，这也带来了另一个问题，即基于统计可能性的连接是否可靠。提前手动确定主题编号也很困难。随着使用模糊隶属度聚类和使用转换器嵌入单词的蓬勃发展趋势，这项工作提出了基于软聚类和基于最先进的转换器模型的文档嵌入的模糊主题建模。

Proposition from the Perspective of Chinese Language: A Chinese Proposition Classification Evaluation Benchmark
Authors Conghui Niu, Mengyang Hu, Lin Bo, Xiaoli He, Dong Yu, Pengyuan Liu
现有命题通常依赖逻辑常数进行分类。与英语等偏向形合的西方语言相比，汉语在日常表达中往往依赖语义或逻辑理解，而不是逻辑连接词，表现出意合的特点。然而，现有的研究很少关注这个问题。对这些命题进行准确分类对于自然语言理解和推理至关重要。在本文中，我们提出了显性命题和隐性命题的概念，并提出了一种基于语言学和逻辑学的综合多层次命题分类系统。相应地，我们创建了一个来自多个领域的大规模中文命题数据集PEACE，涵盖了与命题相关的所有类别。为了评估现有模型的中文命题分类能力并探讨其局限性，我们使用基于规则的方法、SVM、BERT、RoBERTA 和 ChatGPT 等几种不同的方法对 PEACE 进行评估。结果表明正确建模命题语义特征的重要性。 BERT具有较好的命题分类能力，但缺乏跨领域可迁移性。 ChatGPT 表现较差，但可以通过提供更多的命题信息来提高其分类能力。

Fabricator: An Open Source Toolkit for Generating Labeled Training Data with Teacher LLMs
Authors Jonas Golde, Patrick Haller, Felix Hamborg, Julian Risch, Alan Akbik
大多数 NLP 任务都被建模为监督学习，因此需要标记的训练数据来训练有效的模型。然而，众所周知，以足够的质量和数量手动生成此类数据成本高昂且耗时。当前的研究通过探索一种称为通过数据集生成进行零样本学习的新范式来解决这一瓶颈。在这里，一个强大的 LLM 会收到任务描述，以生成可用于训练下游 NLP 模型的标记数据。例如，法学硕士可能会被提示生成 500 条具有积极总体情绪的电影评论，以及另外 500 条具有负面情绪的电影评论。然后，生成的数据可用于训练二元情感分类器，有效地利用法学硕士作为较小学生模型的教师。通过这个演示，我们介绍了 Fabricator，一个用于数据集生成的开源 Python 工具包。 Fabricator实现了通用的数据集生成工作流程，支持广泛的下游NLP任务，例如文本分类、问答和实体识别，并与知名库集成以方便快速实验。

Summarization is (Almost) Dead
Authors Xiao Pu, Mingqi Gao, Xiaojun Wan
大型语言模型法学硕士生成摘要的效果如何我们开发新的数据集并进行人工评估实验，以评估法学硕士在五个不同摘要任务中的零样本生成能力。我们的研究结果表明，人类评估者明显偏爱法学硕士生成的摘要，而不是人类书面摘要和微调模型生成的摘要。具体来说，法学硕士生成的摘要表现出更好的事实一致性和更少的外在幻觉实例。由于法学硕士在摘要任务中的令人满意的表现甚至超越了参考文献摘要的基准，我们认为文本摘要领域的大多数常规工作在法学硕士时代不再是必要的。

Adapting Large Language Models via Reading Comprehension
Authors Daixuan Cheng, Shaohan Huang, Furu Wei
我们探讨了对特定领域语料库的持续预训练如何影响大型语言模型，揭示了对原始语料库的训练赋予模型领域知识，但极大地损害了其回答问题的提示能力。通过阅读后的阅读理解练习从人类学习中汲取灵感，提高了基于所学知识回答问题的能力，我们提出了一种将原始语料库转换为阅读理解文本的简单方法。每个原始文本都丰富了一系列与其内容相关的任务。我们的方法具有高度可扩展性，适用于任何预训练语料库，能够持续提高生物医学、金融和法律三个不同领域的各种任务的性能。值得注意的是，我们的 7B 语言模型与更大规模的领域特定模型（例如 BloombergGPT 50B）相比，实现了具有竞争力的性能。此外，我们证明了特定领域的阅读理解文本即使在通用基准上也可以提高模型的性能，这表明了开发跨更多领域的通用模型的潜力。

Improved Factorized Neural Transducer Model For text-only Domain Adaptation
Authors Junzhe Liu, Jianwei Yu, Xie Chen
端到端模型，例如神经换能器，已经成功地将声学和语言信息联合起来，以实现出色的识别性能。然而，用纯文本数据调整这些模型具有挑战性。因子式神经变换器 FNT 旨在通过引入单独的词汇解码器来预测词汇来解决这个问题，该解码器可以有效地执行传统的文本数据适应。尽管如此，这种方法在无缝融合声音和语言信息方面存在局限性。此外，还观察到一般测试集上的单词错误率 WER 下降，导致对其整体性能产生怀疑。为了应对这一挑战，我们提出了一种改进的分解神经换能器 IFNT 模型结构，旨在全面集成声学和语言信息，同时实现有效的文本适应。我们通过 GigaSpeech 的域内实验和适应 EuroParl、TED LIUM 和医学数据集的域外实验来评估我们提出的方法的性能。

Understanding Divergent Framing of the Supreme Court Controversies: Social Media vs. News Outlets
Authors Jinsheng Pan, Zichen Wang, Weihong Qi, Hanjia Lyu, Jiebo Luo
了解政治问题的框架至关重要，因为它极大地影响了个人如何看待、解释和参与这些问题。虽然之前的研究已经独立探索了新闻媒体和社交媒体用户的框架，但我们对这两个不同群体之间在框架政治问题上的差异的理解仍然存在显着差距。为了解决这一差距，我们进行了全面调查，重点关注社交媒体和传统媒体在定性和定量方面对美国最高法院关于平权行动、学生贷款和堕胎权的一系列裁决的细微差别。我们的研究结果表明，虽然社交媒体和传统媒体之间在框架上存在一些重叠，但在不同主题和特定框架类别内都出现了实质性差异。与传统新闻媒体相比，社交媒体平台往往在所有框架类别中呈现更加两极分化的立场。此外，我们观察到新闻媒体的处理方式存在明显两极分化，即平权行动和堕胎权的左倾媒体与右倾媒体，而学生贷款的话题往往表现出更大程度的共识。

Search and Learning for Unsupervised Text Generation
Authors Lili Mou
随着深度学习技术的进步，文本生成因其广泛的应用以及它是人工智能的重要组成部分而吸引了人工智能界越来越多的兴趣。传统的文本生成系统以监督方式进行训练，需要大量标记的并行语料库。在本文中，我将介绍我们最近在无监督文本生成的搜索和学习方法方面的工作，其中启发式目标函数估计候选句子的质量，离散搜索算法通过最大化搜索目标来生成句子。机器学习模型进一步从搜索结果中学习，以消除噪音并提高效率。

Investigating Zero- and Few-shot Generalization in Fact Verification
Authors Liangming Pan, Yunxiang Zhang, Min Yen Kan
在本文中，我们探索了事实验证 FV 的零样本和少样本泛化，其目的是将在资源丰富的领域（例如维基百科）上训练的 FV 模型泛化到缺乏人工注释的资源匮乏的领域。为此，我们首先构建一个基准数据集集合，其中包含代表 6 个领域的 11 个 FV 数据集。我们对这些 FV 数据集的泛化能力进行了实证分析，发现当前模型的泛化能力很差。我们的分析表明，有几个因素会影响泛化，包括数据集大小、证据长度和主张类型。

CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
Authors Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
具有令人印象深刻的学习能力的大型语言模型法学硕士的开发背后的驱动因素是其庞大的模型规模和广泛的训练数据集。随着自然语言处理领域的进步，法学硕士经常向公众开放，以促进更深入的研究和应用。然而，当涉及到这些法学硕士的训练数据集时，尤其是最近最先进的模型，它们通常没有完全公开。为高性能法学硕士创建培训数据涉及大量清理和重复数据删除，以确保必要的质量水平。因此，培训数据缺乏透明度阻碍了法学硕士中归因和解决幻觉和偏见问题的研究，阻碍了复制工作和社区的进一步进步。这些挑战在多语言学习场景中变得更加明显，因为可用的多语言文本数据集通常收集和清理不充分。因此，缺乏开源且易于使用的数据集来有效培训多种语言的法学硕士。为了解决这个问题，我们推出了 CulturaX，这是一个庞大的多语言数据集，包含 167 种语言的 6.3 万亿个标记，专为法学硕士开发而定制。我们的数据集通过多个阶段的严格流程进行细致的清理和重复数据删除，以实现模型训练的最佳质量，包括语言识别、基于 URL 的过滤、基于指标的清理、文档细化和重复数据删除。

Do Large GPT Models Discover Moral Dimensions in Language Representations? A Topological Study Of Sentence Embeddings
Authors Stephen Fitz
随着大型语言模型在人工智能系统中的部署，并与人类社会日益融合，研究其内部结构变得比以往任何时候都更加重要。 GPT 3.5 等法学硕士的更高水平能力的出现在很大程度上是由于它们在数万亿单词的预训练期间从原始文本数据中归纳出信息丰富的语言表示。这些嵌入存在于数千维的向量空间中，它们的处理涉及多个向量空间之间的映射，参数总数约为万亿量级。此外，这些语言表示是由梯度优化引起的，导致难以解释的黑盒系统。在本文中，我们研究了 Chat GPT 基础语言模型大脑中神经元活动的拓扑结构，并根据代表公平概念的度量对其进行了分析。我们开发了一种新颖的方法来可视化 GPT 的道德维度。我们首先受社会心理学文献的启发，计算公平性度量，以确定通常影响人类公平性评估的因素，例如合法性、需求和责任。随后，我们使用低维单纯复形来总结流形的形状，其拓扑是从该度量导出的。我们用与该公平性度量相关的热图对其进行着色，从而生成人类可读的高维句子流形可视化。我们的结果表明，基于 GPT 3.5 的句子嵌入可以分解为对应于公平和不公平道德判断的两个子流形。

Augmenting text for spoken language understanding with Large Language Models
Authors Roshan Sharma, Suyoun Kim, Daniel Lazar, Trang Le, Akshat Shrivastava, Kwanghoon Ahn, Piyush Kansal, Leda Sari, Ozlem Kalinli, Michael Seltzer
口语语义解析 SSP 涉及从输入语音生成机器可理解的解析。为训练数据中表示的现有应用领域训练鲁棒模型或扩展到新领域需要相应的语音转录本语义解析数据三元组，而获取这些数据的成本很高。在本文中，我们通过研究可以使用转录语义解析数据不配对文本而没有相应语音的方法来解决这一挑战。首先，当从现有文本语料库中提取未配对的文本时，将联合音频文本 JAT 和文本到语音 TTS 进行比较，作为生成未配对文本的语音表示的方法。 STOP 数据集上的实验表明，来自现有域和新域的未配对文本在绝对精确匹配 EM 中的性能分别提高了 2 和 30。其次，我们考虑现有文本语料库中不存在未配对文本时的设置。我们建议促使大型语言模型法学硕士为现有和新领域生成不配对的文本。实验表明，与意图同时出现的示例和单词可用于使用 Llama 2.0 生成不配对的文本。

Mitigating Shortcuts in Language Models with Soft Label Encoding
Authors Zirui He, Huiqi Deng, Haiyan Zhao, Ninghao Liu, Mengnan Du
最近的研究表明，大型语言模型依赖于数据中的虚假相关性来完成自然语言理解 NLU 任务。在这项工作中，我们的目标是回答以下研究问题：我们能否通过修改训练数据的真实标签来减少虚假相关性具体来说，我们提出了一个简单而有效的去偏框架，名为 Soft Label Encoding SoftLE 。我们首先训练一个带有硬标签的教师模型，以确定每个样本对捷径的依赖程度。然后，我们添加一个虚拟类来对快捷度进行编码，该虚拟类用于平滑地面真值标签中的其他维度以生成软标签。这个新的地面实况标签用于训练更强大的学生模型。

Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles
Authors Kung Hsiang Huang, Philippe Laban, Alexander R. Fabbri, Prafulla Kumar Choubey, Shafiq Joty, Caiming Xiong, Chien Sheng Wu
先前对多文档新闻摘要的研究通常集中于整理所有来源都同意的信息。然而，据我们所知，之前尚未对分散在有关同一事件的多篇文章中的各种信息进行总结。后者给摘要模型带来了一系列不同的挑战。在本文中，我们提出了一项新任务，即总结包含同一事件的多篇新闻文章中遇到的不同信息。为了促进这项任务，我们概述了一个用于识别不同信息的数据收集模式，并策划了一个名为 DiverseSumm 的数据集。该数据集包含 245 个新闻故事，每个故事包含 10 篇新闻文章，并配有经过人工验证的参考文献。此外，我们进行了全面分析，以查明利用基于 LLM 的大型语言模型的指标来评估摘要的覆盖范围和可信度及其与人类评估的相关性时的位置和冗长偏差。我们应用我们的研究结果来研究法学硕士如何通过分析法学硕士能够识别哪些类型的不同信息来总结多篇新闻文章。

Language models are susceptible to incorrect patient self-diagnosis in medical applications
Authors Rojin Ziaei, Samuel Schmidgall
大型语言模型法学硕士作为医疗保健的潜在工具变得越来越重要，有助于临床医生、研究人员和患者之间的沟通。然而，传统的法学硕士对医学考试问题的评估并不能反映真实医患互动的复杂性。这种复杂性的一个例子是患者自我诊断的引入，患者尝试从各种来源诊断自己的医疗状况。虽然患者有时会得出准确的结论，但由于患者过分强调偏差验证信息，他们更经常被导致误诊。在这项工作中，我们向各种法学硕士展示了来自美国医学委员会考试的多项选择题，这些问题经过修改以包括患者的自我诊断报告。

Talk2Care: Facilitating Asynchronous Patient-Provider Communication with Large-Language-Model
Authors Ziqi Yang, Xuhai Xu, Bingsheng Yao, Shao Zhang, Ethan Rogers, Stephen Intille, Nawar Shara, Guodong Gordon Gao, Dakuo Wang
尽管有大量的远程医疗应用程序可以帮助家庭老年人和医疗保健提供者，但基本的消息传递和电话仍然是最常见的通信方法，其可用性有限、信息丢失和流程效率低下。促进患者提供者沟通的一种有前途的解决方案是利用大型语言模型法学硕士及其强大的自然对话和总结能力。然而，在交流过程中，人们对LLM角色的了解还很有限。我们首先对老年人 N 10 和医疗保健提供者 N 9 进行了两项访谈研究，以了解他们对法学硕士在患者提供者异步通信方面的需求和机会。基于这些见解，我们构建了一个由法学硕士支持的通信系统Talk2Care，并为这两个群体设计了交互式组件1。对于老年人，我们利用语音助理VA的便利性和可访问性，并构建了一个由法学硕士支持的VA界面，以进行有效的信息收集。 2 对于医疗服务提供者，我们构建了一个基于法学硕士的仪表板，根据老年人与 VA 的对话来总结和呈现重要的健康信息。我们进一步对老年人和提供者进行了两项用户研究，以评估系统的可用性。结果表明，Talk2Care 可以促进沟通过程，丰富从老年人那里收集的健康信息，并大大节省提供者的精力和时间。

Performance of the Pre-Trained Large Language Model GPT-4 on Automated Short Answer Grading
Authors Gerd Kortemeyer
自动简答评分 ASAG 十多年来一直是机器学习研究的活跃领域。它承诺让教育工作者在大型招生课程中对自由形式的回答进行评分并提供反馈，尽管人工评分者的可用性有限。多年来，经过精心训练的模型取得了越来越高的性能水平。最近，经过预训练的大型语言模型法学硕士成为一种商品，一个有趣的问题是，未经额外培训的通用工具与专用模型相比如何。我们研究了 GPT 4 在标准基准 2 路和 3 路数据集 SciEntsBank 和 Beetle 上的性能，其中除了对学生答案与参考答案的一致性进行评分的标准任务之外，我们还研究了保留参考答案。

AutoAM: An End-To-End Neural Model for Automatic and Universal Argument Mining
Authors Lang Cao
论点挖掘是分析论点结构，从非结构化文本中提取重要的论点信息。论点挖掘系统可以帮助人们自动获取文本背后的因果和逻辑信息。随着议论语料库逐渐增加，就像越来越多的人开始在社交媒体上争论和辩论一样，从他们身上挖掘论点变得越来越重要。然而，论元挖掘由于其难度和相关技术还不成熟，仍然是自然语言任务中的一大挑战。例如，非树论证挖掘的研究需要做更多。大多数工作只关注提取树结构参数信息。此外，当前的方法无法准确描述和捕获论证关系，也无法预测它们的类型。在本文中，我们提出了一种称为 AutoAM 的新型神经模型来解决这些问题。我们首先在我们的模型中引入论证组件注意机制。它可以捕获参数组件之间的相关信息，因此我们的模型可以更好地进行参数挖掘。我们的模型是一种通用的端到端框架，可以在没有树结构等约束的情况下分析论点结构，并在一个模型中完成论点挖掘的三个子任务。

OWL: A Large Language Model for IT Operations
Authors Hongcheng Guo, Jian Yang, Jiaheng Liu, Liqun Yang, Linzheng Chai, Jiaqi Bai, Junran Peng, Xiaorong Hu, Chao Chen, Dongfeng Zhang, Xu Shi, Tieqiao Zheng, Liangfan Zheng, Bo Zhang, Ke Xu, Zhoujun Li
随着IT运营的快速发展，有效管理和分析大量数据对于实际应用变得越来越重要。自然语言处理 NLP 技术在命名实体识别、机器翻译和对话系统等各种任务中表现出了卓越的能力。最近，大型语言模型法学硕士在各种 NLP 下游任务上取得了显着的进步。然而，缺乏专门针对 IT 运营的法学硕士。在本文中，我们介绍了 OWL，这是一种在我们收集的 OWL Instruct 数据集上进行训练的大型语言模型，其中包含广泛的 IT 相关信息，其中提出了适配器策略的混合，以提高跨不同领域或任务的参数高效调整。此外，我们在我们建立的 OWL Bench 上评估 OWL 的性能并开放 IT 相关基准。 OWL 在 IT 任务上展示了卓越的性能结果，其性能显着优于现有模型。

Model-based Subsampling for Knowledge Graph Completion
Authors Xincan Feng, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe
子采样在知识图谱嵌入 KGE 中非常有效，可以减少知识图谱 KG 数据集稀疏性导致的过拟合。然而，当前的子采样方法仅考虑由实体及其关系组成的查询的频率。因此，现有的子采样可能会低估不频繁查询的出现概率，即使它们的实体或关系的频率很高。为了解决这个问题，我们提出基于模型的子采样MBS和混合子采样MIX，通过KGE模型的预测来估计它们的出现概率。

Leveraging Social Discourse to Measure Check-worthiness of Claims for Fact-checking
Authors Megha Sundriyal, Md Shad Akhtar, Tanmoy Chakraborty
在线社交媒体平台的扩张导致在线内容消费激增。然而，这也为传播虚假主张和错误信息铺平了道路。因此，对大量劳动力来筛选和验证此类未经证实的说法的需求不断增加。目前，这些说法是由事实检查员手动验证的。尽管如此，在线内容的数量往往超过了它们的效力，这使得他们很难及时验证每一个主张。因此，确定哪些断言值得事实核查并优先考虑需要立即关注的断言至关重要。确定一项主张是否需要进行事实核查需要考虑多种因素，包括其事实正确性、对公众的潜在影响、煽动仇恨的可能性等。尽管为解决索赔检查的价值做出了一些努力，但识别这些因素的系统方法仍然是一个开放的挑战。为此，我们引入了一项细粒度索赔检查价值的新任务，它支撑所有这些因素，并为识别索赔是否值得检查提供可能的人类依据。我们提出了 CheckIt，这是一个手动注释的大型 Twitter 数据集，用于细粒度的索赔检查价值。我们根据统一方法 CheckMate 对数据集进行基准测试，共同确定索赔是否值得检查以及得出该结论的因素。我们将我们建议的系统与几个基准系统进行比较。

Code quality assessment using transformers
Authors Mosleh Mahamud, Isak Samsten
使用单元和集成测试自动评估编程作业的正确性相当简单。然而，编程任务可以通过多种方式解决，其中许多虽然正确，但并不优雅。例如，过多的分支、糟糕的命名或重复性会使代码难以理解和维护。使用当前技术很难自动评估代码的这些主观质量。在这项工作中，我们研究了使用 CodeBERT 自动为 Java 代码分配质量分数。我们尝试不同的模型和训练范例。我们在用于代码质量评估的新数据集上探索模型的准确性。最后，我们使用显着图评估预测的质量。

A Benchmark for Text Expansion: Datasets, Metrics, and Baselines
Authors Yi Chen, Haiyun Jiang, Wei Bi, Rui Wang, Longyue Wang, Shuming Shi, Ruifeng Xu
这项工作提出了文本扩展 TE 的新任务，旨在将细粒度修饰符插入到纯文本的适当位置，以具体化或生动化人类书写。与现有的基于插入的写作辅助任务不同，TE要求模型在定位和生成方面更加灵活，并且在保留基本语义方面更加谨慎。我们利用四种互补方法构建一个数据集，其中包含 1200 万个自动生成的实例和 2K 人工注释的英文和中文参考文献。为了便于自动评估，我们从多个角度设计了各种指标。特别是，我们提出 Info Gain 来有效衡量扩展的信息量，这是 TE 中的一个重要质量维度。在预先训练的文本填充模型之上，我们构建了管道和联合定位填充模型，这证明了相对于 Text2Text 基线的优越性，特别是在扩展信息量方面。

Can Large Language Models Understand Real-World Complex Instructions?
Authors Qianyu He, Jie Zeng, Wenhao Huang, Lina Chen, Jin Xiao, Qianxi He, Xunzhe Zhou, Lida Chen, Xintao Wang, Yuncheng Huang, Haoning Ye, Zihan Li, Shisong Chen, Yikai Zhang, Zhouhong Gu, Jiaqing Liang, Yanghua Xiao
大型语言模型法学硕士可以理解人类指令，显示出它们在传统 NLP 任务之外的实用应用程序的潜力。然而，他们仍然在处理复杂的指令，这些指令可以是需要多个任务和约束的复杂任务描述，也可以是包含长上下文、噪声、异构信息和多轮格式的复杂输入。由于这些特征，法学硕士经常忽略任务描述中的语义约束，生成不正确的格式，违反长度或样本计数约束，并且不忠实于输入文本。现有的基准不足以评估法学硕士理解复杂指令的能力，因为它们是封闭式的且简单的。为了弥补这一差距，我们提出了 CELLO，这是一个评估法学硕士系统地遵循复杂指令的能力的基准。我们为复杂指令设计了八个特征，并根据现实场景构建了综合评估数据集。我们还制定了四个标准并制定了相应的指标，因为现有的指标不够充分、有偏见或过于严格和粗粒度。我们通过大量的实验比较了代表性的面向中文和面向英语的模型在遵循复杂指令方面的性能。

Contrastive Decoding Improves Reasoning in Large Language Models
Authors Sean O Brien, Mike Lewis
我们证明，对比解码是 Li 等人 2022 年提出的一种简单、计算量小、可训练的自由文本生成方法，在各种推理任务上比贪婪解码实现了巨大的开箱即用的改进。对比解码最初被证明是为了提高长文本生成的感知质量，它搜索能够最大化强模型和弱模型之间的似然性加权差异的字符串。我们表明，对比解码使 LLaMA 65B 在 HellaSwag 常识推理基准上优于 LLaMA 2、GPT 3.5 和 PaLM 2 L，在 GSM8K 数学单词推理基准上优于 LLaMA 2、GPT 3.5 和 PaLM 540B，此外还改进了其他任务的集合。分析表明，对比解码通过防止一些抽象推理错误以及避免更简单的模式（例如在思维链期间复制输入的部分）来改进现有方法。

The Impact of Debiasing on the Performance of Language Models in Downstream Tasks is Underestimated
Authors Masahiro Kaneko, Danushka Bollegala, Naoaki Okazaki
经过大规模数据训练的预训练语言模型已经了解了严重的社会偏见。因此，人们提出了各种方法来消除预训练模型的偏差。去偏差方法需要仅减轻来自预训练模型的歧视性偏差信息，同时保留对下游任务有用的信息。在之前的研究中，有用信息是否被保留已经通过去偏预训练模型中下游任务的表现来证实。另一方面，尚不清楚这些基准是否包含与社会偏见有关的数据以及是否适合调查去偏见的影响。例如，在与性别相关的社会偏见中，包含女性词的数据，例如“她、女性、女人、男性词语，例如他、男性、男人和刻板印象词，例如护士、医生、教授被认为是受去偏见影响最大的人。如果目标任务的基准数据集中包含这些单词的数据不多，则可能会错误地评估去偏的效果。在本研究中，我们使用包含女性、男性和刻板印象单词的各种基准数据集来比较去偏对多个下游任务性能的影响。实验表明，在所有任务中去偏的影响始终被低估。

RMDM: A Multilabel Fakenews Dataset for Vietnamese Evidence Verification
Authors Hai Long Nguyen, Thi Kieu Trang Pham, Thai Son Le, Tan Minh Nguyen, Thi Hai Yen Vuong, Ha Thanh Nguyen
在这项研究中，我们提出了一个新颖且具有挑战性的多标签越南数据集 RMDM，旨在评估大型语言模型 LLM 在验证与法律背景相关的电子信息方面的性能，重点关注假新闻作为电子证据的潜在输入。 RMDM数据集包含四个标签real、mis、dis和mal，分别代表真实信息、错误信息、虚假信息和恶意信息。通过包含这些不同的标签，RMDM 捕获了不同假新闻类别的复杂性，并深入了解不同语言模型处理可能成为电子证据一部分的各种类型信息的能力。该数据集总共包含 1,556 个样本，每个标签有 389 个样本。使用基于 GPT 和 BERT 的模型对数据集进行的初步测试揭示了不同标签下模型性能的差异，表明该数据集有效挑战了各种语言模型验证此类信息真实性的能力。

NOWJ1@ALQAC 2023: Enhancing Legal Task Performance with Classic Statistical Models and Pre-trained Language Models
Authors Tan Minh Nguyen, Xuan Hoa Nguyen, Ngoc Duy Mai, Minh Quan Hoang, Van Huan Nguyen, Hoang Viet Nguyen, Ha Thanh Nguyen, Thi Hai Yen Vuong
本文介绍了 NOWJ1 团队在自动法律问答比赛 ALQAC 2023 中的方法，该方法的重点是通过集成经典统计模型和预训练语言模型 PLM 来提高法律任务绩效。对于文档检索任务，我们实现了一个预处理步骤来克服输入限制，并将学习应用于排名方法来整合来自各种模型的特征。问答任务分为句子分类和答案提取两个子任务。我们结合最先进的模型，利用经典的统计模型和预先训练的语言模型，为每个子任务开发不同的系统。

Constructing a Knowledge Graph for Vietnamese Legal Cases with Heterogeneous Graphs
Authors Thi Hai Yen Vuong, Minh Quan Hoang, Tan Minh Nguyen, Hoang Trung Nguyen, Ha Thanh Nguyen
本文提出了一种法律案例文件和相关法律的知识图谱构建方法，旨在有效地组织法律信息并增强各种下游任务。我们的方法包括数据抓取、信息提取和知识图部署三个主要步骤。首先，数据爬虫从各个来源收集了大量的法律案件文件和相关法律，为进一步处理提供了丰富的数据库。接下来，信息提取步骤采用自然语言处理技术从非结构化文本中提取法院、案例、领域和法律等实体及其关系。最后，部署知识图谱，根据提取的关系将这些实体连接起来，创建一个异构图谱，有效地表示法律信息并迎合律师、法官和学者等用户的需求。建立的基线模型利用无监督学习方法，并通过结合知识图谱，展示了识别给定法律案件的相关法律的能力。

Exploring the impact of low-rank adaptation on the performance, efficiency, and regularization of RLHF
Authors Simeng Sun, Dhawal Gupta, Mohit Iyyer
在 RLHF 的最后阶段，大型语言模型通过 PPO 训练与人类意图保持一致，这一过程通常需要大规模计算资源。在本技术报告中，我们根据经验研究了使用低秩自适应 LoRA 的 RLHF 的有效实现，这使我们能够仅使用两个 A100 GPU（而不是完整模型微调所需的八个 GPU）来对齐 Alpaca 数据集上的 LLaMA 7B 检查点。尽管仅调整了 0.2 个 LLaMA 7B 参数，但我们的实现比公开发布的具有完整模型微调的 AlpacaFarm 检查点实现了更好的性能。接下来，我们分析基于 LoRA 的 PPO 实现的几种配置，改变训练目标中 KL 正则化项的形式。我们发现 1 删除这个惩罚项不会损害我们 LoRA 设置下的 AlpacaFarm 评估集的性能 2 其他正则化器（例如 Jensen Shannon 散度）可以提高性能 3 而 PPO 训练会对模型生成的响应、训练的真实性产生负面影响LoRA 很大程度上减轻了这种影响。

Context-aware Adversarial Attack on Named Entity Recognition
Authors Shuguang Chen, Leonardo Neves, Thamar Solorio
近年来，大型预训练语言模型 PLM 在许多自然语言处理基准测试中取得了显着的性能。尽管取得了成功，但之前的研究表明 PLM 很容易受到对抗性示例的攻击。在这项工作中，我们专注于命名实体识别任务，并研究上下文感知的对抗性攻击方法来检查模型的鲁棒性。具体来说，我们建议扰乱用于识别实体的信息最丰富的单词来创建对抗性示例，并研究不同的候选替换方法以生成自然且合理的对抗性示例。

Rethinking STS and NLI in Large Language Models
Authors Yuxia Wang, Minghan Wang, Preslav Nakov
在本研究中，我们旨在重新思考大型语言模型法学硕士时代的 STS 和 NLI。我们首先评估五个数据集上的临床生物医学 STS 和 NLI 的准确性，然后评估 LLM 的预测置信度及其捕获人类集体意见的能力。我们发现，法学硕士或许能够针对特定主题提供个性化描述，或者以不同的语气生成语义相似的内容，但这对于目前的法学硕士来说很难做出个性化的判断或决策。我们进一步发现，零样本 ChatGPT 比临床和生物医学 STS NLI 具有竞争性的准确性，但受限于微调的 BERT 基础。

Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)
Authors Parsa Kavehzadeh, Mojtaba Valipour, Marzieh Tahaei, Ali Ghodsi, Boxing Chen, Mehdi Rezagholizadeh
大型语言模型法学硕士的快速发展彻底改变了自然语言处理 NLP。虽然这些模型擅长理解和生成类似人类的文本，但它们的广泛部署可能非常昂贵。 SortedNet 是一种最新的训练技术，用于实现深度神经网络的动态推理。它利用网络模块化来创建具有不同计算负载的子模型，并根据计算精度特征以嵌套方式对它们进行排序。我们将 SortedNet 扩展到生成式 NLP 任务，无需任何预训练，只需以相同的成本用 Sorted Fine Tuning SoFT 替换标准的 Supervised Fine Tuning SFT，即可使大型语言模型变得动态。我们的方法提高了模型效率，消除了推理过程中针对各种场景使用多个模型的需要。我们证明，使用这种方法，我们能够释放变压器中间层在生成目标输出方面的潜力。我们的子模型仍然是原始模型的组成部分，最大限度地减少了存储需求和不同计算延迟预算之间的转换成本。

Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
Authors Xiangru Tang, Yiming Zong, Yilun Zhao, Arman Cohan, Mark Gerstein
尽管像 GPT 4 这样的大型语言模型法学硕士很强大，但它们仍然难以完成需要生成复杂、结构化输出的任务。在这项研究中，我们评估了当前法学硕士生成复杂结构化数据的能力，并提出了一种结构感知微调方法作为提高这种能力的解决方案。为了进行全面的评估，我们提出了 Struc Bench，包括五个代表性的 LLM，即 GPT NeoX 20B、GPT 3.5、GPT 4 和 Vicuna，并在我们精心构建的涵盖原始文本、HTML 和 LaTeX 表的数据集上对它们进行评估。根据对当前模型性能的分析，我们确定了特定的常见格式错误和潜在改进的领域。为了满足复杂的格式化要求，我们利用 FormatCoT 思想链从目标输出生成格式指令。我们的实验表明，我们的结构感知微调方法应用于 LLaMA 7B 时，可以显着提高对自然语言约束的遵守程度，优于其他评估的 LLM。基于这些结果，我们从覆盖、格式化、推理、理解、语用和幻觉六个维度呈现模型能力的能力图。这张地图强调了法学硕士在处理复杂的结构化输出方面的弱点，并为未来的工作提出了有希望的方向。

ODSum: New Benchmarks for Open Domain Multi-Document Summarization
Authors Yijie Zhou, Kejian Shi, Wencai Zhang, Yixin Liu, Yilun Zhao, Arman Cohan
开放域多文档摘要 ODMDS 是将大量文档压缩为连贯、简洁摘要的关键工具。对于相互关联性更强的文档集，检索不一定存在正确的答案，从而难以衡量检索性能。我们提出了一种基于规则的方法，将基于查询的文档摘要数据集处理为 ODMDS 数据集。基于这种方法，我们引入了一种新颖的数据集 ODSum，这是一个复杂的案例，其文档索引相互依赖且经常相互关联。我们使用 textit 检索然后总结方法来处理 ODMDS，并研究了检索器和摘要器列表的性能。通过广泛的实验，我们确定了评估指标的差异并提供了对其可靠性的见解。我们还发现法学硕士因检索错误而遭受巨大的性能损失。我们进一步试验了提高性能的方法，并研究了它们对不完美检索的鲁棒性。

Monolingual or Multilingual Instruction Tuning: Which Makes a Better Alpaca
Authors Pinzhen Chen, Shaoxiong Ji, Nikolay Bogoychev, Barry Haddow, Kenneth Heafield
基础大语言模型法学硕士可以进行指令调整，以开发开放式问答能力，促进人工智能助手的创建等应用。虽然此类工作通常以单一语言进行，但在先前研究的基础上，我们对单语和多语言调整的成本效益方法进行了实证分析，揭示了法学硕士在响应单语和多语言环境中的查询方面的功效。我们的研究采用 Alpaca 数据集及其机器翻译来形成多语言训练数据，然后用于通过低秩适应和全参数训练来调整 LLM。比较表明，多语言调整对于法学硕士的英语表现并不重要，但对其在多语言环境中的鲁棒性至关重要。在预算固定的情况下，仅对下采样数据进行训练的多语言指令调整模型可以与针对每种语言训练单语言模型一样强大。

Cross-Lingual Knowledge Editing in Large Language Models
Authors Jiaan Wang, Yunlong Liang, Zengkui Sun, Yuxuan Cao, Jiarong Xu
知识编辑旨在改变语言模型在几种特殊情况下的性能，即通过将相应的预期知识注入其中来编辑范围。随着大型语言模型法学硕士的最新进展，知识编辑已被证明是一种很有前途的技术，可以使法学硕士适应新知识，而无需从头开始重新训练。然而，之前的大多数研究都忽略了一些主流法学硕士（例如 LLaMA、ChatGPT 和 GPT 4）的多语言性质，并且通常关注单语场景，其中法学硕士是用同一种语言进行编辑和评估的。因此，源语言编辑对不同目标语言的影响仍然未知。在本文中，我们的目标是找出知识编辑中的跨语言效应。具体来说，我们首先通过将 ZsRE 从英语翻译成中文来收集大规模跨语言合成数据集。然后，我们对涵盖不同范式的各种知识编辑方法进行英文编辑，并评估它们在中文中的表现，反之亦然。为了更深入地分析跨语言效果，评估包括可靠性、通用性、局部性和可移植性四个方面。

Enhancing Large Language Model Induced Task-Oriented Dialogue Systems Through Look-Forward Motivated Goals
Authors Zhiyuan Hu, Yue Feng, Yang Deng, Zekun Li, See Kiong Ng, Anh Tuan Luu, Bryan Hooi
最近，大型语言模型LLM的发展显着增强了问题回答和对话生成，并使它们在当前的实际场景中变得越来越流行。与一般对话系统强调语义表现不同，面向任务的对话ToD系统旨在多轮高效、成功地实现对话目标。不幸的是，现有的LLM诱导的ToD系统缺乏对最终目标的直接奖励，并且没有考虑可以增强对话效率的对话主动性。为了填补这些空白，我们引入了 ProToD 主动目标驱动的 LLM 诱导 ToD 方法，该方法预测未来的对话动作并结合目标导向的奖励信号来增强 ToD 系统。此外，我们提出了一种新颖的评估方法，该方法基于目标驱动的对话模拟来评估 ToD 系统。这种方法使我们能够衡量用户满意度、系统效率和成功率，同时克服当前信息和成功指标的局限性。在 MultiWoZ 2.1 数据集上进行的实证实验表明，与之前的端到端完全监督模型相比，我们的模型仅使用 10 个数据即可实现卓越的性能。

Contextual Label Projection for Cross-Lingual Structure Extraction
Authors Tanmay Parekh, I Hung Hsu, Kuan Hao Huang, Kai Wei Chang, Nanyun Peng
事实证明，将训练数据翻译成目标语言对于跨语言迁移是有益的。然而，对于结构提取任务，翻译数据需要一个标签投影步骤，该步骤翻译输入文本并联合获得翻译文本中的翻译标签。先前的标签投影研究主要通过促进从翻译文本中轻松识别翻译标签或使用翻译对之间的单词级对齐来从对齐的单词组装翻译短语级标签来损害翻译质量。在本文中，我们引入了 CLAP，它首先将文本翻译成目标语言，然后使用翻译文本作为上下文对标签进行上下文翻译，从而确保翻译标签具有更高的准确性。我们利用具有多语言功能的指令调整语言模型作为我们的上下文翻译器，通过指令对翻译文本中翻译标签的存在施加限制。我们将 CLAP 与其他标签投影技术进行比较，以在事件参数提取（一种代表性结构提取任务）上以目标语言创建伪训练数据。

Leveraging Multi-lingual Positive Instances in Contrastive Learning to Improve Sentence Embedding
Authors Kaiyan Zhao, Qiyu Wu, Xin Qiang Cai, Yoshimasa Tsuruoka
学习多语言句子嵌入是自然语言处理中的一项基本且重要的任务。学习单语言和多语言句子嵌入的最新趋势主要基于具有锚、一个正实例和多个负实例的对比学习 CL。在这项工作中，我们认为，多语言句子嵌入应该考虑利用多个积极因素，因为 1 不同语言中的积极因素可以有利于跨语言学习，2 跨多个积极因素的传递相似性可以提供可靠的结构信息来学习。为了研究 CL 对多个正例的影响，我们提出了一种新方法 MPCL 来有效利用多个正例来改善多语言句子嵌入的学习。我们在各种骨干模型和下游任务上的实验结果表明，与传统的 CL 相比，MPCL 具有更好的检索、语义相似性和分类性能。

Multimodal Multi-Hop Question Answering Through a Conversation Between Tools and Efficiently Finetuned Large Language Models
Authors Hossein Rajabzadeh, Suyuchen Wang, Hyock Ju Kwon, Bang Liu
我们采用一种交互分而治之策略的工具，使大型语言模型法学硕士能够回答复杂的多模式多跳问题。特别是，我们利用大型语言模型的力量将给定的多模态多跳问题划分为单模态单跳子问题，以便由预定义工具集中的适当工具来回答。在所有相应的工具向法学硕士提供答案后，法学硕士将生成下一个相关的单峰单跳问题。为了提高 LLM 的推理能力，我们提示 chatGPT 生成一个与分而治之数据集交互的工具。然后使用该数据集有效地微调相应的法学硕士。为了评估这种方法的有效性，我们对两个最近引入的复杂问答数据集进行了评估。

Investigating Subtler Biases in LLMs: Ageism, Beauty, Institutional, and Nationality Bias in Generative Models
Authors Mahammed Kamruzzaman, Md. Minul Islam Shovon, Gene Louis Kim
法学硕士越来越强大并广泛用于帮助用户完成各种任务。这种使用可能会给工作招聘、人员绩效评估和刑事判决等后续决策带来法学硕士偏见。 NLP 系统中性别和种族方面的偏见已被广泛研究，特别是对于特定的刻板印象，例如亚洲人擅长数学。在本文中，我们沿着研究较少但仍然重要的维度（例如年龄和美貌）调查偏见，测量法学硕士（特别是自回归语言模型）在社会群体和不相关的积极和消极属性之间做出的更微妙的相关决策。我们询问法学硕士是否对特定社会群体持有广泛的积极或消极情绪偏见，类似于实验心理学中人们发现的“美丽就是好的偏见”。我们引入了一个模板生成的句子完成任务数据集，该数据集要求模型选择最合适的属性来完成对被描述为特定社会群体成员的人的评价陈述。我们还逆向完成任务以根据属性选择社交组。最后，我们报告了我们发现的多个前沿法学硕士的相关性。

Semantic Information Extraction for Text Data with Probability Graph
Authors Zhouxiang Zhao, Zhaohui Yang, Ye Hu, Licheng Lin, Zhaoyang Zhang
本文研究了资源受限的文本数据传输的语义信息提取问题。在所考虑的模型中，需要在通信资源受限的网络内传输一系列文本数据，该网络仅允许有限的数据传输。因此，在发送端，利用自然语言处理技术提取原始文本数据。然后，提取的语义信息被捕获在知识图谱中。该图中引入了额外的概率维度来捕获每个信息的重要性。该语义信息提取问题被提出为一个优化框架，其目标是提取最重要的语义信息以进行传输。为了找到该问题的最佳解决方案，提出了一种基于弗洛伊德算法并结合有效排序机制的解决方案。

X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs
Authors Juan Diego Rodriguez, Katrin Erk, Greg Durrett
理解两段文本何时传达相同的信息是一个涉及 NLP 中许多子问题的目标，包括文本蕴涵和事实检查。当这两段文本使用不同语言时，这个问题会变得更加复杂。在这里，我们介绍 X PARADE 跨语言段落级分歧和蕴涵分析，这是第一个段落级信息分歧的跨语言数据集。注释器在跨度级别标记目标语言的段落，并相对于源语言的相应段落对其进行评估，指示给定的信息是否相同、新或新但可以推断。最后一个概念与跨语言 NLI 建立了联系。对齐的段落来自不同语言的维基百科页面，反映了在野外观察到的真实信息差异。借助我们的数据集，我们研究了解决此问题的多种方法，包括机器翻译的经典标记对齐、本地化决策的文本蕴涵方法以及大型语言模型的提示。

PDFTriage: Question Answering over Long, Structured Documents
Authors Jon Saad Falcon, Joe Barrow, Alexa Siu, Ani Nenkova, Ryan A. Rossi, Franck Dernoncourt
大型语言模型法学硕士在文档无法适应法学硕士的小上下文长度的情况下，在文档问答 QA 方面存在问题。为了克服这个问题，大多数现有的工作都集中于从文档中检索相关上下文，并将它们表示为纯文本。然而，PDF、网页和演示文稿等文档自然是由不同的页面、表格、部分等构成的。将此类结构化文档表示为纯文本与这些具有丰富结构的文档的用户心智模型不一致。当系统必须查询文档的上下文时，这种不协调性就会凸显出来，看似微不足道的问题可能会妨碍 QA 系统。为了弥补处理结构化文档方面的这一根本差距，我们提出了一种称为 PDFTriage 的方法，该方法使模型能够根据结构或内容检索上下文。我们的实验证明了所提出的 PDFTriage 增强模型在解决现有检索增强法学硕士无法解决的几类问题上的有效性。

MHLAT: Multi-hop Label-wise Attention Model for Automatic ICD Coding
Authors Junwen Duan, Han Jiang, Ying Yu
国际疾病分类 ICD 编码是将 ICD 诊断代码分配给临床记录的任务。考虑到接近 9,000 个标签的大量标签和多达 8,000 个标记的冗长文本，这可能具有挑战性。然而，与之前作品中的单遍阅读过程不同，人类倾向于再次阅读文本和标签定义以获得更自信的答案。此外，尽管预训练的语言模型已被用来解决这些问题，但它们会占用大量内存。为了解决上述问题，我们提出了一种简单但有效的模型，称为多跳标签明智注意 MHLAT，其中部署多跳标签明智注意以获得更精确和信息丰富的表示。

Has Sentiment Returned to the Pre-pandemic Level? A Sentiment Analysis Using U.S. College Subreddit Data from 2019 to 2022
Authors Tian Yan, Fang Liu
随着 COVID 19 大流行的影响逐渐减弱，个人和社会都逐渐恢复到大流行前的活动。本研究旨在探讨从疫情前到疫情后人们的情绪发生了怎样的变化以及是否恢复到了疫情前的水平。我们从美国 128 所大学的 Reddit 子版块中收集了 2019 年大流行前、2020 年大流行高峰、2021 年和 2022 年大流行后期、过渡期到后紧急时期的 Reddit 数据，以及一组学校层面的特征。我们通过预训练的鲁棒优化 BERT 预训练方法 RoBERTa 和图注意力网络 GAT 预测了两组情感，该方法利用了发布消息中丰富的语义和关系信息，然后应用逻辑堆叠方法来获得最终的情感分类。获得每条消息的情绪标签后，我们使用广义线性混合效应模型来估计 2019 年至 2022 年情绪的时间趋势以及学校水平因素如何影响情绪。与 2019 年相比，2020 年、2021 年和 2022 年出现负面情绪的几率分别高出 24 倍、4.3 倍和 10.3 倍，调整后的数据均具有统计显着性（p 0.05）。我们的研究结果表明，大流行后紧急时期的情绪构成部分恢复。

Bias and Fairness in Chatbots: An Overview
Authors Jintang Xue, Yun Cheng Wang, Chengwei Wei, Xiaofeng Liu, Jonghye Woo, C. C. Jay Kuo
聊天机器人的研究已经有半个多世纪了。近年来，随着自然语言处理NLP技术的快速发展，使用大语言模型LLM的聊天机器人如今备受关注。与传统聊天机器人相比，现代聊天机器人功能更强大，并且已在现实世界中得到应用。然而，现代聊天机器人设计中存在偏见和公平问题。由于训练数据量巨大、模型规模极大且缺乏可解释性，现代聊天机器人的偏见缓解和公平性保持具有挑战性。因此，本文对聊天机器人系统中的偏见和公平性进行了全面概述。首先回顾了聊天机器人及其类别的历史。然后，分析了偏差来源和应用中的潜在危害。研究了设计公平和公正的聊天机器人系统时的考虑因素。

SLIDE: Reference-free Evaluation for Machine Translation using a Sliding Document Window
Authors Vikas Raunak, Tom Kocmi, Matt Post
在句子级别运行的基于参考的度量通常优于质量估计度量，后者只能访问源和系统输出。这并不奇怪，因为参考文献解决了源代码中可能存在的歧义。我们研究额外的源上下文是否可以有效地替代参考。我们提出了一个度量标准，SLIDE SLiding Document Evaluator，它使用一个窗口在句子块上运行，该窗口在测试集中的每个文档上滑动，将每个块输入到未经修改的现成质量估计模型中。我们发现 SLIDE 获得的成对系统准确率明显高于其句子级基线，在某些情况下甚至消除了与参考基础指标的差距。

S3-DST: Structured Open-Domain Dialogue Segmentation and State Tracking in the Era of LLMs
Authors Sarkar Snigdha Sarathi Das, Chirag Shah, Mengting Wan, Jennifer Neville, Longqi Yang, Reid Andersen, Georg Buscher, Tara Safavi
传统的对话状态跟踪 DST 问题旨在跟踪用户代理对话中的用户偏好和意图。虽然对于支持窄域应用的面向任务的对话系统来说已经足够了，但基于 LLM 的大型语言模型聊天系统的出现在开放域对话中引入了许多现实世界的复杂性。这些复杂性表现为上下文交互的复杂性增加、涵盖各种主题的扩展对话会话以及更频繁的上下文转换。为了处理基于 LLM 的聊天系统不断发展而产生的这些复杂问题，我们提出了开放域对话系统中的联合对话分段和每个分段的状态跟踪。假设零样本设置适合真正的开放域对话系统，我们提出了 S3 DST，这是一种利用分析前回忆的结构化提示技术，这是我们为改进长上下文跟踪而设计的一种新颖的基础机制。为了证明我们提出的方法在联合分割和状态跟踪方面的有效性，我们在专有的匿名开放域对话数据集以及公开可用的 DST 和分割数据集上评估了 S3 DST。

An Empirical Study on Instance Selection Strategies in Self-training for Sentiment Analysis
Authors Haochen Liu, Sai Krishna Rallabandi, Yijing Wu, Parag Pravin Dakle, Preethi Raghavan
情感分析是自然语言处理中的一项关键任务，涉及从文本中识别和提取主观情感。最近，自我训练已成为一种经济高效的技术，通过利用少量标记数据和大量未标记数据来开发情感分析模型。然而，自训练过程的性能很大程度上依赖于实例选择策略的选择，这一点尚未得到彻底研究。

AlbNER: A Corpus for Named Entity Recognition in Albanian
Authors Erion ano
阿尔巴尼亚语等资源匮乏语言的注释文本语料库等资源的稀缺是计算语言学和自然语言处理研究的严重障碍。本文介绍了 AlbNER，这是一个包含 900 个句子的语料库，带有标记的命名实体，这些句子收集自阿尔巴尼亚语维基百科文章。使用 AlbNER 数据进行微调和测试的 BERT 和 RoBERTa 变体的初步结果表明，模型大小对 NER 性能影响很小，而语言迁移则影响很大。

Frustratingly Simple Memory Efficiency for Pre-trained Language Models via Dynamic Embedding Pruning
Authors Miles Williams, Nikolaos Aletras
预训练语言模型 PLM 的大量内存占用可能会阻碍在内存受限环境（例如云环境或设备上）中的部署。 PLM 使用嵌入矩阵来表示广泛的词汇表，形成很大一部分模型参数。虽然之前针对参数高效 PLM 开发的工作已考虑修剪变压器层内的参数，但修剪嵌入矩阵作为微调或推理的一部分仍有待探索。我们首先证明在这些场景中很大一部分词汇仍未使用。然后，我们提出了一种简单而有效的方法，利用这一发现来最小化嵌入矩阵的内存占用。我们表明，这种方法可以显着减少各种模型和任务的内存使用量。

Resolving Legalese: A Multilingual Exploration of Negation Scope Resolution in Legal Documents
Authors Ramona Christen, Anastassia Shaitarova, Matthias St rmer, Joel Niklaus
解决句子中否定的范围是一项具有挑战性的 NLP 任务。在对多语言法律数据执行否定范围解析时，法律文本的复杂性以及领域否定语料库中注释的缺乏对最先进的 SotA 模型提出了挑战。我们的实验表明，在没有合法数据的情况下预训练的模型在否定范围解析任务中表现不佳。我们的实验使用专门针对文学文本和医学数据等领域进行微调的语言模型，与之前的跨领域实验中记录的结果相比，产生的结果较差。我们发布了一套新的带注释的德语、法语和意大利语法院判决，并用它来提高零样本和多语言环境中的否定范围分辨率。我们在零样本跨语言实验中获得了高达 86.7 的 token 级别 F1 分数，其中模型在我们的法律数据集的两种语言上进行训练，并在第三种语言上进行评估。

Fake News Detectors are Biased against Texts Generated by Large Language Models
Authors Jinyan Su, Terry Yue Zhuo, Jonibek Mansurov, Di Wang, Preslav Nakov
假新闻的传播已成为一项严峻的挑战，破坏信任并对社会构成威胁。在大型语言模型法学硕士时代，生成可信虚假内容的能力加剧了这些担忧。在这项研究中，我们提出了一种新颖的范例，用于在涉及人类书面和法学硕士生成的错误信息的场景中评估假新闻检测器。有趣的是，我们的研究结果揭示了许多现有检测器存在显着偏差，它们更容易将 LLM 生成的内容标记为假新闻，而经常将人类撰写的假新闻错误地分类为真实的。这种意想不到的偏见似乎是由法学硕士输出固有的不同语言模式引起的。为了解决这个问题，我们引入了一种缓解策略，该策略利用法学硕士释义的真实新闻进行对抗性训练。由此产生的模型显着提高了人类和法学硕士生成的新闻的检测准确性。

Adversarial Attacks on Tables with Entity Swap
Authors Aneta Koleva, Martin Ringsquandl, Volker Tresp
大型语言模型法学硕士的功能已成功应用于表表示学习的背景下。最近提出的表格语言模型报告了表格解释的各种任务的最新结果。然而，仔细研究通常用于评估的数据集会发现实体从训练集泄漏到测试集。受这一观察的启发，我们探索了代表更现实的推理设置的对抗性攻击。对文本的对抗性攻击已被证明会极大地影响法学硕士的性能，但目前还没有针对表格语言模型的攻击。在本文中，我们针对列类型注释 CTA 任务提出了一种规避实体交换攻击。我们的 CTA 攻击是第一个针对表格的黑盒攻击，我们采用基于相似性的采样策略来生成对抗性示例。

MAPLE: Mobile App Prediction Leveraging Large Language model Embeddings
Authors Yonchanok Khaokaew, Hao Xue, Flora D. Salim
尽管移动应用程序发展迅速，但由于复杂的用户行为和不断变化的环境，预测应用程序的使用情况仍然是一项艰巨的挑战。为了解决这些问题，本文介绍了利用大型语言模型嵌入 MAPLE 模型进行移动应用预测。这种创新方法利用大型语言模型法学硕士来准确预测应用程序的使用情况。对两个公共数据集的严格测试凸显了 MAPLE 破译复杂模式和理解用户上下文的能力。这些稳健的结果证实了 MAPLE 在各种场景下的多功能性和弹性。虽然其主要设计迎合应用程序预测，但结果也强调了法学硕士在不同领域的更广泛适用性。

Intent Detection at Scale: Tuning a Generic Model using Relevant Intents
Authors Nichal Narotamo, David Aparicio, Tiago Mesquita, Mariana Almeida
准确预测客户支持请求的意图对于高效的支持系统至关重要，使代理能够快速理解消息并相应地确定响应的优先级。

Anchor Points: Benchmarking Models with Much Fewer Examples
Authors Rajan Vivek, Kawin Ethayarajh, Diyi Yang, Douwe Kiela
现代语言模型通常表现出强大但脆弱的行为，导致开发更大、更多样化的基准来可靠地评估其行为。在这里，我们建议可以使用更小的评估集来对模型性能进行基准测试和阐明。我们首先表明，在六种流行的语言分类基准中，许多对点对正确类别的模型置信度在模型之间具有很强的相关性。我们基于这种现象提出了锚点选择，这是一种选择数据集的小子集来捕获整个数据集的模型行为的技术。锚点对 87 个不同语言模型提示对中的模型进行可靠排名，使用 1 30 个锚点评估模型在准确排名模型方面优于均匀采样和其他基线。此外，只需几个锚点即可用于估计数据集中所有其他点的模型每类预测，平均绝对误差较低，足以衡量模型可能失败的位置。

TextBind: Multi-turn Interleaved Multimodal Instruction-following
Authors Huayang Li, Siheng Li, Deng Cai, Longyue Wang, Lemao Liu, Taro Watanabe, Yujiu Yang, Shuming Shi
具有指令跟踪能力的大型语言模型彻底改变了人工智能领域。这些模型表现出卓越的通用性，可以通过自然语言界面解决各种现实世界的任务。然而，它们的性能很大程度上依赖于高质量的样本数据，而这些数据通常很难获得。当涉及多模式指令跟踪时，这一挑战进一步加剧。我们引入了 TextBind，这是一个几乎无注释的框架，用于为更大的语言模型提供多轮交错多模式指令跟踪功能。我们的方法仅需要图像标题对，并从语言模型生成多轮多模式指令响应对话。

ChatGPT v Bard v Bing v Claude 2 v Aria v human-expert. How good are AI chatbots at scientific writing? (ver. 23Q3)
Authors Edisa Lozi , Benjamin tular
从历史上看，熟练的写作被认为对人类进步至关重要，而创造性表达被视为人类成就的标志之一。然而，生成人工智能的最新进展标志着这种叙述的拐点，包括科学写作。本文全面分析了六种人工智能聊天机器人在人文和考古学学术写作中的能力和局限性。该方法基于人类专家对人工智能生成的内容进行定量准确性和定性精确度的标记。定量准确性评估事实的正确性，而定性精确性衡量科学贡献。虽然人工智能聊天机器人，尤其是 ChatGPT 4，表现出了重组现有知识的能力，但它们未能生成原创的科学内容。附带说明一下，我们的结果还表明，使用 ChatGPT 4 后，法学硕士的规模已趋于稳定。此外，本文强调了人类研究的复杂性和递归性。这种将原始数据转化为精炼知识的过程在计算上是不可简化的，这凸显了人工智能聊天机器人在科学写作中模仿人类原创性所面临的挑战。总之，虽然大型语言模型彻底改变了内容生成，但它们在人文学科领域做出原创科学贡献的能力仍然有限。

Pretraining on the Test Set Is All You Need
Authors Rylan Schaeffer
最近的工作证明了基于 Transformer 的小型语言模型在精心策划的数据上进行预训练的前景，受到启发，我们通过大力投资来策划仅基于评估基准的新颖、高质量、非合成数据混合物，从而增强了此类方法。使用我们由少于 10 万个标记组成的新颖数据集混合物，我们预训练了一个基于 LLM textbf phi CTNL 发音虚构的 100 万参数转换器，它在不同的学术基准上取得了完美的结果，严格优于所有已知的基础模型。

Large Language Models Can Infer Psychological Dispositions of Social Media Users
Authors Heinrich Peters, Sandra Matz
随着大型语言模型法学硕士在各种自然语言处理 NLP 任务中表现出越来越接近人类的能力，这些任务必将成为个性化技术的组成部分，因此了解他们的能力和固有偏见至关重要。我们的研究调查了像 ChatGPT 这样的法学硕士从个人的数字足迹推断其心理倾向的潜力。具体来说，我们评估了 GPT 3.5 和 GPT 4 在零样本学习场景中从用户 Facebook 状态更新中得出大五人格特征的能力。我们的结果显示，LLM 推断的特质分数与自我报告的特质分数之间的平均相关性为 r .29，范围为 0.22、0.33。

Recovering from Privacy-Preserving Masking with Large Language Models
Authors Arpita Vats, Zhe Liu, Peng Su, Debjyoti Paul, Yingyi Ma, Yutong Pang, Zeeshan Ahmed, Ozlem Kalinli
模型适应对于处理代理训练数据与收到的实际用户数据之间的差异至关重要。为了有效地执行适应，用户的文本数据通常存储在服务器或其本地设备上，下游自然语言处理 NLP 模型可以使用领域数据直接进行训练。然而，由于将用户信息暴露给对手的额外风险，这可能会引发隐私和安全问题。最近已经探索了用通用标记替换文本数据中的识别信息。在这项工作中，我们利用大型语言模型 LLM 来建议屏蔽标记的替代品，并在下游语言建模任务上评估其有效性。具体来说，我们提出了多种基于 LLM 的预训练和微调方法，并对各种数据集进行实证研究以比较这些方法。

Evaluating Dynamic Topic Models
Authors Charu James, Mayank Nagda, Nooshin Haji Ghassemi, Marius Kloft, Sophie Fellenz
动态主题模型 DTM 中缺乏定量措施来评估主题随时间的进展。为了填补这一空白，我们提出了一种新颖的 DTM 评估方法，可以分析每个主题的质量随时间的变化。此外，我们提出了一种将主题质量与模型的时间一致性相结合的扩展。我们通过将所提出的措施应用于合成数据和现有 DTM 的数据来证明其实用性。我们还进行了人类评估，这表明所提出的措施与人类判断有很好的相关性。

Improving Robustness of Neural Inverse Text Normalization via Data-Augmentation, Semi-Supervised Learning, and Post-Aligning Method
Authors Juntae Kim, Minkyu Lim, Seokjin Hong
逆文本规范化 ITN 对于将口头形式转换为书面形式至关重要，特别是在自动语音识别 ASR 的背景下。虽然 ASR 的大多数下游任务依赖于书面形式，但 ASR 系统通常输出口头形式，这凸显了在基于 ASR 的产品级应用中强大的 ITN 的必要性。尽管神经 ITN 方法已显示出前景，但它们仍然遇到性能挑战，特别是在处理 ASR 生成的口语文本时。这些挑战源于训练数据和 ASR 生成文本之间的域外问题。为了解决这个问题，我们提出了一种直接训练方法，该方法利用 ASR 生成的书面或口头文本，并分别通过 ASR 语言上下文模拟来增强对，以及通过大型语言模型增强的半监督学习方法。此外，我们引入了一种后对齐方法来管理不可预测的错误，从而提高 ITN 的可靠性。

Performance of ChatGPT-3.5 and GPT-4 on the United States Medical Licensing Examination With and Without Distractions
Authors Myriam Safrai, Amos Azaria
由于大型语言模型法学硕士是根据提示中的单词构建响应的预测模型，因此存在闲聊和不相关信息可能改变响应和给出的建议的风险。因此，本研究旨在调查医疗数据与闲聊混合对 ChatGPT 提供的医疗建议准确性的影响。 USMLE 第 3 步问题被用作相关医疗数据的模型。我们使用多项选择题和开放式问题。我们使用 Mechanical Turk 平台收集了人类参与者的闲聊句子。两组 USLME 问题的排列方式如下：原始问题中的每个句子后面都跟着一个简短的谈话句子。 ChatGPT 3.5 和 4 被要求回答两组带有和不带有闲聊句子的问题。一位经过委员会认证的医生分析了 ChatGPT 的答案，并将其与正式的正确答案进行了比较。分析结果表明，当在多项选择题 72.1 vs. 68.9 和开放式问题 61.5 vs. 44.3 p 0.01 的医疗数据中添加闲聊时，ChatGPT 3.5 正确回答的能力会受到损害。相比之下，闲聊短语在两种类型的问题中都没有损害 ChatGPT 4 的能力，分别为 83.6 和 66.2。根据这些结果，ChatGPT 4 似乎比早期的 3.5 版本更准确，而且闲聊似乎并没有削弱其提供医疗建议的能力。

Challenges in Annotating Datasets to Quantify Bias in Under-represented Society
Authors Vithya Yogarajan, Gillian Dobbie, Timothy Pistotti, Joshua Bensemann, Kobe Knowles
人工智能的最新进展，包括高度复杂的大型语言模型 LLM 的开发，已被证明在许多现实世界的应用中是有益的。然而，这些法学硕士中存在的固有偏见的证据引起了人们对公平性的担忧。作为回应，有关偏见的研究有所增加，包括侧重于量化偏见和开发去偏见技术的研究。还针对二元性别分类和种族道德考虑开发了基准偏差数据集，主要关注美国人口统计数据。然而，在理解和量化与代表性不足的社会相关的偏见方面的研究很少。由于缺乏用于量化代表性不足的社会中的偏见的带注释数据集，我们努力为新西兰 NZ 人口创建基准数据集。尽管有三个注释器，但我们在此过程中仍面临许多挑战。

Media of Langue
Authors Goki Muramoto, Atsuki Sato, Takayoshi Koyama
本文旨在归档 Goki Muramoto 等人的《语言媒体》背后的材料。 Media of Langue是一部新词典和公共雕塑，它仅从这个词被翻译成那个词的巨大事件中描绘了语言之间边界上的意义地图，以及同一语言中所有单词之间的排斥力和翻译单词之间的吸引力的两种力量用不同的语言。首先介绍了所提出的三个新概念：语际映射词典、语际空间和语际网络，并将它们与词典、语义空间和语义网络三个领域进行了比较。

An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
Authors Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
视觉指令调优最近在开源大型多模态模型 LMM（例如 LLaVA 和 MiniGPT 4）方面取得了令人鼓舞的进展。然而，大多数开源 LMM 的现有研究都是使用具有 13B 参数或更小的模型进行的。在本文中，我们提出了将 LLaVA 扩展到 33B 和 65B 70B 的实证研究，并分享了我们在图像分辨率、数据混合和参数高效训练方法（例如 LoRA QLoRA）方面的探索结果。

How to Generate Popular Post Headlines on Social Media?
Authors Zhouxiang Fang, Min Yu, Zhendong Fu, Boning Zhang, Xuanwen Huang, Xiaoqi Tang, Yang Yang
帖子作为社交媒体上用户生成内容的重要容器，具有巨大的社会影响力和商业价值。标题作为帖子的重要组成部分，对于帖子的受欢迎程度有着决定性的贡献。然而，目前主流的标题生成方法仍然是手工编写，不稳定且需要大量的人力。这促使我们探索一个新颖的研究问题：我们能否自动生成社交媒体上的热门头条新闻？我们从中国知名社交媒体平台小红书的公开数据中收集了 42,447 名名人的超过 100 万条帖子。然后我们对这些帖子的标题进行仔细观察。观察结果表明，趋势和个人风格在社交媒体的头条新闻中广泛存在，并对帖子的受欢迎程度做出了重大贡献。受这些见解的启发，我们推出了 MEBART，它将多偏好提取器与双向和自回归变压器 BART 相结合，捕捉趋势和个人风格，以在社交媒体上生成热门头条新闻。我们对现实世界的数据集进行了广泛的实验，并与几个先进的基线相比实现了最先进的性能。

RECAP: Retrieval-Augmented Audio Captioning
Authors Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani Duraiswami, Dinesh Manocha
我们提出了 RECAP REtrieval Augmented Audio CAPtioning ，这是一种新颖且有效的音频字幕系统，可生成以输入音频为条件的字幕以及类似于从数据存储中检索的音频的其他字幕。此外，我们提出的方法可以转移到任何域，而不需要任何额外的微调。为了生成音频样本的标题，我们利用音频文本模型 CLAP 从可替换的数据存储中检索与其相似的标题，然后将其用于构造提示。接下来，我们将此提示提供给 GPT 2 解码器，并在 CLAP 编码器和 GPT 2 之间引入交叉注意层，以调节音频以生成字幕。在两个基准数据集 Clotho 和 AudioCaps 上进行的实验表明，RECAP 在域内设置中实现了有竞争力的性能，并在域外设置中实现了显着改进。此外，由于它能够以无文本训练的方式利用大型文本字幕数据存储，因此 RECAP 显示了为训练期间从未见过的新颖音频事件以及具有多个事件的合成音频添加字幕的独特功能。

Efficient Avoidance of Vulnerabilities in Auto-completed Smart Contract Code Using Vulnerability-constrained Decoding
Authors Andr Storhaug, Jingyue Li, Tianyuan Hu
自动完成代码使开发人员能够显着加快编码速度。基于 Transformer 的大语言模型 LLM 技术的最新进展已应用于代码合成。然而，研究表明许多此类合成代码都存在漏洞。我们提出了一种新颖的漏洞约束解码方法，以减少此类模型生成的易受攻击代码的数量。使用标记有漏洞的代码行的小数据集，我们对 LLM 进行微调，以在生成代码时包含漏洞标签，充当嵌入式分类器。然后，在解码过程中，我们拒绝模型生成这些标签，以避免生成易受攻击的代码。为了评估该方法，由于 SC 安全性的严格要求，我们选择自动完成以太坊区块链智能合约 SC 作为案例研究。在从 2,217,692 个 SC 中删除重复项后，我们首先使用 186,397 个以太坊 SC 微调了 60 亿个参数的 GPT J 模型。使用 10 个 GPU 进行微调花了一周多的时间。结果表明，我们的微调模型可以合成平均 BLEU 双语评估学生得分为 0.557 的 SC。然而，自动完成的 SC 中的许多代码都存在漏洞。使用包含不同类型漏洞的 176 个 SC 的漏洞行之前的代码来自动完成代码，我们发现自动完成的代码中有 70 多个是不安全的。因此，我们在包含相同类型漏洞的其他 941 个易受攻击的 SC 上进一步微调了模型，并应用了漏洞约束解码。使用四个 GPU 进行微调只花了一小时。

When Large Language Models Meet Citation: A Survey
Authors Yang Zhang, Yufei Wang, Kai Wang, Quan Z. Sheng, Lina Yao, Adnan Mahmood, Wei Emma Zhang, Rongying Zhao
学术著作中的引用的基本目的是承认和引用已纳入或引用的知识的原始来源。根据周围的文本上下文，这些引文用于不同的动机和目的。大型语言模型法学硕士有助于通过相应的文本上下文捕获这些细粒度的引文信息，从而更好地理解文献。此外，这些引文还建立了科学论文之间的联系，提供高质量的文档间关系和人类构建的知识。这些信息可以纳入法学硕士的预训练中，并改善法学硕士的文本表示。因此，在本文中，我们对法学硕士与引文分析之间的互利关系进行了初步回顾。具体来说，我们回顾了法学硕士在文本引文分析任务中的应用，包括引文分类、基于引文的摘要和引文推荐。然后，我们总结了与利用引文链接知识通过引文预测、网络结构信息和文档间关系来改进法学硕士文本表示相关的研究。

Speeding Up Speech Synthesis In Diffusion Models By Reducing Data Distribution Recovery Steps Via Content Transfer
Authors Peter Ochieng
基于扩散的声码器因采样过程中需要许多步骤而速度缓慢而受到批评。此外，广泛实现的模型损失函数被设计为目标是原始输入 x 0 或误差 epsilon 0 。对于逆过程的早期时间步骤，这会导致较大的预测误差，从而导致语音失真并增加学习时间。我们提出了一种设置，其中目标是前向处理时间步骤的不同输出，目的是减少预测误差的大小并减少训练时间。我们使用神经网络 NN 的不同层来执行去噪，方法是训练它们学习生成与扩散前向过程中的噪声输出类似的表示。神经网络层学习在相反的过程中逐步对输入进行降噪，直到最后一层估计出干净的语音。为了避免神经网络层和前向过程步骤之间的 1 1 映射，我们定义了一个跳跃参数 tau 1 ，以便训练 NN 层以累积消除前向过程中 tau 步骤中注入的噪声。这显着减少了数据分发恢复步骤的数量，从而减少了生成语音的时间。我们通过广泛的评估表明，所提出的技术可以在竞争时间内生成高保真语音，其性能优于当前最先进的工具。

CB-Whisper: Contextual Biasing Whisper using TTS-based Keyword Spotting
Authors Yuang Li, Yinglu Li, Min Zhang, Chang Su, Mengyao Piao, Xiaosong Qiao, Jiawei Yu, Miaomiao Ma, Yanqing Zhao, Hao Yang
端到端自动语音识别 ASR 系统通常难以识别罕见的名称实体，例如个人姓名、组织或训练数据中不经常遇到的技术术语。本文提出了 Contextual Biasing Whisper CB Whisper，这是一种基于 OpenAI Whisper 模型的新型 ASR 系统，可在解码器之前执行关键字识别 KWS。 KWS 模块利用文本转语音 TTS 技术和卷积神经网络 CNN 分类器来匹配实体和话语之间的特征。实验表明，通过将预测实体纳入精心设计的口语形式提示中，Whisper 模型的混合错误率 MER 和实体召回率在三个内部数据集和两个开源数据集（仅涵盖英语、汉语和语码切换）上得到显着改善

Training dynamic models using early exits for automatic speech recognition on resource-constrained devices
Authors George August Wright, Umberto Cappellazzo, Salah Zaiem, Desh Raj, Lucas Ondel Yang, Daniele Falavigna, Alessio Brutti
在推理时动态修改神经模型的计算负载的可能性对于设备上的处理至关重要，因为设备上的计算能力有限且随时间变化。现有的神经模型压缩方法已经存在，但它们提供了架构上的静态模型。在本文中，我们研究了早期退出架构的使用，该架构依赖于中间退出分支，应用于大词汇量语音识别。这允许开发动态模型，根据可用资源和识别性能调整其计算成本。与之前的工作不同，除了使用预先训练的主干网之外，我们还使用早期退出架构从头开始训练模型。对公共数据集的实验表明，与使用单个出口模型或使用预训练模型相比，从头开始的早期退出架构不仅可以在使用较少的编码器层时保持性能水平，而且还可以提高任务准确性。

Pruning Large Language Models via Accuracy Predictor
Authors Yupeng Ji, Yibo Cao, Jiucai Liu
包含数百亿甚至更多参数的大型语言模型 LLM 在各种 NLP 任务中表现出了令人印象深刻的能力。然而，巨大的模型规模给训练、推理和部署带来了挑战，因此有必要压缩模型。目前，大多数LLM的模型压缩都需要手动设计剪枝特征，这存在优化流程复杂、难以保留模型某些部分的能力等问题。因此，我们首先提出了一种新颖的剪枝方法，即训练集建立一定数量的架构精度对，然后训练非神经模型作为精度预测器。利用精度预测器进一步优化搜索空间和搜索，可以自动选择最优模型。实验表明我们提出的方法是有效且高效的。

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models
Authors Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
图形布局生成是一个不断发展的研究领域，在用户参与和信息感知中发挥着重要作用。现有方法主要将布局生成视为数值优化任务，注重定量方面，而忽略布局的语义信息，例如每个布局元素之间的关系。在本文中，我们提出了 LayoutNUWA，这是第一个将布局生成视为代码生成任务的模型，以增强语义信息并利用大型语言模型 LLM 的隐藏布局专业知识。更具体地说，我们开发了一种代码指令调整 CIT 方法，包括三个互连的模块 1 代码初始化 CI 模块量化数值条件并将其初始化为具有策略性放置掩码的 HTML 代码 2 代码完成 CC 模块利用 LLM 的格式化知识来填充HTML 代码中的屏蔽部分 3 代码渲染 CR 模块将完整的代码转换为最终的布局输出，确保高度可解释和透明的布局生成过程，将代码直接映射到可视化布局。我们在多个数据集上实现了 50 多项改进，取得了显着的最先进性能，展示了 LayoutNUWA 的强大功能。

Enhancing Multilingual Speech Recognition through Language Prompt Tuning and Frame-Level Language Adapter
Authors Song Li, Yonbin You, Xuezhi Wang, Ke Ding, Guanglu Wan
最近，ChatGPT等多语言智能助手开始流行。为了进一步扩大多语言人工智能助手的应用范围，促进国际交流，提高多语言语音识别的性能至关重要，而多语言语音识别是语音交互的重要组成部分。在本文中，我们提出了两种简单且参数有效的方法语言提示调整和帧级语言适配器，以分别增强语言可配置和语言无关的多语言语音识别。此外，我们探索了使用参数有效的微调方法集成这两种方法的可行性。

Does Video Summarization Require Videos? Quantifying the Effectiveness of Language in Video Summarization
Authors Yoonsoo Nam, Adam Lehavi, Daniel Yang, Digbalay Bose, Swabha Swayamdipta, Shrikanth Narayanan
由于要总结的输入视频的大小，视频摘要仍然是计算机视觉中的巨大挑战。我们提出了一种高效的、仅语言的视频摘要器，可以通过高数据效率实现有竞争力的准确性。我们仅使用通过零样本方法获得的文本标题来训练语言转换器模型并放弃图像表示。该方法允许我们在代表性文本向量中执行过滤并压缩序列。通过我们的方法，我们获得了自然语言的可解释性，可以轻松地进行人类解释和视频的文本摘要。

A Few-Shot Approach to Dysarthric Speech Intelligibility Level Classification Using Transformers
Authors Paleti Nikhil Chowdary, Vadlapudi Sai Aravind, Gorantla V N S L Vishnu Vardhan, Menta Sai Akshay, Menta Sai Aashish, Jyothish Lal. G
构音障碍是一种言语障碍，由于发音困难而阻碍沟通。出于多种原因，构音障碍的检测很重要，因为它可以用来制定治疗计划并帮助改善一个人的生活质量和有效沟通的能力。许多文献都集中于改进构音障碍语音的 ASR 系统。当前工作的目标是开发能够准确对构音障碍的存在进行分类的模型，并通过使用变压器模型的几次拍摄方法，使用有限的数据提供有关清晰度水平的信息。这项工作还旨在解决以前研究中存在的数据泄露问题。我们的耳语大型 v2 变压器模型在包含中等清晰度水平患者的 UASpeech 数据集子集上进行训练，达到了 85 的准确度、0.92 的精确度、0.8 的召回率、0.85 的 F1 分数和 0.91 的特异性。实验结果还表明，与在字母和数字数据集上训练的模型相比，使用单词数据集训练的模型表现更好。

How People Perceive The Dynamic Zero-COVID Policy: A Retrospective Analysis From The Perspective of Appraisal Theory
Authors Na Yang, Kyrie Zhixuan Zhou, Yunzhe Li
中国的动态零新冠政策持续了三年，不同时期观察到了不同的情绪反应。在本文中，我们回顾性分析了公众情绪和对该政策的看法，特别是它们如何随着时间的推移而演变，以及它们如何与人们的生活经历相关。通过对收集的2,358条微博帖子进行情感分析，我们识别出政策启动、情感急剧变化、情感得分最低和政策终止四个代表点，从评价理论的角度进行深入的话语分析。

SplitEE: Early Exit in Deep Neural Networks with Split Computing
Authors Divya J. Bajpai, Vivek K. Trivedi, Sohan L. Yadav, Manjesh K. Hanawal
深度神经网络 DNN 因其在各种任务上的出色表现而受到关注。然而，由于规模较大，在资源有限的边缘设备、移动设备、物联网设备中部署成熟的 DNN 非常困难。为了克服这个问题，人们考虑了各种方法，比如将部分计算卸载到云端进行最终推理分割计算，或者在中间层执行推理而不通过早期退出的所有层。在这项工作中，我们建议通过在分割计算中使用早期退出来结合这两种方法。在我们的方法中，我们决定在设备分割层上执行 DNN 计算的深度以及样本是否可以从该层退出或需要卸载。这些决策基于准确性、计算和通信成本的加权组合。我们开发了一种名为 SplitEE 的算法来学习最优策略。由于预先训练的 DNN 通常部署在可能无法获得基本事实且样本以流式方式到达的新领域中，因此 SplitEE 在在线且无监督的设置中工作。我们对五个不同的数据集进行了广泛的实验。与在最后一层推断所有样本的情况相比，SplitEE 的成本显着降低了 50，但精度略有下降 2。

How much can ChatGPT really help Computational Biologists in Programming?
Authors Chowdhury Rafeed Rahman, Limsoon Wong
ChatGPT 是 openAI 最近开发的产品，成功地留下了基于自然语言的多用途聊天机器人的印记。在本文中，我们更感兴趣的是分析其在计算生物学领域的潜力。如今，计算生物学家所做的主要工作包括编码生物信息学算法、分析数据、创建管道脚本，甚至机器学习建模特征提取。本文重点阐述了ChatGPT在上述方面的潜在积极和消极影响，并从不同角度举例说明。与计算机科学的其他领域相比，计算生物学有 1 更少的编码资源，2 处理医疗数据的敏感性和偏见问题更多，3 更需要编码帮助来自不同背景的人们来到这个领域。

A Statistical Turing Test for Generative Models
Authors Hayden Helm, Carey E. Priebe, Weiwei Yang
人工智能系统在文本、音频和视觉等领域生成内容的类似人类能力的出现，促进了分类器的发展，以确定内容是源自人类还是机器。这些努力隐含着一个假设，即人类的生成特性与机器的生成特性不同。在这项工作中，我们提供了一个统计模式识别语言的框架，该框架量化了以评估上下文为条件的人类和机器生成内容的分布之间的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com