EMNLP 2024 | 大语言模型的内部知识机理

server/2024/11/20 11:06:04/

这是今年早期发表在EMNLP 2024 Findings上的一篇综述性论文:Knowledge Mechanisms in Large Language Models: A Survey and Perspective。

ada7b637857d40d0b6527a27303bccdc.jpg

 

虽然论文尝试落脚点在以“Knowledge”为内涵去尝试阐释LLMs内部机制的这种“古典主义”思想上稍显过时且机械,但通过论文中对近几年LLMs在认知与推理这一研究领域的回顾,也更加系统性的审视了人们对LLMs为传统NLP领域带来的认知发展、探索与研究历程,我想其中的几项研究亦为后续围绕LLM模型及应用带来些许深刻的启示。

如文中根据Bloom这种古典的认知分类法将LLMs对知识的掌握与利用分为记忆、理解、总结和创造,也侧面印证了当前以GPT为代表的模型开发训练范式、演进发展历程、对真实世界数据持续的知识压缩与泛化再到以o1为代表的探索推理机制。

0c260f98231e408598ffad76e6a6dac3.jpg

如在“知识记忆”方面,将transformer对知识的表征类比为人脑功能区域的模块化映射,并深入模型内部hidden参数层探索认知过程中对知识与模式的表征,我想这也为后续围绕LLMs内部的理论研究及模型可解释性研究打下了一定的基础。

在“理解与应用”维度,提供了某种更具象化的模型内部层次化机理对泛化过程的部分解释,如对模型内模块化区域表征的映射,再到Olsson等人在 Llama 和 GPT 模型中识别出“归纳头”,以及模型特定神经元对基础知识的表征。

9d8c01f46e0a4d34a0231b72962095d3.jpg

在“知识创造”方面,从知识的连续性与离散性角度阐释LLMs创造知识的过程等。

另外,文中也从“知识进化”这一角度阐释了LLMs从pre-train→post-train等不同阶段模型对数据分布的学习与压缩进程,并尝试从中探明模型在训练进程中对数据延伸到浅层知识泛化的分布及跨训练阶段或新训练范式下知识由低到高层级抽象的泛化与利用机制(虽然论文对这一领域并未结合前沿成果深入分析,但我想这对于未来LLMs在处理更加复杂的推理任务甚至是对未知领域探索过程中的泛化迁移能力尤为重要)。

有趣的是,文中从“群体进化”这一新颖的角度阐释了在Multi-model或Multi-agent间的通信交互下群体对知识的进化与认知演变,我想不管对于当下流行的多智能体协作还是对未来探寻更高效人机协作过程来说,也是十分有意义的。

最后,文中提出了一种“暗知识”假说,我想这也预示着当前人类对世界发现与探索的局限及对未知领域的敬畏。

By 吕明


http://www.ppmy.cn/server/143454.html

相关文章

论文浅尝 | MindMap:知识图谱提示激发大型语言模型中的思维图(ACL2024)

笔记整理:和东顺,天津大学硕士,研究方向为软件缺陷分析 论文链接:https://aclanthology.org/2024.acl-long.558/ 发表会议:ACL 2024 1. 动机 虽然大语言模型(LLMs)已经在自然语言理解和生成任务…

基于YOLOv8深度学习的智慧社区高空抛物检测系统研究与实现(PyQt5界面+数据集+训练代码)

随着智慧社区的不断发展,智能化技术在社区管理中的应用日益广泛,而高空抛物现象逐渐成为社区安全管理中的突出问题。高空抛物不仅对社区居民的财产和生命安全造成极大威胁,还容易引发法律纠纷,增加社区管理的难度。尽管已有部分传…

chatGPT是如何使用tensrFlow训练模型的?

在训练像ChatGPT这样的大型语言模型时,TensorFlow的一些关键特性起到了至关重要的作用。以下是TensorFlow在训练ChatGPT过程中最关键的几个特性: ### 1. **动态计算图(Eager Execution)** - **灵活性**: TensorFlow 2.x 默认启用…

AWS账户被盗的风险与应对措施

在数字化时代,云计算已成为企业日常运作的重要组成部分,而亚马逊云服务(AWS)作为全球领先的云服务提供商,其账户安全显得尤为重要。然而,账户被盗的事件时有发生,这不仅会影响个人用户&#xff…

django从入门到实战(二)——FBV视图介绍

在 Django 中,视图是处理 HTTP 请求并返回 HTTP 响应的核心部分。Django 提供了两种主要的视图实现方式:FBV(Function-Based View)和 CBV(Class-Based View)。下面将详细介绍这两种视图的语法、要义和使用方…

LLM学习笔记(2)会话补全Chat Completions、什么是JSON?

什么是会话补全Chat Completions? 功能目标:处理多轮对话。 它模拟对话的逻辑,比如聊天机器人对用户消息的回应。使用的模型主要是针对对话型应用优化的模型,例如gpt-3.5-turbo或gpt-4。 什么是JSON? JSON 本质上是…

环形缓冲区 之 STM32 串口接收的实现

STM32串口数据接收环形缓冲区接收实例说明 ...... 矜辰所致前言 关于环形缓冲区,网上有大量的理论说明文章,在有些操作系统中,会有实现环形缓冲区的代码,比如 RT-Thread 的 ringbuffer.c 和 ringbuffer.h 文件,Li…

sei节点快速搭建方法

文章目录 一、环境准备1.1 基础环境准备1.2 golang环境准备二、启动节点2.1 执行节点启动脚本2.2 启动节点三、 其它信息3.1 默认服务端口3.2 节点本地rpc接口使用Sei主网节点搭建之前,大概说明一下本次使用的服务器配置 服务器环境云厂商:AWS 节点地区:香港 CPU:16核 内存…