语言模型的发展

文章目录

- 语言模型的发展历程
- 大语言模型的能力特点
- 大语言模型关键技术概览
- 大语言模型对科技发展的影响

语言模型的发展历程

一般来说，语言模型旨在对于人类语言的内在规律进行建模，从而准确预测词序列中未来（或缺失）词或词元（Token）的概率。根据所采用技术方法的不同，针对语言模型的研究工作可以分为以下四个主要发展阶段：

统计语言模型（Statistical Language Model, SLM），在 20 世纪 90 年代兴起的统计语言模型是基于统计学习方法研发的。具体来说，统计语言模型使用马尔可夫假设（Markov Assumption）来建立语言序列的预测模型，通常是根据词序列中若干个连续的上下文单词来预测下一个词的出现概率，即根据一个固定长度的前缀来预测目标单词。具有固定上下文长度 𝑛 的统计语言模型通常被称为 𝑛 元（𝑛-gram）语言模型，如二元或三元语言模型。统计语言模型被广泛应用于信息检索（Information Retrieval, IR）和自然语言处理（Natural Language Processing, NLP）等领域的早期研究工作。对于高阶统计语言模型来说，随着阶数 𝑛 的增加，需要估计的转移概率项数将会指数级增长，经常会受到“维数灾难”（Curse of Dimensionality）的困扰。为了缓解数据稀疏问题，需要设计专门的语言模型平滑策略，如回退估计（Back-off Estimation）和古德-图灵估计（Good-Turing Estimation）。然而平滑方法对于高阶上下文的刻画能力仍然较弱，无法精确建模复杂的高阶语义关系。

神经语言模型（Neural Language Model, NLM），神经语言模型使用神经网络来建模文本序列的生成，如循环神经网络（Recurrent Neural Networks, RNN）。图灵奖获得者 Yoshua Bengio 在一项早期工作中引入了分布式词表示（Distributed Word Representation）这一概念，并构建了基于聚合上下文特征（即分布式词向量）的目标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义，这与基于词典空间的稀疏词向量表示（One-Hot Representation）有着本质的不同，能够刻画更为丰富的隐含语义特征。同时，稠密向量的非零表征对于复杂语言模型的搭建非常友好，能够有效克服统计语言模型中的数据稀疏问题。分布式词向量又称为“词嵌入”（Word Embedding）。这种基于隐含语义特征表示的语言建模方法为自然语言处理任务提供了一种较为通用的解决途径。在这一系列工作中，word2vec 是一个具有代表性的词嵌入学习模型，它构建了一个简化的浅层神经网络来学习分布式词表示，所学习到的词嵌入可以用作后续任务的语义特征提取器，在自然语言处理任务中得到了广泛使用，取得了显著的性能提升。这些创新性的研究工作将语言模型用于文本表示学习（超越了原始的词序列建模目标），在自然语言处理领域产生了重要影响。

图片名称 — 标题中包含查询短语“Language Model”（从 2018 年 6 月起）和“Large Language Model”（从 2019 年 10 月起）的 arXiv 论文累计数量的变化趋势

预训练语言模型（Pre-trained Language Model, PLM），与早期的词嵌入模型相比，预训练语言模型在训练架构与训练数据两个方面进行了改进与创新。ELMo 是一个早期的代表性预训练语言模型，提出使用大量的无标注数据训练双向 LSTM（Bidirectional LSTM, biLSTM）网络，预训练完成后所得到的 biLSTM 可以用来学习上下文感知的单词表示，这与 word2vec 学习固定的词表示有着显著不同。进一步，ELMo 可以根据下游任务数据对 biLSTM 网络进行微调（Fine-Tuning），从而实现面向特定任务的模型优化。然而，传统序列神经网络的长文本建模能力较弱，并且不容易并行训练，这些缺点限制了早期预训练模型（如 ELMo）的性能。在 2017 年，谷歌提出了基于自注意力机制（Self-Attention）的 Transformer 模型，通过自注意力机制建模长程序列关系。Transformer 的一个主要优势就是其模型设计对于硬件非常友好，可以通过 GPU 或者 TPU 进行加速训练，这为研发大语言模型提供了可并行优化的神经网络架构。基于 Transformer 架构，谷歌进一步提出了预训练语言模型 BERT，采用了仅有编码器的 Transformer 架构，并通过在大规模无标注数据上使用专门设计的预训练任务来学习双向语言模型。在同期，OpenAI 也迅速采纳了 Transformer 架构，将其用于 GPT-1 的训练。与 BERT 模型不同的是，GPT-1 采用了仅有解码器的 Transformer 架构，以及基于下一个词元预测的预训练任务进行模型的训练。一般来说，编码器架构被认为更适合去解决自然语言理解任务（如完形填空等），而解码器架构更适合解决自然语言生成任务（如文本摘要等）。以 ELMo、BERT、GPT-1 为代表的预训练语言模型确立了“预训练-微调”这一任务求解范式。其中，预训练阶段旨在通过大规模无标注文本建立模型的基础能力，而微调阶段则使用有标注数据对于模型进行特定任务的适配，从而更好地解决下游的自然语言处理任务。

大语言模型（Large Language Model, LLM），研究人员发现，通过规模扩展（如增加模型参数规模或数据规模）通常会带来下游任务的模型性能提升，这种现象通常被称为“扩展法则”（Scaling Law）。一些研究工作尝试训练更大的预训练语言模型（例如 175B 参数的 GPT-3 和 540B 参数的 PaLM）来探索扩展语言模型所带来的性能极限。这些大规模的预训练语言模型在解决复杂任务时表现出了与小型预训练语言模型（例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2）不同的行为。例如，GPT-3 可以通过“上下文学习”（In-Context Learning, ICL）的方式来利用少样本数据解决下游任务，而 GPT-2 则不具备这一能力。这种大模型具有但小模型不具有的能力通常被称为“涌现能力”（Emergent Abilities）。为了区别这一能力上的差异，学术界将这些大型预训练语言模型命名为“大语言模型”（Large Language Model, LLM）。作为大语言模型的一个代表性应用，ChatGPT将 GPT 系列大语言模型适配到对话任务中，展现出令人震撼的人机对话能力，一经上线就取得了社会的广泛关注。ChatGPT 发布后，与大语言模型相关的 arXiv 论文数量迅速增长，这一研究方向受到了学术界的高度关注。

通过回顾上述发展历程，可以看到语言模型并不是一个新的技术概念，而是历经了长期的发展历程。早期的语言模型主要面向自然语言的建模和生成任务，而最新的语言模型（如 GPT-4）则侧重于复杂任务的求解。从语言建模到任务求解，这是人工智能科学思维的一次重要跃升，是理解语言模型前沿进展的关键所在。通过任务求解能力的角度对比了四代语言模型所表现出的能力优势与局限性。首先，早期的统计语言模型主要被用于（或辅助用于）解决一些特定任务，主要以信息检索、文本分类、语音识别等传统任务为主。随后，神经语言模型专注于学习任务无关的语义表征，旨在减少人类特征工程的工作量，可以大范围扩展语言模型可应用的任务。进一步，预训练语言模型加强了语义表征的上下文感知能力，并且可以通过下游任务进行微调，能够有效提升下游任务（主要局限于自然语言处理任务）的性能。随着模型参数、训练数据、计算算力的大规模扩展，最新一代大语言模型的任务求解能力有了显著提升，能够不再依靠下游任务数据的微调进行通用任务的求解。综上所述，在语言模型的演化过程中，可以解决的任务范围得到了极大扩展，所获得的任务性能得到了显著提高，这是人工智能历史上的一次重要进步。

大语言模型的能力特点

大语言模型的出现为科研人员再次带来了实现通用人工智能（Artificial General Intelligence）的曙光。尽管通用人工智能在学术界被广泛讨论与探索，但是之前的机器学习算法的泛化性和通用性非常局限，只有大语言模型初步实现了通过统一形式来解决各种下游任务。

具有较为丰富的世界知识。与传统机器学习模型相比，大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识。实际上，最早期的专家系统也是希望能够通过设计基于知识库与知识表示的推理引擎系统，进而解决特定领域的应用任务。然而，当时所采用的技术路径主要是基于逻辑、规则以及初期的机器学习算法，系统能力还比较局限，无法充分建模以及利用世界知识信息。尽管早期的预训练模型（如 BERT、GPT-1 等）也是基于相似的预训练思路，但是模型参数规模与数据规模都相对较小，无法充分学习到海量的世界知识。因此，之前的预训练语言模型需要使用微调为主要手段来解决下游任务。

具有较强的通用任务解决能力。大语言模型第二个代表性的能力特点是具有较强的通用任务求解能力。大语言模型主要通过预测下一个词元的预训练任务进行学习，虽然并没有针对特定的下游任务进行优化，却能够建立远强于传统模型的通用任务求解能力。实际上，基于大规模无标注文本的下一个词元预测任务本质上可以看作一个多任务学习过程，因为针对不同词元的预测任务可能涉及到情感分类（“... 这部电影真好看”）、数值计算（“3+4=7”）、知识推理（“中国陆地面积最大的省份是新疆”）等非常多样的训练任务。由于具有通用的任务求解能力，大语言模型深刻地影响了很多研究领域的科研范式。例如，在自然语言处理领域，很多传统任务（如摘要、翻译等）都可以采用基于大语言模型的提示学习方法进行解决，而且能够获得较好的任务效果，早期任务特定的解决方案已经被逐步替代。

具有较好的复杂任务推理能力。除了具有通用性外，大语言模型在复杂任务中还展现出了较好的推理能力。例如，大语言模型能够回答知识关系复杂的推理问题，还可以解决涉及复杂数学推理过程的数学题目。在这些任务中，传统方法的性能相对较差，为了提升与其相关的特定能力，往往需要针对性地修改模型架构或者使用特定训练数据进行学习。相比之下，大语言模型在大规模文本数据预训练后，能够展现出比传统模型更强的综合推理能力。尽管有些研究工作认为大语言模型不具备真正的推理能力，而是通过“记忆”数据模式来进行任务求解，但在许多复杂应用场景中（参阅微软针对 GPT-4 的测试报告），大语言模型展现出了令人震撼的推理性能，这种现象很难完全通过数据模式的记忆与组合来进行解释。

具有较强的人类指令遵循能力。大语言模型建立了自然语言形式的统一任务解决模式：任务输入与执行结果均通过自然语言进行表达。通过预训练与微调两个阶段的学习，大语言模型具备了较好的人类指令遵循能力，能够直接通过自然语言描述下达任务指令（又称为“提示学习”）。在早期的对话系统中，指令遵循就是一个受到广泛关注的研究方向。然而，传统模型缺乏通用的任务理解与执行能力，仍然需要依赖人工规则或者先验信息辅助指令理解模块的设计与训练。由于具有较强的指令遵循能力，大语言模型为人机交互提供了一种自然的、通用的技术路径，这对于打造很多以人为中心的应用服务（如智能音箱、信息助手等）具有重要的意义。

具有较好的人类对齐能力。机器学习模型的安全性一直以来是一个重要的研究课题。然而，传统模型的智能性、通用性相对较弱，很多科研学者对于模型安全性的关注程度通常远低于对于提升模型性能的关注。随着大语言模型的出现，由于其具有出色的模型性能，如果不进行有效的对齐与监管，将可能带来非常严重的后果。目前广泛采用的对齐方式是基于人类反馈的强化学习技术，通过强化学习使得模型进行正确行为的加强以及错误行为的规避，进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用，都能够有效阻止典型的模型功能滥用行为，一定程度上规避了常见的使用风险。

具有可拓展的工具使用能力。在机器学习领域，模型的设计和实现往往都具有一定的局限性，例如会受到所采用的归纳假设以及训练数据的限制。同样地，大语言模型的能力也具有一定的局限性。例如，它仍然无法有效回答涉及到预训练数据时间范围之外的问题，并且对于数学中的数值计算问题也表现不佳。作为解决方案，由于大语言模型具有较为通用的任务求解形式，可以通过微调、上下文学习等方式掌握外部工具的使用，如搜索引擎与计算器。实际上，世界上最会使用工具的智能体就是人类，人类不断发明新的技术与工具，拓展自己的认知与能力边界。工具学习实际上就是借鉴了这一思路，通过具有特殊功能的工具来加强大语言模型的能力。然而，工具的有效使用对于模型的任务理解能力和推理能力有着较高的要求，因此传统模型以及没有经过特殊微调的大语言模型往往不能很好地使用丰富的工具库。目前最先进的大语言模型如 GPT-4 等能够支持多种工具的使用，从而极大地提升了模型的任务解决能力。

大语言模型关键技术概览

规模扩展，规模扩展是大语言模型的一个关键成功因素。在较早期的研究中，OpenAI 从参数、数据、算力三个方面深入地研究了规模扩展对于模型性能所带来的影响，建立了定量的函数关系，称之为“扩展法则”（Scaling Law）（论文在 2020 年发表），并在 GPT-3 中探索了千亿级模型参数规模（175B 参数）所带来的性能优势，为后期研发 GPT 系列模型打下了重要的基础。随后，谷歌研究团队也在 2022 年推出了具有 540B 参数的 PaLM 模型，子公司 DeepMind 也在同年发表了重要研究成果—Chinchilla 扩展法则。研究人员发现这些超大规模语言模型能够展现出一些小型语言模型不具备的能力特点，如上下文学习能力、思维链能力等，这也成为区分上一代预训练语言模型与大语言模型的重要标志。早期的研究主要关注模型参数规模所带来的性能优势，最近的工作则是加大对于高质量数据的规模扩展。针对十亿级别（如 2B 或 7B）参数的模型使用超大规模的数据（如 2T 或 3T 词元）进行训练，仍然可能无法达到这些模型的最大数据容量。实现规模扩展的关键在于模型架构的可扩展性。Transformer 模型的可扩展性非常强，对于硬件并行优化的支持也比较友好，特别适合大语言模型的研发，很多工作也在进一步针对其进行优化与改进。

数据工程，OpenAI 于 2019 年就在 GPT-2 的论文中给出了当前大语言模型的技术路线图：通过在海量文本上进行下一个词预测的优化，使得模型能够学习到丰富的语义知识信息，进而通过文本补全的方式解决各种下游任务。这种方式最大的好处是，极大地简化了模型的设计与优化过程，使得模型训练与使用都是基于自然语言生成的模式进行的。实际上，人工智能技术的几次重要升级都体现出了这种“大道至简”的思想。例如，早期的深度学习系统通过端到端的训练方法来建立输入与输出间的映射关系，而抛弃了传统耦合多个组件的复杂系统。在这种通用的预训练范式下，模型能力本质上是来源于所见过的训练数据，因此数据工程就变得极为重要，不是简单的扩大数据规模就能够实现的。目前来说，数据工程主要包括三个方面。首先，需要对于数据进行全面的采集，拓宽高质量的数据来源；其次，需要对于收集到的数据进行精细的清洗，尽量提升用于大模型训练的数据质量；第三，需要进行有效的数据配比与数据课程，加强模型对于数据语义信息的利用效率。这三个方面的数据工程技术直接决定了最后大语言模型的性能水平。目前来说，针对英文的开源高质量数据集合比较丰富，相关的数据工程技术讨论也相对较多，但是对于其他语言的研究关注度还有待进一步加强。

高效预训练，与传统预训练语言模型相比，成功训练出一个性能较强的大语言模型极具挑战性。由于参数规模巨大，需要使用大规模分布式训练算法优化大语言模型的神经网络参数。在训练过程中，需要联合使用各种并行策略以及效率优化方法，包括 3D 并行（数据并行、流水线并行、张量并行）、ZeRO（内存冗余消除技术）等。为了有效支持分布式训练，很多研究机构发布了专用的分布式优化框架来简化并行算法的实现与部署，其中具有代表性的分布式训练软件包括 DeepSpeed和 Megatron-LM，它们能够有效支持千卡甚至万卡的联合训练。在实现上，大语言模型的训练过程需要搭建一个全栈式的优化体系架构，能够支持大规模预训练数据的调度安排，建立起可迭代的模型性能改进闭环，加强效果反馈机制，从而能够快速、灵活地进行相关训练策略的调整。由于大语言模型的训练需要耗费大量的算力资源，通常需要开展基于小模型的沙盒测试实验，进而确定面向大模型的最终训练策略。为此，GPT-4 构建了一整套面向大模型的基础训练架构，可以使用较少的算力开销来可靠地预测大模型的最终性能。此外，研发过程也需要关注较为实用的优化技巧，提升训练稳定性和优化效率，如混合精度训练。

能力激发，大语言模型经过超大规模数据的预训练后，能够编码大量的文本语义知识信息。然而，这个阶段的模型能力仍然是通过通用的下一个词预测任务建立的，主要目的是为了进行预训练文本数据的恢复。为了提升模型的任务求解能力，需要设计合适的指令微调以及提示策略进行激发或诱导。在指令微调方面，可以使用自然语言表达的任务描述以及期望的任务输出对于大语言模型进行指令微调，从而增强大语言模型的通用任务求解能力，提升模型在未见任务上的泛化能力。通常来说，现有的研究认为指令微调无法向大模型注入新的知识，而是训练大模型学会利用自身所掌握的知识与信息进行任务的求解。在提示学习方面，需要设计合适的提示策略去诱导大语言模型生成正确的问题答案。为此，研究人员提出了多种高级提示策略，包括上下文学习、思维链提示等，通过构建特殊的提示模板或者表述形式来提升大语言模型对于复杂任务的求解能力。提示工程已经成为利用大语言模型能力的一个重要技术途径。进一步，大语言模型还具有较好的规划能力，能够针对复杂任务生成逐步求解的解决方案，从而简化通过单一步骤直接求解任务的难度，进一步提升模型在复杂任务上的表现。

人类对齐，互联网上开放的无标注文本数据的内容覆盖范围较广，可能包含低质量、个人隐私、事实错误的数据信息。因此，经过海量无标注文本预训练的大语言模型可能会生成有偏见、泄露隐私甚至对人类有害的内容。在实践应用中，需要保证大语言模型能够较好地符合人类的价值观。目前，比较具有代表性的对齐标准是“3 H 对齐标准”，即 Helpfulness（有用性）、Honesty（诚实性）和 Harmlessness（无害性）。与传统的任务优化目标不同，这三个对齐标准一定程度上都与人类主观感知相关，很难直接建立形式化的特定优化目标。为了解决这一问题，OpenAI 提出了基于人类反馈的强化学习算法（Reinforcement Learning from Human Feedback, RLHF），将人类偏好引入到大模型的对齐过程中：首先训练能够区分模型输出质量好坏的奖励模型，进而使用强化学习算法来指导语言模型输出行为的调整，让大语言模型能够生成符合人类预期的输出。由于强化学习算法的优化过程较为复杂，最近学术界开始涌现出一批使用监督微调的对齐方式，从而简化RLHF 优化过程的算法，如 DPO 算法等。随着人工智能算法能力的不断提升，有效监管模型行为以及使用风险变得愈发重要，特别是当模型能力达到一个较高水平之后（如超级智能或人类水平）。为此，OpenAI 还专门发布了“超级对齐”（Super-alignment）的研究项目，旨在研究如何监管具有强人工智能能力的算法。

工具使用，由于大语言模型的能力主要是通过大规模文本数据的语义学习所建立的，因此在非自然语言形式的任务（如数值计算）中能力较为受限。此外，语言模型的能力也受限于预训练数据所提供的信息，无法有效推断出超过数据时间范围以及覆盖内容的语义信息。为了解决上述问题，工具学习成为一种扩展大语言模型能力的关键技术，通过让大语言模型学会使用各种工具的调用方式，进而利用合适的工具去实现特定的功能需求。例如，大语言模型可以利用计算器进行精确的数值计算，利用搜索引擎检索最新的时效信息。为了能够有效地使用外部工具，GPT 系列模型通过插件机制来形成系统性的工具调用方式，这些插件可以类比为大语言模型的“眼睛和耳朵”，能够有效扩展大语言模型的能力范围。在技术路径上，工具调用能力主要是通过指令微调以及提示学习两种途径实现，而未经历过特殊训练或者缺乏有效提示的大语言模型则很难有效利用候选工具。本质上来说，工具使用这一思想来源于人类行为的启发，人类能够充分利用各种外部工具来提升某种特定技能。例如，人类发明了汽车，能够有效缩短通勤的往返时间。随着应用范围的不断拓展，创建广泛的、可供大模型使用的工具资源变得愈为重要。

尽管大语言模型技术已经取得了显著进展，但是对于它的基本原理仍然缺乏深入的探索，很多方面还存在局限性或者提升空间。首先，大模型中某些重要能力（如上下文学习能力）的涌现仍然缺乏形式化的理论解释，需要针对大语言模型基础能力的形成原因进行深入研究，从而揭示大语言模型内部的工作机理。其次，大语言模型预训练需要大规模的计算资源支持，研究各种训练策略的效果并进行可重复性的消融实验的成本非常高昂。学术界难以获得充分的算力来系统性研究大语言模型；虽然工业界或者大型研究机构不断推出性能优异的开源大模型，但是这些模型的训练过程的开源程度还不够充分，许多重要的训练细节仍缺乏公开的研究报道。特别地，现有的大语言模型非常依赖于工程方法的优化（如数据清洗等），但是这些技术的理论支撑还比较缺乏。第三，让大语言模型充分与人类价值观或偏好对齐也是一项重要的科研挑战。尽管大语言模型已经具有较好的模型能力，但是在特定场景下或者蓄意诱导下，仍然可能生成虚构、有害或具有负面影响的内容。这一问题随着模型能力的提升而变得更为难于解决。为了应对模型能力未来可能超越人类监管能力的情况，需要设计更为有效的监管方法来消除使用大语言模型的潜在风险。综述所述，大语言模型技术的研究才刚刚开始，仍然存在众多的研究挑战等待突破，需要研究人员和工程人员携手努力解决。

大语言模型对科技发展的影响

大语言模型真正令我们震撼的地方是，它与小型预训练语言模型采用了相似的网络架构以及训练方法，但通过扩展模型参数规模、数据数量以及算力资源，却带来了令人意料之外的模型性能跃升。大语言模型首次实现了单一模型可以有效解决众多复杂任务，人工智能算法从未如此强大。

大语言模型对人工智能技术的未来发展方向带来了重要影响，ChatGPT 和 GPT-4 的出现引发了人们对于实现通用人工智能（Artificial General Intelligence, AGI）可能性的重新思考。2023 年 2 月，OpenAI 发布了一篇名为“Planning for AGI and beyond”的技术文章，讨论了实现通用人工智能的短期和长期计划；来自微软的研究团队也在一篇 arXiv 论文中详细地展示了GPT-4 强大的模型性能，并认为 GPT-4 可能被视为通用人工智能系统的早期版本 [20]。随着大语言模型技术的迅猛发展，人工智能相关研究领域正发生着重要的技术变革，下面以四个典型的领域进行介绍：

自然语言处理，在自然语言处理领域，大语言模型可以作为一种通用的语言任务解决技术，能够通过特定的提示方式解决不同类型的任务，并且能够取得较为领先的效果。进一步，很多传统任务的研究意义在衰减，甚至有些任务被宣告“结束”（如摘要任务），研究范式开始全面转向大语言模型技术，研究人员的关注重点由“解决特定任务”迁移到“如何进一步提升大语言模型的综合能力”。语言智能开始成为主导人工智能发展方向的重要路径。

信息检索，在信息检索领域，传统搜索引擎受到了人工智能信息助手（即 ChatGPT）这一新型信息获取方式的冲击。在基于大语言模型的信息系统中，人们可以通过自然语言对话的形式获得复杂问题的答案。微软也推出了基于大语言模型增强的搜索引擎 New Bing，将大语言模型与传统搜索引擎进行融合。但是，目前大语言模型信息系统的精确性与实时性还有待提升，无法完全胜任现有搜索引擎的角色。鉴于大语言模型与搜索引擎各自的优势，信息检索领域主要关注两个新兴方向的研究，即检索增强的大语言模型以及大语言模型增强的搜索系统，全面围绕大语言模型技术展开。

计算机视觉，在计算机视觉领域，研究人员为了更好地解决跨模态或多模态任务，正着力研发类 ChatGPT 的视觉-语言联合对话模型，GPT-4 已经能够支持图文多模态信息的输入。由于开源大语言模型的出现，可以极大地简化多模态模型的实现难度，通过将图像、视频等模态的信息与文本语义空间相融合，可以通过计算量相对较少的微调方法来研发多模态大语言模型。进一步，基于下一个词元预测的思路也可能会带来多模态领域的基础模型架构的转变，例如 OpenAI 最新推出的 Sora 模型就是基于图像块序列建模的思路进行构建的。

人工智能赋能的科学研究（AI4Science），近年来，AI4Science 受到了学术界的广泛关注，目前大语言模型技术已经广泛应用于数学、化学、物理、生物等多个领域，基于其强大的模型能力赋能科学研究。例如，著名数学家陶哲轩曾多次在社交网络表示，他在数学科研中广泛使用大语言模型，用于辅助提供解题灵感甚至用于论文的撰写。此外，大语言模型也多次被证明在新材料发现、生物制药等多个方面都能起到一定的促进作用。随着大语言模型训练数据规模与范围的扩展，在未来将会在人类科学研究中扮演更为重要的角色。

除了在特定学科领域的应用，大语言模型对于整体的科研范式也正产生着重要影响。为了有效提升大模型的性能，研究人员需要深入了解大模型相关的工程技术，对于理论与实践的结合提出了更高的需求。例如，训练大模型具备大规模数据处理与分布式并行训练方面的实践经验。进一步，大语言模型将改变人类开发和使用人工智能算法的方式。与小型预训练语言模型不同，访问大语言模型的主要方法是通过提示接口（Prompting Interface），例如 GPT-4 API。为了更好地发挥模型性能，使用者需要了解大语言模型的工作原理，并按照大语言模型能够遵循的方式来描述需要解决的任务。

此外，大语言模型对于产业应用带来了变革性的技术影响，将会催生一个基于大语言模型的应用生态系统。例如，微软 365（Microsoft 365）正利用大语言模型（即 Copilot）来加强自动化办公软件的自动化办公工作；OpenAI 也进一步推动Assistants API 和 GPTs 来推广大模型智能体（Agent）的研发，从而实现特定任务的求解工具。在未来，将出现更多的以大语言模型为基础技术架构的科技应用产品，简化原来繁复的功能处理流程，加快软件研发周期，极大地改善用户体验。