【LLM】2023 年最值得考虑的 10 个最强大语言模型

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎

📝个人主页－Sonhhxg_柒的博客_CSDN博客 📃

🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝

📣系列专栏 - 机器学习【ML】自然语言处理【NLP】深度学习【DL】

🖍foreword

✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。

如果你对这个系列感兴趣的话，可以关注订阅哟👋

文章目录

大语言模型可以用来做什么？

开源大语言模型发展简史

开源大语言模型在人工智能中的重要性是什么？

流行的开源大语言模型

1. OpenAI 的 GPT-3 和 GPT-4

GPT-3/4 是开源的吗？

2. 谷歌 LaMDA

LaMDA 有何用途？

3.Meta AI 的 LLaMA

LLaMA 有何用途？

4. BigScience 的 Bloom

5. Google 的PaLM

PaLM 有何用途？

6.Databricks 的 Dolly

7.来自 Cerebras 的 Cerebras-GPT

8. 谷歌的 BERT

9.谷歌的XLNet

关于开源大语言模型的结论

“开源”一词是指模型的代码和底层架构是公开的，允许开发人员和研究人员出于各种目的访问、修改和增强模型。这种开放性促进了人工智能社区内的协作和创新，使个人和组织能够在现有模型的基础上构建，创建新的应用程序，并为人工智能技术的整体进步做出贡献。

像 GPT-3.5 这样的大型语言模型有许多互连的神经网络层来处理和分析文本数据。在训练过程中，模型学习识别模式、理解语法和语义，并根据输入生成连贯且上下文相关的响应。

大语言模型可以用来做什么？

这些模型可用于各种任务，包括自然语言理解、文本完成、语言翻译、问答、文本摘要等等。此外，它们还被用于各种应用程序，例如聊天机器人、虚拟助手、内容生成、语言辅导，甚至创意写作。

开源大语言模型的演变

随着模型规模的增加，跨任务的性能得到提高，同时也释放了新的功能。

开源这些模型允许开发人员进行试验、微调和调整以满足特定需求。它鼓励协作、知识共享以及道德和负责任的人工智能实践的发展。然而，它也引发了对潜在滥用的担忧，例如生成虚假内容或放大训练数据中的偏见。

总体而言，开源大型语言模型为自然语言处理提供了强大的工具，并有可能彻底改变我们与计算机交互和处理人类语言的方式。

开源大语言模型发展简史

大型语言模型的发展已经发展了好几年，在人工智能方面取得了显着的进步和突破。以下是他们的发展简史：

神经网络和深度学习： 大型语言模型的基础可以追溯到神经网络和深度学习的进步。研究人员在训练多层神经网络方面取得了重大进展，使它们能够处理复杂的模式并学习分层表示。
词嵌入： 2013 年，Word2Vec和Glove等词嵌入的引入彻底改变了自然语言处理。这些模型学会了将单词表示为密集向量，捕获语义关系和上下文信息。此外，词嵌入为训练语言模型奠定了基础。
循环神经网络 (RNN)：RNN在建模序列数据（包括自然语言）方面变得很流行。它们可以捕获句子中单词之间的依赖关系，使其适合语言建模任务。LSTM（长短时记忆）和GRU（门控循环单元）等模型提高了处理长期依赖关系的能力。
Transformer Architecture： Transformer架构，在 Vaswani 等人的论文“Attention Is All You Need”中介绍。2017年是一个重要的里程碑。Transformer 用自注意机制取代了循环连接，从而实现了更好的并行化并有效地捕获全局依赖关系。这种架构成为许多后续语言模型的基础。
GPT-1 和 GPT-2： OpenAI 在 2018 年发布了“生成式预训练 Transformer”（GPT）的第一次迭代。GPT-1 展示了在多样化数据集上进行大规模预训练的威力，随后进行了精细训练调整特定任务。2019 年发布的 GPT-2 显着增加了模型大小，并展示了令人印象深刻的语言生成能力。
GPT-3： OpenAI 在 2020 年推出了GPT-3，这是一个具有 1750 亿个参数的突破性模型，使其成为最大的语言模型。GPT-3 展示了卓越的文本生成能力，例如撰写论文、回答问题和创作创意小说。
持续进步： 继 GPT-3 之后，研究人员和组织继续突破大型语言模型的界限。引入了各种迭代和增强，重点是提高效率、减少偏见、解决道德问题以及扩展这些模型的功能。

值得注意的是，这个时间表并不详尽，研究人员和组织的许多其他贡献在开发大型语言模型方面发挥了作用。此外，该领域继续快速发展，持续的研究和创新推动了这些模型的功能和应用的进一步进步。

开源大语言模型在人工智能中的重要性是什么？

开源语言模型在人工智能领域发挥着至关重要的作用，其重要性可以从几个角度来理解：

协作与创新： 开源模型促进人工智能社区内的合作和知识共享。通过免费提供代码和底层架构，开发人员和研究人员可以协作、做出改进并在现有模型的基础上进行构建。这种集体努力促进创新，加速进步，并导致更先进、更有能力的语言模型的开发。
可访问性和民主化： 开源语言模型使先进人工智能技术的访问民主化。它允许来自不同背景和不同规模组织的开发人员在他们的项目和应用程序中利用这些模型。这种可访问性有助于创造公平的竞争环境并减少进入壁垒，从而使更多人参与人工智能研究和开发。
定制和适应： 开源模型为定制和适应特定用例提供了灵活性。开发人员可以根据特定领域的数据微调模型，从而使他们能够定制自己的行为并提高特定任务的性能。这种定制使开发人员能够创建满足其独特需求并更有效地解决现实世界挑战的应用程序。
信任和透明度： 开放性可以建立信任并确保人工智能系统的透明度。通过访问底层代码，研究人员和用户可以检查和审核模型，验证其行为并了解其局限性。这种透明度有助于识别潜在的偏见、道德问题和安全漏洞，从而促进负责任的人工智能开发实践。
道德考虑： 开源语言模型有助于将道德考虑整合到人工智能开发中。允许社区检查模型并为模型做出贡献可以更轻松地解决偏见、公平、隐私和问责问题。不同利益相关者的集体审查和意见有助于减轻潜在的道德挑战，并确保负责任地使用人工智能技术。
教育和技能发展： 开源模型为人工智能的教育和技能发展提供了宝贵的资源。学生、研究人员和爱好者可以访问这些模型，研究他们的代码，进行实验，并获得使用高级语言处理技术的实践经验。这种可访问性促进了学习、知识传播和人工智能人才的发展。
长期可持续性： 开源模型有助于确保人工智能研究和开发的长期可持续性。通过培育协作生态系统，这些模型减少了对单个组织或有限研究人员群体资源的依赖。这降低了模型变得专有或停滞的风险，并确保模型随着时间的推移不断改进、维护和发展。

总之，开源语言模型促进人工智能领域的协作、可访问性、定制、透明度、道德、教育和可持续性。此外，它们的可用性可以推动创新，为开发人员提供支持，并有助于人工智能系统的负责任和包容性的开发和部署。

流行的开源大语言模型

1. OpenAI 的 GPT-3 和 GPT-4

GPT-3/4（Generative Pre-trained Transformer 3/4）是 OpenAI 开发的一种高度先进的语言模型。它是 GPT 系列的第三次迭代，在自然语言处理 (NLP) 和人工智能领域获得了极大的关注和好评。

以下是 GPT-3/4 的一些主要特性和优点：

大小和容量：GPT-3/4 是最大的语言模型之一，包含 1750 亿/100 万亿个参数。其庞大的规模使其能够从大量文本数据中学习，捕获复杂的语言模式并生成高质量的文本输出。
语言生成： GPT-3/4 在文本生成任务中表现出色。给定提示或上下文，它可以以各种写作风格和语气生成连贯且上下文相关的文本。这使得它对于内容生成、聊天机器人和创意写作等应用程序很有价值。
多功能性： GPT-3/4 在各种 NLP 任务中表现出了强大的性能，包括语言翻译、文本完成、情感分析、问答等。其多功能性和适应性使其适用于多种用例，为不同的 NLP 挑战提供灵活的解决方案。
零样本和少样本学习：GPT-3/4可以执行零样本和少样本学习。它可以推广到新任务，而无需对这些任务进行明确的训练。此外，GPT-3 可以通过提供所需工作的提示和描述，对给定任务生成合理的响应或执行基本推理，即使没有经过专门的培训。
上下文理解：GPT-3/4 对上下文有牢固的把握，可以生成上下文连贯且相关的文本。它理解单词和句子之间的关系，使其能够根据提供的上下文生成自然且有意义的响应。
OpenAI API： GPT-3/4 可通过 OpenAI API 访问，允许开发人员和研究人员利用其应用程序功能。该 API 支持与各种平台和服务集成，扩大了 GPT-3/4 的范围和潜在应用。

GPT-3/4 是开源的吗？

值得注意的是，GPT-3 是开源的，但 GPT-4 只能通过 API 获得。虽然 API 允许访问 GPT-4 的功能，但底层模型的架构和参数并未公开。然而，API 集成使开发人员能够利用 GPT-4 的强大功能并在其项目中利用其功能。

总体而言，GPT-3/4 代表了开发大规模语言模型的一个重要里程碑，展示了人工智能在自然语言理解和生成方面的潜力。此外，其令人印象深刻的容量和多功能性使其成为广泛 NLP 应用的宝贵工具。

2. 谷歌 LaMDA

LaMDA AI 代表对话应用程序的语言模型，是 Google 开发的一种会话式大语言模型 (LLM)，作为基于对话的应用程序的基础技术，可以生成人类发音的语言。Google Transformer 研究项目的创新之一是 LaMDA，这是一项自然语言处理方面的工作，是多种语言模型的基础，其中包括 ChatGPT 背后的技术 GPT-3。

LaMDA 是世界上最有效的语言模型之一，尽管它不一定像 OpenAI 的 GPT 系列语言模型那样出名。甚至谷歌的一位工程师 Blake Lemoine 也声称 LaMDA 人工智能模型是有感知的，因为它是一个令人印象深刻的人工智能模型。Blake Lemoine 表示 LaMDA 人工智能聊天机器人可以像人类一样有感觉，甚至可能以某种方式拥有灵魂，当他说人工智能是有知觉的时。结束之前，他继续与模特进行了一系列有些复杂的、听起来有些复杂的人性对话。Lemoine 的说法可能表明，该聊天机器人在对话方面足够熟练，甚至可以说服人工智能工程师相信其有感知能力，尽管谷歌很快驳斥了人工智能聊天机器人可能有感知能力的观点。

LaMDA 有何用途？

LaMDA AI 最受欢迎的应用之一是 Google 2023 年发布的 Bard，这是一款与 ChatGPT 相当的 AI 聊天机器人。目标是使人工智能系统成为各种谷歌系统的基础，使谷歌产品能够以听起来像人类的对话与用户进行交互。尽管 LaMDA AI 仍处于开发和微调阶段，但谷歌已暗示 LaMDA 可以使用多种潜在产品线。然而，目前可用的大部分内容主要是实验性的。

3.Meta AI 的 LLaMA

LLaMA （Large Language Model Meta AI ）是Meta AI于2023年2月发布的大型语言模型（LLM）。训练了各种模型大小，从70亿到650亿个参数不等。LLaMA 的开发人员报告说，130 亿个参数模型在大多数 NLP 基准测试中的性能超过了更大的 GPT-3（具有 1750 亿个参数）。最大的模型可以与 PaLM 和 Chinchilla 等最先进的模型竞争。虽然最强大的 LLM 通常只能通过有限的 API（如果有的话）访问，但 Meta 在非商业许可下向研究社区发布了 LLaMA 的模型权重。LLaMA 发布后一周内，其权重通过 BitTorrent 在 4chan 上向公众泄露。

LLaMA 有何用途？

LLaMA 衍生出许多不同的模型；最著名的昵称“Alpaca”，是基于斯坦福大学以人为中心的人工智能研究所 (HAI) 基础模型研究中心 (CRFM) 的 LLaMA 7B 模型构建的训练配方。它采用“自指令”指令调整方法，以实现与 OpenAI GPT-3.5 系列 text-davinci-003 模型相当的价格合理的功能。许多开源项目正在继续使用 Alpaca 数据集优化 LLaMA 的工作。

4. BigScience 的 Bloom

BigScience 基于 Transformer 构建的大型语言模型称为大型开放科学开放访问多语言语言模型 (BLOOM)。它由 1000 多名人工智能研究人员开发，为任何想要使用它的人提供免费的大型语言模型。

它被视为 OpenAI 的 GPT-3 的替代品，拥有 1760 亿个参数，并在 2022 年 3 月至 7 月期间接受了约 3660 亿个代币的训练。BLOOM 采用了 Megatron-LM GPT-2 仅解码器变压器模型架构的修改版本。

Hugging Face 联合创始人发起了 BLOOM 项目。HuggingFace 的 BigScience 团队、Microsoft DeepSpeed 团队、NVIDIA Megatron-LM 团队、IDRIS/GENCI 团队、PyTorch 团队以及 BigScience 工程工作组的志愿者是参与的六个主要小组。使用 46 种自然语言和 13 种编程语言来训练 BLOOM。BLOOM 训练数据集的 1.6 TB 预处理文本创建了 3500 亿个唯一令牌。

5. Google 的PaLM

Google AI 创建了一个基于 5400 亿个参数转换器的大型语言模型，称为 PaLM 。为了测试模型规模的影响，研究人员还训练了具有 8 和 620 亿个参数的 PaLM 模型。

PaLM 可以执行各种任务，包括翻译、代码生成、笑话解释、常识和数学推理。然而，当与思维链提示相结合时，paLM 在需要多个推理步骤的数据集（例如文字问题和基于逻辑的问题）上表现明显更好。

该模型于 2022 年 4 月首次推出，直到 Google 在 2023 年 3 月推出适用于 PaLM 的 API 和其他几项技术之前，该模型一直未发布。在公开之前，该 API 将可供注册候补名单的精选开发人员使用。

PaLM 有何用途？

由 Google 和 DeepMind 创建的名为 Med-PaLM 的 PaLM 540B 变体针对医疗数据进行了优化，并且在回答医疗问题的基准方面优于早期模型。除了正确回答多项选择题和开放式问题外，Med-PaLM 是第一个在美国医疗许可问题上获得及格分数的公司，它还提供推理并可以评估其回答。

为了创建 PaLM-E（一种可用于机器人操作的尖端视觉语言模型），Google 还使用视觉转换器扩展了 PaLM。因此，无需额外的训练或微调，该模型就有能力执行机器人任务。

谷歌在 2023 年 5 月的年度 Google I/O 主题演讲上公布了 PaLM 2。PaLM 2 是在 3.6 万亿个代币上训练的 3400 亿个参数模型。

6.Databricks 的 Dolly

Databricks 的 Dolly 是一个大型语言模型，可以学习遵循指令，并在 Databricks 机器学习平台上进行训练。它接受了 Databricks 员工基于 Pythia-12b 创建的大约 15k 指令/响应微调记录的训练，包括头脑风暴、分类、封闭式 QA、生成、信息提取、开放式 QA 和总结。尽管不是尖端模型，dolly-v2-12b 却表现出了令人惊讶的良好指令遵循行为，这在其所基于的基础模型中并不典型。

Hugging Face 的模型列为 databricks/dolly-v2-12b。

7.来自 Cerebras 的 Cerebras-GPT

Cerebras -GPT 系列的发布是为了促进使用开放架构和数据集对 LLM 扩展法则的研究，并展示在 Cerebras 软件和硬件堆栈上训练 LLM 的简单性和可扩展性。所有 Cerebras-GPT 模型均可在 Hugging Face 上找到。

该系列包括 111M、256M、590M、1.3B、2.7B、6.7B 和 13B 型号。Cerebras-GPT 系列中的所有模型均按照计算最优的Chinchilla 缩放定律（每个模型参数 20 个标记）进行训练。

这些模型在由 16 个 CS-2 晶圆级系统组成的 Andromeda AI 超级计算机上进行训练。Cerebras 的权重流技术通过将计算从模型存储中分离出来，简化了法学硕士的训练。这允许使用简单的数据并行性跨节点有效扩展训练。

8. 谷歌的 BERT

BERT（来自 Transformers 的双向编码器表示）是 Google AI 的研究人员于 2018 年推出的流行语言模型。它对自然语言处理（NLP）领域和各种下游任务产生了重大影响。

BERT 的关键创新在于它能够通过在大量未标记文本数据上预训练基于深度 Transformer 的神经网络来捕获双向上下文。与以从左到右或从右到左的方式处理文本的传统模型不同，BERT 在预训练期间采用“掩码语言建模”目标。它随机屏蔽输入序列中的单词，并训练模型根据周围的上下文预测屏蔽的单词。

BERT 为后续语言建模和 NLP 研究进展铺平了道路。此外，它还启发了各种模型变体和改进的开发，例如 RoBERTa、ALBERT 和 ELECTRA，它们进一步建立在 BERT 架构的基础上，以增强其在不同环境下的性能和效率。

9.谷歌的XLNet

XLNet 是 Google AI 研究人员于 2019 年推出的语言模型。它解决了传统语言模型的局限性，例如依赖从左到右或自回归方法的预训练技术。

XLNet 背后的关键思想是通过在预训练期间对输入序列的所有排列进行建模来克服自回归偏差。与 GPT 等根据前面的上下文预测每个单词的模型不同，XLNet 考虑序列的所有可能排列并对所有位置之间的关系进行建模。这种方法允许模型更有效地捕获双向上下文和依赖关系。

XLNet 采用 Transformer 架构，由自注意机制和前馈神经网络组成。此外，它还采用称为“排列语言建模”的基于排列的训练目标，以最大限度地提高预测给定序列中任何单词的可能性，无论其顺序如何。

值得注意的是，XLNet 通常用作预训练模型，并对特定任务进行微调以实现最佳性能。XLNet 的开源代码和预训练模型可供使用，使研究人员和开发人员能够利用并进一步增强各种自然语言处理应用程序的模型。

关于开源大语言模型的结论

总之，开源语言模型彻底改变了人工智能领域，特别是在自然语言处理领域。这些模型为人工智能社区带来了许多优势。

开源语言模型促进协作，使世界各地的开发人员和研究人员能够做出贡献、分享见解并共同改进模型。它们提供定制和适应性，允许用户根据自己的需求和领域定制模型。透明度是开源模型的一个重要优势，因为它们促进问责制、信任以及偏见或道德问题的识别。

此外，开源语言模型有助于知识共享、教育和人工智能的民主化。它们为研究人员、学生和爱好者提供了学习模型架构并获得自然语言处理技术实践经验的机会。

流行的开源语言模型已经表现出了非凡的能力，例如上下文理解、迁移学习以及跨各种 NLP 任务的多功能性。它们的出现激发了创新，并推动了自然语言处理和人工智能应用的进步。

开源语言模型的持续发展可能会推动人工智能的进一步进步，实现更复杂的语言理解、生成和对话能力。开源社区将继续在突破人工智能界限并使更广泛的受众能够接触到这些进步方面发挥重要作用。