通用大模型研究重点之五:llama family

ops/2024/10/9 17:27:46/

LLAMA Family

decoder-only类型
LLaMA(Large Language Model AI)在4月18日公布旗下最大模型LLAMA3,参数高达4000亿。目前meta已经开源了80亿和700亿版本模型,主要升级是多模态、长文本方面工作。
模型特点:采用标准的decoder-only,tokennizer的分词表128k,24K的GPU集群,15T的公开数据,非英占5%,包括30种语言。训练数据增加7倍,代码量增加2倍。
个人理解:按照Sacling low的研究,当参数一定条件下,增加数据量可以明显提示模型的表达能力。并且研究发展在一定条件下增加数据比增加参数在知识表示方面效果更加显著。当然在Scaling low研究中openai和google的观点从文献上看是对立的,这种对立统一或者帮助我们在设计模型时给出一个指导,数据不足可以通过参加参数提升效果,数据充足情况下可以通过模型学习SFT,LORA、MOE三种学习范式提升效果。

LLaMA模型3:

  • 优点
    • 最先进的性能:模型3通常是系列中最大规模的模型,提供了最先进的性能,尤其是在复杂的语言任务上。
    • 强大的泛化能力:大量的参数使得模型3在多种任务上都有出色的泛化能力。
    • 更好的多任务学习:由于其规模和设计,模型3适合于多任务学习场景,可以同时处理多种不同的自然语言处理任务。
  • 缺点
    • 高资源消耗:最大的模型规模意味着最高的计算和存储需求,这可能使得在没有高性能计算资源的情况下难以部署。
    • 环境影响:训练和运行如此大规模的模型可能对环境产生较大的影响,因为需要大量的电力和计算资源。

通用异同点:

  • 架构改进:随着版本的提升,LLaMA模型通常会采用更先进的架构设计,以提高效率和性能。
  • 任务适应性:所有版本的LLaMA模型都旨在处理多种自然语言处理任务,如文本分类、问答、文本生成等。
  • 资源效率:尽管规模不同,但LLaMA系列模型的一个共同目标是提高资源效率,即在尽可能少的资源消耗下提供高性能。

LLaMA模型2:

  • 优点
    • 提升的性能:相比于模型1,模型2通常具有更多的参数和更大的规模,这使得它在更广泛的任务上表现更好。
    • 更好的上下文理解:增加的参数和改进的架构有助于模型更好地理解和处理长文本。
  • 缺点
    • 增加的资源需求:相比于模型1,模型2需要更多的计算资源,这可能限制了它在资源受限的环境中的可用性。
    • 可能的过拟合风险:更大的模型规模如果没有适当的正则化,可能在小数据集上出现过拟合。

LLaMA模型1:

  • 优点
    • 较小的规模:相比于其他大型语言模型,LLaMA模型1具有较小的模型尺寸,这使得它在资源有限的环境中更容易部署。
    • 高效的性能:尽管规模较小,但LLaMA模型1在多种自然语言处理任务上展现出了高效的性能。
  • 缺点
    • 有限的上下文理解:由于模型规模的限制,模型1可能在处理非常长文本或需要深层次推理的任务时表现不佳。
    • 较少的参数:较少的参数可能导致模型在一些复杂的任务上泛化能力不足。

请注意,具体的技术细节、性能指标和应用场景可能会随着模型版本的更新而变化。此外,对于每个版本的详细优缺点,通常需要通过实际的基准测试和使用体验来确定。如果需要最新和最详细的信息,建议查阅官方发布的技术文档或相关的研究论文。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

其他国际知名大模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
也有将MoE作为一个独立的层[2],将多个MoE结构堆叠在另一个网络中,一个MoE层的输出作为下一层MoE层的输入,其输出作为另一个下一层的输入,其具体过程如下图所示:
在这里插入图片描述
在这里插入图片描述
MoE代码实现

MoE,即Mixture of Experts它允许模型在不同的任务和数据集上进行训练和微调。MoE结构是一种将多个专家网络结合起来,以便处理各种输入的技术。每个专家网络可以专门处理一种类型的任务或数据,而主网络则负责将输入分配给最合适的专家网络。MoE结构的代码简化的MoE结构的概念性伪代码示例原理:```python
import torch
import torch.nn as nnclass Expert(nn.Module):def __init__(self, size):super(Expert, self).__init__()self.fc = nn.Linear(size, size)def forward(self, x):return self.fc(x)class MixtureOfExperts(nn.Module):def __init__(self, size, num_experts, top_k_experts):super(MixtureOfExperts, self).__init__()self.experts = nn.ModuleList(Expert(size) for _ in range(num_experts))self.top_k_experts = top_k_expertsdef forward(self, x):# 假设x是我们的输入,我们将其分发到不同的专家expert_outputs = [expert(x) for expert in self.experts]# 选择top-k专家的输出top_k_indices = torch.topk(expert_outputs, self.top_k_experts, dim=0)[1]# 将选择的专家输出合并起来selected_expert_outputs = [torch.index_select(expert_output, 0, top_k_indices) for expert_output, expert in zip(expert_outputs, self.experts)]# 将所有选定的专家输出相加combined_output = torch.stack(selected_expert_outputs).sum(0)return combined_output# 假设我们的输入大小为256,我们有5个专家,并且我们选择top-2专家
model = MixtureOfExperts(256, 5, 2)# 假设输入数据batch的大小为32
input_data = torch.randn(32, 256)# 前向传播
output_data = model(input_data)
Grok

MoE类型

Mistral

MoE类型

Gemma
VLA研究领域(智能体、具身智能)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/ops/14047.html

相关文章

YashanDB V23.2 LTS发版 | 共享集群首个长期支持版本

4月,YashanDB正式发布长期支持版本YashanDB V23.2 LTS,标志着YashanDB单机主备、共享集群和分布式实时数仓等完整产品体系,已全面进入可规模化使用的长期支持阶段;同时配套数据迁移工具、监控运维工具和开发者工具,可以…

ETL工具-nifi干货系列 第十六讲 nifi Process Group实战教程,一文轻松搞定

1、目前nifi系列已经更新了10多篇教程了,跟着教程走的同学应该已经对nifi有了初步的解,但是我相信同学们应该有一个疑问:nifi设计好的数据流列表在哪里?如何同时运行多个数据流?如启停单个数据流? 带着这些…

搭建MySQL主从结构时的问题

说明:记录搭建MySQL主从结构时遇到的两个问题; 问题一:连接主节点失败 搭建完成后从节点查看状态如下: 错误:error connecting to master admin主机IP - retry-time: 60 retries: 712 message: Host 主机IP is block…

单例模式五种写法

单例模式五种写法 单例模式有五种写法:饿汉、懒汉、双重检验锁、静态内部类、枚举. 单例模式属于设计模式中的创建型模式 一、单例模式应用场景 windows的task manager(任务管理器)就是很典型的单例模式; windows的recycle bin(回收站)也是典型的单例应用&#…

如何设计一个安全的系统架构?

本文转自 公众号 ByteByteGo,如有侵权,请联系,立即删除 如何设计一个安全的系统架构? 如何设计安全的系统?我们总结了 12 条原则供架构师们参考。 设计安全的系统非常重要,原因有很多,从保护敏…

Matlab对多个输入信号进行数值排序提取特定值

1、将多个信号转为一个数组信号输出,在这里需要注意,数据类型是否统一; 2、使用Sort模块,进行排序(可设置排序方向),得到排序后的新数组以及对应的索引号; 3、设置想要的索引号&…

Science Robotics 美国斯坦福大学研制了外行星洞穴探测机器人

月球和火星上的悬崖、洞穴和熔岩管已被确定为具有地质和天体生物学研究理想地点。由于其隔绝特性,这些洞穴提供了相对稳定的条件,可以促进矿物质沉淀和微生物生长。在火星上,这些古老的地下环境与火星表面可能适合居住时几乎没有变化&#xf…

力扣---从中序与后序遍历序列构造二叉树

给定两个整数数组 inorder 和 postorder ,其中 inorder 是二叉树的中序遍历, postorder 是同一棵树的后序遍历,请你构造并返回这颗 二叉树 。 示例 1: 输入:inorder [9,3,15,20,7], postorder [9,15,7,20,3] 输出:[3…