https://huggingface.co/meta-llama/Meta-Llama-3-8B
型号细节
Meta开发并发布了Meta Llama 3家族大型语言模型(LLM),这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。Llama 3指令微调模型针对对话用例进行了优化,在常见的行业基准测试中表现优于许多可用的开源聊天模型。此外,在开发这些模型时,我们非常谨慎地优化了有用性和安全性。
模型开发者 Meta
变体 Llama 3有两种尺寸 - 8B和70B参数 - 预训练和指令微调变体。
输入 模型只接受文本输入。
输出 模型只生成文本和代码。
模型架构 Llama 3是一种自回归语言模型,使用优化的transformer架构。经过调整的版本使用监督fine-tuning(SFT)和人工反馈强化学习(RLHF)来实现有用性和安全性方面的人类偏好对齐。
模型 | 训练数据 | 参数量 | 上下文长度 | 是否使用GQA | 标记计数 | 知识截止日期 |
---|---|---|---|---|---|---|
Llama 3 | 新的公开在线数据组合 | 8B | 8k | 是 | 15T+ | 2023年3月 |
Llama 3 | 新的公开在线数据组合 | 70B | 8k | 是 | 2023年12月 |
Llama 3系列模型。标记计数仅指预训练数据。8B和70B版本都使用Grouped-Query Attention(GQA)来提高推理可扩展