meta-llama/Meta-Llama-3-8B

ops/2024/11/20 19:47:18/

https://huggingface.co/meta-llama/Meta-Llama-3-8B

型号细节

Meta开发并发布了Meta Llama 3家族大型语言模型(LLM),这是一组预训练和指令微调的生成性文本模型,大小为8B和70B参数。Llama 3指令微调模型针对对话用例进行了优化,在常见的行业基准测试中表现优于许多可用的开源聊天模型。此外,在开发这些模型时,我们非常谨慎地优化了有用性和安全性。

模型开发者 Meta

变体 Llama 3有两种尺寸 - 8B和70B参数 - 预训练和指令微调变体。

输入 模型只接受文本输入。

输出 模型只生成文本和代码。

模型架构 Llama 3是一种自回归语言模型,使用优化的transformer架构。经过调整的版本使用监督fine-tuning(SFT)和人工反馈强化学习(RLHF)来实现有用性和安全性方面的人类偏好对齐。

模型训练数据参数量上下文长度是否使用GQA标记计数知识截止日期
Llama 3新的公开在线数据组合8B8k15T+2023年3月
Llama 3新的公开在线数据组合70B8k2023年12月

Llama 3系列模型。标记计数仅指预训练数据。8B和70B版本都使用Grouped-Query Attention(GQA)来提高推理可扩展


http://www.ppmy.cn/ops/4334.html

相关文章

centos7安装mysql5.7笔记

1 配置yum仓库 1.1更新密钥 #更新密钥 rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 1.2 下载使用wget命令下载MySQL的repo文件 #下载使用wget命令下载MySQL的repo文件 wget https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm 2 使用…

洛谷 P4779 [模板] 单源最短路径 题解 dijkstra算法

【模板】单源最短路径(标准版) 题目描述 给定一个 n n n 个点, m m m 条有向边的带非负权图,请你计算从 s s s 出发,到每个点的距离。 数据保证你能从 s s s 出发到任意点。 输入格式 第一行为三个正整数 n ,…

C语言Linux vim

1. actionmotion dG删到文件尾 ggdG先到开头再删除到末尾 d^到达行首 d$到行尾 2. num action 2dd删除两行 t"向后寻找"找到,找到前面一个位置 f"向后寻找"找到,直接找到本来的位置 diw删除单词并保持在视图状态&#xff…

Flask + Bootstrap vs Flask + React/Vue:初学者指南

好的,让我为你提供一个初学者指南,并附上一些示例代码来说明 Flask Bootstrap 和 Flask React/Vue 的使用。 Flask Bootstrap: 安装 Flask 和 Bootstrap: 首先,确保你已经安装了 Python 和 pip。然后可以使用 pip …

Ubuntu或Debian系统的漏洞修复:apt安装包管理工具

在阿里云主机管理后台->安全云中心,会看到系统最新的公布漏洞。 对于系统软件漏洞,我们还是要早做修复,防患于未然。 但安全云中心的功能大部分需要付费,包括一键修复,自己修复软件漏洞怎么操作呢? 其…

Redis:发布和订阅

文章目录 一、介绍二、发布订阅命令 一、介绍 Redis的发布和订阅功能是一种消息通信模式,发送者(pub)发送消息,订阅者(sub)接收消息。这种功能使得消息发送者和接收者不需要直接建立连接,而是通…

【学习】jemter中如何高效使用正则表达式

在Jemter的世界里,正则表达式无疑是一把锐利的剑,它可以帮助我们轻松地解决许多问题。在Jemter的性能测试过程中,我们常常需要提取响应中的某些数据,以便在后续的请求中使用。这时,正则表达式就派上用场了。通过学习如…

【MySQL】MySQL锁(二)表锁与行锁测试

MySQL锁(二)表锁与行锁测试 上篇文章我们简单的了解了一大堆锁相关的概念,然后只是简单的演示了一下 InnoDB 和 MyISAM 之间 表锁 与 行锁 的差别。相信大家还是意犹未尽的,今天我们就来用代码说话,实际地操作一下&…