EleutherAI/pythia-70m

ops/2024/12/28 17:33:38/

EleutherAI/pythia-70m” 是由 EleutherAI 开发的一个小型开源语言模型,它是 Pythia Scaling Suite 系列中参数量最小的模型,拥有大约 7000 万个参数。这个模型主要旨在促进对语言模型可解释性的研究;

Pythia Scaling Suite是为促进可解释性研究而开发的模型集合(见论文)。它包含两组八个模型,大小分别为 70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。对于每种尺寸,都有两个模型:一个在 Pile 上训练,一个在数据集全局去重后在 Pile 上训练。所有 8 种模型大小都以完全相同的顺序在完全相同的数据上进行训练。我们还为每个模型提供 154 个中间检查点,作为分支托管在 Hugging Face 上。

Pythia 模型套件的设计初衷是促进大型语言模型的科学研究,尤其是可解释性研究。尽管没有将下游性能作为设计目标,但我们发现这些模型的性能与类似和相同大小的模型相当或超过它们,例如 OPT 和 GPT-Neo 套件中的模型。

【1】https://github.com/EleutherAI/pythia 

【2】https://huggingface.co/EleutherAI/pythia-70m


http://www.ppmy.cn/ops/145706.html

相关文章

第T4周:TensorFlow实现猴痘识别(Tensorboard的使用)

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 目标: 1、学习tensorboard的使用 具体实现: (一)环境: 语言环境:Python 3.10 编 译 器…

dockfile 配置 /etc/apt/source.list.d/debian.list 清华镜像

docker:3.12.7 镜像使用的是 debian 系统,比 ubuntu 更轻量。debian 系统内,apt 镜像源列表位于 /etc/apt/source.list.d/debian.list(作为对比,ubuntu 的镜像列表位于 /etc/apt/source.list,二者语法相同)…

72 mysql 的客户端和服务器交互 returnGeneratedKeys

前言 这里主要是针对如下 情况的讨论 比如我们 tz_zone 表有一个自增长的主键 id, 然后 客户端这边可以通过 PreparedStatement 相关的 api 来获取 服务端这边生成的自增长的 id 我们这里 来看一下 这个流程, 整体的 客户端 和 服务器的交互上面来看 问题来自于 主题&…

Vite系列课程 | 10. 在 Vite 中处理 CSS

10. 在 Vite 中处理 CSS Vite 内置了对 CSS 的支持,并提供了高效的加载、模块化和热更新机制。 10.1 处理 CSS 文件的过程:从读取到注入 读取 CSS 文件: 当 Vite 在 JavaScript 模块中检测到对 CSS 文件的导入(例如 import ./in…

【FPGA】ISE13.4操作手册,新建工程示例

关注作者了解更多 我的其他CSDN专栏 求职面试 大学英语 过程控制系统 工程测试技术 虚拟仪器技术 可编程控制器 工业现场总线 数字图像处理 智能控制 传感器技术 嵌入式系统 复变函数与积分变换 单片机原理 线性代数 大学物理 热工与工程流体力学 数字信号处…

解决 vue3 中 echarts图表在el-dialog中显示问题

原因: 第一次点开不显示图表,第二次点开虽然显示图表,但是图表挤在一起,页面检查发现宽高只有100px,但是明明已经设置样式宽高100% 这可能是由于 el-dialog 还没有完全渲染完成,而你的 echarts 组件已经开始尝试渲染图…

NSSCTF-web刷题

[UUCTF 2022 新生赛]ez_upload Apache解析漏洞&#xff0c;apache cve2017 重点是把文件名改为1.jpg.php就可以将图片解析为php&#xff0c;很抽象&#xff0c;这个洞 蚁剑直接连 [SWPUCTF 2022 新生赛]ez_1zpop <?php error_reporting(0); class dxg { function fmm() {…

频繁拿下定点,华玉高性能中间件迈入商业化新阶段

伴随着智能驾驶渗透率的快速增长&#xff0c;中国基础软件市场开始进入黄金窗口期。 近日&#xff0c;华玉通软&#xff08;下称“华玉”&#xff09;正式获得某国内头部轨道交通产业集团的智能化中间件平台定点项目。这将是华玉在基础软件领域深耕和商业化发展过程中的又一重…