BERT的配置

server/2024/11/28 10:06:54/

BERT的配置

BERT-base:

BERT-base由12层编码器叠加而成。每层编码器都使用12个注意力头,其中前馈网络层由768个隐藏神经元组成,所以从BERT-base得到的特征向量的大小是768。

我们使用以下符号来表示上述内容。

● 编码器的层数用L表示。

● 注意力头的数量用A表示。

● 隐藏神经元的数量用H表示。

因此,BERT-base模型的配置可以表示为L=12、A=12、H=768,它的网络参数总数可达1.1亿个。BERT-base模型如下图所示。

在这里插入图片描述

BERT-large:

BERT-large由24层编码器叠加而成。每层编码器都使用16个注意力头,其中前馈网络层包含1024个隐藏神经元,所以从BERT-large得到的特征向量的大小是1024。

BERT-large模型的配置可以表示为L=24、A=16、H=1024,它的网络参数总数可达3.4亿个。BERT-large模型如下图所示。

在这里插入图片描述

除了两种标准配置,BERT还有多种不同配置。这里列举了BERT的一些小型配置。

● BERT-tiny:L=2、H=128。

● BERT-mini:L=4、H=256。

● BERT-small:L=4、H=512。

● BERT-medium:L=8、H=512。


http://www.ppmy.cn/server/145596.html

相关文章

InstructGPT——AI 模型的对齐革命

InstructGPT——AI 模型的对齐革命 近年来,人工智能领域中大型语言模型的发展速度令人瞩目。其中,OpenAI 发布的 InstructGPT 是一次重要的技术革新,它通过引入人类反馈强化学习(Reinforcement Learning with Human Feedback, RL…

17. 【.NET 8 实战--孢子记账--从单体到微服务】--记账模块--主币种设置

记账模块是我们项目的核心模块,也是用户使用最多的模块,因此这个模块的东西比较多,我们要分为多个部分编写代码。 一、需求 币种设置的需求涉及到了我们前面编写的代码,我们来具体看一下需求。 编号需求说明1主币种设置1. 用户…

git源码安装

源码安装。执行以下步骤: 使用"wget"命令下载Git源码包,例如:"wget https://www.kernel.org/pub/software/scm/git/git-2.0.5.tar.gz"。 使用"tar"命令解压缩下载的源码包,例如:"…

C语言编码规范

以下是一套较为完整的C语言编码规范: 一、代码布局 缩进 使用空格进行缩进,每级缩进为4个空格。这样可以保证代码在不同的编辑器和环境中都有一致的缩进效果。例如: if (condition) {// 这里缩进了4个空格statement1;statement2; }大括号 函…

快速理解微服务中Fegin的概念

一.由来 1.在传统的架构里面,我们是通过使用RestTemplate来访问其他的服务,但是这种方式就存在了一个很大的缺陷,也就是被调用方如果发生了服务的迁移(IP和端口发生了变化),那么调用方也需要同步的在代码里面进行修改,…

大数据新视界 -- Hive 与其他大数据工具的集成:协同作战的优势(上)(13/ 30)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

PHP实现插入排序

插入排序(Insertion Sort)是一种简单直观的排序算法,适用于少量数据的排序。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。以下是一个用PHP实现插入排序…

根据后台数据结构,构建搜索目录树

效果图: 数据源 const data [{"categoryidf": "761525000288210944","categoryids": "766314364226637824","menunamef": "经济运行","menunames": "经济运行总览","tempn…