​Wenzhong-GPT2-3.5B​ 国产大模型封神榜版本

news/2024/12/27 1:27:38/

  • Github: Fengshenbang-LM

  • Docs: Fengshenbang-Docs

简介 Brief Introduction

善于处理NLG任务,目前最大的,中文版的GPT2

Focused on handling NLG tasks, the current largest, Chinese GPT2.

模型分类 Model Taxonomy

需求 Demand任务 Task系列 Series模型 Model参数 Parameter额外 Extra
通用 General自然语言生成 NLG闻仲 WenzhongGPT23.5B中文 Chinese

模型信息 Model Information

为了可以获得一个强大的单向语言模型,我们采用GPT模型结构,并且应用于中文语料上。具体地,这个模型拥有30层解码器35亿参数,这比原本的GPT2-XL还要大。我们在100G的中文语料上预训练,这消耗了32个NVIDIA A100显卡大约28小时。据我们所知,它是目前最大的中文的GPT模型。

To obtain a robust unidirectional language model, we adopt the GPT model structure and apply it to the Chinese corpus. Specifically, this model has 30 decoder layers and 3.5 billion parameters, which is larger than the original GPT2-XL. We pre-train it on 100G of Chinese corpus, which consumes 32 NVIDIA A100 GPUs for about 28 hours. To the best of our knowledge, it is the largest Chinese GPT model currently available.

使用 Usage

模型下载地址 Download Address

Huggingface地址:Wenzhong-GPT2-3.5B

加载模型 Loading Models

from transformers import GPT2Tokenizer, GPT2Model
tokenizer = GPT2Tokenizer.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
model = GPT2Model.from_pretrained('IDEA-CCNL/Wenzhong-GPT2-3.5B')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

使用示例 Usage Examples

from transformers import pipeline, set_seed
set_seed(55)
generator = pipeline('text-generation', model='IDEA-CCNL/Wenzhong-GPT2-3.5B')
generator("北京位于", max_length=30, num_return_sequences=1)

引用 Citation

如果您在您的工作中使用了我们的模型,可以引用我们的论文:

If you are using the resource for your work, please cite the our paper:

@article{fengshenbang,author    = {Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen and Ruyi Gan and Jiaxing Zhang},title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},journal   = {CoRR},volume    = {abs/2209.02970},year      = {2022}
}

http://www.ppmy.cn/news/400169.html

相关文章

使用 docker 搭建 mongodb 6 单节点副本集

1、拉取 mongodb 镜像 docker pull mongo 2、启动一个 mongodb 的容器,通过副本集的形式运行 docker run --name mongoRs -d -p 27017:27017 mongo --replSet rs0 --name 创建容器的名称。 自定义 -d 以守护进程方式启动容器 -p 2701:27017:MongoD…

2023年年度最佳配色就是它-我已经为大家配好了色卡,还不快来用?

洋红或者又称为胭脂红 今年的「洋红万岁」,PANTONE 称其是[非常规时代的非常规红] 它源自 PANTONE 的红色家族,灵感来自一种叫胭脂虫的小昆虫,在色轮上介于红色和粉红色之间,是天然染料家族中最珍贵的染料之一,也是世界上已知的最浓烈、最明亮的染料之一。 据 PANTONE …

Java代码精简之道-10条代码精简方案

场景 一、Java中利用try-with-resource语句 JDK7 开始新增了对需要关闭资源处理的特殊语法 try-with-resource。 所有实现Closeable接口的“资源”,均可采用try-with-resource进行简化。 例如 InputStream, OutputStream ,Connection&…

excel VLOOKUP和MATCH结合使用匹配数据

IFERROR(VLOOKUP($B452,表1-5!$A$1:$N$106,MATCH(C$1,表1-5!$A$1:$N$1,FALSE),FALSE)&"","")

MySQL学习--union

union查询 背景&#xff1a; 查询两张表中的数据&#xff0c;然后将留言板表中的数据输出到网页表格中。&#xff1a; <?php$conn mysqli_connect(localhost,root,azb123);$sql use shop;;mysqli_query($conn,$sql);$sql set name utf8;; mysqli_query($conn,$sql);/…

MAX78000FTHR简单介绍与初次上手

特点 MAX78000FTHR是基于MAX78000的小型板微控制器单元&#xff08;MCU&#xff09;。 该 MCU 面向在边缘运行的人工智能 (AI) 应用程序。在这种情况下&#xff0c;“边缘”并不意味着技术的前沿&#xff08;尽管这就是芯片&#xff09;&#xff1b;这意味着靠近需要它的地方…

DataX及DataX-Web

大数据Hadoop之——数据同步工具DataX数据采集工具-DataX datax详细介绍及使用 一、概述 DataX 是阿里云DataWorks数据集成的开源版本&#xff0c;在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、…

VMwareWorkStation如何添加万兆网卡,万兆网卡添加教程

1.引言 不同于ESXi&#xff0c;在VMware WorkStation&#xff08;后文简称VMware&#xff09;中添加网卡后没有选择网卡速度等级的选项&#xff0c;例如百兆、千兆、万兆等。就算点开右下角的”高级“也不管用。不过按照VMware的默认设定&#xff0c;当新建虚拟机选择32位操作系…