gru 串联LLm

news/2024/10/30 19:27:41/

单纯是为了降低大LLM 设计的结构
当前如果transformers 可以 输出一个状态也是可以的
这样串联的好处是每次运行知识一个小模型的计算量
时间换空间的概念
可以训练100个模型而后根据需要进行微调
从100 个中选择一个预测比较接近的进行微调预测
预测后继续进行从100中选择 而后微调预测
不断微调预测
微调推理过程目前先条跳过
优化处理 训练过程和数据处理适配home 环境


epoch=10
batch_size=10
seq_len_max=10
output_dim=32
hidden_dim=128
input_dim=32

在这里插入图片描述


http://www.ppmy.cn/news/43918.html

相关文章

从 Python 中的字典列表中删除重复项

要从字典列表中删除重复项: 使用字典推导来遍历列表。使用每个 id 属性的值作为键,使用字典作为值。使用 dict.values() 方法只获取唯一的字典。使用 list() 类将结果转换为列表。 list_of_dictionaries [{id: 1, site: jiyik.com},{id: 2, site: goo…

男生|女生漫画头像怎么制作,分享3种免费制作方法,不用求人

大家发现没有,最近特别流行卡通漫画头像!一些小伙伴们通过处理自己的照片,把照片制作成漫画头像,让照片看起来更有趣。那么,男生、女生漫画头像怎么制作呢?需要用到哪些工具?今天给大家分享3种免费制作漫画…

【信息论】一、信息与信息论

“The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point.” —— Claude Elwood Shannon 1.1 信息的定义 什么是信息?它与消息、信号之间有什么区别和联系&#…

Java面向对象高级【类加载器】

目录 Java程序是怎样被运行的 类加载器的作用 加载类文件 链接类 定位类 类加载器间的委派 实现类的隔离 类加载器的类型 启动类加载器(Bootstrap Class Loader) 扩展类加载器(Extension Class Loader) 应用程序类加载器…

【Java 数据结构】单向链表和双向链表的实现 (LinkedList)

🎉🎉🎉点进来你就是我的人了 博主主页:🙈🙈🙈戳一戳,欢迎大佬指点!人生格言:当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔🦾&am…

Pandas 学习手册中文第二版:11~15

原文:Learning pandas 协议:CC BY-NC-SA 4.0 译者:飞龙 十一、合并,连接和重塑数据 数据通常被建模为一组实体,相关值的逻辑结构由名称(属性/变量)引用,并具有按行组织的多个样本或…

专访丨AWS量子网络中心科学家Antía Lamas谈量子计算

​ Anta Lamas Linares(图片来源:网络) 47岁的Anta Lamas Linares出生于西班牙西北部的圣地亚哥德孔波斯特拉。她在当地学习物理学,然后在牛津大学和加利福尼亚继续深造。后来,她在新加坡领导了亚马逊网络服务&#xf…

PageHelper的使用

这个分页插件是在Mybatis的环境中使用的&#xff0c;所以项目需要导入Mybatis依赖 更加详细的用法看官方文档&#xff1a;PageHelper官网 在Mybatis中使用 前提条件 引入依赖 <dependency><groupId>com.github.pagehelper</groupId><artifactId>pa…