大模型微调--文章1

embedded/2024/9/23 10:46:45/

原文地址 

链接:https://zhuanlan.zhihu.com/p/635152813

思考题

问题1:self attention对于计算的并行性体现在哪里?(解决)

答案: 1.矩阵运算的并行性 2.多头注意力的并行性 3.无序列依赖性(写一个序列进行分词,转化为token,embedding,然后计算QK^T就能看出来了);

问题2:表示子空间是什么意思?(解决)

答案: 这个其实很容易理解,就是不同的注意力头可以学习到序列的不同的特征,将不同的特征综合起来就是这个多头注意力学习到的特征了;

问题3:transformer结构怎么进行更好地并行训练?(解决)

答案:3.1:self-attention计算注意力的时候是并行计算的;
3.2:层并行化,Transformer的不同层放到不同的GPU上进行并行处理;
3.3:数据并行化:将数据切分为一定大小的batch;
等等

问题4:什么是灾难性遗忘?(解决)

答案:灾难性遗忘就是在学习了新的知识之后,会把之前旧的知识遗忘,这主要是因为权重更新的冲突,也是全量微调的一个弊端;

问题5:高效微调技术可以粗略分为以下三大类:增加额外参数(A)、选取一部分参数更新(S)、引入重参数化(R)。在这段话中,什么是重参数化?(未解决)

答案:简单来说就是低秩分解类似的,还没有更深的理解;

问题6:全量微调和重新预训练有什么区别?(解决)

答案:全量微调是用预训练的大模型对新的任务进行全部参数的微调,而重新预训练是重新准备大型数据集对预训练的大模型进行再次预训练

问题7:文章1主要讲了什么内容?结构是什么样的?有什么认知性的启发性收获? (这一章不用出动手题)(解决)

答案:讲解一下为什么要做高效的参数微调,高效的参数微调和全参微调的对比,以及高效的参数微调的方法有哪些(问题5),没有什么认知上的启发性收获。


http://www.ppmy.cn/embedded/96636.html

相关文章

【区块链+金融服务】人民普惠链 | FISCO BCOS应用案例

释放数据要素价值,FISCO BCOS 2024 应用案例征集中 人民普惠链在全面建设数字社会的当下,解决数据确权、流通,以及隐私保护问题,拓展在供应链金融、贸易金融、 交易清算、征信、绿色金融等多种应用场景的落地,支持多种…

木舟0基础学习Java的第二十四天(CSS,JS,Jquery)

CSS 内部样式&#xff1a; 标签选择器&#xff1a;直接应用于HTML标签 类选择器&#xff1a;可以在页面当中多次使用 id选择器&#xff1a;同一个id选择器在同一页面中只能调用一次 选择器优先级&#xff1a;id选择器>类选择器>标签选择器 html <!DOCTYPE htm…

只有IP如何实现https访问

IP也是访问网站的一种方式&#xff0c;现在有很多网站并未绑定域名&#xff0c;而是通过IP直接访问的。 但是域名访问网站的方式会更多一些&#xff0c;主要还是因为域名相较于IP数字要更加好记&#xff0c;所以域名绑定网站的情况会更多。 随着现在网络安全意识的逐渐提升&a…

Swift编译优化:解锁性能提升的秘诀

标题&#xff1a;Swift编译优化&#xff1a;解锁性能提升的秘诀 引言 Swift语言以其现代化的设计和出色的性能而广受开发者青睐。然而&#xff0c;随着项目规模的扩大&#xff0c;编译时间逐渐成为影响开发效率的瓶颈。本文将深入探讨Swift编译器的代码优化技术&#xff0c;提…

漏洞复现-Viessmann Vitogate 远程命令执行漏洞(CVE-2023-45852)

1.漏洞描述 Viessmann Vitogate是Viessmann公司的一个智能化控制系统。 Vitogate 300 2.1.3.0版本的/cgi-bin/vitogate.cgi存在一个未经身份验证的攻击者可利用的漏洞&#xff0c;通过put方法中的ipaddr params JSON数据中的shell元字符实现绕过身份验证并执行任意命令。 2.…

Langchain pandas agent - Azure OpenAI account

Langchain pandas agent 结合 Azure OpenAI 账户使用时&#xff0c;主要涉及到通过Azure OpenAI提供的自然语言处理能力&#xff0c;来操作pandas DataFrame或进行相关的数据处理任务。以下是关于这一结合使用的详细解析&#xff1a; 一、Langchain pandas agent 概述 在Lang…

【基础解读】神奇宝贝多分类——Logistic Classification

Classification的三步走 交叉熵损失函数 逻辑回归与线性回归的三步走对比 CE和SE对比 Discriminative与Generative对比 多分类问题 逻辑回顾的限制 特征转换

学习笔记--算法(滑动窗口)9

长度最小的子数组 链接&#xff1a; . - 力扣&#xff08;LeetCode&#xff09; 题目&#xff1a;给定一个含有 n 个正整数的数组和一个正整数 target 。找出该数组中满足其总和大于等于 target 的长度最小的 子数组子数组 [numsl, numsl1, ..., numsr-1, numsr] &#xff0…