自然语言处理基础面试

server/2024/11/14 23:52:19/

文章目录

      • TF-IDF
      • bag-of-words
      • Bert

讲道理肯定还得有Transformer,我这边先放着,以后再加吧。

TF-IDF

TF(全称TermFrequency),中文含义词频,简单理解就是关键词出现在网页当中的频次。
IDF(全称InverseDocumentFrequency),中文含义逆文档频率,简单来说就是该关键词出现在所有文档里面的一种数据集合。

TF-IDF用来评估字词对于文档集合中某一篇文档的重要程度。TF-IDF的计算公式为:
TF-IDF = 某文档中某词或字出现的次数/该文档的总字数或总词数 * log(全部文档的个数/(包含该词或字的文档的篇数)+1)
TF-IDF的思想比较简单,但是却非常实用。然而这种方法还是存在着数据稀疏的问题,也没有考虑字的前后信息。

bag-of-words

这玩意将一个文档或者句子使用一个向量来表示,

John likes to watch movies. Mary likes movies too.
那个这玩意把上面这个变成下面这个向量,当然了,我们要规定向量的第一个元素是john,值为1,表示john在这一段话中只出现了一次;第二个元素是like;倒数那几个元素是一些这段话中没有出现过的单词,所以都是0。

[1, 2, 1, 1, 2, 1, 1, 0, 0, 0]

Bert

在这里插入图片描述

​ bert的Embedding层由3个子层求和得到,分别是词向量层Token Embedings,句子层Segment Embeddings以及位置编码层Position Embeddings,特别注意的是,bert中的位置编码层是采用随机初始化训练学习得到,和transformer的正弦函数编码不同。

Token Embeddings是词向量,第一个单词是CLS标志,主要用于之后的分类任务。
Segment Embeddings用来区别两种句子,作用于两个句子为输入的分类任务。
Position Embeddings是随机初始化训练出来的结果。

​ MLM是Mask Language Model,也就是掩码语言模型。MLM有两种方式:AR和AE。

AR是自回归模型,也就是从左边不断向右边预测这样,只能利用单侧信息,典型的模型是GPT。
AE是自编码模型,也是bert的MLM采用的。通过随机遮挡住一个句子中部分词语,让模型训练进行预测,充分利用了文本的上下文信息。遮挡方式为先在原始训练文本中随机抽取15%的token作为参与MASK任务的对象,然后随机选择80%的词语为MASK,10%替换成其他词语,10%保持不变。
原始bert是静态mask,也就是每个epoch训练的内容mask部分都是一致的,这样没法学习到更多有用的信息,roberta采用的是动态mask,每个epoch训练的mask都是重新处理的,效果更好。

Next Sentence Prediction任务

给定俩个句子,用[sep]进行句子划分区别两个句子,过一层Bert以后,将cls进行liner再softmax,得到的yes或者no(句子1和句子2是否是相连接的句子),cls就是分类的意思。

有研究人员表示:next sentence prediction部分并没有什么有用的价值

BERT这两个任务是一起做的。


http://www.ppmy.cn/server/5501.html

相关文章

文心一言vsGPT-4全面对比

文心一言和GPT-4都是当前非常先进的人工智能语言模型,它们各自具有独特的特点和优势。以下是对这两款工具的全面比较: 文心一言是由百度开发的一款大型人工智能语言模型,它基于强大的深度学习技术和海量的数据资源,具备出色的语言…

C++类和对象(中)(1)

一、类的6个默认成员函数 在一个类中,如果这个类什么都没有,那么这个类我们称之为空类,那么空类中真的什么都没有吗?其实并不是,任何类在什么都不写的情况下,编译器也会自动生成六个默认成员函数。 默认成…

通往大厂之路:Solr面试题及参考答案100道题

目录 什么是Solr,它主要用来做什么? 解释Solr和Lucene的关系。 Solr有哪些主要特点?

vue--样式绑定--样式切换方法

1.通过改变类名的方法改变盒子样式 可以通过 :class变量名来动态改变标签的样式名&#xff0c;变量值可以是字符串、数组、对象 1.字符串写法 适用于样式类名不确定需要动态指定 <div classbase :classa>Text</div> data:{ a:normal } classbase和 :classa可…

【WPF】取色器-Color Extractor

【WPF】取色器 序实现HookScreen Colorlayout.CS预览下载序 取色器是一个非常实用的小工具,网上也很多可供下载使用。为什么已有却还是想要自己去实现一个呢?一方面是因为工具虽小但毕竟涉及到操作系统 API 的使用。另一方面想要在技术上精进一些。 实现 实现思路测试通过 Ho…

数据的质量控制软件----fastQC

一、前言 FastQC的基本介绍: FastQC是一款基于Java的软件&#xff0c;它可以快速地对测序数据进行质量评估&#xff0c;其官网为&#xff1a;Babraham Bioinformatics - FastQC A Quality Control tool for High Throughput Sequence Data 高通量测序数据的高级质控工具输入…

详细理解React的Fiber结构

一、为什么会出现Fiber 旧版 React 通过递归的方式进行渲染&#xff0c;使用的是 JS引擎自身的函数调用栈&#xff0c;它会一直执行到栈空为止。而Fiber实现了自己的组件调用栈&#xff0c;它以链表的形式遍历组件树&#xff0c;可以灵活的暂停、继续和丢弃执行的任务。实现方式…

Set系列集合

Set系列集合特点&#xff1a; Set系列集合特点&#xff1a;无序&#xff1a;添加数据的顺序和获取出的数据顺序不一致&#xff1b;不重复&#xff1b;无索引HashSet无序&#xff1b;不重复&#xff1b;无索引LinkedHashSet有序&#xff1b;不重复&#xff1b;无索引TreeSet排序…