NLP 2、机器学习简介

news/2024/11/28 8:20:44/

人生的苦难不过伏尔加河上的纤夫

                                        —— 24.11.27

一、机器学习起源

机器学习的本质 —— 找规律

通过一定量的训练样本找到这些数据样本中所蕴含的规律

规律愈发复杂,机器学习就是在其中找到这些的规律,挖掘规律建立一个公式,导致对陌生的数据一样可以起到判断效果

机器学习就是从数据中找到这个公式(规律、函数、映射)的过程

机器预测就是用这个公式去推断未知数据的过程

通过已知的样本,寻找其中所蕴含的规律,根据规律得出一个公式,然后再用公式推导其他未知样本数据的信息


二、机器学习应用

很多时候我们都会得到一些数据,我们希望从其中找到数据间的规律,但是有些复杂的规律我们无法得到,所以可以依托机器帮助我们挖掘这些数据间的规律

例:

① 知道花朵的大小、颜色、型状等信息,我们判断未知花朵的类别

② 知道身体健康信息,如血压、血糖等指标,来判断人体是否健康,是否患病

③ 知道房屋的大小、年份、地理位置等信息,来预测该房的房价是多少

④ 知道企业的业务、规模等市场信息,来预测该公司的股价

⑤ 知道国家的人口、科技水平、GDP、经济发展情况,来预测国家未来的GDP

规律及公式是由我们给出一个初始值,然后通过机器在数据间学习的成果,我们对公式中的具体参数进行调整、优化


三、机器学习的分类

1.有监督学习

模型通过学习输入数据和数据对应的输出标签之间的关系来进行训练。

模型在训练过程中有明确的指导,知道每个输入数据对应的正确输出是什么。

核心目标

建立一个模型/函数,来描述带标签的已知数据的输入与输出间内含的映射关系

价值

对于新的未知输入数据,通过模型给出预测的输出结果

有监督学习中,训练数据十分重要,因为训练数据不足的话,无法从样本数据中提出正确的规律,也就无法正确进行预测

要点

① 一定数量的训练样本

② 输入和输出之间必须要有关联关系(决定性条件)

③ 输入和输出结果要能够转化为数字/数值(数值化表示),机器才能从中进行学习

④ 任务需要有预测价值(固定规则的不用预测)

有监督学习在人工智能中的应用

① 文本分类任务

输入:文本

输出:类别

关系:文本的内容决定了文本的类别

② 机器翻译内容

输入:A语种文本

输出:B语种文本

关系:A语种表达的意思,B语种中有相应的表达

③ 图像识别任务

输入:图像

输出:类别

关系:图像中的像素排列,决定了图像的内容

④ 语音识别任务

输入:音频

输出:文本

关系:声音信号在特定语言中对应特定的文本


2.无监督学习

数据中只有X(数据)没有Y(对应的标注),给予机器的数据没有标注信息,通过算法对数据进行一定的自动分析处理,得到一些结论,常见任务有:聚类、降维、找特征值等等

聚类

数据只有点(X)没有对应的标注(Y),将数据在空间中分布靠近的点划分在一组/类

降维

将一个高维数据,用一种方法,让每个数据进行低维表示,他们在降维后空间中的分布与降维前在空间中的分布比较接近(维度降低,空间中的分布不变


3.半监督学习

半监督学习是有监督学习和无监督学习之间的一种机器学习方式,将有监督学习和无监督学习结合起来,先利用无监督学习得到一些信息,再通过无监督学习得到的数据信息进行有监督学习,或者先对一些数据做有监督学习,将这些数据处理完后再做无监督学习,然后共同得到一种有意义的规律


4.自监督学习

数据中有数据X也有对应标注Y,但是对应标注Y由数据自身在训练过程中进行生成,不需要提前给出

现大多与无监督学习混用,但其实存在区别,自监督模型中学习数据的特征自动产生,相当于数据自身就是自身的标注,不需要人来标识数据,而无监督学习中数据的特征没有标注特征


5.有监督、无监督、半监督、自监督学习的区别

有监督学习是根据已知数据提供的数据特征,建立模型/算法,再用建立的模型/算法预测未知数据

无监督学习不需要数据特征,通过算法对未知数据自动分析处理提取特征,得出一些结论

自监督学习需要数据特征,但是由数据自动产生,不需要我们主动提供

半监督学习是将无监督学习和有监督学习融合起来,先后进行学习,得到一种有意义的规律


四、机器学习一般流程

训练数据 ——> 数据处理 ——> 选择处理的算法 ——> 训练数据(建模&评估)——> 反复进行优化  ——> 将模型输出

模型 == 函数 == 公式


五、机器学习常用概念

1.训练集

用于训练模型,是模型训练的训练数据集合

将训练集中的数据与测试集中的数据尽量分开

例:一般而言一百条数据,八十条用于训练,十条用于验证,十条用于测试(现常将验证集与测试集合体到验证集,直接在验证集进行测试模型效果),尽量保证训练集与测试 / 验证集无重合


2.验证集

对于每一种任务一般都有多种算法可以来选择,一般会使用验证集验证用于对比不同算法的效果差异


3.测试集

最终用于评判算法模型效果的数据集合


4.K折交叉验证(K fold cross validation)

初识采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用于训练。交叉验证重复K次(用这K个数据分别每个当作验证测试集,其余的作为训练集,最终求平均值),每个子样本验证一次,平均K次的结果


5.过拟合

模型失去了泛化能力,在特定的集合上表现很好,在新的集合上表现很差(模型在训练集和验证集上都有很不错的表现,但在测试集上的表现很差)

将测试集与训练集分开是预防发生过拟合现象


6.欠拟合

模型没能建立起合理的输入输出间的映射。当输入训练集中的样本时,预测结果与标注结果依然相差很大(由于训练数据过少,在训练数据上就没有找到好的规律,也就无法预测新样本数据)。

过拟合与欠拟合都与训练数据不足 / 选用的处理算法不当有关


7.评价指标

为了评估算法效果的好坏,需要找到一种评价模型效果的计算指标,根据不同的任务会使用不同的评价指标,常用的评价指标有:

① 准确率 ② 召回率 ③ F1值 ④ TopK ⑤ BLEU


http://www.ppmy.cn/news/1550564.html

相关文章

JVM_垃圾收集器详解

1、 前言 JVM就是Java虚拟机,说白了就是为了屏蔽底层操作系统的不一致而设计出来的一个虚拟机,让用户更加专注上层,而不用在乎下层的一个产品。这就是JVM的跨平台,一次编译,到处运行。 而JVM中的核心功能其实就是自动…

Windows远程连接桌面报错“由于没有远程桌面授权服务器可以提供许可证,远程会话连接已断开。请跟服务器管理员联系

摘要 windows server配置了多用户登录,默认自动生成的连接许可证有效日期为120天,超过了这个时间后,用户将不能远程连接服务器。 需要配置多用户服务器,进行获取许可 问题 解决方法 1、win键R打开运行器,使用mstsc …

人工智能走向外太空,成为开发宇宙的未来工具

姓名:赵子健 学号:22021211991 转载自:https://zhuanlan.zhihu.com/p/30991758 【嵌牛导读】人工智能走向外太空,成为开发宇宙的未来工具 【嵌牛鼻子】人工智能 外太空 开发宇宙 未来工具 【嵌牛提问】人工智能是否适用于外太空…

YOLO的框架及版本迭代

YOLO(You Only Look Once)是一种非常流行的实时目标检测算法,其特点是将目标检测任务转换为一个回归问题,通过一次前向传播就可以同时完成目标的分类和定位。以下是YOLO框架的整体架构和工作原理: 一、YOLO的基本框架…

d3-contour 生成等高线图

D3.js 是一个强大的 JavaScript 库,用于创建动态、交互式数据可视化。d3-contour 是 D3.js 的一个扩展模块,用于生成等高线图(contour plots)。 属性和方法 属性 x: 一个函数,用于从数据点中提取 x 坐标。y: 一个函…

RK3568平台(USB篇)USB Gadget 驱动

一.什么是 USB Gadget 驱动 USB 设备驱动,按照设备端关联的 USB 控制器 是工作在 主模式 还是 从模式,分为 USB 设备主机侧驱动 (主模式),或者 USB 设备从机侧驱动 (从模式)。同时,工作在 主模式 的 USB 控制器,称为 USB 主机控制器 (UHC: USB Host Controller),工作在 …

认识网络安全

一 网络攻击链 踩点-工具准备-载荷投递-漏洞利用-释放载荷-建立通道-目标达成 简化下: 目标侦察:准确识别目标,收集目标详细信息,比如 网络、 邮箱、员工、社会关系、对外提供服务、漏洞 信息等,为 后续攻击做准备。…

Labelme常用快捷键

Labelme是一款常用的图像标注工具,其快捷键可以提高标注效率。以下是一些常用的Labelme快捷键: 基本导航 A:切换到上一张图片。D:切换到下一张图片。 标注操作 Ctrl E:选中标注框或标签时按下可打开编辑窗口。Ctrl …