机器学习快速入门（黑马程序员版）

1.1.1机器学习与人工智能、深度学习

三者关系：1.机器学习是人工智能的一个实现途径。2.深度学习是机器学习的一个方法发展而来。

人工智能的起点——达特茅斯会议

1956年8月，在美国汉诺斯小镇宁静的达特茅斯学院中，约翰麦卡锡、马文闵斯基（人工智能与认知学专家）、克劳德香农（信息论创始人）、艾伦纽厄尔（计算机科学家）、赫伯特西蒙（诺贝尔经济学得主）等人讨论用机器来模仿人类学习以及其他方面的智能。

1956年被称为人工智能元年。

1.1.2机器学习、深度学习能做些什么

机器学习的应用场景非常多，可以渗透到了各个行业领域当中。医疗、航空、教育、物流、电商等领域的各种应用场景。

用于挖掘、预测领域：店铺销量预测、量化投资、广告推荐、企业客户分类、SQL语句安全检测分类......

用在图像领域：街道交通标志检测、人脸识别等等

用在自然语言处理领域：文本分类、情感分析、自动聊天、文本检测等等

1.1.3人工智能阶段课程安排

1.2-什么是机器学习

1.2.1定义

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。

1.2.2解释

从数据（大量的猫和狗的图片）中自动分析获得模型（辨别猫和狗的规律），从而使机器拥有识别猫和狗的能力。

从数据（房屋的各种信息）中自动分析获得模型（判断房屋价格的规律），从而使机器拥有预测房屋价格的能力。

1.2.3数据集的构成

结构：特征值+目标值

1.每一行的数据称为样本。2.有些数据集可以没有目标值。

1.3-机器学习算法分类

特征值：猫/狗的图片；目标值：猫/狗-类别离散型数据（分类问题）

特征值：房屋的各个属性信息；目标值：房屋价格-连续型数据（回归问题）

特征值：人物的各个属性信息；目标值：无（无监督学习）

1.3.1总结

1.3.2机器学习算法分类

监督学习（预测）：输入数据使由输入特征值和目标值所组成。函数的输出可以是一个连续的值（称为回归），或是输出是有限个离散值（称作分类）。

分类：k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归

回归：线性回归、岭回归

无监督学习：输入数据是由输入特征值所组成的。聚类k-means

1.4-机器学习的开发流程

1.获取数据 2.数据处理 3.特征工程 4.机器学习算法训练-模型 5.模型评估 6.应用

1.5-学习框架和资料介绍

1.算法是核心，数据与计算是基础 2.找准定位

分析很多的数据；分析具体的业务；应用常见的算法；特征工程、调参数、优化。

具体做法：

学会分析问题，使用机器学习算法的目的，想要算法完成何种任务

掌握算法基本思想，学会对问题用相应的算法解决

学会利用库或者框架解决问题

1.5.1机器学习库与框架

1.5.2书籍资料

1.5.3提升内功

1.入门

2.实战类书籍

3.机器学习-“西瓜书”-周志华

统计学习方法-李航

深度学习-“花书”

2.特征工程

2.1-数据集

数据集分为训练集和测试集

2.1.1可用数据集

公司内部（百度）、数据接口（花钱）、数据集。

Kaggle网址：https:www.kaggle.com/datasets

UCI数据集网址：http://archive.ics.uci.edu/ml/

scikit-learn网址：http://scikit-learn.org/stable/datasets/index.html#datasets

1.Scikit-learn工具介绍

(1)Python语言的机器学习工具

(2)包括许多知名的机器学习算法的实现

(3)文档完善，容易上手，丰富的API

(4)目前稳定版本

2.安装

3.Scikit-learn包含的内容

监督学习（分类、回归）

无监督学习（聚类）

特征工程

模型选择

2.1.2sklearn数据集

1.scikit-learn数据集API介绍

sklearn.datasets 加载获取流行数据集

datasets.load_*() 获得小规模数据集，数据包含在datasets里

datasets.fetch_*(data_home=None) 获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录，默认是~/scikit_learn_data/

2.sklearn小数据集

sklearn.datasets.load_iris()

加载并返回鸢尾花数据集，包含类别、特征、样本数量、每个类别数量。

sklearn.datasets.load_boston()

加载并返回波士顿房价数据集，包含目标类别、特征、样本数量。

3.sklearn大数据集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train')

subset:'train'或'test','all',可选择要加载的数据集

训练集的”训练“，测试集的”测试“，两者的”全部“

4.sklearn数据集的使用

以鸢尾花数据集为例

特征值4个——花瓣、花萼的长度、宽度

目标值3个——setosa,vericolor,virginica

sklearn数据集返回值介绍

load和fetch返回的数据类型datasets.base.Bunch(继承自字典格式）

data：特征数据数组，是[n_samples*n_features]的二维numpy.ndarray数组

target：标签数组，是n_samples的一维numpy.ndarray数组

DESCR：数据描述

feature_names：特征名，新闻数据，手写数字，回归数据集

targer_names：标签名

2.1.3数据集的划分

训练数据：用于训练，构建模型

测试数据：在模型检验时使用，用于评估模型是否有效

划分比例：

训练集：70% 80% 75%

测试集：30% 20% 30%

数据集划分apl

sklearn.model_selection.train_test_split(arrays,*options)

x数据集的特征值

y数据集的标签值

test_size测试集的大小，一般为float

random_state随机数种子，不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。

return训练集特征值，测试集特征值，训练集目标值，测试集目标值

2.2-特征工程介绍

2.2.1为什么需要特征工程

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

2.2.2什么是特征工程

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

意义：会直接影响机器学习的效果

2.2.3特征工程的位置与数据处理的比较

pandas：一个数据读取非常方便以及基本的处理格式的工具。（数据清洗、数据处理）

sklearn：对于特征的处理提供了强大的接口。（特征工程）

特征工程包含的内容

特征抽取/特征提取，特征预处理，特征降维

2.3-特征抽取

机器学习算法-统计方法-数学公式

文本类型-数值

类型-数值

2.3.1特征提取

1.将任意数据（如文本或图像）转换为可用于机器学习的数字特征

字典特征提取（特征离散化）

文本特征提取

图像特征提取（深度学习将介绍）

2.特征提取API

sklearn.feature_extraction

2.3.2字典特征提取

作用：对字典数据进行特征值化，将类别转换成one-hot编码

sklearn.feature_extraction.DictVectorizer(sparse=True,...)

DictVectorizer.fit_transform(X):字典或者包含字典的迭代器返回值：返回sparse矩阵

DictVectorizer.inverse_transform(X)X:array数组或者sparse矩阵返回值：转换之前数据格式

DictVectorizer.get_feature_names()返回类别名称

vector 数学：向量物理：矢量

矩阵 matrix 二维数据

向量 vector 一维数组

父类：转换器类

返回sparse矩阵

sparse稀疏

将非零值按位置表示出来

节省内存-提高加载效率

1.应用

2.流程分析

实例化类DictVectorizer

调用fit_transform方法输入数据并转换（注意返回格式）

注意观察没有加上sparse=False参数的结果

所以加上参数之后，得到想要的结果：

之前在学习pandas中的离散化的时候，也实现了类似的效果。把这个处理数据的技巧叫做“one-hot"编码：

为每个类别生成一个布尔列。这些列中只有一列可以为每个样本取值1。因此，术语一个热编码，存在是1，不存在是0。

应用场景：

1.数据集中类别特征比较多（将数据集特征转换为字典类型，然后DictVectorizer转换）

2.本身拿到的数据就是字典类型，就用字典特征抽取

2.3.3文本特征提取

把单词作为特征句子、短语、单词、字母

特征：特征词

作用：对文本数据进行特征值化

方法1：CountVectorizer 统计每个特征值出现的个数

sklearn.feature_extraction.text.CountVectorizer(stop_words=O) 返回词频矩阵

CountVectorizer.fit_transform(X)X：文本或者包含文本字符串的可迭代对象返回值：返回sparse矩阵

CountVectorizer.inverse_transform(X)X:array数组或者sparse矩阵返回值：转换之前数据格

CountVectorizer.get_feature_names() 返回值：单词列表

stop_words停用词表

关键词：在某一个类别的文章中，出现的次数很多，但是在其他类别的文章中出现的很少

1.应用

2.流程分析

实例化类CountVectorizer

调用fit_transform方法输入数据并转换（注意返回格式，利用toarray()进行spare矩阵转换array数组）

方法2：Tfidivectorizer文本特征提取

主要思想：如果某个词或词语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者词语具有很高的类别区分能力，适合用来分类。

TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

公式：

词频（term frequency,tf)指的是某一个给定的词语在该文件中出现的频率

逆向文件频率（inverse document frequency,idf)是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语的文件的数目，再将得到的商除以10为底的对数得到。

举例：语料库—1000篇文章 ”非常“—100篇文章 ”经济“—10篇文章

文章A（100词）：10次”经济“ TF-IDF=0.2

tf：10/100=0.1

idf：lg1000/10=2

文章B（100词）：10次”非常“ TF-IDF=0.1

tf：10/100=0.1

idf：lg1000/100=1

tfidf=tf×idf 最终得出的结果可以理解为重要程度

sklearn.feature_extraction.text.TfidfVectorizer(stop_words=None,...) 返回词的权重矩阵

TfidfVectorizer.fit_transform(X)

X:文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵

TfidfVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值：转换之前的数据格式

TfidfVectorizer.get_feature_names()

返回值：单词列表

重要性：分类机器学习算法进行文章分类中前期数据处理方式

2.4-特征预处理

2.4.1什么是特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

1.包含内容

数值型数据的无量纲化：归一化标准化

2.特征预处理API

sklearn.preprocessing

进行归一化和标准化的原因：特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到它的特征。

需要用到一些方法进行无量纲化，使不同规格的数据转换到同一规格

2.4.2归一化

1.定义：通过对原始数据进行变换把数据映射到（默认为[0.1]）之间

2.公式

3.API

sklearn.preprocessing.MinMaxScaler(feature_range=(0,1)...)

MinMaxScalar.fit_transform(X)

X:numpy array格式的数据[n_samples,n_features]

返回值：转换后的形状相同的array

4.归一化总结：

最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

2.4.3标准化

1.定义：通过对原始数据进行变换把数据变换到均值为0，标准差为1范围内

2.公式

对于归一化来说：如果出现异常点，影响了最值，那么结果显然会发生改变

对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小

3.API

sklearn.preprocessing.StandardScaler()

处理之后，对每列来说，所有数据都聚集在均值为0附近，标准差为1

StandardScaler.fit_transform(X)

X:numpy array格式的数据[n_samples,n_features]

返回值：转换后的形状相同的array（二维数组）

4.标准化总结：

在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景

2.5-特征降维

降维是指在某些限定条件下，降低随机变量（特征）个数，得到一组”不相关“主变量的过程。

降低随机变量的个数

相关特征：相对湿度与降雨量之间的相关等等

维数：嵌套的层数

0维：标量

1维：向量

2维：矩阵

n维

2.5.2降维的两种方式

特征选择主成分分析（可以理解一种特征提取的方式）

2.5.3什么是特征选择

1.定义：数据中包含冗余或相关变量（或称特征、属性、指标等），旨在从原有特征中找出主要特征。

2.找出冗余特征的方法：

Filter（过滤式）：主要探究特征本身特点、特征与特征和目标值之间关联

方差选择法：低方差特征过滤

机器学习快速入门（黑马程序员版）

相关文章

洛谷 B2029：大象喝水 ← 圆柱体体积

小程序-基于java+SpringBoot+Vue的音乐播放器小程序设计与实现

Linux详解：文件权限

新手参加2025年CTF大赛——Web题目的基本解题流程

echarts的双X轴，父级居中的相关配置

在macOS上从源码部署RAGFlow-0.14.1

基于单片机的人体温度检测系统

什么是 Kubernetes（K8s）？