（七）机器学习

（七）机器学习 - 散点图

server/2024/12/16 3:04:26/

散点图（Scatter Plot）是一种用于展示两个变量之间关系的图表类型。它通过在二维平面上绘制点来表示数据的分布情况，每个点的横坐标（x轴）和纵坐标（y轴）分别对应数据集中的两个变量的值。散点图的主要目的是观察和分析两个变量之间是否存在某种相关性，例如正相关、负相关或无相关。

散点图的一些关键特点：

数据点：每个数据点在图表上的位置由其对应的两个变量值决定。
变量关系：通过观察数据点的分布模式，可以判断两个变量之间是否存在相关性。如果数据点大致沿着一条直线分布，这可能表明两个变量之间存在线性关系。
趋势和模式：散点图可以揭示数据的趋势和模式，如点的分布是否集中、分散，是否存在聚集区域或异常值。
正相关和负相关：
- 正相关：如果一个变量的值增加时，另一个变量的值也倾向于增加，这种关系称为正相关。
- 负相关：如果一个变量的值增加时，另一个变量的值倾向于减少，这种关系称为负相关。
无相关：如果数据点在图表上随机分布，没有明显的模式，这可能表明两个变量之间没有明显的相关性。
异常值：散点图可以直观地显示异常值，即那些与其他数据点明显偏离的点。
多变量分析：在三维空间中，可以使用三维散点图来展示三个变量之间的关系。

1、使用Python 的Matplotlib 模块绘制散点图：

// 它需要两个长度相同的数组，一个数组用于 x 轴的值，另一个数组用于 y 轴的值
import matplotlib.pyplot as pltx = [5,7,8,7,2,17,2,9,4,11,12,9,6]
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]plt.scatter(x, y)
plt.show()

结果：

2、随机数据分布

在机器学习中，数据集可以包含成千上万甚至数百万个值。

测试算法时，您可能没有真实的数据，您可能必须使用随机生成的值。

实例：

创建两个数组，它们都填充有来自正态数据分布的 1000 个随机数。

第一个数组的平均值设置为 5.0，标准差为 1.0。

第二个数组的平均值设置为 10.0，标准差为 2.0：

// 有 1000 个点的散点图：
import numpy
import matplotlib.pyplot as pltx = numpy.random.normal(5.0, 1.0, 1000)
y = numpy.random.normal(10.0, 2.0, 1000)plt.scatter(x, y)
plt.show()

结果：