深入探究Python机器学习算法：无监督学习(聚类算法如 K-Means、DBSCAN,降维算法如 PCA、SVD)

文章目录

深入探究 Python 机器学习算法：无监督学习
- 聚类算法
- - K - Means聚类
  - - 算法流程
    - K值选择方法
    - 聚类结果的稳定性分析和评估方法
  - 层次聚类
  - - 算法原理和实现过程
    - 连接方法特点和适用场景
    - 可视化方法
  - DBSCAN密度聚类
  - - 算法原理
    - 优势和局限性
- 降维算法
- - 主成分分析（PCA）
  - - 数学原理
    - 应用实例
    - 实现步骤
    - 局限性和改进方法
  - 奇异值分解（SVD）
  - - 原理
    - 与PCA的关系和区别
    - Python实现
  - 其他降维算法
  - - 局部线性嵌入（LLE）
    - 等距映射（Isomap）

深入探究 Python 机器学习 算法：无监督学习

在数据的浩瀚海洋中，无监督学习宛如一座指引方向的灯塔，助力我们从海量未标记数据里挖掘出潜藏的信息与模式。今天，让我们深入探索无监督学习中的聚类与降维算法，并借助Python代码真切感受它们的强大功能。

降维算法

降维算法用于将高维数据转换为低维数据，在保留数据主要特征的同时降低数据维度，削减计算复杂度并方便数据可视化。

主成分分析（PCA）

数学原理

通过计算数据的协方差矩阵，求解其特征值和特征向量，将特征值从大到小排序，对应的特征向量即为各个主成分的方向，选取前k个特征值对应的特征向量作为主成分，实现数据降维。

应用实例

图像压缩：对图像数据进行PCA，保留主要的主成分，去除次要成分，实现图像压缩。以下是对简单图像数据进行PCA压缩的示例（假设图像数据为二维矩阵形式）：

python">import numpy as np
from sklearn.decomposition import PCA
from PIL import Image
import matplotlib.pyplot as plt# 读取图像并转换为numpy数组
image = Image.open('example_image.jpg').convert('L')
image_array = np.array(image)# 按行展平图像数据
flattened_image = image_array.reshape(image_array.shape[0], -1)# 进行PCA，设置保留90%的方差
pca = PCA(n_components=0.9)
pca.fit(flattened_image)
compressed_image = pca.transform(flattened_image)# 重构图像
reconstructed_image = pca.inverse_transform(compressed_image)
reconstructed_image = reconstructed_image.reshape(image_array.shape)# 可视化原始图像和重构图像
plt.subplot(1, 2, 1)
plt.imshow(image_array, cmap='gray')
plt.title('Original Image')
plt.subplot(1, 2, 2)
plt.imshow(reconstructed_image, cmap='gray')
plt.title('Reconstructed Image')
plt.show()

在这里插入图片描述

高维数据可视化：将高维数据投影到低维空间，如二维或三维空间，便于直观观察数据的分布和特征。

实现步骤

首先对数据进行标准化，确保各个特征具有相同的尺度。
计算协方差矩阵。
进行特征值分解。
根据特征值的大小选择主成分。

python">import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler# 生成一些随机高维数据
np.random.seed(0)
data = np.random.rand(100, 5)# 数据标准化
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)# 初始化PCA，设置降维后的维度为2
pca = PCA(n_components = 2)
pca.fit(scaled_data)
reduced_data = pca.transform(scaled_data)# 查看主成分解释的方差比例
print(pca.explained_variance_ratio_)

局限性和改进方法

局限性包括对数据的线性假设较强，可能无法妥善处理非线性数据等。核主成分分析（KPCA）通过引入核函数将数据映射到高维特征空间，再进行主成分分析，可处理非线性数据。以下是KPCA的简单实现示例：

python">import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import KernelPCA
from sklearn.preprocessing import StandardScaler# 生成一些随机数据
np.random.seed(0)
data = np.random.rand(100, 2)# 数据标准化
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)# 初始化KernelPCA，使用rbf核函数
kpca = KernelPCA(n_components=1, kernel='rbf')
reduced_data = kpca.fit_transform(scaled_data)# 可视化原始数据
plt.figure(figsize=(12, 5))
plt.subplot(1, 2, 1)
plt.scatter(data[:, 0], data[:, 1], c='b', label='Original Data')
plt.title('Original Data')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()# 可视化降维后的数据
# 为了在二维平面上展示一维降维结果，我们将降维后的数据放在 x 轴，y 轴设为 0
plt.subplot(1, 2, 2)
plt.scatter(reduced_data, np.zeros_like(reduced_data), c='r', label='Reduced Data')
plt.title('Reduced Data after Kernel PCA')
plt.xlabel('Reduced Feature')
plt.legend()plt.tight_layout()
plt.show()

在这里插入图片描述

奇异值分解（SVD）

原理

对于任意一个矩阵A，可分解为A = UΣVᵀ，其中U是左奇异向量矩阵，Σ是奇异值矩阵，V是右奇异向量矩阵。奇异值是矩阵A的特征值的平方根，左奇异向量和右奇异向量分别是AAT和ATA的特征向量。

与PCA的关系和区别

SVD可用于计算PCA中的协方差矩阵的特征值和特征向量，但SVD更通用，可处理非方阵。在数据降维中，两者都可用于提取数据的主要特征，但SVD在处理大规模数据和推荐系统等方面应用更为广泛。

Python实现

使用Python的numpy库可便捷实现SVD算法，通过调用相关函数进行矩阵分解和低秩近似操作。

python">import numpy as np# 生成一个随机矩阵
A = np.random.rand(5, 3)# 进行SVD分解
U, s, Vh = np.linalg.svd(A)# 构建奇异值矩阵
Sigma = np.zeros((A.shape[0], A.shape[1]))
Sigma[:A.shape[1], :A.shape[1]] = np.diag(s)# 低秩近似，例如保留前2个奇异值
k = 2
U_k = U[:, :k]
Sigma_k = Sigma[:k, :k]
Vh_k = Vh[:k, :]
A_approx = U_k.dot(Sigma_k).dot(Vh_k)print('Original Matrix A:\n', A)
print('Approximated Matrix A_approx:\n', A_approx)# 计算 Frobenius 范数误差
error = np.linalg.norm(A - A_approx, 'fro')
print('Frobenius norm error:', error)# 计算原矩阵的 Frobenius 范数
norm_A = np.linalg.norm(A, 'fro')
# 计算相对误差
relative_error = error / norm_A
print('Relative error:', relative_error)

相对误差较小：如果相对误差较小（例如小于 0.1），说明近似矩阵与原矩阵非常接近，低秩近似的效果较好，保留了原矩阵的大部分信息。
相对误差较大：如果相对误差较大（例如大于 0.5），则表明近似矩阵与原矩阵的差异比较明显，可能在近似过程中丢失了较多重要信息。
结合矩阵特性分析
矩阵的奇异值分布：如果原矩阵的奇异值衰减很快，即前几个奇异值远大于后面的奇异值，那么保留前几个奇异值进行低秩近似通常能得到较好的效果，误差会相对较小。反之，如果奇异值衰减缓慢，那么仅保留少数奇异值进行近似时，误差可能会比较大。
矩阵的用途：在不同的应用场景中，对近似误差的容忍度不同。例如，在图像压缩中，如果只是用于大致的预览，可能可以接受相对较大的误差；但在一些对精度要求较高的科学计算或数据处理任务中，可能需要更小的误差。

其他降维算法

局部线性嵌入（LLE）

原理：
局部线性嵌入假设数据在局部是线性的，即每个数据点可以由其邻域内的其他点的线性组合来近似表示。LLE 首先计算每个数据点的局部重构权重，然后固定这些权重，寻找一个低维嵌入，使得在低维空间中数据点仍然可以由相同的权重进行线性重构。通过最小化重构误差来得到低维表示。
应用场景：适合处理具有流形结构的数据，如手写数字识别、人脸识别等领域，能有效捕捉数据的局部几何结构。

python">from sklearn.datasets import make_swiss_roll
from sklearn.manifold import LocallyLinearEmbedding
import matplotlib.pyplot as plt# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, random_state=42)# 初始化 LLE 模型
lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10)
X_lle = lle.fit_transform(X)# 可视化降维结果
plt.scatter(X_lle[:, 0], X_lle[:, 1], c=color)
plt.title('Locally Linear Embedding')
plt.show()

在这里插入图片描述

等距映射（Isomap）

原理：
等距映射是一种基于流形学习的降维方法，它试图在低维空间中保持数据点之间的测地距离（即流形上的最短路径距离）。首先构建数据点的邻域图，计算图中任意两点之间的最短路径距离（如使用 Dijkstra 算法或 Floyd - Warshall 算法），然后使用多维缩放（MDS）方法将这些距离映射到低维空间。
应用场景：常用于处理具有复杂非线性结构的数据，如高维生物数据、图像数据等。

python">from sklearn.datasets import make_swiss_roll
from sklearn.manifold import Isomap
import matplotlib.pyplot as plt
import mpl_toolkits.mplot3d.axes3d as p3# 生成瑞士卷数据集
X, color = make_swiss_roll(n_samples=1000, random_state=42)# 初始化 Isomap 模型
isomap = Isomap(n_components=2, n_neighbors=10)
X_isomap = isomap.fit_transform(X)# 创建一个包含两个子图的图形窗口
fig = plt.figure(figsize=(12, 6))# 可视化原始数据（三维）
ax1 = fig.add_subplot(121, projection='3d')
ax1.scatter(X[:, 0], X[:, 1], X[:, 2], c=color)
ax1.set_title('Original Swiss Roll Data (3D)')
ax1.set_xlabel('X')
ax1.set_ylabel('Y')
ax1.set_zlabel('Z')# 可视化降维后的数据（二维）
ax2 = fig.add_subplot(122)
ax2.scatter(X_isomap[:, 0], X_isomap[:, 1], c=color)
ax2.set_title('Reduced Data after Isomap (2D)')
ax2.set_xlabel('Feature 1')
ax2.set_ylabel('Feature 2')plt.tight_layout()
plt.show()