Python Scikit-learn简介（二）

数据处理

数据划分

机器学习的数据，可以划分为训练集、验证集和测试集，也可以划分为训练集和测试集。
在这里插入图片描述

python">from sklearn.model_selection import train_test_split# 示例数据
X = [[1, 2], [3, 4], [5, 6], [7, 8]]
y = [0, 1, 0, 1]# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)print("Training data:", X_train, y_train)
print("Testing data:", X_test, y_test)

数据清洗

数据清洗是数据预处理的第一步，涉及处理缺失值、重复数据、异常值等。

python">import pandas as pd# 创建一个包含缺失值和重复数据的DataFrame
data = pd.DataFrame({'A': [1, 2, np.nan, 4],'B': [5, 5, 7, 8],'C': [9, 10, 11, 12]
})# 删除重复行
data = data.drop_duplicates()# 填充缺失值
data = data.fillna(data.mean())print(data)

特征提取与转换

特征提取是将原始数据转换为更适合机器学习模型的特征表示。Scikit-learn提供了多种特征提取工具，如DictVectorizer用于处理字典数据，CountVectorizer用于文本数据的词频统计。

python">from sklearn.feature_extraction.text import CountVectorizer# 示例文本数据
text_data = ["hello world", "hello everyone", "world of programming"]# 初始化CountVectorizer
vectorizer = CountVectorizer()# 转换文本数据为词频矩阵
X = vectorizer.fit_transform(text_data)print(X.toarray())

标准化与归一化

标准化和归一化是调整特征尺度的重要步骤，有助于提高某些算法的性能。

python">from sklearn.preprocessing import StandardScaler, MinMaxScaler# 示例数据
data = [[1, 2], [2, 3], [3, 4]]# 标准化
scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)# 归一化
min_max_scaler = MinMaxScaler()
normalized_data = min_max_scaler.fit_transform(data)print("Standardized data:", standardized_data)
print("Normalized data:", normalized_data)

缺失值处理

处理缺失值是数据预处理中的常见任务。Scikit-learn提供了SimpleImputer来填充缺失值。

python">from sklearn.impute import SimpleImputer# 示例数据
data = [[1, 2], [np.nan, 3], [7, 6]]# 初始化SimpleImputer，使用均值填充
imputer = SimpleImputer(strategy='mean')# 填充缺失值
imputed_data = imputer.fit_transform(data)print(imputed_data)

特征选择

在这里插入图片描述

监督学习算法

在这里插入图片描述

线性模型
- 线性模型是监督学习中最基础的模型之一，它假设特征之间的关系可以用一条直线（对于二元分类）或超平面（对于多类分类）来表示。线性模型主要包括线性回归（用于连续目标变量）和逻辑回归（用于分类目标变量）
支持向量机
- 支持向量机（Support Vector Machine, SVM）是一种强大的监督学习算法，适用于分类和回归分析。在分类问题中，SVM旨在找到一个超平面，该超平面能够最大化不同类别之间的边际。
- Scikit-learn提供了多种SVM实现，包括线性SVM和核SVM。线性SVM适用于线性可分数据，而核SVM通过使用核技巧，可以处理非线性可分数据。
决策树
- 决策树通过一系列的判断规则对数据进行分类，而随机森林是决策树的集成学习方法，通过构建多个决策树并进行投票来提高预测的准确性。
随机森林
- 随机森林是决策树的集成学习方法，通过构建多个决策树并进行投票来提高预测的准确性。
集成学习方法
- 监督学习中的梯度提升机（Gradient Boosting）是一种强大的集成学习算法，它通过迭代地训练决策树来最小化损失函数，从而提高模型的预测性能。Scikit-learn提供了一个名为GradientBoostingClassifier的类，用于实现梯度提升机。