sklearn 笔记： preprocessing.OrdinalEncoder

news/2024/10/23 22:28:07/

sklearn.preprocessing.OrdinalEncoder 是一个用于将分类特征编码为整数数组的预处理转换器
编码方式：将分类特征（如字符串或整数表示的离散特征）转换成序数整数形式。这样每个特征都被编码为一个整数序列，范围从 0 到该特征的类别数减一（n_categories - 1）

class sklearn.preprocessing.OrdinalEncoder(*, categories='auto', dtype=<class 'numpy.float64'>, handle_unknown='error', unknown_value=None, encoded_missing_value=nan, min_frequency=None, max_categories=None)

参数：

categories	可以设置为 `'auto'` 或是一个类别的列表。如果是 `'auto'`，编码器将自动从训练数据中确定类别。如果是列表，则列表中的每个元素代表对应特征的预期类别，这些类别应该是有序的
dtype	输出的数据类型，默认为 `numpy.float64`
handle_unknown	处理未知类别的方式。默认为 `'error'`，即如果遇到未知类别时会抛出错误。如果设置为 `'use_encoded_value'`，未知类别将被编码为 `unknown_value` 指定的值。
unknown_value	当 `handle_unknown` 设置为 `'use_encoded_value'` 时使用，这个值用来编码训练数据中未出现的类别。需要注意的是，这个值必须和已有的编码值不同
encoded_missing_value	编码缺失类别的值，默认为 `np.nan`
min_frequency 和 max_categories	这两个参数用于处理低频类别。`min_frequency` 用于定义什么样的频率算是低频，`max_categories` 用于限制输出类别的数量。

举例：

from sklearn.preprocessing import OrdinalEncoder
import numpy as np# 示例数据
data = [['low'], ['medium'], ['high'], ['medium'], ['low']]
encoder = OrdinalEncoder(dtype=np.int32).fit(data)
encoded_data = encoder.transform(data)print(encoded_data)
'''
[[1][2][0][2][1]]
'''

sklearn 笔记： preprocessing.OrdinalEncoder

相关文章

喜报 | 英码科技顺利通过2023年度广东省工程技术研究中心认定

Hystrix面试题

每日一题：C语言经典例题之矩阵对角线元素之和

Python中的字符串操作

Navicat导入sql文件图文教程

Sonatype Nexus 服务器迁移

初识ansible核心模块

Controller配置总结（SpringMVC学习笔记二）