文章目录
- 1 基本概念
- 1.1 虚拟变量(one-hot)
- 1.2 时间特征
- 2 模拟数据
- 2.1 日期序列
- 2.2 目标序列
- 3 编码虚拟变量(one-hot)
- 3.1 年份编码
- 3.2 月份编码
- 3.3 星期几编码
- 4 拟合模型
- 4.1 构建数据集(每月编码)
- 4.2 构建数据集(每日编码)
- 5 参考附录
1 基本概念
1.1 虚拟变量(one-hot)
虚拟变量(dummy variable)也叫哑变量,翻译不同而已。因为dummy的含义有假的、虚拟的、哑的等各种含义,所以国内翻译也不一样,但是他们俩是一回事。
虚拟变量其实算不上一种变量类型(比如连续变量、分类变量等),确切地说,是一种将多分类变量转换为二分变量的一种形式。Dummy这个词意思是虚拟的、假的,所以dummy variable意思就是假的变量,不是真实的变量。
如果使用定性数据或分类数据,通常需要引入虚拟变量,即取值为0或1的变量,如性别变量。哑变量或虚拟变量,是人为设定的用于将分类变量引入回归模型中的方法。
在回归分析中,自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X视为数字,但当数据为定类数据时,此时数字代表类别,数字大小本身没有比较意义。因此,这类数据在做回归分析时,需要设置成哑变量才能纳入回归分析正确分析数据。
通常情况下,回归分析,逐步回归,分层回归,Logistic回归,PLS回归等这类影响关系研究的方法时,才可能涉及到虚拟变量设置。
用一个例子说明:研究性别和工龄对