WEKA数据集:
WEKA所处理的数据集是一个.arff(attribute relation file)为后缀名的二维表。这是一种ASCII文本文件。以%开始的行是注释。
表中具体的内容:
@relation+文件名称
@attribute+属性名和具体的属性值
@data后为每个实例对应的属性值
1、@relation<关系名>,此处关系名是一个字符串 ,如果字符串包含空格,必须加上引号(之英文标点的单引号或者双引号)
2、 属性声明:一系列@attribute开头的语句来表示。数据集中每一个属性都有对应的@attribute来定义它的属性名称和数据类型。
@attribute<属性名><数据类型>:
属性名必须是以字母开头的字符串,和关系名称一样,如果这个字符串包含空格,它必须加上引号。
属性声明语句是顺序很重要,最后一个声明的属性被称class值,在分类或者回归任务中,被默认为目标变量。
3、@data 数据信息:每个实例占一行,实例的各属性值用逗号隔开,某各属性值缺失,用问号表示,切问号不能省略。
4、WEKA支持的数据类型
- numeric数值型、:整数或者实数
- nominal-specification标称型、 如:Outlook{sunny,overcast,rainy} 打括号中的就是类别
- string字符串型、 :可以包含任意文本。
- data[data-formal]日期和时间型。 :默认日期格式:ISO-8601给出的格式:“yyyy-MM-dd HH:mm:ss”
- 还可以使用integer和real类型,但是WEKA把他们都当做numeric类型看待。
注: integer和real、numeric和string,data是区分大小写的,但是relation、attribute‘data不区分大小写。
稀疏数据
有时候数据集中含所有大量的0值,这时候用稀疏数据更加节省存储空间。