数据挖掘：第二章、认识数据

一个数据集由多个数据对象组成，每个数据对象代表一个实体。例如，在销售数据库中，数据对象可以是客户、商品、销售额等；在医疗数据库中，数据对象可以是患者、治疗信息等；在大学数据库中，数据对象可以是学生、教授、课程信息等。数据对象也被称为样品、示例、实例、数据点、对象、元组。

数据对象所描述的属性即数据集中的列，而数据对象则是数据库中的行。

属性是数据对象的特征或功能，它可以是标称、二进制、序数、区间标度、比率标度等类型。

为了更好地理解数据，我们需要分析数据的集中趋势、分布等统计特性，如最大值、最小值、中位数、位数、离群值、方差等。

平均值：一组数据的均衡点，但对离群值敏感。
中位数：将数据分为两半的值，对离群值不敏感。
截断均值：去掉极端值后的平均值，也对离群值不敏感。
众数：一组数据中出现次数最多的值。
五点概况：包括最小值、第一四分位数（Q1）、中位数、第三四分位数（Q3）、最大值。盒状图可以直观地展示五点概况，离群点通常定义为高于或低于1.5×IQR（四分位距）的值。

数据可视化是将数据以图形或图像的形式展示出来，以便更直观地理解数据的特征和规律。

盒状图可以分析多个属性数据的离散度差异性，展示数据的五点概况（最小值、Q1、中位数、Q3、最大值），并标识离群点。

直方图用于分析单个属性在各个区间的变化分布，展示数据的频率分布情况。

散点图用于显示两组数据的相关性分布，帮助分析两个属性之间的关系。例如，在房价预测中，可以通过散点图分析房屋面积、停车面积、建筑面积、地下室面积等属性与销售价格之间的相关性，相关性越强，说明该属性对预测房价的作用越大。

标称属性：可以使用简单匹配的方法计算相似度或相异度，公式为 d(i,j)=pp−m，其中m是匹配次数，p是属性总数。
二值属性：分为对称和非对称两种情况。对于对称二值属性，0和1同样重要；对于非对称二值属性，通常1比0更重要。可以使用Jaccard系数等方法计算相似度。

闵可夫斯基距离：是一族距离度量，包括曼哈顿距离（h=1）、欧氏距离（h=2）和上确界距离（h→∞）等。
- 曼哈顿距离： d(i,j)=∣xi1−xj1∣+∣xi2−xj2∣+⋯+∣xip−xjp∣
- 欧氏距离： d(i,j)=(xi1−xj1)2+(xi2−xj2)2+⋯+(xip−xjp)2