机器学习案例：加州房产价格（二）

参考链接：https://hands1ml.apachecn.org/2/

设计好系统后，要开始在工作区编写代码来解决问题了。

下载数据

首先我们需要先得到数据集。
一般情况下，数据是存储于关系型数据库（或其它常见数据库）中的多个表、文档、文件。

你可以使用浏览器下载，但是更好的办法是写一个小函数来做这件事。
因为如果数据变动频繁，这么做是非常好的，因此我们可以写一个函数来随时获取最新的数据。

import os
import tarfile
from six.moves import urllibDOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):if not os.path.isdir(housing_path):os.makedirs(housing_path)tgz_path = os.path.join(housing_path, "housing.tgz")urllib.request.urlretrieve(housing_url, tgz_path)housing_tgz = tarfile.open(tgz_path)housing_tgz.extractall(path=housing_path)housing_tgz.close()

在jupyter上就是这样，运行
在这里插入图片描述
然后使用 Pandas 加载数据。同样还是用一个小函数来加载数据：这个函数会返回一个包含所有数据的 Pandas DataFrame 对象。

import pandas as pddef load_housing_data(housing_path=HOUSING_PATH):csv_path = os.path.join(housing_path, "housing.csv")return pd.read_csv(csv_path)

housing = load_housing_data(HOUSING_PATH)

快速查看数据结构

使用DataFrame的head()方法查看该数据集的前 5 行。
在这里插入图片描述
info()方法可以快速查看数据的描述，特别是总行数、每个属性的类型和非空值的数量。

数据集中共有 20640 个实例，按照机器学习的标准这个数据量很小，但是非常适合入门。
我们注意到总卧室数只有 20433 个非空值，这意味着有 207 个街区缺少这个值。我们将在后面对它进行处理。

查看数据可以知道，所有的属性都是数值的，除了离大海距离这项。
它的类型是对象，因此可以包含任意 Python 对象，但是因为该项是从 CSV 文件加载的，所以必然是文本类型。
在刚才查看数据前五项时，你可能注意到那一列的值是重复的，意味着它可能是一项表示类别的属性。
可以使用value_counts()方法查看该项中都有哪些类别，每个类别中都包含有多少个街区：
在这里插入图片描述
再来看其它字段。describe()方法展示了数值属性的概括

count、mean、min和max几行的意思很明显了。
！注意，空值被忽略了（所以，卧室总数是 20433 而不是 20640）。
std是标准差（揭示数值的分散度）。25%、50%、75% 展示了对应的分位数：每个分位数指明小于这个值，且指定分组的百分比。例如，25% 的街区的房屋年龄中位数小于 18，而 50% 的小于 29，75% 的小于 37。这些值通常称为第 25 个百分位数（或第一个四分位数），中位数，第 75 个百分位数（第三个四分位数）。

另一种快速了解数据类型的方法是画出每个数值属性的柱状图。
柱状图（的纵轴）展示了特定范围的实例的个数。你还可以一次给一个属性画图，或对完整数据集调用hist()方法，后者会画出每个数值属性的柱状图。例如，你可以看到略微超过 800 个街区的median_house_value值差不多等于 500000 美元。

import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(20,15))
plt.show()

在这里插入图片描述
注意柱状图中的一些点：

1.首先，收入中位数貌似不是美元（USD）。
与数据采集团队交流之后，你被告知数据是经过缩放调整的，过高收入中位数的会变为 15（实际为 15.0001），过低的会变为 5（实际为 0.4999）。在机器学习中对数据进行预处理很正常，这不一定是个问题，但你要明白数据是如何计算出来的。

2.房屋年龄中位数和房屋价值中位数也被设了上限。
后者可能是个严重的问题，因为它是你的目标属性（你的标签）。你的机器学习算法可能学习到价格不会超出这个界限。你需要与下游团队核实，这是否会成为问题。如果他们告诉你他们需要明确的预测值，即使超过 500000 美元，你则有两个选项：

3.对于设了上限的标签，重新收集合适的标签；
将这些街区从训练集移除（也从测试集移除，因为若房价超出 500000 美元，你的系统就会被差评）。
这些属性值有不同的量度。我们会在本章后面讨论特征缩放。

4.最后，许多柱状图的尾巴很长：
相较于左边，它们在中位数的右边延伸过远。对于某些机器学习算法，这会使检测规律变得更难些。我们会在后面尝试变换处理这些属性，使其变为正态分布。