监督学习——基于线性回归的波士顿房价预测：理论、实践与评估

基于线性回归的波士顿房价预测：理论、实践与评估

文章目录

基于线性回归的波士顿房价预测：理论、实践与评估
- 一、引言
- 二、线性回归基础理论
- - 2.1 线性回归原理
  - 2.2 线性回归在房价预测中的应用逻辑
- 三、波士顿房价数据集介绍
- - 3.1 数据集概述
  - 3.2 特征说明
  - 3.3 目标变量
- 四、波士顿房价预测代码实现
- - 4.1 数据加载与预处理
  - 4.2 模型构建与训练
  - 4.3 模型预测
  - 4.4 模型评估
  - 4.5 可视化预测结果与真实值的关系
  - 4.6 完整代码
- 五、结果分析与总结
- - 5.1 模型评估指标分析
  - 5.2 可视化结果分析
  - 5.3 总结与展望

一、引言

在房地产市场中，准确预测房价是一个至关重要且具有挑战性的问题。对于购房者而言，了解房价的合理范围有助于做出明智的购房决策；对于房地产开发商和投资者来说，精准的房价预测能够指导项目规划和投资策略。机器学习中的回归算法为解决这一问题提供了有效的手段。本案例将聚焦于使用线性回归算法对波士顿房价进行预测，深入探讨回归问题的解决流程，包括数据准备、模型构建、训练、评估等关键环节。

二、线性回归基础理论

2.1 线性回归原理

线性回归是一种用于建立自变量（特征）与因变量（目标值）之间线性关系的统计模型。在简单线性回归中，只有一个自变量，其数学表达式为 (y = \beta_0+\beta_1x+\epsilon)，其中 (y) 是因变量，(x) 是自变量，(\beta_0) 是截距，(\beta_1) 是斜率，(\epsilon) 是误差项。在多元线性回归中，存在多个自变量，表达式为 (y=\beta_0 + \beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\epsilon)。

线性回归的目标是通过最小化预测值与真实值之间的误差来确定最优的系数 (\beta_0,\beta_1,\cdots,\beta_n)。常用的误差度量方法是均方误差（Mean Squared Error, MSE），即预测值与真实值之差的平方的平均值。通过最小化 MSE，我们可以找到使得模型预测最接近真实值的系数组合。

2.2 线性回归在房价预测中的应用逻辑

在房价预测问题中，我们可以将房屋的各种特征（如房屋面积、房间数量、周边环境等）作为自变量，将房价作为因变量。线性回归模型通过学习这些特征与房价之间的线性关系，从而能够根据新的房屋特征数据预测其房价。

三、波士顿房价数据集介绍

3.1 数据集概述

波士顿房价数据集是机器学习领域的经典数据集之一，包含了波士顿地区 506 个不同地段房屋的相关信息以及对应的房价。该数据集包含 13 个特征和 1 个目标变量（房价），这些特征涵盖了房屋的物理属性、周边环境等多个方面，能够较为全面地反映影响房价的因素。

3.2 特征说明

CRIM：城镇人均犯罪率。
ZN：占地面积超过 25,000 平方英尺的住宅用地比例。
INDUS：城镇非零售商业用地比例。
CHAS：查尔斯河虚拟变量（如果边界是河流，则为 1；否则为 0）。
NOX：一氧化氮浓度（每千万分之一）。
RM：每个住宅的平均房间数。
AGE：1940 年之前建造的自住单位比例。
DIS：到波士顿五个就业中心的加权距离。
RAD：径向高速公路可达性指数。
TAX：每 10,000 美元的全值财产税率。
PTRATIO：城镇的学生与教师比例。
B：(1000(Bk - 0.63)^2)，其中 (Bk) 是城镇黑人的比例。
LSTAT：人口中地位低下者的百分比。

3.3 目标变量

MEDV：自住房屋的中位价值（单位：千美元），即我们要预测的房价。

四、波士顿房价预测代码实现

4.1 数据加载与预处理

python">import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split# 加载波士顿房价数据集
boston = load_boston()
X = boston.data
y = boston.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

代码解释：
- load_boston()：从 sklearn 库中加载波士顿房价数据集。
- X = boston.data：获取数据集的特征数据。
- y = boston.target：获取数据集的目标变量（房价）。
- train_test_split：将数据集划分为训练集和测试集，test_size=0.3 表示测试集占总数据的 30%，random_state=42 确保每次划分结果一致。

此处的load_bostion()因为数据集涉及种族问题,所以在sklearn1.2版本中被移除，使用如下代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn