Pandas数据填充(fill)中的那些坑:避免机器学习中的数据泄露

ops/2025/2/13 5:10:16/

1. 问题背景

在处理时间序列数据时,经常会遇到缺失值需要填充。Pandas提供了ffill(forward fill)和bfill(backward fill)两种填充方式,但使用不当可能会导致数据泄露,特别是在进行机器学习预测时。

2. 填充方式解析

2.1 基本概念

ffill(forward fill): 用前面的值填充后面的空值
bfill(backward fill): 用后面的值填充前面的空值

2.2 实例说明

import pandas as pd# 示例数据
df = pd.DataFrame({'date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],'price': [100, None, None, 200]
})# 查看原始数据
print("原始数据:")
print(df)
"""date  price
0  2023-01-01  100.0
1  2023-01-02    NaN
2  2023-01-03    NaN
3  2023-01-04  200.0
"""# 使用ffill
df_ffill = df.copy()
df_ffill['price'] = df_ffill['price'].ffill()
print("\nffill填充结果:")
print(df_ffill)
"""date  price
0  2023-01-01  100.0
1  2023-01-02  100.0  # 使用之前的100
2  2023-01-03  100.0  # 使用之前的100
3  2023-01-04  200.0
"""# 使用bfill
df_bfill = df.copy()
df_bfill['price'] = df_bfill['price'].bfill()
print("\nbfill填充结果:")
print(df_bfill)
"""date  price
0  2023-01-01  100.0
1  2023-01-02  200.0  # 使用了未来的200!
2  2023-01-03  200.0  # 使用了未来的200!
3  2023-01-04  200.0
"""

3. 数据泄露风险

3.1 什么是数据泄露?

在时间序列预测中,数据泄露指模型在训练时看到了未来的数据。这会导致模型性能被过分高估,在实际预测时表现不佳。

3.2 为什么bfill会导致数据泄露?

使用bfill时,我们用未来的值填充了当前的缺失值,这在实际预测场景中是不可能的,因为我们不可能知道未来的价格。

4. 正确的处理方式

4.1 基本步骤

# 1. 确保时间正确排序
df = df.sort_values(['market_code', 'report_time'])# 2. 使用ffill进行填充
df['price'] = df.groupby('market_code')['price'].ffill()

4.2 注意事项

排序很重要:ffill/bfill是基于数据的物理顺序进行的
分组处理:如果有多个市场,要按市场分组后再填充
始终使用ffill:确保只使用历史数据进行填充

5. 实际应用场景示例

# 市场价格数据处理示例
def prepare_market_data(df):"""准备市场数据,避免数据泄露"""# 1. 确保时间格式正确df['report_time'] = pd.to_datetime(df['report_time'])# 2. 按市场和时间排序df = df.sort_values(['market_code', 'report_time'])# 3. 使用ffill填充缺失价格df['price'] = df.groupby('market_code')['price'].ffill()return df