Python在多个Excel文件中找出缺失数据行数多的文件

本文介绍基于Python语言，针对一个文件夹下大量的Excel表格文件，基于其中每一个文件内、某一列数据的特征，对其加以筛选，并将符合要求与不符合要求的文件分别复制到另外两个新的文件夹中的方法。

首先，我们来明确一下本文的具体需求。现有一个文件夹，其中有大量的Excel表格文件（在本文中我们就以csv格式的文件为例）；如下图所示。

其中，每一个Excel表格文件都有着如下图所示的数据格式。

如上图所示，各个文件都有着这样的问题——有些行的数据是无误的，而有些行，除了第一列，其他列都是0值。因此，我们希望就以第2列为标准，找出含有0值数量低于或高于某一阈值的表格文件——其中，0值数量多，肯定不利于我们的分析，我们将其放入一个新的文件夹；而0值数量少的，我们才可以对这一表格文件加以后续的分析，我们就将其放入另一个新的文件夹中。因此，计算出每一个表格文件对应的的0值数量百分比后，我们就进一步将这一Excel表格文件复制到对应的文件夹内。

知道了需求，我们就可以开始代码的撰写。其中，本文用到的代码如下所示。

# -*- coding: utf-8 -*-
"""
Created on Tue May 16 20:19:50 2023@author: fkxxgis
"""import os
import shutil
import pandas as pddef filter_copy_files(original_path, useful_path, useless_path, threshold):original_all_file = os.listdir(original_path)for file in original_all_file:path = os.path.join(original_path, file)if file.endswith(".csv") and os.path.isfile(path):df = pd.read_csv(path)column_value = df.iloc[:, 1]zero_count = (column_value == 0).sum()zero_ratio = zero_count / len(column_value)if zero_ratio < threshold:new_path = os.path.join(useful_path, file)shutil.copy(path, new_path)else:new_path = os.path.join(useless_path, file)shutil.copy(path, new_path)filter_copy_files("E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/13_AllYearAverage","E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/14_PointSelection/LowMissingRate","E:/01_Reflectivity/99_Model_Training/00_Data/02_Extract_Data/14_PointSelection/HighMissingRate",0.30)

其中，上述代码是一个筛选并复制文件的函数。该函数的目的是根据给定的阈值将具有不同缺失率的文件从一个文件夹复制到另外两个文件夹。

在代码中，filter_copy_files函数接受四个参数：