pandas(十七)批量拆分与合并Excel文件

news/2024/11/18 23:42:02/

一、Pandas 进行索引和切片的iloc、loc方法

  • iloc是基于整数位置进行索引和切片的方法
    它允许您使用整数来访问 DataFrame 或 Series 中的特定行和列
    import pandas as pd# 创建示例 DataFrame
    df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})# 使用 iloc 访问特定行和列
    value = df.iloc[0, 1]  # 获取第一行、第二列的值
    row = df.iloc[1]  # 获取第二行的所有列
    col = df.iloc[:, 2]  # 获取第三列的所有值
    slice_df = df.iloc[1:3, 0:2]  # 获取第二行到第三行、第一列到第二列的切片print(value)  # 输出: 4
    print(row)  # 输出: A    2\nB    5\nC    8\nName: 1, dtype: int64
    print(col)  # 输出: 0    7\n1    8\n2    9\nName: C, dtype: int64
    print(slice_df)
    # 输出:
    #    A  B
    # 1  2  5
    # 2  3  6
    
  • loc是基于标签进行索引和切片的方法。
    它允许您使用标签来访问 DataFrame 或 Series 中特定的行和列
    import pandas as pd# 创建示例 DataFrame
    df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}, index=['a', 'b', 'c'])# 使用 loc 访问特定行和列
    value = df.loc['a', 'B']  # 获取索引为 'a',列为 'B' 的值
    row = df.loc['b']  # 获取索引为 'b' 的所有列
    col = df.loc[:, 'C']  # 获取列标签为 'C' 的所有值
    slice_df = df.loc['b':'c', 'A':'B']  # 获取索引为 'b''c',列标签为 'A''B' 的切片print(value)  # 输出: 4
    print(row)  # 输出: A    2\nB    5\nC    8\ndtype: int64
    print(col)  # 输出: a    7\nb    8\nc    9\nName: C, dtype: int64
    print(slice_df)
    # 输出:
    #    A  B
    # b  2  5
    # c  3  6
    

二、Pandas批量拆分与合并Excel文件

将一个大Excel等分,拆成多个Excel
将多个小Excel合并并标记来源

import pandas as pddf_path = '/Users/python/Desktop/means/ml-25m/ratings.csv'
df_source = pd.read_csv(df_path)
df_source.head()userId	movieId	rating	timestamp
0	1	296	5.0	1147880044
1	1	306	3.5	1147868817
2	1	307	5.0	1147868828
3	1	665	5.0	1147878820
4	1	899	3.5	1147868510
df.index    查看索引信息  总共行数1000209
RangeIndex(start=0, stop=1000209, step=1)
df.shape    查看总的行列信息  总共10002094(1000209, 4)获取总的行数信息
total_row_count = df.shape[0]
total_row_count1000209

二、 将一个大的Excel 等分拆成多个Excel

计算拆分后每个excel的行数 (可能除不尽 取余 + 1)
user_names = ["zhangsan", "lisi", "wanger", 'mazi']
split_size = total_row_count // len(user_names)
if total_row_count % len(user_names) != 0:split_size += 1
拆分多个dataframe for idx, user_name in enumerate(user_names):begin = idx * split_sizeend = (idx + 1 ) * split_size    df_sub = df_source.iloc[begin:end]df_subs.append((idx, user_name, df_sub))
将多个datafame 写入csvfor idx, user_name, df_sub in df_subs:file_name = f'/Users/python/Desktop/means/ml-25m/ratings_{user_name}.csv'df_sub.to_csv(file_name, index=False)

三、 将多个Excel合并成一个大的Excel

1. 便利文件夹,得到要合并的Excel 文件列表
2. 分别去读到dataframe, 给每个df添加一列用于标记来源
3. 使用pd.concat 进行批量合并
4. 将合并到的dataframe 输入到excel
读取要合并的excel,并添加username 列df_list = []
fnames = ['ratings_mazi.csv', 'ratings_zhangsan.csv', 'ratings_lisi.csv','ratings_wanger.csv','ratings_mazi.csv']
for fname in fnames:file_name = f'/Users/python/Desktop/means/ml-25m/{fname}'df_split = pd.read_csv(file_name)username = fname.replace("ratings_", '').replace(".csv", '')df_split['username'] = usernamedf_list.append(df_split)
使用pd.concat 进行合并
df_merged = pd.concat(df_list)df_merged.shape    查看总的行列信息    总共10002094列 
df_merged.head()   查看合并后的前几行信息userId	movieId	rating	timestamp	username
0	5109	508	3.0	840577637	mazi
1	5109	519	2.0	840577227	mazi
2	5109	524	2.0	840577346	mazi
3	5109	527	3.0	840576285	mazi
4	5109	529	3.0	840576680	mazidf_merged['username'].value_counts() 查看username 的取值种类username
mazi        500106
zhangsan    250053
lisi        250053
wanger      250053
Name: count, dtype: int64
将合并后的dataframe输入到excel中df_merged.to_csv('/Users/python/Desktop/means/ml-25m/ratings_merged.csv', index=False)

http://www.ppmy.cn/news/763048.html

相关文章

跨文件,跨函数能力是什么?和污点分析能力有什么关系?

HDC 期间可参与华为开发者大会 Check 新人抽奖活动,活动链接在文末。无线鼠标等快来参与! 跨文件,跨函数能力是指SAST代码检查服务能够分析不同文件或函数之间数据流和控制流,从而发现更深层次问题的能力。这种能力对于SAST代码检…

Go使用Redis 发布和订阅消息

发布消息 在Go中,Redis客户端库可以提供一个Publish方法来实现消息的发布。不同的Redis客户端库可能有不同的API和方法命名,此处以 v8 为例, v8 版本以下不需要context, 下面是一个示例使用go-redis库进行Publish操作的示例代码: package m…

JAVA如何利用迅雷接口解析磁力,关于神秘代码(磁力链接)如何正确使用

原标题:关于神秘代码(磁力链接)如何正确使用 神秘代码,也就是磁力链接 也许你对dd4486a844ac0e32a1b2f843e6492af429e34f29这种字符比较疑惑,但这就是磁力链接 (该字符串,一般是40个字的一串字母和数字的组合)打开BT下载工具(迅雷…

卡尔曼滤波实例——预测橘子的轨迹

目录 流程 一、采用轮廓的方式检测橘子位置 (一)滚动条获取阈值 (二)获取到图像中的包围橘子对应的白色图形的最小矩形框的信息 二、获取橘子检测框的质心 三、将质心送入卡尔曼滤波器,获取下一次的质心位置 四…

树状数组讲解

现在我们有一个数组,我们需要为这个数组写两个函数。(且需要处理上百万的数据) 修改数组中某一个元素的值求出前 n 个元素的和 我们很容易想到使用暴力遍历 [1, n] 的元素并求和写出。 本文到此结束。 但是太暴力了。在百万的数据量面前显得…

Linux配置redis

Redis安装 远程下载地址:wget http://download.redis.io/releases/redis-6.2.6.tar.gz 第一步 解压redis:tar -zxvf redis-6.2.6.tar.gz 第二部 重命名redis: mv redis-6.2.6 redis 第三步 进入到reids: cd redis 第四步 编译redis:make 配置redis守护进行: vim redis.c…

将Raspberry Pi用作台式PC的17个最佳Raspbian应用

如果要使用Raspberry Pi替代台式机,找到在Raspberry Pi上运行的优秀应用程序很重要。 在撰写本文之前的两天内,我将Raspberry Pi用作台式机。 它向您说明了我发现哪些应用可以用Raspberry Pi替换您的主计算机。 类别最佳应用电子邮件客户端雷鸟图形我的画…

不同内核浏览器的差异以及浏览器渲染简介

转载:http://www.cnblogs.com/imwtr/p/4481092.html 一、简单介绍一下什么是浏览器内核。 浏览器最重要或者说核心的部分是“Rendering Engine”,可大概译为“解释引擎”,不过我们一般习惯将之称为“浏览器内核”。负责对网页语法的解释&…