在Python中,将DataFrame转换为列表常用的方法有以下几种:
### 1. 使用values属性
先通过`values`属性将DataFrame转换为NumPy数组,然后再调用`tolist()`方法将数组转换为列表。这是一种简单直接的方式,适用于快速将整个DataFrame转换为嵌套列表,每个内部列表代表DataFrame中的一行数据。
```python
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({
'名字': ['小明', '小红', '小张'],
'年龄': [18, 20, 19],
'成绩': [85, 92, 88]
})
# 使用values属性转换为列表
list_from_values = df.values.tolist()
print(list_from_values)
```
### 2. 使用to_numpy()方法
从pandas 0.24版本开始可用,先使用`to_numpy()`方法将DataFrame转换为NumPy数组,再通过`tolist()`方法转换为列表。该方法比`values`属性更加灵活,在处理混合类型数据时,能更好地控制输出的数据类型。
```python
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({
'名字': ['小明', '小红', '小张'],
'年龄': [18, 20, 19],
'成绩': [85, 92, 88]
})
# 使用to_numpy()方法转换为列表
print('转换成numpy数组:')
print(df.to_numpy())
list_from_numpy = df.to_numpy().tolist()
print(list_from_numpy)
```
### 3. 使用列表推导式
通过遍历DataFrame的行或列,将每一行或每一列的数据转换为列表。这种方法的优点是代码简洁,并且可以在转换过程中方便地对数据进行额外的处理,例如筛选、转换数据格式等。
```python
import pandas as pd
# 创建一个示例DataFrame
df = pd.DataFrame({
'名字': ['小明', '小红', '小张'],
'年龄': [18, 20, 19],
'成绩': [85, 92, 88]
})
# 使用列表推导式转换为列表
list_from_comprehension = [list(row) for _, row in df.iterrows()]
print(list_from_comprehension)
```
**性能比较**:
在处理较小规模的DataFrame时,`values`属性和`to_numpy()`方法的性能相近,都相对高效,因为它们底层都是基于NumPy数组进行操作,并且转换过程较为直接。而列表推导式由于涉及到Python层面的循环迭代,相比前两者在时间上会稍慢一些。
在处理大规模DataFrame时,`values`属性和`to_numpy()`方法通常依然表现较好。但如果DataFrame非常大,内存可能会成为瓶颈。此时列表推导式可以通过逐行处理,在一定程度上减少内存的占用压力,不过整体处理时间可能会更长。
```python
import pandas as pd
import timeit
# 创建一个大规模的 DataFrame
data = {
'col1': list(range(10000)),
'col2': list(range(10000, 20000)),
'col3': list(range(20000, 30000))
}
df = pd.DataFrame(data)
# 定义使用 values.tolist() 的转换函数
def convert_with_values():
return df.values.tolist()
# 定义使用 to_numpy().tolist() 的转换函数
def convert_with_to_numpy():
return df.to_numpy().tolist()
# 定义使用列表推导式的转换函数
def convert_with_list_comprehension():
return [list(row) for _, row in df.iterrows()]
# 分别测试三种方法的性能
time_values = timeit.timeit(convert_with_values, number=100)
time_to_numpy = timeit.timeit(convert_with_to_numpy, number=100)
time_list_comprehension = timeit.timeit(convert_with_list_comprehension, number=100)
print(f"使用 values.tolist() 方法花费的时间: {time_values} 秒")
print(f"使用 to_numpy().tolist() 方法花费的时间: {time_to_numpy} 秒")
print(f"使用列表推导式方法花费的时间: {time_list_comprehension} 秒")
```
如果对性能要求极高,并且数据量很大,可以考虑使用诸如Dask这样的库进行并行处理,它可以将大规模数据分割成多个小的分区,并行地进行转换操作,从而提高整体的处理效率。
综上所述,如果只是简单地将DataFrame转换为列表且对数据处理过程没有特殊要求,优先考虑使用`values`属性或`to_numpy()`方法;如果需要在转换过程中灵活地对数据进行额外处理,则列表推导式会是更好的选择。