DataFrame
- 聚合 (Aggregation)
- 属性 (Attributes)
- 计算 (Compute)
- 描述性 (Descriptive)
- 导出 (Export)
- 分组 (Groupby)
- 选择 (Selection)
- 操作 (Operations)
- 杂项 (Miscellaneous)
- Plot
- Style
聚合 (Aggregation)
agg()
: 对DataFrame中的列进行聚合操作。sum()
: 计算列的总和。mean()
: 计算列的平均值。max()
: 找到列中的最大值。min()
: 找到列中的最小值。
例子:
python">import polars as pl
df = pl.DataFrame({"a": [1, 2, 3],"b": [4, 5, 6]
})
# 计算每列的总和
sums = df.sum()
print(sums)
# 计算每列的平均值
means = df.mean()
print(means)
属性 (Attributes)
columns
: 返回DataFrame中的列名列表。dtypes
: 返回DataFrame中每列的数据类型。height
: 返回DataFrame中的行数。shape
: 返回DataFrame的形状(行数,列数)。
例子:
python"># 获取DataFrame的列名
columns = df.columns
print(columns)
# 获取DataFrame的数据类型
dtypes = df.dtypes
print(dtypes)
# 获取DataFrame的形状
shape = df.shape
print(shape)
计算 (Compute)
apply()
: 对DataFrame中的每一行或列应用一个函数。filter()
: 根据条件过滤DataFrame中的行。
例子:
python"># 应用函数到每一列
df_applied = df.apply(lambda col: col * 2)
print(df_applied)
# 过滤行
df_filtered = df.filter(pl.col("a") > 1)
print(df_filtered)
描述性 (Descriptive)
describe()
: 提供DataFrame的统计摘要。head()
: 返回DataFrame的前几行。tail()
: 返回DataFrame的最后几行。
例子:
python"># 获取DataFrame的统计摘要
description = df.describe()
print(description)
# 获取前两行
head = df.head(2)
print(head)
# 获取最后两行
tail = df.tail(2)
print(tail)
导出 (Export)
to_csv()
: 将DataFrame导出为CSV文件。to_parquet()
: 将DataFrame导出为Parquet文件。
例子:
python"># 导出为CSV
df.to_csv("data.csv")
# 导出为Parquet
df.to_parquet("data.parquet")
分组 (Groupby)
groupby()
: 对DataFrame进行分组操作。pivot()
: 对DataFrame进行透视操作。
例子:
python"># 按列'a'分组并计算每组的总和
grouped_sum = df.groupby("a").sum()
print(grouped_sum)
# 透视操作
pivot_df = df.pivot("a", values="b", aggregation="sum")
print(pivot_df)
选择 (Selection)
select()
: 选择DataFrame中的列。filter()
: 根据条件选择行。
例子:
python"># 选择列'a'和'b'
selected_df = df.select([pl.col("a"), pl.col("b")])
print(selected_df)
# 根据条件选择行
filtered_df = df.filter(pl.col("b") > 4)
print(filtered_df)
操作 (Operations)
with_column()
: 向DataFrame添加或替换列。with_columns()
: 向DataFrame添加多个列。
例子:
python"># 添加新列
df_with_col = df.with_column(pl.col("a") * 2)
print(df_with_col)
# 添加多个新列
df_with_cols = df.with_columns([pl.col("a") * 2,pl.col("b") - 1
])
print(df_with_cols)
杂项 (Miscellaneous)
clone()
: 克隆DataFrame。drop()
: 删除列。fill_null()
: 填充空值。
例子:
python"># 克隆DataFrame
df_clone = df.clone()
print(df_clone)
# 删除列
df_dropped = df.drop("a")
print(df_dropped)
# 填充空值
df_filled = df.with_column(pl.col("a").fill_null(0))
print(df_filled)
Plot
line_chart()
: 绘制线图。bar_chart()
: 绘制条形图。
例子:
python"># 绘制线图
df.plot.line_chart(x="a", y="b")
# 绘制条形图
df.plot.bar_chart(x="a", y="b")
Style
style()
: 用于设置DataFrame的显示样式。
例子:
python"># 设置DataFrame的显示样式
styled_df = df.style().set_column_names(["Column A", "Column B"]).set_table_styles([{"selector": "th","props": [("color", "blue")]
}])
print(styled_df)
以上是DataFrame部分的详细内容和一些基本的使用例子。这些例子展示了如何使用Polars的DataFrame API进行各种数据操作,包括聚合、选择、过滤、分组、导出、绘图和样式设置等。通过这些操作,用户可以有效地处理和分析数据集。请注意,实际使用时可能需要根据具体的数据和需求调整代码。更多高级功能和详细用法,请参考Polars的官方文档。