Polars 的 DataFrame

DataFrame

- - - 聚合 (Aggregation)
    - 属性 (Attributes)
    - 计算 (Compute)
    - 描述性 (Descriptive)
    - 导出 (Export)
    - 分组 (Groupby)
    - 选择 (Selection)
    - 操作 (Operations)
    - 杂项 (Miscellaneous)
    - Plot
    - Style

聚合 (Aggregation)

agg(): 对DataFrame中的列进行聚合操作。
sum(): 计算列的总和。
mean(): 计算列的平均值。
max(): 找到列中的最大值。
min(): 找到列中的最小值。
例子：

python">import polars as pl
df = pl.DataFrame({"a": [1, 2, 3],"b": [4, 5, 6]
})
# 计算每列的总和
sums = df.sum()
print(sums)
# 计算每列的平均值
means = df.mean()
print(means)

属性 (Attributes)

columns: 返回DataFrame中的列名列表。
dtypes: 返回DataFrame中每列的数据类型。
height: 返回DataFrame中的行数。
shape: 返回DataFrame的形状（行数，列数）。
例子：

python"># 获取DataFrame的列名
columns = df.columns
print(columns)
# 获取DataFrame的数据类型
dtypes = df.dtypes
print(dtypes)
# 获取DataFrame的形状
shape = df.shape
print(shape)

计算 (Compute)

apply(): 对DataFrame中的每一行或列应用一个函数。
filter(): 根据条件过滤DataFrame中的行。
例子：

python"># 应用函数到每一列
df_applied = df.apply(lambda col: col * 2)
print(df_applied)
# 过滤行
df_filtered = df.filter(pl.col("a") > 1)
print(df_filtered)

描述性 (Descriptive)

describe(): 提供DataFrame的统计摘要。
head(): 返回DataFrame的前几行。
tail(): 返回DataFrame的最后几行。
例子：

python"># 获取DataFrame的统计摘要
description = df.describe()
print(description)
# 获取前两行
head = df.head(2)
print(head)
# 获取最后两行
tail = df.tail(2)
print(tail)

导出 (Export)

to_csv(): 将DataFrame导出为CSV文件。
to_parquet(): 将DataFrame导出为Parquet文件。
例子：

python"># 导出为CSV
df.to_csv("data.csv")
# 导出为Parquet
df.to_parquet("data.parquet")

分组 (Groupby)

groupby(): 对DataFrame进行分组操作。
pivot(): 对DataFrame进行透视操作。
例子：

python"># 按列'a'分组并计算每组的总和
grouped_sum = df.groupby("a").sum()
print(grouped_sum)
# 透视操作
pivot_df = df.pivot("a", values="b", aggregation="sum")
print(pivot_df)

选择 (Selection)

select(): 选择DataFrame中的列。
filter(): 根据条件选择行。
例子：

python"># 选择列'a'和'b'
selected_df = df.select([pl.col("a"), pl.col("b")])
print(selected_df)
# 根据条件选择行
filtered_df = df.filter(pl.col("b") > 4)
print(filtered_df)

操作 (Operations)

with_column(): 向DataFrame添加或替换列。
with_columns(): 向DataFrame添加多个列。
例子：

python"># 添加新列
df_with_col = df.with_column(pl.col("a") * 2)
print(df_with_col)
# 添加多个新列
df_with_cols = df.with_columns([pl.col("a") * 2,pl.col("b") - 1
])
print(df_with_cols)

杂项 (Miscellaneous)

clone(): 克隆DataFrame。
drop(): 删除列。
fill_null(): 填充空值。
例子：

python"># 克隆DataFrame
df_clone = df.clone()
print(df_clone)
# 删除列
df_dropped = df.drop("a")
print(df_dropped)
# 填充空值
df_filled = df.with_column(pl.col("a").fill_null(0))
print(df_filled)

Plot

line_chart(): 绘制线图。
bar_chart(): 绘制条形图。
例子：

python"># 绘制线图
df.plot.line_chart(x="a", y="b")
# 绘制条形图
df.plot.bar_chart(x="a", y="b")

Style

style(): 用于设置DataFrame的显示样式。
例子：

python"># 设置DataFrame的显示样式
styled_df = df.style().set_column_names(["Column A", "Column B"]).set_table_styles([{"selector": "th","props": [("color", "blue")]
}])
print(styled_df)

以上是DataFrame部分的详细内容和一些基本的使用例子。这些例子展示了如何使用Polars的DataFrame API进行各种数据操作，包括聚合、选择、过滤、分组、导出、绘图和样式设置等。通过这些操作，用户可以有效地处理和分析数据集。请注意，实际使用时可能需要根据具体的数据和需求调整代码。更多高级功能和详细用法，请参考Polars的官方文档。