本次综合实验以阿里巴巴天池的婴儿用品购买数据集为例,进行相关分析并提出建议。
数据来源说明:该数据源自于阿里天池,数据具体为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据,数据包含两个表格:
- 导包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import Series, DataFrame
- 创建dataframe实例(df即为dataframe的缩写)
df_gender = pd.read_csv('./mum_baby.csv')
df_gender
- 另外一个文件
df_mums = pd.read_csv('./mum_baby_trade_history.csv', engine='python')
df_mums
- 连接两个表
df_mums_gender = pd.merge(df_mums,df_gender,how='inner')
df_mums_gender
- 年份切片
df_mums_gender['birthday']=df_mums_gender['birthday'].astype(str).str.slice(0,4)
df_mums_gender