阅读原文
一、数据源
来自某医药公司的产品销售数据,时间为 3 月到 5 月,共 48 个 Excel 表格。包含订单信息、售后信息、用户信息以及对应销售人员信息等。
加载合并后得到的原始数据如下:
二、数据清洗
清洗流程以及对应细节
加载数据源
- 表格形式没有统一,需要手动根据列名找到表头所在行
- 文件名包含日期信息,提取并加入到 DataFrame 新列
- 纵向拼接所有文件产生的 DataFrame
- 部分表格列名缺失,被加载到
Unnamed: 0
列,手动合并回对应列数据清洗
- 检查每列的唯一值和频数分布
- 删除含有无用信息的列和含有过多缺失、无效值的列
- 拆分下单日期和下单时间
信息脱敏
- 将详细的收货地址映射为省份
- 员工名称用代号表示
- 商品名称用代号表示
- 输出员工名称和商品名称的映射字典以便回溯
使用 pandas_profiling 输出汇总报告
查看数据预处理代码
数据概览报告
》查看交互式网页
三、业务分析
提取数据中含有的信息提供对业务情况的洞察:
- 不同地区的销售情况对比,作为业务优化参考
- 下单时间分布,揭示用户行为习惯
- 单日订单量异常检测,追溯业务中可能存在的问题
- 员工销售情况分析,提高销售效率
- 来源渠道分布和 SKU 销量分布,及其关联分析
查看可视化分析代码
(1)地区销售情况对比
如图,包含总销售额、订单平均销售额和订单量三个维度的数据,点击图例可切换。其中总销售额和订单量最高的是江苏、山东、河南、辽宁几个省份,其次是河北、四川和广东。观察订单均价数据可以看到,对总销售额贡献较大的地区,订单均价都偏低。可以进一步分析的问题主要有:
- 当前商品售价是否处于最佳水平?偏离多少?
- 是否可以通过调整商品价格、开发的新的 SKU 以提高订单量和销售额?
- 相应地区的消费潜力是否充分挖掘?
- 是否可以策划营销活动、定向宣传,提高相应地区的销量?
- …
另外注意到西藏自治区的订单均价偏高,是由于样本数量太小产生的误差,不作考虑。
》查看交互式网页
(2)用户下单行为分析
如图,左右分别为 0-12 和 12-24 小时中的下单数量分布,可以直观地看到有较高的集中趋势。根据此行为习惯,可以在对应时段提高商品 pv,增加客服销售人员支持,促进用户下单和提高转化率,以提高销售业绩。
》查看交互式网页
(3)单日销量异常检测
如图(上),为每日订单量折线图及其移动窗口平均,条形图为两者之差。通过平滑处理后可以看到整体呈平稳波动趋势。图(左下)为残差的频数密度分布,对比通过矩估计得到的总体正态分布(假设为正态总体)密度曲线。可以看到基本拟合正态分布,但存在异常值,图(右下)为 Q-Q 图,同样显示类似情况。
进一步分析残差条形图,发现每周末为一个谷值。04-05 ~ 04-09 出现一个异常的谷值,经查询时值清明假期。因此订单量的波动属于正常的节假日波动,业务水平呈总体平稳趋势。
(4)员工销售情况分析
如图,为不同员工的销售额和订单量,大体上处于一致的水平。其中 L、M、N 三个员工业绩明显偏低,经查询是由于在岗时间导致,并无异常。
进一步进行切片分析,如下图,可以看到每个员工不同渠道和不同产品的销量分布也大体一致。
》查看交互式网页
(5)渠道与 SKU 关联分析
如图为总样本不同渠道和不同 SKU 的销售额,趋势过于集中,容易因为某个渠道或某个产品的问题引起销售额较大的波动。因此适宜在巩固现有主力的前提下,开发和强化助力的渠道和产品。
进一步分析,下图分别为总样本的订单量分布和对两个维度切片的订单量分布(取前五名类别进行切片)。通过两个维度切片进行关联分析,可以看到产品C与客服转接渠道、产品E与百度信息流渠道有明显对应关系(不同于总样本和其他切片)。因此可以进一步研究其特点,结合地区销售情况,用户行为习惯等分析,推出营销活动,作为提高销售业绩的突破口。
四、使用 Quick BI 创建可视化仪表板
最后探索性地使用一下阿里云提供的 Quick BI,与 PowerBI、Tableau 等工具类似,通过面板进行拖拽选项设置等操作,无代码完成可视化过程。对于常规的可视化图形,可以快速实现,并且风格自适应,省去很多调整操作。但是对于复杂的高度定制化的图表,操作难度过大,文档也不够完备便捷,还是代码工具更加好用。以下为简单的示例:
》 查看交互式网页
END