怎么用python电商文本挖掘?(4)

news/2024/12/2 10:18:37/

以驱虫市场数据为例,挖掘某店铺新的业务方向和市场增长点。
联系微信wusheng9922
接上一节(3) 接下来看市场的竞争情况分析。

10.竞争分析

导入数据

os.chdir('..')
os.chdir('./竞争数据')

10.1品类分布分析

导入数据 洗数据

os.chdir('./商品销售数据')
filenames2 = glob.glob('*.xlsx')
filenames2
df3 = pd.read_excel(filenames2[1])
df3.head(1)
def load_xlsx1(filename):df = pd.read_excel(filename)useless = ['序号','店铺名称','主图链接','商品链接','商品名称']df.drop(columns=useless,inplace=True)return df
df3bai = load_xlsx1(filenames2[1])
df3bai.head()
df3an = load_xlsx1(filenames2[0])
df3an.head()
df3kl = load_xlsx1(filenames2[2])
df3kl.head()

洗完后 我们得到三家公司的可用于分析的数据如下
在这里插入图片描述
三家公司的类目分组,查看三家公司 他们都有什么产品类目 和对应销量如何:
在这里插入图片描述
在这里插入图片描述
同样的方法对适用对象 分组来看 各家公司 的业务领域:

bai32 = df3bai.groupby('使用对象').sum()
bai32
an32 = df3an.groupby('适用对象').sum()
an32
kl32 = df3kl.groupby('适用对象').sum()
kl32
fig, axes = plt.subplots(1, 3, figsize=(10, 6))
ax = axes[0]
bai32['销售额'].plot.pie(autopct='%.f',title='拜耳',startangle=30,ax=ax)
ax.set_ylabel('')
ax = axes[1]
an32['30天销售额'].plot.pie(autopct='%.f',title='安速',startangle=60,ax=ax)
ax.set_ylabel('')
ax = axes[2]
kl32['30天销售额'].plot.pie(autopct='%.f',title='科凌虫控',startangle=90,ax=ax)
ax.set_ylabel('')
plt.show()

在这里插入图片描述

10.2产品结构分析

导入数据

os.chdir('..')
os.chdir('./商品交易数据')
filenames3 = glob.glob('*.xlsx')
filenames3
df4bai = pd.read_excel(filenames3[1])
df4bai.head()
df4bai.info()
df4bai['商品'].value_counts().count()
def byproduct(df):dfb = df.groupby('商品').mean().loc[:,['交易增长幅度']]dfb['交易金额'] = df.groupby('商品').sum()['交易金额']dfb['交易金额占比'] = dfb['交易金额']/dfb['交易金额'].sum()dfb['商品个数'] = df.groupby('商品').count()['交易金额']dfb.reset_index(inplace=True)return dfb
bai4 = byproduct(df4bai)
bai4.head(5)
bai4.describe()

盖帽法处理 异常数据 方便做图

def block(x):qu = x.quantile(.9)out = x.mask(x>qu,qu)return(out)
def block2(df):df1 = df.copy()df1['交易增长幅度'] = block(df1['交易增长幅度'])df1['交易金额占比'] = block(df1['交易金额占比'])return df1
bai41 = block2(bai4)
bai41.describe()

定义函数做图

def plotBOG(df,mean=False,q1=0.5,q2=0.5):f, ax = plt.subplots(figsize=(10, 8))ax = sns.scatterplot('交易金额占比','交易增长幅度',hue='商品个数',size='商品个数',sizes=(20,200),palette = 'cool',legend='full',data=df)for i in range(0,len(df)):ax.text(df['交易金额占比'][i]+0.001,df['交易增长幅度'][i],i)if mean:plt.axvline(df['交易金额占比'].mean())plt.axhline(df['交易增长幅度'].mean())else:plt.axvline(df['交易金额占比'].quantile(q1))plt.axhline(df['交易增长幅度'].quantile(q2))plt.show()plotBOG(bai41,mean=True)plotBOG(bai41)

在这里插入图片描述
在这里插入图片描述
在产品波士顿矩阵中,提取问题、奶牛、明星产品,看下都有哪些:

def extractBOG(df,q1=0.5,q2=0.5,by='交易金额占比'):# 明星产品star = df.loc[(df['交易金额占比']>=df['交易金额占比'].quantile(q1)) & (df['交易增长幅度']>=df['交易增长幅度'].quantile(q2)),:]star = star.sort_values(by,ascending=False)# 奶牛产品cow = df.loc[(df['交易金额占比']>=df['交易金额占比'].quantile(q1)) & (df['交易增长幅度']<df['交易增长幅度'].quantile(q2)),:]cow = cow.sort_values(by,ascending=False)# 问题产品que = df.loc[(df['交易金额占比']<df['交易金额占比'].quantile(q1)) & (df['交易增长幅度']>=df['交易增长幅度'].quantile(q2)),:]que = que.sort_values(by,ascending=False)return star,cow,que
baistar,baicow,baique = extractBOG(bai4)
baistar1,baicow1,baique1 = extractBOG(bai4,by='交易增长幅度')

明星产品
在这里插入图片描述
奶牛产品在这里插入图片描述
问题产品
在这里插入图片描述
同样的方法找到 an kl 这两家公司的 波士顿产品矩阵:
在这里插入图片描述
an 的明星产品
在这里插入图片描述
an 的奶牛产品
在这里插入图片描述
an的问题产品
在这里插入图片描述
kl 波士顿矩阵
在这里插入图片描述
kl 明星产品
在这里插入图片描述
kl奶牛产品
在这里插入图片描述
kl问题产品

在这里插入图片描述
对比三家综合分析:根据自身业务 给出分析。

10.2流量结构分析

os.chdir('..')
os.chdir('./流量渠道数据')
filenames4 = glob.glob('*.xlsx')
filenames4
df5bai = pd.read_excel(filenames4[1])
df5bai.head()

拿到三家的前十名的流量数据:

def flow(df):df0 = df.copy()top10 = df0.sort_values('交易指数',ascending=False).reset_index(drop=True).iloc[:10,:]top10['交易指数占比'] = top10['交易指数']/top10['交易指数'].sum()top10.set_index('流量来源',inplace=True)paid =  ['付费流量','直通车','淘宝客','淘宝联盟']ind = np.any([top10.index == i for i in paid],axis=0)explode = ind*0.1ax = top10['交易指数占比'].plot.pie(autopct='%.1f%%',figsize=(8,8),colormap='cool',explode=explode)ax.set_ylabel('')plt.show()paidsum = top10['交易指数占比'][ind].sum()salesum = top10['交易指数'].sum()paidsale = salesum * paidsumprint(f'前10流量中:总交易指数:{salesum:.0f};付费流量占比:{paidsum*100:.2f}%;付费流量带来交易指数:{paidsale:.0f}')return top10
bai5top10 = flow(df5bai)

在这里插入图片描述

df5an = pd.read_excel(filenames4[0])
df5an.head()
an5top10 = flow(df5an)

在这里插入图片描述

df5kl = pd.read_excel(filenames4[2])
df5kl.head()
kl5top10 = flow(df5kl)

在这里插入图片描述


http://www.ppmy.cn/news/220188.html

相关文章

ds案例

市场规模 市场容量分析是对行业规模的分析判断 import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") 导入数据 path1 驱虫剂市场/ #电蚊香套装市场近三年交易额 dwxpd.read_excel(path1电蚊香套装市场近三年交易额.xl…

制氧机企业及注册证

制氧机生产国内企业接近两百家&#xff0c;国家药监局数据显示&#xff0c;国产医用制氧机共有184个品种&#xff0c;目前我国制氧机行业相关代表企业主要有鱼跃、心诺、凯亚、欧姆龙、可孚等。 医用制氧机主要生产企业及注册文号 医用制氧机 贵州华烽医疗器械有限公司 黔械…

数据分析报告流程展现

驱虫市场潜力分析 import glob import os import pandas as pd import re import numpy as np import datetime as dt from sklearn.linear_model import LinearRegression import seaborn as sns from matplotlib import pyplot as plt import jieba import jieba.analyse im…

会Python的淘宝商家可以横扫一切竞争对手,这就是会技术的魅力!(下)

这篇上上篇的续集。上篇主要从宏观市场及微观市场两个方面深入分析拜耳产品销售数据。本篇中将继续从微观市场方面&#xff0c;从产品结构、产品舆情及产品流量三个方面深入探讨拜耳产品的竞品分析。 电商分析基础知识 电子商务和传统零售数据分析的区别 传统零售是利用二八法则…

淘宝/天猫API:item_search_jupage-天天特价

万邦淘宝/天猫天天特价 API 返回值说明 item_search_jupage-天天特价 onebound.taobao.item_search_jupage 公共参数 请求地址: https://console.open.onebound.cn/console/?ipony 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;se…

超详细案例讲解如何寻求产品的市场增长点?【线性回归数据可视化】

大家早上好&#xff0c;本人姓吴&#xff0c;如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界&#xff0c;一起学习&#xff01; 感兴趣的朋友可以关注我或者我的数据分析专栏&#xff0c;里面有许多优质的文章跟大家分享哦。 如果你是一名数据…

会Python的淘宝商家可以横扫一切竞争对手,这就是会技术的魅力!(上)

前言 我虽然没做过电商&#xff0c;但是我买过他们的东西啊&#xff0c;所以就如淘宝上买的卖家&#xff0c;不管什么商品&#xff0c;卖家都是非常多&#xff0c;今天就教大家电商数据分析&#xff0c;如何找准自己商品的增长点才是最重要的&#xff01; 先看下整体的一个步骤…

电商寻求市场增长点

项目背景&产品架构 客户需求&#xff1a;拜耳官方旗舰店寻求市场增长点产品架构&#xff1a; 数据说明 “驱虫剂市场”文件 子文件&#xff1a;top100品牌数据、灭鼠杀虫剂、电蚊香套装、盘香灭蟑香蚊香盘、蚊香加热器、蚊香液、蚊香片、防霉防蛀片 灭鼠杀虫剂细分市场…