本文纯属虚构,供大家茶余饭后阅读
北京的冬天特别干,睡起来了嘴唇干裂脱皮,很难受,就去淘宝上看看加湿器,真好碰上双十一。
看到琳琅满目的商品,却不知道买哪一个,想想就用Python写个爬虫,把评论抓下来瞧瞧。
淘宝评论是js加载的,找到接口就好,返回json数据,提取出来就好。(来个小广告,如果有对爬虫感兴趣的,不妨来看看 Python爬虫)
然后我就抓到数据了,数据有什么作用呢?
我想了很多,评论情感分析啊、词云啊、购买时间分布啊,其实这些都没什么意义,分析不了真实情况。天猫评论已经取消差评了,只会显示“大家都写到”,其实也就是一些关键词;但是淘宝还保留着好评、总评、差评,但是电器大多还是天猫靠谱。
有意思的是:统计人们的购买次数。
我感到背后一阵凉风,同样的ID,购买次数竟然达到了10几次、20几次。而且出现在不同商品里,这是什么情况?
我把其中一人的评论内容筛选出来
基本上都是好评吧,那么现在基本可以确定为两种情况:
刷单
ID以 t 开通,数字结尾的人非常多
第一种情况很难说,但是第二种情况是存在的,
5-25个字符,推荐使用中文,请勿包含姓名/身份证/银行卡等隐私信息,一旦设置成功无法修改
用户起昵称,可能会以“taobao” 加上数字,这样来说,就是一件很正常的事。如:
taobao1
taobao12
taobao123
taobao1234
taobao12345
那么最后的结论呢?淘宝上刷单太恐怖,建议是购买自己信赖的品牌,淘宝会推荐出这些比较知名的品牌,可以选择这些。
说得好,我选择小米~~yeah