关注微信公众号:八爪鱼大数据(bazhauyudata)
本文介绍使用八爪鱼7.0采集大众点评商家数据的方法(以厦门商家排行为例)
采集网站:
http://www.dianping.com/shoplist/search/15_10_0_score
大众点评:大众点评是中国领先的本地生活信息及交易平台,也是全球最早建立的独立第三方消费点评网站。大众点评不仅为用户提供商户信息、消费点评及消费优惠等信息服务,同时亦提供团购、餐厅预订、外卖及电子会员卡等O2O(Online To Offline)交易服务。
数据说明:大家可能会有采集大众点评数据的需求。以下是一个完整的大众点评数据采集示例。本文采集的是大众点评首页-选择地点为厦门-选择美食分类-选择评价餐厅,采集此类别下的餐厅商家数据。我们发现,此网页是表格类的表现形式。
本文仅为一个示例,大家在实操过程中,可以更换不同分类的URL 和要采集的字段,按需使用八爪鱼进行数据采集。
详细字段说明:排名、商户、商区、口味、环境、服务、人均。
使用功能点:
l Ajax翻页
l 表格内容提取
步骤1:创建采集任务
进入主界面选择,选择自定义模式
将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”
保存网址后,页面将在八爪鱼采集器中打开,红色方框中的表格就是我们要采集的内容,这是一个类似表格结构的列表,可以参考之前的单网页表格信息采集进行任务的编辑
步骤2:创建翻页循环
- 找到翻页按钮,设置翻页循环
- 设置翻页ajax延时时间
将页面下拉到底部,找到下一页按钮,鼠标点击,在右侧操作提示框中,
选择“循环点击下一页”
这个页面使用了ajax加载技术,需要进行下图的操作,设置ajax延时加载
(ajax判断方法:打开流程图,找到翻页循环框,手动执行翻页,看网站有没有进行加载)
在右侧的高级选项框中,勾选Ajax加载数据,选择合适的超时时间,一般设置2秒;最后点击确定
步骤3:商家信息采集
l 选中需要采集的字段信息,创建采集列表
l 编辑采集字段名称
选择表格中两个以上要采集的单元格,步骤如下:移动鼠标选中表格里需要采集
的文本,右键点击,如图所示,商户名这一列的数据会被全部选中;
右键点击第二个文本,如下图
表格中需采集的内容会变成绿色,点击右侧“选中全部”
点击“采集以下数据”
修改采集字段名,并点击下方提示中的“保存并开始采集”
根据采集的需求选择合适的采集方式,这里选择“启动本地采集”
说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。
步骤4:数据采集及导出
采集完成后,会跳出提示,选择导出数据
选择合适的导出方式,将采集好的数据导出