【数据采集实操】网页抓取实例之淘宝商品信息抓取||电商API接口数据采集

ops/2024/11/13 3:52:41/

之前我们已经说过网页抓取的相关内容

上次我们是以亚马逊某网页的产品为例

抓取价格、品牌、型号、样式

主流电商API接口数据采集返回商品价格 SKU  数据

图片

该网页上价格、品牌、型号、样式等

都只有一个

如果网页上的目标内容

根据不同规格有多个

又该怎么提取呢?

▼如下图所示

图片

当机身颜色、套餐、存储容量等

规格不同时

对应价格也不同

那该怎么获取不同属性下的价格呢?

图片

同样使用Excel网络函数库

网页抓取公式可以提取

▼提取结果如下:

图片

可以获取不同规格下的

编号、价格和库存

下面以淘宝某商品具体讲解一下

图片

#1

安装插件

安装Excel网络函数库Excel浏览器

图片

安装地址:excelapi.com

#2

抓取Json格式所有数据

将需要提取的商品链接复制到表格中。

▼如下图所示:

图片

在表格内使用公式

=GetTaobaoDataW(Url)可以从指定淘宝商品详情页抓取所有商品数据,数据以Json格式返回。

图片

打开Excel浏览器,启动Excel浏览器网页抓取任务,点击门户网站—设置网页抓取任务—开始,启动网页抓取任务。

图片

在Excel浏览器的任务栏,会显示剩余抓取任务。

图片

当显示“没有找到要处理的请求时”,说明任务已经执行完毕。

图片

打开表格,重新计算工作簿。如果是在WPS表格中,直接点击公式—重算工作簿;如果是在Excel中,可以通过删除空白行/列的方法实现重新计算。

图片

重新计算过后,即可获得如下结果。

图片

#3

将数据转为数据表

在表格内使用公式

=GetJsonSourceToDataTable(Json_string,Property_name)可以将Json数据源中的数组转成数据表。第一个参数表示Json原始数据,第二个参数表示数组属性名称。

图片

然后使用CONCAT函数将多个区域或字符串的文本组合起来,在这里将刚刚转成的数据表组合在一起。

▼操作动图如下:

图片

#4

分类提取数据表的数据

新建一个工作表,在表格第一行备注好要提取的内容,第一列写好序号以便后续操作,如下图所示。

图片

在表格内使用公式

=DataTableParser(IDS,Row,Col)提取数据表中的数据。第一个参数表示数据表id;第二个参数表示行序号,从1开始;第二个参数表示列序号,从1开始。

分别提取商品规格、SKUID、价格和库存量。

▼操作动图如下:

图片

经过上述操作,已经把网页上的信息提取出来了。

图片

为了方便观察,可以将规格中的网络类型、颜色、套餐类型和存储容量分别提取出来,然后再使用筛选功能对商品进行筛选。

使用公式

=Split2Array(Text,[Delimiter],[Column_index])可以将指定文本按分隔符分割数据并返回指定列。第一个参数表示待分割文本;第二个参数表示分割字符,可以是单个字符,也可以是字符串;第三个参数表示列的位置索引。

▼操作动图如下:

图片

进行筛选操作时,如果是Excel,选中第一行,点击排序和筛选—筛选即可;如果是在WPS表格中,直接在开始中点击筛选

图片

图片

完成之后,就可以对各种信息进行筛选了。

▼如下图所示:

图片

好啦

以上就是网页抓取实例之

淘宝数据抓取的全部内容了

你学会了吗?

图片

有需要的小伙伴快去试试吧

过程中遇到任何问题的话

欢迎在下方留言

或者关注

私信小编

图片


http://www.ppmy.cn/ops/24721.html

相关文章

LLMs之MiniCPM:MiniCPM(揭示端侧大语言模型的无限潜力)的简介、安装和使用方法、案例应用之详细攻略

LLMs之MiniCPM:MiniCPM(揭示端侧大语言模型的无限潜力)的简介、安装和使用方法、案例应用之详细攻略 目录 MiniCPM的简介 0、更新日志 1、公开的模型 2、局限性 3、文本模型评测 越级比较: 同级比较: Chat模型比较: DPO后模型比较&am…

Jmeter插件技术:性能测试中服务端资源监控

性能测试过程中我们需要不断的监测服务端资源的使用情况,例如CPU、内存、I/O等。 Jmeter的插件技术可以很好的实时监控到服务器资源的运行情况,并以图形化的方式展示出来,非常方便我们性能测试分析。 操作步骤: 1、安装插件管理…

Swift中的WebView

WebView是Swift中用于显示网页内容的组件,可以将网页嵌入到iOS应用中。WebView可以加载和显示网页、处理用户的交互操作,并提供了一些控制网页内容的方法。 在Swift中使用WebView,首先需要导入WebKit框架: import WebKit然后&am…

社交媒体之谜:深度解析Facebook的内容策略

作为全球最大的社交媒体平台之一,Facebook在内容策略方面一直处于行业的领先地位。其内容策略不仅影响着数十亿用户的信息获取和社交互动,也深刻影响着整个社会的舆论和文化传播。本文将深入探讨Facebook的内容策略,剖析其背后的运作机制和对…

Hadoop伪分布式平台搭建

搭建Hadoop伪分布式环境是在单台机器上模拟完整的Hadoop分布式系统,使得所有的Hadoop守护进程(如NameNode、DataNode、ResourceManager、NodeManager等)都在同一台机器上运行。这样可以在一台机器上体验Hadoop的分布式特性,适合学…

一种利用合法工具渗透的新型方法

摘要 黑客在执行各种攻击步骤时倾向于优先选择合法工具,因为这些工具能帮助他们规避检测系统,同时将恶意软件开发成本降至最低。网络扫描、捕获进程内存转储、数据外泄、远程运行文件,甚至加密驱动器——所有这些都可以通过可信软件完成。为了…

【Python】深入理解Pandas中的连续变量与分类变量以提升模型训练效果

你啊你,是自在如风的少年 飞在天地间,比梦还遥远 你啊你,飞过了流转的时间 归来的时候,是否还有青春的容颜 🎵 好妹妹《你飞到城市另一边》 引言: 在使用Python进行数据科学和机器学…

适配器模式(不同类型的 MQ 消息 首次下单消息)

目录 定义 适配不同类型的 MQ 消息 注册开户MQ 内部订单MQ 第三⽅订单MQ 查询⽤户内部下单数量接⼝ 查询⽤户第三⽅下单⾸单接⼝ MQ消息体适配类 代码实现 测试验证 接⼝使⽤适配 代码实现 分别实现两个不同的接⼝ 内部商品接⼝ 第三⽅商品接⼝ 测试验证 定义 …