前一篇文章 编写http workshop脚本从网站下载音乐 示范了如何使用HttpClient访问API,以及Json数据的解析;
今天我们通过解析一个网页展示如何使用内置的LibXml2的功能解析HTML,提取我们关心的内容。
这里随便搜了2个资源类的网站,竟然使用的格式是一模一样的:
https://www.51miz.com/so-sound/86888.html
https://www.yespik.com/search-sound/86838.html
一、分析页面结构
用浏览器F12,元素选中工具查看一下页面结构;或者保存页面为html,用vscode打开后格式化,
发现页面十分简单,每个资源的页面节点类似如下: