阿九的python 爬虫进阶课18.3 学习笔记

embedded/2025/1/23 22:52:17/

文章目录

  • 前言
  • 1. 爬取大标题
  • 2. 爬取小标题
  • 3. 证券栏下的标题
  • 4. 某篇文章里的具体内容

前言

  • 网课链接:https://www.bilibili.com/video/BV1kV4y1576b/
  • 新浪财经网址:https://finance.sina.com.cn/
  • 需先下载库:
python">conda install lxml
  • 布置爬取的一些配置代码
python">import requests
from bs4 import BeautifulSoup
html = requests.get('https://finance.sina.com.cn/')
html.encoding = 'utf-8'
soup = BeautifulSoup(html.text, 'lxml')

1. 爬取大标题

在这里插入图片描述

python">## 大标题
bigTitle = soup.select("#blk_hdline_01 h3 a")
for bg in bigTitle:print("大标题:", bg.text)print("链接:", bg.get('href'))
print("-"*60)

结果:
在这里插入图片描述

2. 爬取小标题

在这里插入图片描述

python">## 小标题
smallTitle = soup.select("#blk_hdline_01 p a")
for st in smallTitle:print("小标题:", st.text)print("链接:", st.get('href'))
print("-"*60)

结果:
在这里插入图片描述

3. 证券栏下的标题

“F12” 后通过其中的“class”获得途径(遇到空格就转化为“.”)
在这里插入图片描述

python">## 证券
zq = soup.select(".m-p1-mb2-list.m-list-container ul li a")
for z in zq:print("证券标题:", z.text)print("链接:", z['href'])
print("-"*60)

结果:
在这里插入图片描述

4. 某篇文章里的具体内容

id是绝对的,但是class可能会有重复。

python">## 证券
zq = soup.select(".m-p1-mb2-list.m-list-container ul li a")
for z in zq:print("证券标题:", z.text)print("链接:", z['href'])# 进入连接爬取文本内容innerHtml = requests.get(z['href'])innerHtml.encoding = 'utf-8'soup2 = BeautifulSoup(innerHtml.text, 'lxml')articles = soup2.select("div .article p")str = ""for article in articles:str += article.textprint(str)print("-"*30)

结果:
在这里插入图片描述


http://www.ppmy.cn/embedded/156418.html

相关文章

simulink入门学习01

文章目录 1.基本学习方法2.图形环境--模块和参数3.激活菜单---添加到模型3.1输入选项3.2添加到模型3.3更改运算3.4验证要求 4.乘以特定值--Gain模块4.1引入gain模块4.2更改增益参数4.3接入系统4.4大胆尝试 1.基本学习方法 今天突然想要学习这个simulink的相关知识,…

已知域名如何知道网站的ip

已知域名获取网站IP的方法如下: 1. 使用 ping 命令 Windows: 打开命令提示符,输入 ping example.com,查看返回的IP地址。macOS/Linux: 打开终端,输入 ping example.com,查看返回的IP地址。 2. 使用 nslookup 命令 …

从零创建一个 Django 项目

1. 准备环境 在开始之前,确保你的开发环境满足以下要求: 安装了 Python (推荐 3.8 或更高版本)。安装 pip 包管理工具。如果要使用 MySQL 或 PostgreSQL,确保对应的数据库已安装。 创建虚拟环境 在项目目录中创建并激活虚拟环境&#xff…

有哪些好用的大屏设计器项目

目录 商用 开源 data-v DataEase GoView DataRoom 这2年公司的大屏项目比较多,计划后续开发一套大屏设计器项目,调研下都有哪些商用和开源的大屏设计器。 商用 积木报表中关于大屏设计器的内容(jeecg):JeecgBoot 文档中心阿里云(DataV)文档链接DataV数据可视化(Da…

大数据学习(36)- Hive和YARN

&&大数据学习&& 🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言📝支持一下博主哦&#x1f91…

Flink Gauss CDC:深度剖析存量与增量同步的创新设计

目录 设计思路 1.为什么不直接用FlinkCDC要重写Flink Gauss CDC 2.存量同步的逻辑是什么 2.1、单主键的切片策略是什么 2.2、​​​​​复合主键作切片,怎么保证扫描到所有的数据 3、增量同步的逻辑是什么 4、存量同步结束之后如何无缝衔接增量同步 5、下游数据如何落…

《鸿蒙Next原生应用的独特用户体验之旅》

界面设计与交互方面 简洁性与一致性:iOS界面以简洁统一著称,而鸿蒙Next的界面设计同样主打简洁,各部件采用悬浮效果,营造出空间感,如天气App的展示更加逼真。安卓系统由于不同厂商的定制化程度较高,导致用户…

Apache Hive3定位表并更改其位置

Apache Hive3表 1、Apache Hive3表概述2、Hive3表存储格式3、Hive3事务表4、Hive3外部表5、定位Hive3表并更改位置6、使用点表示法引用表7、理解CREATE TABLE行为 1、Apache Hive3表概述 Apache Hive3表类型的定义和表类型与ACID属性的关系图使得Hive表变得清晰。表的位置取决于…