python爬虫实战——今日头条新闻数据获取

news/2024/12/2 20:56:17/

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

如果有什么疑惑/资料需要的可以点击文章末尾名片领取源码

第三方库:

  • requests >>> pip install requests

第三方模块安装:

win + R 输入cmd 输入安装命令 pip install 模块名

(如果你觉得安装速度比较慢, 你可以切换国内镜像源)

开发环境:

  • python 3.8

  • pycharm 专业版

案例步骤:

一. 思路分析

  • 找到数据来源地址

    文章标题 文章发布时间 文章内容

  • 在列表页当中获取详情页的链接

  • 访问详情页链接 拿到 需要的数据

二. 代码实现

  1. 访问列表页链接

本案例视频教程/源码可+V:qian97378,还可获取:

  • python安装包 安装教程视频

  • pycharm 社区版 专业版 及 激活码免费

代码展示

'''
python资料获取看这里噢!! 小编 V:qian97378,即可获取:
文章源码/教程/资料/解答等福利,还有不错的视频学习教程和PDF电子书!
'''
import requests
from selenium import webdriver
from selenium.webdriver.common.by import Bydriver = webdriver.Chrome()
headers = {'Referer': 'https://***屏蔽,不然发不出***/?wid=1697699263232','cookie': 'ttcid=92ece02000f2467c8199a042d1a7783d39; csrftoken=ae047567561c48e5dd9e2fc0b22ea545; tt_anti_token=04f1H0rq1BU-9b92ba89f64e967f88b554f9888051221bf2afb87f2d4944350b78b2a42969f6; tt_webid=7194689479734134327; local_city_cache=%E9%95%BF%E6%B2%99; _ga=GA1.1.1774896154.1697699265; s_v_web_id=verify_lnwub4sw_omFJ90tA_qOum_4AzC_8f7f_zAvYWn8bjFbi; _S_WIN_WH=1611_817; _S_DPR=1; _S_IPAD=0; msToken=tlOZw3Cf8-FurmSOujuTolA64e0t8pvjXe0ZvtWz8xZnlufMZEA3jAuXwmeVMujIh2nnkoNEDndXJc83JtWJctnhGizVqudQLY9hhrJd; _ga_QEHZPBE5HH=GS1.1.1697699264.1.1.1697700966.0.0.0; tt_scid=rI2Aqe4745U2cQcnyiJFQquxaMuGqBEeR849tR2hG41-cApqsmw2F3uBx7Fjtl0f72db; ttwid=1%7CiWx9zpr2eLSL5pxwfW7PdpTasAnL2Tszm5jFlS0A_ac%7C1697700966%7C075ec2a1c6ec5be355f2cdf0f5bbb1d33c2a2ed36743aebea5dc2609b1e73a79','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36'
}
url = 'https://***屏蔽,不然发不出***/api/pc/list/feed?channel_id=0&max_behot_time=1697699614&offset=0&category=pc_profile_recommend&aid=24&app_name=toutiao_web&_signature=_02B4Z6wo00101.CXQxAAAIDCk52Derk.V6Pws0eAAJkeQEsbY9XZOs-9WUI.4KOjzx5RWdVK7Uc6XjjHHZwZUf3MSEY9lGtY1O7hGUt4Ji3bXrDCOlnlmIYTKDhUlOIpPF0OjwF4K22oKIrMe2'
# 1. 访问列表页链接
response = requests.get(url=url, headers=headers)
# 2. 提取数据
json_data = response.json() # 拿到所有的数据
# 将这个数据里面的 详情页链接 标题 拿到
data_list = json_data['data']
for data in data_list:detail_url = data['url']print(detail_url)title = data['title']driver.get(detail_url)driver.implicitly_wait(2)create_time = driver.find_element(By.XPATH, '//div[@class="article-meta"]').textcontent = driver.find_element(By.XPATH, '//article').get_attribute("outerHTML")print(title, create_time, content)

尾语

好了,今天的分享就差不多到这里了!

对下一篇大家想看什么,可在评论区留言哦!看到我会更新哒(ง •_•)ง

喜欢就关注一下博主,或点赞收藏评论一下我的文章叭!!!

最后,宣传一下呀~👇👇👇 更多源码、资料、素材、解答、交流 皆点击下方名片获取呀👇👇👇


http://www.ppmy.cn/news/1196667.html

相关文章

vSLAM中IMU预积分的作用--以惯性导航的角度分析

作为一个学过一点惯导的工程师,在初次接触视觉slam方向时,最感兴趣的就是IMU预积分了。但为什么要用这个预积分,在看了很多材料和书后,还是感觉模模糊糊,云里雾里。 在接触了vSLAM的更多内容后,站在历史研究…

Go基础——接口、并发

1、接口 Go 语言提供了另外一种数据类型即接口,它把所有的具有共性的方法定义在一起,任何其他类型只要实现了这些方法就是实现了这个接口。接口可以让不同的类型绑定到一组公共的方法上,从而实现多态和灵活的设计。Go 语言中的接口是隐式实现…

xilinx fpga ddr mig axi

硬件 参考: https://zhuanlan.zhihu.com/p/97491454 https://blog.csdn.net/qq_22222449/article/details/106492469 https://zhuanlan.zhihu.com/p/26327347 https://zhuanlan.zhihu.com/p/582524766 包括野火、正点原子的资料 一片内存是 1Gbit 128MByte 16bit …

学习 Python 数据可视化,如何快速入门?

Python 是一种非常流行的编程语言,具有简单易学、高效、丰富的库和工具等特点。其中,数据可视化是 Python 的一个重要应用领域,可以帮助人们更好地理解和分析数据。本文将介绍如何快速入门 Python 数据可视化,以及常用的可视化工具…

【WPF系列】- XAML语法规范

【WPF系列】- XAML语法规范 文章目录 【WPF系列】- XAML语法规范一、概述二、对象元素语法三、特性语法(属性)四、特性值的处理五、枚举特性值六、属性和事件成员名称引用七、属性元素语法八、集合语法九、XAML 内容属性XAML 内容属性值必须是连续的 十、…

Linux 之搭建 arm 的 qemu 模拟器

目录 1. Linux 之搭建 arm 的 qemu 模拟器 1. Linux 之搭建 arm 的 qemu 模拟器 OS: kali 1. 安装交叉编译工具、GDB 和 QEMU # sudo apt-get install qemu debootstrap qemu-user-static # sudo apt-get install qemu-system-arm # sudo apt-get install gdb-multiarch //支持…

ONES Design UI 组件库环境搭建

这个 ONES Design UI 组件库 是基于 Ant Design 的 React UI 组件库,主要用于企业级研发管理工具的研发。 首先用 React 的脚手架搭建一个项目: npx create-react-app my-app cd my-app目前 ONES Design UI 组件库 托管在 ONES 私有的 npm 仓库上, 因此…

jvm实践

说一下JVM中的分代回收 堆的区域划分 1.堆被分为了两份:新生代和老年代[1:2] 2.对于新生代,内部又被分为了三个区域。Eden区,幸存者区survivor(分成from和to)[8:1:1] 对象回收分代回收策略 1.新创建的对象,都会先分配到eden区 2.当伊园内存…