不用写代码,批量下载今日头条文章导出excel和pdf

devtools/2025/3/4 20:28:57/

前几天有人问我怎么批量抓取今日头条某个号的所有文章数据,需要文章链接,标题和时间,但是不会写代码,于是我写了个简单的教程

图片

这里以渤海小吏为例 

图片

首先用edge浏览器安装web-scraper浏览器扩展

图片

然后打开浏览器控制台,找到web-scraper, import sitemap,复制以下代码:

 

图片

点击scrape开始抓取 。

图片

导出excel效果如图,包含文章链接,文章标题,文章阅读数,文章评论数,文章发布时间,效果见网盘 https://pan.quark.cn/s/949ca3387267

图片

如果要抓取其他号的文章,修改edit metadata里的链接,你学会了吗?

图片

后续可以将所有文章下载合并成一个pdf文件,大小97MB,左侧是文章目录,点击可跳转到对应文章,效果见网盘 https://pan.quark.cn/s/949ca3387267

图片

图片

图片

当然web-scraper也支持抓取其他网站的数据,掌握点网页知识就可以。


http://www.ppmy.cn/devtools/164550.html

相关文章

springboot相关随记-2025

GraalVM Native Support:GraalVM 是一个高性能的多语言运行时,该插件提供对 GraalVM 原生镜像构建的支持 。可以将 Java 应用程序打包成原生可执行文件,脱离 JVM 运行,带来更快的启动时间和更低的内存消耗,适合对性能敏…

神经网络中的Adagrad

Adagrad(Adaptive Gradient)是一种自适应学习率的优化算法,专门设计用于在训练过程中自动调整每个参数的学习率。这种方法对于处理稀疏数据特别有效,并且非常适合那些需要频繁更新但很少使用的参数的学习任务。 ### Adagrad的核心…

【UCB CS 61B SP24】Lecture 19 20: Hashing Hashing II 学习笔记

本文首先介绍了哈希表中的两大关键概念:哈希函数与哈希码,并使用 Java 实现了一个通过链地址法解决哈希冲突的哈希表。 1. 哈希函数与哈希码 1.1 动态多列表实现整数集合 我们在 Lecture 11 中第一次介绍了集合(Set)&#xff0…

arm 内核排序

ARM Cortex内核介绍 Cortex-A系列内核 ARM Cortex-A系列是面向高性能应用的处理器内核,广泛应用于智能手机、平板电脑、嵌入式设备和服务器等领域。以下是部分常见内核的介绍: Cortex-A53 架构:基于ARMv8-A架构,支持32位和64位执…

【Elasticsearch】jvm.options.d JVM(Java虚拟机)选项配置

Elasticsearch的JVM(Java虚拟机)选项配置是优化其性能和稳定性的重要环节。以下是关于如何设置Elasticsearch的JVM选项的详细说明,结合了网页内容和实际操作建议: --- 1.JVM选项文件的使用 Elasticsearch通过JVM选项文件来配置…

【愚公系列】《Python网络爬虫从入门到精通》040-Matplotlib 概述

标题详情作者简介愚公搬代码头衔华为云特约编辑,华为云云享专家,华为开发者专家,华为产品云测专家,CSDN博客专家,CSDN商业化专家,阿里云专家博主,阿里云签约作者,腾讯云优秀博主,腾讯云内容共创官,掘金优秀博主,亚马逊技领云博主,51CTO博客专家等。近期荣誉2022年度…

HTTP/1.0、HTTP/1.1、HTTP/2 核心区别对比

前言 经常开发的小伙伴估计对http都不陌生,下面来看看的之间的区别是啥? 一、连接管理 ‌HTTP/1.0‌ 每个请求需单独建立和关闭 TCP 连接,无法复用,导致高延迟和资源浪费‌。 无状态设计,服务器不记录客户端上下文…

k8s学习记录:环境搭建二(基于Kubeadmin)

一、前言 上一篇文章中我们初始化了K8S所需要的的环境,今天的文章我们将继续完成K8S集群的搭建。 二、安装K8S 1、安装K8S所需要的软件 安装kubelect和kubeadmin,这里我们使用的是1.20.6版本,在三个节点都执行 yum install -y kubelet-1…