零代码编程:用ChatGPT批量自动下载archive.org上的音频书

news/2024/12/22 14:33:46/

http://archive.org 是一个神奇的网站,可以下载各种古旧的软件、书籍、音频、视频,还可以搜索各个网站的历史网页。

比如说,一些儿童故事音频就可以在http://archive.org下载到,可以用来做英语听力启蒙用。

举个例子,要下载https://archive.org/details/107frogandtoadallyear_202004这个网页上的所有音频内容,该怎么办呢?

右击,检查网页,点击网络,然后选择媒体,然后可以看到正在播放的音频文件,右击复制链接,如下:

https://archive.org/details/107frogandtoadallyear_202004/2-12+Alone.mp3

查看网页源代码,搜索某一个音频文件标题:Alone.mp3

找到了音频文件的地址:

<button type="button" data-event-click-tracking="TrackList|Item" class="track selected" data-track-number="21">

<!--?lit$3345567357$--><span class="track-number"><!--?lit$3345567357$-->22</span>

<span class="track-title"><!--?lit$3345567357$-->2-12 Alone

<!--?lit$3345567357$-->

</span>

<span class="track-length">

<!--?lit$3345567357$-->

<!--?lit$3345567357$-->05:10

</span>

</button>

接下来就好办了,在ChatGPT中输入提示词:

你是一个Python编程专家,现在要完成一个下载网页中音频的任务,具体步骤如下:

打开网站:https://archive.org/details/107frogandtoadallyear_202004

解析源代码,找出所有itemprop="hasPart"的div元素,定位其中itemprop="associatedMedia" 的link元素;

提取link元素的href值,作为音频下载的URL地址;

多线程下载这个音频文件,保存到电脑D盘的文件夹:Frog and Toad Audio Collection

注意:每一步都要输出信息

要有反爬虫措施,比如下载一个音频文件后暂停3秒;

音频下载的Python源代码:

import requests

from bs4 import BeautifulSoup

import os

import time

import threading

class Downloader(threading.Thread):

def __init__(self, url, path):

threading.Thread.__init__(self)

self.url = url

self.path = path

def run(self):

print(f'Starting download {self.path}')

r = requests.get(self.url, stream=True)

with open(self.path, 'wb') as f:

for chunk in r.iter_content(chunk_size=1024):

if chunk:

f.write(chunk)

print(f'Finished download {self.path}')

time.sleep(3) # pause for 3 seconds

def get_audio_links(url):

r = requests.get(url)

soup = BeautifulSoup(r.text, 'html.parser')

audio_links = []

for div in soup.find_all('div', itemprop='hasPart'):

link = div.find('link', itemprop='associatedMedia')

if link:

audio_links.append(link['href'])

return audio_links

def download_audios(url, directory):

if not os.path.exists(directory):

os.makedirs(directory)

audio_links = get_audio_links(url)

downloaders = []

for i, audio_link in enumerate(audio_links):

path = os.path.join(directory, f'audio{i}.mp3')

downloader = Downloader(audio_link, path)

downloader.start()

downloaders.append(downloader)

for downloader in downloaders:

downloader.join()

url = 'https://archive.org/details/107frogandtoadallyear_202004'

directory = 'D:\\Frog and Toad Audio Collection'

download_audios(url, directory)

程序运行,很快就把网页中的音频下载完了。


http://www.ppmy.cn/news/1130350.html

相关文章

[杂谈]-ESP32中的无线通信协议

ESP32中的无线通信协议 文章目录 ESP32中的无线通信协议1、ESP32 无线通信协议简介2、Bluetooth Low Energy (BLE)3、**Bluetooth Classic**4、**ESP-NOW**5、Wi-Fi&#xff08;客户端-服务器通信协议&#xff09;6、MQTT7、**LoRa**8、**GSM/GPRS/LTE**9、总结 ESP32是一个基于…

ChatGPT,AIGC 助力人力资源管理对身份证号处理

HR&#xff0c;行政&#xff0c;文员办公对于员工信息管理中有一项目非常重要的操作&#xff0c;便是从身份证号中提取相关信息如下&#xff1a; 可以用ChatGPT完成三个字段的提取与计算。 我们先让ChatGPT描述一下身份证号每一位都代表什么意思。 接下来从身份证号中提取出生…

运行软件mfc100u.dll缺失是怎么办?mfc100u.dll丢失解决方法分享

Mfc100u.dll 丢失的问题可能困扰着许多使用计算机的用户。Mfc100u.dll 是一个重要的动态链接库文件&#xff0c;它包含了许多功能模块&#xff0c;如字符串处理、数学计算、文件操作等。当 Mfc100u.dll 文件丢失或损坏时&#xff0c;可能会导致许多应用程序无法正常运行&#x…

算法练习5——多数元素

LeetCode 多数元素 给定一个大小为 n 的数组 nums &#xff0c;返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的&#xff0c;并且给定的数组总是存在多数元素。 蛮力法 双重循环&#xff0c;不过会超时 class Solution:de…

多线程 dispatch

51423 https://blog.csdn.net/yanhaijunyan/article/details/115083522

VisualStudio配置OpenCV环境

VS2022配置OpenCV环境 记录一下Windows上VS配置OpenCV环境的过程。&#xff08;VS2022 OpenCV4.8&#xff09; 一、下载OpenCV 从官网或者镜像网站下载Windows版OpenCV。4.8版本的文件为opencv-4.8.0-windows.exe 双击解压到自定义目录&#xff0c;我这边是&#xff1a;E:…

系统集成|第二十章(笔记)

目录 第二十章 收尾管理20.1 项目验收20.2 项目总结20.3 系统维护20.4 项目后评价20.5 扩展 上篇&#xff1a;第十九章、风险管理 下篇&#xff1a;第二十一章、知识产权与法律法规 第二十章 收尾管理 项目收尾管理是系统集成项目管理中一个特殊的阶段&#xff0c;容易收到多方…

ubuntu下源码编译方式安装opencv

基础条件 ubuntu 20.04 opencv 3.4.3 opencv 源码编译的安装步骤 第一步&#xff0c; 首先clone源码 git clone https://github.com/opencv/opencv.git第二步&#xff0c;依赖包&#xff0c;执行下面的命令 sudo apt-get install build-essential sudo apt-get install cmak…