利用python爬取甲骨文图片及其对应的汉字含义,共1062个甲骨文,百度云下载

news/2025/1/1 22:21:49/

由于对古典文化较感兴趣,因此爬取甲骨文图片,及其对应的中文含义,因为网页是分目录的,因此分目录爬取。

数据来源网址:
http://www.9610.com/jiagu/bian/index.htm,
在这里插入图片描述
爬取所用代码:

import urllib.request
import re
import os
import urllibdef get_html(url):page = urllib.request.urlopen(url)html_a = page.read()print(html_a.decode('gbk'))return html_a.decode('gbk')def get_img(html):reg = r'\b\d+\b.jpg'reg1=r'<IMG[^>]*>(.*)</TD>'imgre = re.compile(reg)  # 转换成一个正则对象imglist = imgre.findall(html)  # 表示在整个网页过滤出所有图片的地址,放在imgList中imgre1 = re.compile(reg1)  # 转换成一个正则对象imglist1 = imgre1.findall(html)  # 表示在整个网页过滤出所有图片的地址,放在imgList中print(imglist)print(imglist1)x = 0        # 声明一个变量赋值path = 'E:\\lianxi\\mypic\\y_z'  # 设置图片的保存地址if not os.path.isdir(path):os.makedirs(path)  # 判断没有此路径则创建paths = path + '\\'  # 保存在test路径下for imgurl in imglist:urllib.request.urlretrieve("http://www.9610.com/jiagu/bian/"+imgurl, '{0}{1}.jpg'.format(paths, str(x)+imglist1[x]))  # 打开imgList,下载图片到本地x = x + 1print('图片开始下载,注意查看文件夹')return imglisthtml_b = get_html("http://www.9610.com/jiagu/bian/yz.htm#y")  # 获取该网页的详细信息
print(get_img(html_b))  # 从网页源代码中分析下载保存图片

爬取结果如下:
在这里插入图片描述

所有结果打包下载地址:
链接:https://pan.baidu.com/s/1IZR9tKkESY6vNbEzrbHRRQ
提取码:1tj9

欢迎下载使用,可在自建网站中作为素材使用…


http://www.ppmy.cn/news/814734.html

相关文章

用计算机研究甲骨文,基于图像识别技术的甲骨文数据系统

基于图像识别技术的甲骨文数据系统 作者:白钰卓 计算机系 指导老师:刘知远 计算机系 关键词:甲骨文 数据库 图像识别 摘要 本项目致力于使用计算机技术构建甲骨文数据库与甲骨文单字识别系统,并通过公开数据平台向社会共享项目成果。首先,我们通过对现有甲骨文资料进行处理…

甲骨文要回收闲置实例,如何应对

怎么办呢&#xff1f; 方法1&#xff0c;大家推荐的脚本https://github.com/layou233/NeverIdle 或者直接执行&#xff1a; bash <(curl -s -L https://gist.githubusercontent.com/Ansen/e45320205faf5786d3282ac880f20bab/raw/onekey-NeverIdle.sh) #!/bin/bash# Run 4 pa…

基于Javaweb实现ATM机系统开发实战(四)用户修改删除功能实现

我们点一下修改&#xff0c;发现页面进行了跳转&#xff0c;跳转到了/toUpdate&#xff0c;并传递了用户的卡号。 我们可以先查看一下用户列表展示界面的前端代码&#xff1a;userlist.jsp&#xff0c;可以看到前端代码中做了跳转的动作&#xff0c;我们需要在后端中完成相应的…

前端打印复选框的打勾时问题求教

我现在前端用vue写了一个固定的表格&#xff0c;其中有不少复选框是根据数据库中数据默认打勾的&#xff0c;现在需求是打印出的表格也是前端展现的样子&#xff08;即复选框保留其有没有打勾&#xff09;&#xff0c;而且最好打印的是word格式&#xff0c;网上也没查到相关的资…

poi在word输出复选框windows远程突然不能复制的解决方法

在word编辑写个变量ACCOUNTINGMETHOD1&#xff0c;然后用WordReplaceUtil.getCTSym(“Wingdings 2”, “F052”)去替换就是打勾的复选框 busRecord.put(“ACCOUNTINGMETHOD1”, WordReplaceUtil.getCTSym(“Wingdings 2”, “F052”)); 没打勾的复选框 busRecord.put(“ACCOU…

如何在word文档里复选框里打勾?

1、画个文本框&#xff0c;文本框里写一个钩&#xff0c;然后拖过去&#xff1b;或者先在WORD里插入符号"√"&#xff0c;然后选中"√"&#xff0c;到-》格式-》中文版式-》带圈字符-》选"□". 2、新建 》》模板 》》-专业型传真 》》里面有框&…

Office Word 2010 2013 插入复选框 方框打勾 对号

O ffice 2010 word文档&#xff0c;插入复选框&#xff0c;方框打勾&#xff08;打对号&#xff09;的方法&#xff1a; 方法一&#xff1a;复选框 1.首先把[开发工具]栏调出来&#xff1a;文件--选项--自定义功能区---勾选[开发工具]&#xff1a; 2.切换到[开发工具]选项卡〉点…

在word “打钩” √

word文档上打勾&#xff08;√&#xff09;的方法&#xff1a; 直接输入打钩号√&#xff1a; 我们可以利用输入法&#xff0c;直接在word里面输入“√”&#xff0c;将鼠标光标放在需要输入“√”的地方->在键盘上输入“gou”或“dui”->选择“√”即可。我用的是搜狗输…