零代码编程:用ChatGPT爬取网页数据遇到乱码怎么办?

news/2024/10/29 1:17:15/

今天用ChatGPT写了一段代码,爬取中文网站数据,提示词如下:

写一段Python程序,爬取网页数据并保存到excel表格。

具体步骤:

打开网站https://www.zhenfund.com/Case/?id=3,解析源代码;

定位 id="ma_3" 的div元素;

定位其中所有的li元素;

定位li元素中的img 元素,提取alt值作为excel表格第1列;

定位li元素中的a元素,提取href值作为excel表格第2列;

保存excel表格到电脑d盘

注意:alt值里面有些是中文字符,可能在保存到excel表格时出现乱码问题。

程序运行很成功,但是结果里面有很多乱码,这些乱码在源代码都是中文。

把这个问题向ChatGPT反馈,尝试了几种方式来修改,都没有作用。

爬取出来的excel文件,用各种编码都无法正常显示。

那么,应该是源文件的问题了。

看来ChatGPT 不太懂这个问题,于是转而用搜索引擎搜索这个问题,最后找到一个靠谱答案:一般的网站的编码格式都是 UTF-8,所以当你系统的默认编码也是 UTF-8 时,也就是说,你的默认编码方式和目标网站的编码方式一致时,即使不明确设置编码方式,也不会出问题。但是爬取过程中没问题,但是用打开保存好的 csv 文件时出现乱码,这个其实就是源文件的编码方式和 Excel 的解码方式不一致导致的。这种问题解决也很简单,只要在代码中设置一下 encoding 即可。 这里建议一种方法,r.encoding = r.apparent_encoding ,这个可以自动推测目标网站的编码格式,省的你自己去一个个设置。

于是,根据这个情况让ChatGPT进行修改:

随后运行成功,不再有任何乱码出现了:


http://www.ppmy.cn/news/969554.html

相关文章

解决各种中文乱码问题

tomcat出现中文乱码问题有以下几种情况: 1.通过cmd启动tomcat出现中文乱码(tomcat日志输出编码与cmd编码不一致) cmd启动tomcat出现中文乱码 乱码原因:这是由于windows下的cmd的默认编码是GBK编码,Tomcat控制台默认输…

Python 乱码原理及其解决办法

最近在爬虫过程中爬下来的HTML文件中出现了不认识的字符,也就是“乱码”(之前也遇到了系统之间文件显示“乱码”的问题),花了点时间学习Python编码相关的问题,主要参考了以下几位的文章:Unicode编码底层描述…

chatgpt赋能python:Python绕过付费的SEO技巧

Python绕过付费的SEO技巧 随着网站流量成为企业重要的市场指标,SEO(搜索引擎优化)也成为了网站的重要一环。许多企业为了获取更多的流量,选择通过付费方式在搜索引擎中获得更高的曝光率。但是,对于那些没有足够预算的…

chatgpt赋能python:Python怎么绕过登录爬取数据

Python怎么绕过登录爬取数据 在进行网站爬取时,经常会发现需要登录才能访问所需要的数据,这给我们的爬虫程序带来了一定的难度。本文就介绍一些Python绕过登录的方法,让你获取到所需的数据。 1. Session维持登录状态 当我们登录一个网站时…

“我用 ChatGPT 造了一个零日漏洞,成功逃脱了 69 家安全机构的检测!”

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 一周以前,图灵奖得主 Yoshua Bengio、伯克利计算机科学教授 Stuart Russell、特斯拉 CEO 埃隆马斯克、苹果联合创始人 Steve Wozniak 等在内的数千名 AI 学者、企业家联名发起一则公开信&am…

chatgpt赋能python:Python如何绕过检测封号的技巧

Python如何绕过检测封号的技巧 Python作为目前最受欢迎的编程语言之一,广泛应用于各种领域。在SEO领域中,Python也发挥着重要的作用,但是在不当的使用下,可能会被搜索引擎检测到并封号。在本文中,我们将介绍几种Pytho…

自动化测试技术分享 | 敏捷开发、瀑布与迭代模型的项目应用分析

以下为作者观点: “敏捷”、“瀑布”、“迭代”是目前开发模式描述中应用比较多的词汇。那么,这些词汇有什么概念差异呢?别急,这就来为大家一一解惑。 首先瀑布模型、迭代模型都属于软件开发生命周期(SDLC&#xff09…

嵌入式软件测试笔记11 | 测试设计技术简单说明

11 | 测试设计技术简单说明 1 测试设计技术的步骤1.1 确定测试情形1.2 确定逻辑测试用例1.3 确定物理测试用例1.4 建立初始化环境1.5 组合测试脚本1.6 定义测试方案 2 测试设计技术的优点3 测试设计技术的特征3.1 白盒或黑盒3.2 导出测试用例的原则3.2.1 处理逻辑3.2.2 等价类划…