爬虫爬取数据遇到302,301重定向如何获取重定向后的地址(完美解决)

news/2024/11/25 17:23:13/

当用java或者python爬取目标网站的时候,浏览器可以正确重定向,而用编程爬取始终是code:200

只需要将请求头修改成如下,可以根据需要进行更改

  Map<String, String> headers = Map.of("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8","Accept-Encoding", "gzip, deflate, sdch, br","Accept-Language", "zh-CN,zh;q=0.8","Connection", "keep-alive","Host", "www.baidu.com","Upgrade-Insecure-Requests", "1","User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");

然后就可以获取目标重定向后的地址

String redirectedUrl = connection.getHeaderField("Location");

完整java语言get请求获取重定向地址方法

   /*** 获取重定向后的地址* @param url* @return*/public static String sendGetRequestWithRedirect(String url) {try {URL getUrl = new URL(url);HttpURLConnection connection = (HttpURLConnection) getUrl.openConnection();connection.setRequestMethod("GET");// 设置请求头,模拟浏览器行为// 设置自定义请求头Map<String, String> headers = Map.of("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8","Accept-Encoding", "gzip, deflate, sdch, br","Accept-Language", "zh-CN,zh;q=0.8","Connection", "keep-alive","Upgrade-Insecure-Requests", "1","User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");// 添加自定义请求头for (Map.Entry<String, String> entry : headers.entrySet()) {connection.setRequestProperty(entry.getKey(), entry.getValue());}// 设置重定向处理connection.setInstanceFollowRedirects(false);int responseCode = connection.getResponseCode();if (responseCode == HttpURLConnection.HTTP_OK || responseCode == HttpURLConnection.HTTP_MOVED_TEMP || responseCode == HttpURLConnection.HTTP_MOVED_PERM) {String redirectedUrl = connection.getHeaderField("Location");if (redirectedUrl != null) {// 重定向时获取新地址return redirectedUrl;} else {return  url;}} else {// 处理错误响应System.out.println("Error response code: " + responseCode);return null;}} catch (Exception e) {e.printStackTrace();return null;}}

http://www.ppmy.cn/news/1326203.html

相关文章

Curl- go的自带包 net/http实现

Curl- go的自带包 net/http实现 case http包中的Request 发送请求的步骤&#xff1a;1. 创建客户端 2. 发送请求 3. 接受响应 client : &http.Client{}req, _ : http.NewRequest("POST", url, nil) // request中有很多参数可以设置//设置头部 req.Header.se…

CSS 浮动 定位

文章目录 网页布局的本质浮动如何设置浮动测试浮动 定位相对定位绝对定位测试定位 网页布局的本质 用 CSS 来摆放盒子&#xff0c;把盒子摆放到相应位置。 CSS 提供了三种传统布局方式&#xff08;简单说就是盒子如何进行排列&#xff09;。 普通流&#xff08;标准流&#…

2024--Django平台开发-订单项目管理(十四)

day14 订单管理系统 1.关于登录 1.1 UI美化 页面美化&#xff0c;用BootStrap 自定义BooStrapForm类实现。 class BootStrapForm:exclude_filed_list []def __init__(self, *args, **kwargs):super().__init__(*args, **kwargs)# {title:对象,"percent":对象}fo…

2024最新最全:【CISP系列考试大纲】零基础入门到精通

CISP&#xff08;Certified Information Security Professional&#xff09;中文全称注册信息安全专业人员认证&#xff0c;是经中国信息安全测评中心依据中编办批准开展“信息安全人员培训与资质认证”的职能&#xff0c;推出的代表国家对信息安全专业人员能力认可的证书。 C…

java实现红黑树

红黑树 红黑树是一种自平衡二叉查找树&#xff0c;其中每个节点都有一个颜色属性&#xff0c;颜色为红色或黑色。它的特性保证了树在插入和删除操作后仍然保持大致的平衡&#xff0c;使得查找操作能够在对数时间内完成。以下是红黑树的一些基本性质&#xff1a; 每个节点是红…

openssl3.2 - 官方demo学习 - smime - smenc.c

文章目录 openssl3.2 - 官方demo学习 - smime - smenc.c概述笔记END openssl3.2 - 官方demo学习 - smime - smenc.c 概述 读取X509证书, 用PKCS7加密明文(证书 明文 3DES_CBC), 保存为MIME格式的密文 openssl API的命名含义 BIO_new_file “new” a “file”, return a “…

【卡梅德生物】如何制备纳米抗体?

纳米抗体的制备通常涉及到从动物源&#xff08;如骆驼、羊驼&#xff09;提取RNA或cDNA&#xff0c;然后通过分子生物学技术将其克隆并表达。以下是一般的纳米抗体制备步骤&#xff1a; 1.提取RNA或cDNA&#xff1a; -动物源&#xff1a;选择产生纳米抗体的动物&#xff0c;如…

ubuntu qt 运行命令行

文章目录 1.C实现2.python实现 1.C实现 下面是封装好的C头文件&#xff0c;直接调用run_cmd_fun()即可。 #ifndef GET_CMD_H #define GET_CMD_H#endif // GET_CMD_H #include <iostream> #include<QString> using namespace std;//system("gnome-terminal -…