20220624 登录和代理ip

news/2024/11/8 1:33:41/

20220624 登录和代理ip

reques的登录反爬

python
from selenium.webdriver import Chrome, ChromeOptions

#1. 创建配置对象

options = ChromeOptions()

#1)取消测试环境

options.add_experimental_option(‘excludeSwitches’, [‘enable-automation’])

#2)取消图片加载

options.add_experimental_option(“prefs”, {“profile.managed_default_content_settings.images”: 2})

b = Chrome(options=options)

b.get(‘https://www.jd.com’)

input(‘end:’)
b.close()

selenium获取cookies

from selenium.webdriver import Chrome
from json import dumps

#1. 打开需要做自动登录的网站
b = Chrome()
b.get(‘https://www.51job.com/’)

#2. 提供足够长的时间让人工在这个页面中完成登录(登录后一定要保证b对应的窗口出现登录信息)
input(‘登录完成:’)

#3. 获取登录后的cookie信息保存到本地文件中(建议保存一个json)
cookies = b.get_cookies()

with open(‘files/taobao.json’, ‘w’, encoding=‘utf-8’) as f:
f.write(dumps(cookies))

b.close()

selenium使用cookies

python
from selenium.webdriver import Chrome
from json import loads

#1. 打开需要爬取的网站
b = Chrome()
b.get(‘https://www.taobao.com’)

#2.从cookie文件中获取cookie信息并且添加到浏览器对象中
with open(‘files/taobao.json’, encoding=‘utf-8’) as f:
cookies = loads(f.read())

for x in cookies:
b.add_cookie(x)

#3.重新打开网页
b.get(‘https://www.taobao.com’)

input(‘end:’)
b.close()

requests使用代理ip

python
import requests

headers = {
‘user-agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36’
}

#创建代理对象
#proxies = {

‘https’: ‘http://183.165.224.25:4554’,

‘http’: ‘http://183.165.224.25:4554’

#}
proxies = {
‘https’: ‘183.165.224.25:4554’,
‘http’: ‘183.165.224.25:4554’
}
#发送请求的时候使用代理
response = requests.get(‘https://www.maoyan.com/’, headers=headers, proxies=proxies)
#解决乱码问题
response.encoding = ‘utf-8’
print(response.text)

代理ip的使用方法

python
import requests
import time
from bs4 import BeautifulSoup

def get_ip():
“”"
获取代理ip,如果获取失败过2秒再重新获取
:return: 获取到的ip地址
“”"
while True:
response = requests.get(‘http://d.jghttp.alicloudecs.com/getip?num=1&type=1&pro=510000&city=510600&yys=0&port=1&time=2&ts=0&ys=0&cs=0&lb=4&sb=0&pb=4&mr=1&regions=’)
result = response.text
if result[0] == ‘{’:
print(‘ip获取失败’)
time.sleep(2)
else:
return result

def get_net_data():
url = ‘https://www.maoyan.com/’
headers = {
‘user-agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36’
}

#使用代理ip发送请求,如果代理失败,重新获取新的ip重新再发送请求
while True:ip = get_ip()print(ip)proxy = {'https': ip}response = requests.get(url, headers=headers, proxies=proxy)response.encoding = 'utf-8'print(response.text)soup = BeautifulSoup(response.text, 'lxml')movies_div = soup.select('.movie-list .movie-item')if len(movies_div) == 0:continueelse:print('爬虫成功!做后续的解析操作')break

if name == ‘main’:
get_net_data()

selenium使用代理ip

python
from selenium.webdriver import Chrome, ChromeOptions

options = ChromeOptions()
options.add_argument(‘–proxy-server=http://115.208.231.37:4545’)

b = Chrome(options=options)
b.get(‘https://www.maoyan.com/’)

print(b.page_source)

input(‘end:’)
b.close()


http://www.ppmy.cn/news/506237.html

相关文章

事务的历史与SSI——PostgreSQL数据库技术峰会成都站分享

前言 PostgreSQL数据库技术峰会成都站 近期(2023年6月17日),由中国开源软件推进联盟PG分会发起的“PostgreSQL数据库技术峰会成都站”圆满举行。我也有幸作为演讲嘉宾参加了此次峰会,收获很多。 (分会回顾和所有pp…

git ----拉去远端仓库产生冲突的解决方式

# 出现冲突的原因 -1 多人在同一分支,修改了同一个地方的代码,出现的冲突 -2 分支合并时出冲突 # 1 多人统一分支开发,修改了同样的代码 -某人修改了1.txt的第四行,提交了 -我操作&…

Java——《面试题——SpringBoot篇》

前文 java——《面试题——基础篇》 Java——《面试题——JVM篇》 Java——《面试题——多线程&并发篇》 Java——《面试题——Spring篇》 目录 前文 1、为什么要用SpringBoot 2、Spring Boot 的核心注解是哪个?它主要由哪几个注解组成 的? …

K 个一组翻转链表(leetcode 25)

文章目录 1.问题描述2.难度等级3.热门指数4.解题思路思路复杂度分析 5.实现示例参考文献 1.问题描述 给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。如果节点总数不…

图片识别-合成-图片滤镜等

支持web端。支持数百种滤镜 https://img.ly/docs/pesdk/ https://img.ly/docs/pesdk/web/introduction/getting_started/ demo: https://img.ly/photo-sdk/demo 图像特效-提供图像风格迁移等多种图像特效类服务 https://open.youtu.qq.com/#/open/experience/picfilter https:…

THINKPHP图片处理之图片合成,分享海报合成

https://book.employleague.cn/ package topthink/think-image composer require topthink/think-image Thinkphp5.0 ~ thinkphp6.0都可以用 使用方式 打开图片 use think/Image;...$handler Image::open($path); // $path 本地图片路径打开网络图片 private function dow…

最新自用pdf免费在线去水印全套方案

网上搜一堆,要么最终要充值会员,要么效果实在不咋地 结合自己搜索的网上资源,整合了以下免费在线去水印的全套方案,建议收藏: 1.解密PDF: https://www.ilovepdf.com/zh-cn/unlock_pdf 如果pdf被加密的话进…

vfp的一款图片处理库,简洁好用,免费不收钱,值得推荐

猫猫春节回湖南老家了,过年吃喝玩耍,无心工作,现在开始收心,认真搬砖,搬砖的人最可爱。 现在猫猫介绍的图片处理库,来自木瓜大侠,简洁好用,免费不收钱,值得推荐 目前猫猫…