21爬虫:使用playwright接管本地已经登录淘宝的浏览器并查找python相关店铺信息

embedded/2025/2/19 2:26:35/

1.playwright如何接管本地浏览器

(1)首先找到电脑上安装的Chrome浏览器可执行程序的完整路径:

        Mac电脑上可执行程序的完整路径为:

                /Applications/Google Chrome.app/Contents/MacOS/Google Chrome

        windows系统的电脑上查找可执行文件的完整路径:

                右键 Chrome 浏览器桌面图标,找到 chrome.exe 的安装路径

(2)将Chrome浏览器可执行程序的完整路径配置到环境变量中,也可以不配置。

(3)假设我们没有配置环境变量,如果配置环境变量直接使用启动本地浏览器命令行即可,以Mac电脑为例,

         进入Chrome浏览器可执行程序的完整路径:

                cd /Applications/Google Chrome.app/Contents/MacOS/Google Chrome

        新建一个空白文件夹,用于保存浏览器数据,我的保存浏览器数据的文件夹目录如下:

                /Users/zy/Desktop/work_file/playwright_data

        在Mac电脑上的终端或者在pycharm的终端中,windows系统的电脑打开cmd,输入如下的命令行代码启动本地浏览器:

                ./Google\ Chrome --remote-debugging-port=8899 --incognito --start-maximized --user-data-dir="/Users/zy/Desktop/work_file/playwright_data"

        windows电脑输入如下的命令行:

              chrome.exe --remote-debugging-port=8899 --user-data-dir="E:\playwright_chrome_data"

(4)百度淘宝,登录淘宝

(5)运行playwright程序,接管上述浏览器,在搜索框中输入python并点击搜索。

--remote-debugging-port是指定浏览器运行端口,只要没被占用就行
--user-data-dir指定运行浏览器的运行数据,新建一个干净目录,不影响系统原来的数据
browser = p.chromium.connect_over_cdp('http://localhost:8899/')
接管本地浏览器
page = browser.contexts[0].pages[0] 
接管本地浏览器的当前页面

2.程序代码

通过命令行启动本地浏览器并制定托管端口为8899。

命令启动的浏览器如下,百度搜索淘宝并手动档完成淘宝登录。

淘宝登录完毕后,执行如下的代码,接管本地浏览器,搜素python相关信息,并打印输出相应店铺的名称。

python">'''
(1)启用本地的浏览器,进入淘宝并完成登录;cd /Applications/Google Chrome.app/Contents/MacOS./Google\ Chrome --remote-debugging-port=8899 --incognito --start-maximized --user-data-dir="/Users/zy/Desktop/work_file/playwright_data"
(2)使用playwright接管本地浏览器,在搜索框中搜索python打开相应的商品页面;
(3)爬取相应的店铺信息;
'''from playwright.sync_api import sync_playwrightwith sync_playwright() as p:browser = p.chromium.connect_over_cdp('http://localhost:8899/')page = browser.contexts[0].pages[0] # 一个上下文管理器上有两个page页面page.locator('xpath=//*[@id="q"]').fill('python')page.locator('xpath=//*[@id="button"]').click()page.wait_for_timeout(1000)names = page.locator('xpath=//a[@class="ShopInfo--shopName--rg6mGmy"]').all()for name in names:print(name.inner_text())page.close()browser.close()

输出的结果如下:


http://www.ppmy.cn/embedded/162471.html

相关文章

【C语言】C语言 停车场管理系统的设计与实现(源码)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。 系列文章目录 目录 系列文章目录一、设计要求二、设…

网络安全防范

实践内容 学习总结 PDR,$$P^2$$DR安全模型。 防火墙(Firewall): 网络访问控制机制,布置在网际间通信的唯一通道上。 不足:无法防护内部威胁,无法阻止非网络传播形式的病毒,安全策略…

无人机遥感图像拼接软件有哪些?无人机遥感图像采集流程;遥感图像拼接的一般流程

无人机遥感图像拼接软件主要用于将多张无人机拍摄的图像拼接成一张完整的大图。以下是常见的几款软件: 1. Pix4Dmapper 特点:自动化处理,支持多光谱和热成像数据 适用场景:农业、测绘、建筑等 2. Agisoft Metashape 特点&#xff…

RAG科普文!检索增强生成的技术全景解析

RAG 相关技术的八个主题:https://pub.towardsai.net/a-taxonomy-of-retrieval-augmented-generation-a39eb2c4e2ab 增强生成 (RAG) 是塑造应用生成式 AI 格局的关键技术。Lewis 等人在其开创性论文中提出了一个新概念面向知识密集型 NLP 任务的检索增强生成之后&…

Oracle EBS 11i R12 更改form颜色

前言 Oracle EBS 默认的form颜色为蓝色。目前大部分使用Oracle EBS的企业均已蓝色做为生产环境的颜色。在运维或者测试的过程中,必然需要多个测试环境。如:开发测试、系统测## 二级标题试等。单单靠form上的提示词进行区别,往往不适用于企业…

麒麟操作系统-MySQL5.7.36二进制安装

1、创建MySQL虚拟用户 groupadd mysql useradd -g mysql -s /sbin/nologin -M mysql 2、创建目录 mkdir -p /data/file #创建文件目录 mkdir -p /opt/mysql #创建MySQL安装目录 mkdir -p /data/mysql/mysql3306/{data,logs} #创建MySQL数据及日志目录 3、安装MySQL5.7.36 …

文心一言与gpt,核心原理对比

文心一言与GPT的核心原理对比主要体现在模型架构、训练方式、应用场景以及中文处理能力等方面。 一、模型架构 文心一言 变换器模型(Transformer):文心一言采用变换器模型作为其核心网络结构,该模型利用自注意力机制(self-attention mechanism)来捕捉输入序列中单词之间…

【DeepSeek】Deepseek辅组编程-通过卫星轨道计算终端距离、相对速度和多普勒频移

引言 笔者在前面的文章中,介绍了基于卫星轨道参数如何计算终端和卫星的距离,相对速度和多普勒频移。 【一文读懂】卫星轨道的轨道参数(六根数)和位置速度矢量转换及其在终端距离、相对速度和多普勒频移计算中的应用 Matlab程序 …