lxml 解析xml\html

ops/2024/12/27 13:25:41/
from lxml import etree# XML文档示例
xml_doc = """
<root><book><title>Python编程指南</title><author>张三</author></book><book><title>Python高级编程</title><author>李四</author></book>
</root>
"""# 创建ElementTree对象并解析XML文档
root = etree.fromstring(xml_doc)# 使用XPath定位元素并打印内容
books = root.xpath('//book')
for book in books:title = book.xpath('title/text()')[0]author = book.xpath('author/text()')[0]print(f"书名:{title},作者:{author}")

# HTML文档示例
html_doc = """
<html>
<body><h1>标题</h1><p>段落1</p><p>段落2</p>
</body>
</html>
"""# 创建HTML解析器并解析HTML文档
parser = etree.HTMLParser()
root = etree.fromstring(html_doc, parser)# 遍历HTML元素并打印内容
for element in root.iter():print(element.tag, element.text)

 

from lxml import html
import requests# 发送HTTP请求获取网页内容
response = requests.get('https://example.com')
html_content = response.content# 使用lxml解析HTML内容并提取信息
tree = html.fromstring(html_content)
title = tree.xpath('//title/text()')[0]
paragraphs = tree.xpath('//p/text()')
print('标题:', title)
print('段落:')
for p in paragraphs:print(p)


http://www.ppmy.cn/ops/145389.html

相关文章

【流量、洪水数据下载】网站介绍和下载经验....不断更新!

EarthData 介绍 NASA:链接 数据下载 视频教程:Discover and Access Earth Science Data Using Earthdata Search 数据下载需要注册,已经被卡在邮箱验证上【2024-12-26】… Essential Climate Variables——【The Global Climate Observing System(GCOS) 介绍 其是支…

【MySQL】深度学习数据库开发技术:使用C/C++语言访问数据库

前言&#xff1a;本节内容介绍使用C/C访问数据库&#xff0c; 包括对数据库的增删查改操作。 主要是学习一些接口的调用&#xff0c; 废话不多说&#xff0c; 开始我们的学习吧&#xff01; ps:本节内容比较容易&#xff0c; 友友们放心观看哦&#xff01; 目录 准备mysql库 …

企业如何搭建安全的跨网文件安全交换管理系统

在数字化转型的浪潮中&#xff0c;企业对数据的安全性和流动性提出了前所未有的高要求。特别是在网络隔离的情况下&#xff0c;如何实现跨网的安全、高效的文件交换成为了众多企业迫切需要解决的问题。 这不仅是技术上的挑战&#xff0c;还涉及到企业内部管理流程的优化和安全策…

IS-IS协议 配置实验

IS-IS基础配置 IS-IS 是什么 IS-IS&#xff08;Intermediate System to Intermediate System&#xff09;协议是一种内部网关协议&#xff08;IGP&#xff09;&#xff0c;用于在计算机网络中动态地确定最佳路径。IS-IS协议最初是为ISO&#xff08;国际标准化组织&#xff09…

SpringBoot + HttpSession 自定义生成sessionId

SpringBoot HttpSession 自定义生成sessionId 业务场景实现方案 业务场景 最近在做用户登录过程中&#xff0c;由于默认ID是通过UUID创建的&#xff0c;缺乏足够的安全性&#xff0c;决定要自定义生成 sessionId。 实现方案 正常的获取session方法如下&#xff1a; HttpSe…

前端实现PDF预览的几种选择(pdfjs-dist、react-pdf、pdf-viewer)

记录 PDF预览的选型 对于浏览器自带的PDF预览 如果能直接使用&#xff0c;那自然最好不过了&#xff0c;但考虑多种因素&#xff0c;比如权限问题&#xff0c;禁止用户去下载PDF、预览样式不统一&#xff08;不同浏览器PDF预览的实现不同&#xff09;&#xff0c;所有最终放弃…

【vue】vue运行报错“Error:listen EACCES:permission denied”

一、问题说明 VSCode 启动 Vue 项目时&#xff0c;出现以下报错&#xff1a; 二、问题原因 在 Windows 中&#xff0c;某些端口范围可能被系统保留用于特定服务&#xff0c;例如动态端口分配给 Hyper-V 虚拟机、Windows 更新服务、或其他网络服务。这个分配的行为是动态、随…

Apache Doris 创始人:何为“现代化”的数据仓库?

在 12 月 14 日的 Doris Summit Asia 2024 上&#xff0c;Apache Doris 创始人 & PMC 成员马如悦在开场演讲中&#xff0c;围绕“现代化数据仓库”这一主题&#xff0c;指出 3.0 版本是 Apache Doris 研发路程中的重要里程碑&#xff0c;他将这一进展总结为“实时之路”、“…