lxml提取某个外层标签里的所有文本

embedded/2024/12/27 3:30:25/

html如下

<div data-v-1cf6f280="" class="analysis-content">选项D错误:<strong>在衡量通货膨胀时,</strong><strong>消费者物价指数使用得最多、最普遍</strong>。
</div>

解析html文本

python">from lxml import etree
html1 = '''
<div data-v-1cf6f280="" class="analysis-content">选项D错误:<strong>在衡量通货膨胀时,</strong><strong>消费者物价指数使用得最多、最普遍</strong>。
</div>
'''html = etree.HTML(html1)

方法一:join

python">s1 = html.xpath('//div/text()')# 去掉空格和换行符
s11 = [x.strip() for x in s1]
print('div标签文本:',s1);print('div标签文本去掉空格和换行符:',s11)
s2 = html.xpath('//strong/text()')
print('strong标签文本',s2)
s3 = ''.join(s2)
s11[1] = s3
s = ''.join(s11)print('拼接后:\n',s)

方法二:遍历父子节点

python">def extract_text(element):text = []# 获取当前元素的文本(不包括子元素)if element.text:text.append(element.text.strip())# 遍历所有子元素,递归提取for child in element:text.extend(extract_text(child))  # 递归调用处理子元素# 获取当前元素尾部的文本(如果有)if element.tail:text.append(element.tail.strip())return text# 获取<div>标签内的所有文本内容
text_list = extract_text(html)# 拼接所有文本并输出
final_text = ''.join(text_list)
print("拼接后的文本:\n", final_text)


http://www.ppmy.cn/embedded/148783.html

相关文章

Word表格批量添加题注代码

操作步骤 打开word&#xff0c;点击“开发工具”&#xff0c;进入Visual Basic&#xff0c;点击“Normal”,右键&#xff0c;插入“模块”。输入代码如下&#xff1a; Sub 批量添加表格题注() For i 1 To ActiveDocument.Tables.CountActiveDocument.Tables(i).Range.Insert…

SpringMVC的URL组成,以及URI中对/斜杠的处理,解决IllegalStateException: Ambiguous mapping

SpringMVC的URL组成 ip 端口号 上下文 类上的RequestMapping的URI 方法上的RequestMapping的URI 规则 非空URI前会自动拼接/连续的斜杠会被替换成单个斜杠方法的URI前没有斜杠与只有一个斜杠的两种接口&#xff0c;同时存在时&#xff0c;拼接前面的斜杠后再替换重复斜杠&…

点亮核心板小灯 STM32U575

将核心板上的运行状态指示灯点亮 任务分析 灯如何点亮 如何看开发板原理图 开发板上的灯硬件组成 原理图 原理图&#xff08;Schematic Diagram&#xff09;&#xff0c;也称为电路图或电气图&#xff0c;是一种图形表示方法&#xff0c;用于展示电子系统或电路的工作原理和…

机器学习常用术语

目录 概要 机器学习常用术语 1、模型 2、数据集 3、样本与特征 4、向量 5、矩阵 6、假设函数与损失函数 7、拟合、过拟合与欠拟合 8、激活函数(Activation Function) 9、反向传播(Backpropagation) 10、基线(Baseline) 11、批量(Batch) 12、批量大小(Batch Size)…

第一节:电路连接【51单片机-L298N-步进电机教程】

摘要&#xff1a;本节介绍如何搭建一个51单片机L298N步进电机控制电路&#xff0c;所用材料均为常见的模块&#xff0c;简单高效的方式搭建起硬件环境 一、硬件清单 ①51单片机模块 ②恒流模块 ③开关电源 ④L298N模块 ⑤二相四线步进电机 ⑥电线若干 二、接线 三、L298N模…

XlDynamicFilterCriteria 枚举 (Excel)

在vba中使用Range.autoFilter时&#xff0c;第二个参数&#xff08;条件criteria1&#xff09;可以用以下参数。 文档链接&#xff1a;XlDynamicFilterCriteria 枚举 (Excel) | Microsoft ​​​​​​Office VBA 参考主题https://learn.microsoft.com/zh-cn/office/vba/api/ex…

单元测试(UT,C++版)经验总结(gtest+gmock)

最近做了一段测试工作&#xff0c;其中包括单元测试&#xff0c;编程语言是C。这里提供一些基本知识总结&#xff0c;方便入门单元测试。 1.单元测试介绍 单元测试&#xff08;Unit Testing, 简称UT&#xff09;是软件测试的一种方法&#xff0c;目的是通过对单个软件组件&am…

【RabbitMQ】【Laravel】【PHP】Laravel 中使用 RabbitMQ

在 Laravel 中使用 RabbitMQ,通常需要安装 RabbitMQ 客户端库,并在 Laravel 项目中进行适当配置。php-amqplib 是常用的 PHP RabbitMQ 客户端库,Laravel 也有一些扩展包,方便集成 RabbitMQ。下面是如何在 Laravel 中使用 RabbitMQ 的详细步骤: 1. 安装所需的扩展包 在 L…