Java 提取HTML文件中的文本内容

embedded/2024/9/23 10:30:15/
htmledit_views">

HTML 文件中提取文本内容是数据抓取中的一个常见任务,你可以将提取的文本信息用于编制报告、进行数据分析或其他处理。本文分享如何使用免费 Java API HTML 文件中提取文本内容。

安装免费Java库:

要通过Java提取HTML文本,需要用到Free Spire.Doc for Java免费库。以下提供两种安装方式:

1. 通过Maven仓库安装:

<repositories><repository><id>com.e-iceblue</id><name>e-iceblue</name><url>https://repo.e-iceblue.cn/repository/maven-public/</url></repository>
</repositories>
<dependency><groupId>e-iceblue</groupId><artifactId>spire.doc.free</artifactId><version>5.2.0</version>
</dependency>

2. 下载Free Spire.Doc for Java库,解压后手动将Spire.Doc.jar添加到程序中。

使用JavaHTML文件中提取文本内容

基本步骤:

  1. 导入需要的类库;
  2. 通过 loadFromFile() 方法加载HTML文件;
  3. 通过 getText() 方法获取HTML文件中的文本内容。
  4. 创建一个 FileWriter 对象,将提取的文本内容写入一个txt文件中

示例代码:

html" title=java>java">import com.spire.doc.Document;
import com.spire.doc.FileFormat;import html" title=java>java.io.FileWriter;
import html" title=java>java.io.IOException;public class ExtractTextFromHTML {public static void main(String[] args) throws IOException {//创建Document对象Document doc = new Document();//加载一个HTML文件doc.loadFromFile("input.html", FileFormat.Html);//获取HTML文件中的文本String text = doc.getText();//将文本写入TXT文件FileWriter fileWriter = new FileWriter("提取HTML文本.txt");fileWriter.write(text);fileWriter.close();}
}

运行结果

 

参考文章: 

Java: Extract Text from HTMLUse Spire.Doc for Java to extract text from an HTML file or a URL easily, without the need for any third-party libraries.html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8" alt="icon-default.png?t=N7T8" />https://www.e-iceblue.com/Tutorials/Java/Spire.Doc-for-Java/Program-Guide/Conversion/Java-Extract-Text-from-HTML.html在实际应用中,有问题可前往论坛讨论。


http://www.ppmy.cn/embedded/19530.html

相关文章

vue身份证检验方法

1.定义一个input输入框 <inputtype"text"v-model"personnelInformationForm.idNo"class"qrcode-main-form-li-input"maxlength"18" /><button class"qrcode-form-submit" click"submitForm">提 交&l…

二维差分与二维前缀和

二维差分 二维差分是一种数据处理技术&#xff0c;应用于二维数组或矩阵中&#xff0c;用来快速计算和更新子矩阵元素的和。它是对一维差分概念的自然扩展&#xff0c;旨在简化对二维数据结构中特定区域元素进行加减操作的过程&#xff0c;同时保持较高的计算效率。通过计算原…

Ali-Sentinel-入口控制

​ 归档 GitHub: Ali-Sentinel-入口控制 测试 // 在 demo-spring-webmvc 里新建测试类public class TestMain {public static void main(String[] args) throws InterruptedException {initFlowRules(); // 初始化规则while (true) {// 1.5.0 版本开始可以直接利用 try-with…

U盘格式转换GPT格式转回DOS

当前格式 fdisk /dev/sdb# 在 fdisk 提示符下&#xff0c;输入以下命令删除分区&#xff1a; d # 选择要删除的分区编号&#xff08;如 1、2 等&#xff09; w开始转换 [rootnode-24 ~]# fdisk /dev/sdbWelcome to fdisk (util-linux 2.37.4). Changes will remain in memory o…

使用rsync建立MySQL从节点

使用场景&#xff1a;MySQL主节点存储较大&#xff0c;使用xtrabackup会遇到异常的情况 前置条件&#xff1a;node-01 与 node-02 做过ssh互信&#xff0c;rsync客户端均已安装&#xff0c;主节点开启binlog node-01 原主节点&#xff0c;数据存放目录为 /var/lib/mysql node-0…

labview中如何更快的生成数组

方式一&#xff1a;使用For循环索引创建数组&#xff0c;耗时24ms; 方式二&#xff1a;使用"创建数组"函数创建数组&#xff0c;耗时77ms 方式三&#xff1a;使用替换数组子集创建数组,耗时22ms&#xff1b; 所以结论是避免频繁地改变数组长度

学习通刷课免费,成绩又高的方法(超详细)

文章目录 概要整体架构流程 概要 我们在大学的时候有好多课程都是线上的水课&#xff0c;这时我们需要刷课又不想花钱怎么办&#xff0c;这篇文章推荐三个脚本配合使用&#xff0c;成绩还不错亲试&#xff1b; 整体架构流程 1.我们先找到浏览器的扩展程序 2.点击获取扩展 …

边缘计算在视频监控领域的应用

一、边缘计算在视频监控领域的应用 运用边缘计算解决视频监控问题&#xff0c;可以带来许多优势。以下是一些具体的应用示例&#xff1a; 实时分析与处理&#xff1a;在视频监控系统中&#xff0c;边缘计算盒子可以实时处理和分析视频流&#xff0c;实现对监控画面的智能识别…