Java 提取HTML文件中的文本内容

server/2024/9/24 5:57:05/
htmledit_views">

HTML 文件中提取文本内容是数据抓取中的一个常见任务,你可以将提取的文本信息用于编制报告、进行数据分析或其他处理。本文分享如何使用免费 Java API HTML 文件中提取文本内容。

安装免费Java库:

要通过Java提取HTML文本,需要用到Free Spire.Doc for Java免费库。以下提供两种安装方式:

1. 通过Maven仓库安装:

<repositories><repository><id>com.e-iceblue</id><name>e-iceblue</name><url>https://repo.e-iceblue.cn/repository/maven-public/</url></repository>
</repositories>
<dependency><groupId>e-iceblue</groupId><artifactId>spire.doc.free</artifactId><version>5.2.0</version>
</dependency>

2. 下载Free Spire.Doc for Java库,解压后手动将Spire.Doc.jar添加到程序中。

使用JavaHTML文件中提取文本内容

基本步骤:

  1. 导入需要的类库;
  2. 通过 loadFromFile() 方法加载HTML文件;
  3. 通过 getText() 方法获取HTML文件中的文本内容。
  4. 创建一个 FileWriter 对象,将提取的文本内容写入一个txt文件中

示例代码:

html" title=java>java">import com.spire.doc.Document;
import com.spire.doc.FileFormat;import html" title=java>java.io.FileWriter;
import html" title=java>java.io.IOException;public class ExtractTextFromHTML {public static void main(String[] args) throws IOException {//创建Document对象Document doc = new Document();//加载一个HTML文件doc.loadFromFile("input.html", FileFormat.Html);//获取HTML文件中的文本String text = doc.getText();//将文本写入TXT文件FileWriter fileWriter = new FileWriter("提取HTML文本.txt");fileWriter.write(text);fileWriter.close();}
}

运行结果

 

参考文章: 

Java: Extract Text from HTMLUse Spire.Doc for Java to extract text from an HTML file or a URL easily, without the need for any third-party libraries.html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8" alt="icon-default.png?t=N7T8" />https://www.e-iceblue.com/Tutorials/Java/Spire.Doc-for-Java/Program-Guide/Conversion/Java-Extract-Text-from-HTML.html在实际应用中,有问题可前往论坛讨论。


http://www.ppmy.cn/server/20267.html

相关文章

科技改变视听4K 120HZ高刷新率的投影、电视、电影终有用武之地

早在1888年&#xff0c;法国生理学家埃蒂安朱尔马莱就发明了一套盒式摄像机&#xff0c;能以120帧/s的速度在一条纸膜上曝光照片&#xff0c;但是当时没有相匹配的放映设备。而马莱的另一套拍摄设备是60帧/s的规格&#xff0c;并且图像质量非常好。 受此启发&#xff0c;雷诺的…

Redis之路系列(5)功夫在诗外

5 拓展篇—功夫在诗外 6.0新特性 相对都比较鸡肋&#xff0c;谨慎在生产环境使用 ACL安全策略 Redis6版本推出了ACL(Access Control List)访问控制权限 的功能&#xff0c;基于此功能&#xff0c;可以设置多个用户&#xff0c;并且给每个用户单独设 置命令权限和数据权限。 …

火绒安全:全面守护你的数字世界

火绒安全&#xff1a;全面守护你的数字世界 在数字化时代的浪潮中&#xff0c;我们的电脑和生活已经紧密相连。然而&#xff0c;网络安全问题也如影随形&#xff0c;恶意软件、病毒、间谍软件等安全威胁层出不穷。作为一名国际著名的病毒程序软件专家&#xff0c;我深知一款高…

iOS AVPlayer

参考文章 AVPlayer的基本使用

【macOS】M芯片安装windows10以及配置office

背景 M3芯片Macbook ProParallel Desktop19office word visio打算配置一个好用的笔记本&#xff0c;携带着尽快把论文的正文写完&#xff0c;macOS里面的word排版可能出错&#xff0c;所以像配置一个双系统&#xff0c;里面必然要有的是word和visio&#xff0c;其他没有要求 …

[每周一更]-(第94期):认识英伟达显卡

英伟达显卡&#xff1a;引领图形计算的领先者&#xff0c;显卡也常称为GPU&#xff08;图形处理器 Graphics processing unit&#xff09;&#xff0c;是一种专门在个人电脑、工作站、游戏机和一些移动设备&#xff08;如平板电脑、智能手机等&#xff09;上执行绘图运算工作的…

部署接入 M3E和chatglm2-m3e文本向量模型

前言 FastGPT 默认使用了 openai 的 embedding 向量模型,如果你想私有部署的话,可以使用 M3E 向量模型进行替换。M3E 向量模型属于小模型,资源使用不高,CPU 也可以运行。下面教程是基于 “睡大觉” 同学提供的一个的镜像。 部署镜像 m3e-large-api 镜像名: stawky/m3e-…

Android 设置头像 - 相册拍照

Android开发在个人信息管理中&#xff0c;如果设置头像&#xff0c;一般都提供了从相册选择和拍照两种方式。下午将针对设置用户头像相册和拍照两种方式的具体实现进行详细说明。 在实际实现过程中需要使用到权限管理&#xff0c;新版本的Android需要动态申请权限&#xff0c;权…