在.NET用C#将Word文档转换为HTML格式

embedded/2025/1/19 19:34:42/

将Word文档转换为HTML格式尤其具有显著的优势,它不仅能够确保文档内容在多种设备和平台上保持一致灵活的显示,还便于通过网络进行传播和集成到各种Web应用中。随着越来越多的企业和开发者寻求更灵活、更具兼容性的文件处理方式,.NET框架下的C#语言凭借其强大的互操作性支持成为了实现这一转换的理想选择。本文将介绍如何在.NET平台使用C#将Word文档转换为HTML文件

文章目录

    • 用C#将Word文档转换为一般HTML格式
    • 用C#将Word文档转换为单个HTML文件
    • 转换时自定义转换选项

本文所使用的方法需要用到免费的Free Spire.Doc for .NET,NuGet:PM> Install-Package FreeSpire.Doc

用C#将Word文档转换为一般HTML格式

我们可以使用Document.LoadFromFile方法载入Word文档,然后直接使用SaveToFile(string:fileName, FileFormat.HTML)方法将其转换为HTML格式并保存。这样转换出的结果会包含HTML文件、CSS文件以及图片文件夹(如果Word文档中有图片)。以下是操作步骤示例:

  1. 导入所需模块。
  2. 创建Document实例。
  3. 使用Document.LoadFromFile()方法载入Word文档。
  4. 使用Document.SaveToFile(string:fileName, FileFormat.HTML)方法将其转换为HTML格式并保存。

代码示例

html" title=word>word">using Spire.Doc;html" title=word>word">namespace WordToHTML
{html" title=word>word">class Program{html" title=word>word">static html" title=word>word">void Main(html" title=word>word">string[] args){// 创建Document实例html" title=word>word">using (Document doc = html" title=word>word">new Document()){// 载入Word文档doc.LoadFromFile("Sample.docx");// 将其转换为HTML并保存doc.SaveToFile("output/WordToHTML.html", FileFormat.Html);}}}
}

结果
在这里插入图片描述

用C#将Word文档转换为单个HTML文件

通过配置Document.HtmlExportOptions.CssStyleSheetType属性和Document.HtmlExportOptions.ImageEmbedded属性,我们可以设置将CSS和图像嵌入到单个HTML文件中。以下是操作步骤示例:

  1. 导入所需模块。
  2. 创建Document实例。
  3. 使用Document.LoadFromFile()方法载入Word文档。
  4. Document.HtmlExportOptions.CssStyleSheetType属性设置为CssStyleSheetType.Internal,嵌入CSS样式到生成的HTML文件中。
  5. Document.HtmlExportOptions.ImageEmbedded属性设置为true,嵌入图像到生成的HTML文件中。
  6. 使用Document.SaveToFile(string:fileName, FileFormat.HTML)方法将其转换为HTML格式并保存。

代码示例

html" title=word>word">using Spire.Doc;html" title=word>word">namespace WordToHTML
{html" title=word>word">class Program{html" title=word>word">static html" title=word>word">void Main(html" title=word>word">string[] args){// 创建Document实例html" title=word>word">using (Document doc = html" title=word>word">new Document()){// 载入Word文档doc.LoadFromFile("Sample.docx");// 设置嵌入CSSdoc.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.Internal;// 设置嵌入图像doc.HtmlExportOptions.ImageEmbedded = true;// 将其转换为HTML并保存doc.SaveToFile("output/WordToHTMLEmbedded.html", FileFormat.Html);}}}
}

结果
在这里插入图片描述

转换时自定义转换选项

我们还可以通过Document.HtmlExportOptions属性自定义其他转换选项,以下是支持的选项信息:

属性描述
CssStyleSheetType指定 HTML CSS 样式表的类型(外部或内部)。
CssStyleSheetFileName指定 HTML CSS 样式表文件的名称。
ImageEmbedded指定是否使用数据 URI 方案将图像嵌入到 HTML 代码中。
ImagesPath指定导出 HTML 中图像的文件夹路径。
UseSaveFileRelativePath指定图像文件路径是否相对于 HTML 文件路径。
HasHeadersFooters指定是否应在导出的 HTML 中包含页眉和页脚。
IsTextInputFormFieldAsText指定是否将文本输入表单字段以文本形式导出到 HTML 中。
IsExportDocumentStyles指定是否将文档样式导出到 HTML 的 <head> 部分。
以下是操作步骤示例:
    1. 导入所需模块。
  1. 创建Document实例。
  2. 使用Document.LoadFromFile()方法载入Word文档。
  3. 使用Document..HtmlExportOptions中的属性自定义转换选项。
  4. 使用Document.SaveToFile(string:fileName, FileFormat.HTML)方法将其转换为HTML格式并保存。

代码示例

html" title=word>word">using Spire.Doc;html" title=word>word">namespace WordToHTML
{html" title=word>word">class Program{html" title=word>word">static html" title=word>word">void Main(html" title=word>word">string[] args){// 创建Document实例html" title=word>word">using (Document doc = html" title=word>word">new Document()){// 载入Word文档doc.LoadFromFile("Sample.docx");// 设置CSS文件名doc.HtmlExportOptions.CssStyleSheetType = CssStyleSheetType.External;doc.HtmlExportOptions.CssStyleSheetFileName = "CustomCSSFileName.css";// 设置不嵌入图像,并设置图像文件夹doc.HtmlExportOptions.ImageEmbedded = false;doc.HtmlExportOptions.UseSaveFileRelativePath = true;doc.HtmlExportOptions.ImagesPath = "Images/";// 设置导出文档样式到head部分doc.HtmlExportOptions.IsExportDocumentStyles = true;// 将其转换为HTML并保存doc.SaveToFile("output/WordToHTMLEmbedded.html", FileFormat.Html);}}}
}

结果
在这里插入图片描述


文中用到的示例Word文档:
在这里插入图片描述

本文演示了如何在.NET中用C#转换Word文档为HTML格式,并设置转换选项。


http://www.ppmy.cn/embedded/155297.html

相关文章

高效构建与部署Python Web应用:FastAPI的测试与持续集成

高效构建与部署Python Web应用&#xff1a;FastAPI的测试与持续集成 目录 &#x1f9ea; FastAPI的单元测试与集成测试&#x1f6e0;️ 使用pytest和unittest编写高效测试用例&#x1f504; 持续集成与持续部署&#xff08;CI/CD&#xff09;实践 &#x1f680; GitLab CI配置…

MongoDB 学习建模与设计思路--统计数据更新案例

开头还是介绍一下群&#xff0c;如果感兴趣PolarDB ,MongoDB ,MySQL ,PostgreSQL ,Redis, OceanBase, Sql Server等有问题&#xff0c;有需求都可以加群群内有各大数据库行业大咖&#xff0c;可以解决你的问题。加群请联系 liuaustin3 &#xff0c;&#xff08;共2700人左右 1 …

docker 部署confluence

1.安装docker的过程就不说了。 2.下载镜像。 docker pull cptactionhank/atlassian-confluence:7.4.0 docker images 3.下载pojie 包。 https://download.csdn.net/download/liudongyang123/90285042https://download.csdn.net/download/liudongyang123/90285042https://do…

AI刷题-最小替换子串长度、Bytedance Tree 问题

目录 一、最小替换子串长度 问题描述 输入格式 输出格式 输入样例 1 输出样例 1 输入样例 2 输出样例 2 解题思路&#xff1a; 问题理解 数据结构选择 算法步骤 最终代码&#xff1a; 运行结果&#xff1a; 二、Bytedance Tree 问题 问题描述 输入格式 输…

线上工单引发的思考:Spring Boot 中 @Autowired 与 @Resource 的区别

最近接手了离职同事负责的业务&#xff0c;在处理一个线上工单的时候&#xff0c;看了下历史逻辑&#xff0c;在阅读他们写的代码时&#xff0c;发现他们竟然把Autowired和Resource注解混用。今天就借此机会聊聊SpringBoot项目中这两者之间的区别。 1. 注解来源 Autowired&am…

Asp.Net Core 8.0 使用 Serilog 按日志级别写入日志文件的两种方式

1、所需的Nuget包 本文项目的版本是.NET 8.0&#xff0c;如果使用其它版本安装适配版本即可。 Serilog.AspNetCore(8.0.2) Serilog.Sinks.File(5.0.0) Serilog.Expressions(5.0.0) 2、两种配置方式 2.1 代码形式&#xff08;Program.cs&#xff09; 在Program.cs文件中&am…

rabbitmq安装延迟队列

在RabbitMQ中&#xff0c;延迟队列是一种特殊的队列类型。当消息被发送到此类队列后&#xff0c;不会立即投递给消费者&#xff0c;而是会等待预设的一段时间&#xff0c;待延迟期满后才进行投递。这种队列在多种场景下都极具价值&#xff0c;比如可用于处理需要在特定时间触发…

Uniapp判断设备是安卓还是 iOS,并调用不同的方法

在 UniApp 中&#xff0c;可以通过 uni.getSystemInfoSync() 方法来获取设备信息&#xff0c;然后根据系统类型判断当前设备是安卓还是 iOS&#xff0c;并调用不同的方法。 示例代码 export default {onLoad() {this.checkPlatform();},methods: {checkPlatform() {// 获取系…