用Python将HTML转换为Excel文件

server/2024/12/21 22:01:37/

在数据处理和分析的过程中,经常需要从网页上抓取信息,并将其转换为更易于操作的格式。HTML表格作为一种常见的数据展示方式,在线报告、统计资料等场景中广泛存在,但其结构化程度较低,不利于进一步的数据清洗和分析。将HTML表格转换为Excel工作表,不仅可以利用Excel强大的数据处理能力进行排序、筛选、计算等操作,还便于与他人分享以及进行长期保存。利用Python,我们可以以简洁高效的方式来完成这一转换过程,快速实现数据的迁移。
本文将介绍如何使用Python转换HTML为Excel文件

文章目录

    • 用Python将HTML转换为Excel工作表
    • 用Python将HTML文本写入Excel单元格

本文所使用的方法需要用到Spire.XLS for Python,PyPI:pip install spire.xls

用Python将HTML转换为Excel工作表

我们可以使用Workbook.LoadFromHTML()方法或Workbook.LoadFromMHTML()直接载入HTML文件,并通过Workbook.SaveToFile()方法将其保存为指定的Excel文件格式。以下是详细操作步骤:

  • 导入所需模块。
  • 创建Workbook对象。
  • 使用Workbook.LoadFromHTML()方法载入HTML文件。
  • 对于比较简单的HTML表格可能缺少一些格式信息,我们可以在转换前进行一些格式设置,如自动调整列宽。
  • 使用Workbook.SaveToFile()方法将其转换为Excel文件并保存。
  • 释放资源。

代码示例

python">from spire.xls import Workbook# 创建Workbook的实例
workbook = Workbook()# 加载HTML文件
workbook.LoadFromHtml("Sample.html")# 自动调整列宽
for i in range(workbook.Worksheets.Count):worksheet = workbook.Worksheets.get_Item(i)for j in range(1, worksheet.Columns.Count + 1):worksheet.AutoFitColumn(j)# 将其转换为Excel文件
workbook.SaveToFile("output/HTML转Excel.xlsx")
workbook.Dispose()

结果
Python转换HTML为Excel

用Python将HTML文本写入Excel单元格

我们可以使用Workbook.Worksheets.get_Item()方法来获取指定工作表,并使用Worksheet.Range[]属性获取指定单元格或单元格范围。然后,我们可以通过CellRange.HtmlString属性来插入HTML文本到单元格中,从而显示相应的文本和格式。以下是操作步骤示例:

  • 导入所需模块。
  • 创建Workbook对象。
  • 使用Workbook.Worksheets.get_Item()方法来获取工作表。
  • 使用Worksheet.Range[]属性获取单元格。
  • 指定HTML代码。
  • 通过CellRange.HtmlString属性来插入HTML代码对应的文本到单元格中。
  • 使用Workbook.SaveToFile()方法保存Excel工作簿。
  • 释放资源。

代码示例

python">from spire.xls import Workbook, FileFormat# 创建Workbook的实例
workbook = Workbook()# 获取第一个工作表
sheet = workbook.Worksheets.get_Item(0)# 指定HTML字符串
htmlString = "<span style='font-size: 20px; color: blue;'><strong><u>Employee Data Table</u></strong></span>"# 将HTML字符串插入到工作表中
sheet.Range[1, 1].HtmlString = htmlString# 自动调整列宽
sheet.AutoFitColumn(1)# 保存工作簿
workbook.SaveToFile("output/InsertHTMLStringToExcel.xlsx", FileFormat.Version2016)
workbook.Dispose()

结果
Python插入HTML到Excel

本文演示了如何使用Python将HTML转换为Excel文件。

申请免费License


http://www.ppmy.cn/server/131670.html

相关文章

Cef加载自定义本地资源

在Cef auto build下载cefCEF Automated Builds 我下载的是104&#xff0c;使用cefsimple工程。 例如&#xff1a;前端资源如下 通过http协议把前端资源加载出来。所有的资源都通过http://local.test.cn/xxx加载。 前端资源包括index.html、test.css、test.js index.html&am…

[Linux] 逐层深入理解文件系统 (1)—— 进程操作文件

标题&#xff1a;[Linux] 文件系统 &#xff08;1&#xff09;—— 进程操作文件 个人主页水墨不写bug &#xff08;图片来源于网络&#xff09; 目录 一、进程与打开的文件 二、文件的系统调用与库函数的关系 1.系统调用open() 三、内存中的文件描述符表 四、缓冲区…

Android 10.0 滑动解锁流程

前言 滑动解锁相对于来说逻辑还是简单的&#xff0c;说白了就是对事件的处理&#xff0c;然后做一些事。 这里主要从锁屏的界面Layout结构、touchEvent事件分发、解锁动作逻辑几个方面进行源码的分析。 锁屏的界面Layout结构分析 StatusbarWindowView 整个锁屏界面的顶级 Vi…

【spring ai】java 实现RAG检索增强,超快速入门

rag 需求产生的背景介绍&#xff1a; 在使用大模型时&#xff0c;一个常见的问题是模型会产生幻觉&#xff08;即生成的内容与事实不符&#xff09;&#xff0c;同时由于缺乏企业内部数据的支持&#xff0c;导致其回答往往不够精准和具体&#xff0c;偏向于泛泛而谈。这些问题…

单体到微服务架构服务演化过程

单体到微服务架构服务演化过程 架构服务化 聊聊从单体到微服务架构服务演化过程 单体分层架构 在 Web 应用程序发展的早期&#xff0c;大部分工程是将所有的服务端功能模块打包到单个巨石型&#xff08;Monolith&#xff09;应用中&#xff0c;譬如很多企业的 Java 应用程序…

现代数字信号处理I-P3 MVUE学习笔记

目录 1. 参数估计问题的提出与本质 2. 估计的性质 2.1 Ancillary&#xff08;多余估计&#xff09; 例1&#xff0c;Ancillary估计量 2. Uniformly Optimal 3. Sufficiency充分性 3.1 统计量充分性定义 例2&#xff1a;利用充分统计量定义获取伯努利分布的充分统计量 …

File IO

Unix标准为程序员提供了一系列的通用IO(无缓冲IO)接口以实现文件读写操作&#xff0c;原书第三章主要所涉及到的系统接口主要针对普通文件为操作目标。通用IO相比于标准IO的最大的区别在于没有缓冲机制&#xff0c;只要调用一次标准IO&#xff0c;就进行IO&#xff0c;而不是像…

finebi面试题精选

‌‌FineBI‌是由‌帆软软件有限公司开发的一款商业智能&#xff08;Business Intelligence&#xff09;产品&#xff0c;旨在通过最终业务用户自主分析企业已有的信息化数据&#xff0c;帮助企业发现并解决存在的问题&#xff0c;及时调整策略以做出更好的决策&#xff0c;从而…