apache.poi读取.xls文件时The content of an excel record cannot exceed 8224 bytes

devtools/2024/10/18 4:06:41/

目录

  • 问题描述
  • 版本
  • 定位:打印size最大的Record
  • 定位:RefSubRecord
  • 解决
  • 代码

问题描述

使用apache.poi读取.xls文件时有The content of an excel record cannot exceed 8224 bytes的报错。待读取的文件的内容也是通过apache.poi写入的,我的文件修改步骤是先删除页签然后写入页签(页签名是保持不变的),这样一次修改的结果也是符合我的预期的,但是某次程序读取文件时就出现了下面的报错,而且手动也打不开文件了。

Exception in thread "main" org.apache.poi.util.RecordFormatException: The content of an excel record cannot exceed 8224 bytesat org.apache.poi.hssf.record.RecordInputStream.nextRecord(RecordInputStream.java:222)at org.apache.poi.hssf.record.RecordFactoryInputStream.nextRecord(RecordFactoryInputStream.java:253)at org.apache.poi.hssf.record.RecordFactory.createRecords(RecordFactory.java:494)at org.apache.poi.hssf.usermodel.HSSFWorkbook.<init>(HSSFWorkbook.java:356)at org.apache.poi.hssf.usermodel.HSSFWorkbook.<init>(HSSFWorkbook.java:413)at org.apache.poi.hssf.usermodel.HSSFWorkbook.<init>(HSSFWorkbook.java:394)at com.mark.learning.bug.excel.ExcelXls.addSheet(ExcelXls.java:28)at com.mark.learning.bug.excel.ExcelXls.main(ExcelXls.java:84)

在这里插入图片描述

版本

        <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>3.17</version></dependency><dependency><groupId>org.apache.poi</groupId><artifactId>poi-ooxml</artifactId><version>3.17</version></dependency>

定位:打印size最大的Record

既然提示某一个Record超过了上限了,那我就把这个内容打印出来看看。最新定位到ExternSheetRecord 类的_list属性。

267record的size:6066
[EXTERNSHEET]numOfRefs     = 1010
refrec         #0: extBook=0 firstSheet=-1 lastSheet=-1
refrec         #1: extBook=0 firstSheet=-1 lastSheet=-1
refrec         #2: extBook=0 firstSheet=-1 lastSheet=-1
refrec         #3: extBook=0 firstSheet=-1 lastSheet=-1
refrec         #4: extBook=0 firstSheet=-1 lastSheet=-1
refrec         #5: extBook=0 firstSheet=-1 lastSheet=-1
public class ExternSheetRecord extends StandardRecord {public final static short sid = 0x0017;private final List<RefSubRecord> _list;//这里有很多的记录信息

定位:RefSubRecord

RefSubRecord记录是什么信息?什么时候进行初始化?我在构造函数打了一个断点,发现每当删除一个页签或者新增一个页签就会创建RefSubRecord页签
在这里插入图片描述
在这里插入图片描述
这里有意思的是删除页签的时候会把对应索引的记录的firstSheetIndexlastSheetIndex修改为-1。但是后面新增的从时候又尝试根据这两个变量找到对应的索引

在这里插入图片描述
在这里插入图片描述
这样就导致到了ExternSheetRecord 类的_list属性会随着程序的运行不断的增长!

解决

1.直接替换文件类型将.xls换位新版的.xlsx
2.升级版本apache.poi版本,我尝试升级为3.8版本的时候发现就没有这个问题了,原因是再3.8中删除的删除的页签的时候不会修改RefSubRecord的信息
3.17的删除逻辑
在这里插入图片描述
3.8的删除逻辑 (少了上面红框的内容)
在这里插入图片描述

代码

复现...exceed 8224 bytes报错的代码

public class ExcelTest {private static int createSheetCnt = 0;private static final String path = "C:\\Users\\Desktop\\test2.xls";public void addSheet() {try {File file = new File(path);FileInputStream in = new FileInputStream(file);HSSFWorkbook workbook = new HSSFWorkbook(in);in.close();String sheetName = "test";int sheetIndex = workbook.getSheetIndex(sheetName);if (sheetIndex >= 0) {//页签存在删除页签workbook.removeSheetAt(sheetIndex);}//新建一个页签写入文件workbook.createSheet(sheetName);FileOutputStream fileOut = new FileOutputStream(path);workbook.write(fileOut);fileOut.close();System.out.println("创建页签次数:" + ++createSheetCnt);} catch (IOException e) {throw new RuntimeException(e);}}@Testpublic void test() {for (int i = 0; i < 10000; i++) {addSheet();}}
}

打印record信息的方法

    public void printlnRecords() {try {File file = new File(path);FileInputStream in = new FileInputStream(file);HSSFWorkbook workbook = new HSSFWorkbook(in);in.close();InternalWorkbook internalWorkbook = workbook.getInternalWorkbook();List<Record> records = internalWorkbook.getRecords();System.out.println("records size:" + records.size());int maxIndex = 0;int maxRecordSize = 0;for (int i = 0; i < records.size(); i++) {Record record = records.get(i);int recordSize = record.getRecordSize();System.out.println("第" + i + "个record的size:" + recordSize);System.out.println(record);System.out.println();if (recordSize > maxRecordSize) {maxRecordSize = recordSize;maxIndex = i;}}System.out.println("第" + maxIndex + "个record的有最大size:" + maxRecordSize);} catch (IOException e) {throw new RuntimeException(e);}}

http://www.ppmy.cn/devtools/124117.html

相关文章

正则表达式【JavaScript】

JavaScript的正则表达式&#xff08;Regular Expressions&#xff0c;简称Regex或RegExp&#xff09;是一种强大的工具&#xff0c;用于匹配字符串中的模式。正则表达式包含许多元字符&#xff08;Metacharacters&#xff09;&#xff0c;这些元字符用于定义模式的结构。 一、…

音视频入门基础:FLV专题(14)——FFmpeg源码中,解码Script Tag的实现

一、引言 在《音视频入门基础&#xff1a;FLV专题&#xff08;9&#xff09;——Script Tag简介》中对Script Tag进行了简介&#xff0c;本文讲述FFmpeg源码中是怎样解码FLV文件的Script Tag&#xff0c;拿到里面的信息。 二、flv_read_packet函数 从《音视频入门基础&#x…

基于STM32 ARM+FPGA+AD的电能质量分析仪方案设计(一)软件设计

电能质量分析系统核心算法及软件设计 4.1 电能质量分析系统软件结构 电能质量分析系统工作流程如下&#xff1a;系统上电后&#xff0c; ARM 和 FPGA 进行初始化 配置&#xff0c;随后与上位机建立连接并进行参数设置&#xff0c;将参数传输到 ARM 上&#xff0c; ARM…

【D3.js in Action 3 精译_030】3.5 给 D3 条形图加注图表标签(下):Krisztina Szűcs 人物专访 + 3.6 本章小结

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第一部分 D3.js 基础知识 第一章 D3.js 简介&#xff08;已完结&#xff09; 1.1 何为 D3.js&#xff1f;1.2 D3 生态系统——入门须知1.3 数据可视化最佳实践&#xff08;上&#xff09;1.3 数据可…

手撕数据结构 —— 单链表(C语言讲解)

目录 1.为什么要有链表 2.什么是链表 3.链表的分类 4.无头单向非循环链表的实现 SList.h中接口总览 具体实现 链表节点的定义 打印链表 申请结点 尾插 头插 尾删 头删 查找 在pos位置之前插入 在pos位置之后插入 删除pos位置 删除pos位置之后的值 5.完整代码…

C++设计模式——代理模式

欢迎来到 破晓的历程的 博客 ⛺️不负时光&#xff0c;不负己✈️ 文章目录 引言代理模式的定义代理模式的具体实现 引言 我们经常听到代理服务器「代理服务器是一个中间服务器&#xff0c;能够接收客户端的请求&#xff0c;并代表客户端向服务器发起请求&#xff0c;然后将服…

【Python】物流行业数据分析与可视化案例

一&#xff0c;前言 在本文中&#xff0c;我将使用python语言基于Jupyter notebook对这一份物流行业数据集进行多维度数据分析&#xff0c;文章内容参考自b站马士兵《数据分析五大经典实战项目》教学视频&#xff0c;并对其中一些操作做出优化。 数据集下载地址&#xff1a;物流…

JS 怎么监听复制事件 并获取复制内容 并修改复制文本内容

需求背景&#xff1a; 需要禁用部分文本内容的复制事件&#xff0c;并且在复制事件发生时&#xff0c;将复制的文本内容通过接口传给后端。 上代码&#xff1a; // 使用Dom获取需要操作禁用时间的元素let element: any document.getElementById(test1);// 为该元素添加 copy 事…