Java如何解决彻底解决,大数据量excel导出内存溢出问题

news/2025/2/25 1:41:33/

一、核心工具选型:流式处理框架

1. 使用EasyExcel(推荐)

阿里巴巴开源的EasyExcel基于流式读写设计,通过逐行处理数据避免内存堆积。

优势:
内存占用低,支持百万级数据导出;
内置分页写入、自动压缩等优化功能。

示例代码(分页写入):

java">ExcelWriter excelWriter = EasyExcel.write(fileName, Data.class).build();
WriteSheet writeSheet = EasyExcel.writerSheet("Sheet1").build();
int batchSize = 10000;
List<Data> dataList;
int pageIndex = 0;
do {dataList = getDataByPage(pageIndex++, batchSize); // 分页查询excelWriter.write(dataList, writeSheet);
} while (dataList.size() == batchSize);
excelWriter.finish(); // 必须关闭资源[6,10](@ref)

2. Apache POI的SXSSF模块

适用于需要复杂Excel格式的场景,通过限制内存中保留的行数实现流式处理。

示例代码:

java">SXSSFWorkbook workbook = new SXSSFWorkbook(100); // 内存保留100行
SXSSFSheet sheet = workbook.createSheet("Sheet1");
for (RowData data : dataStream) {Row row = sheet.createRow(rowNum++);// 填充数据并定期清理内存if (rowNum % 100 == 0) sheet.flushRows(100); // 持久化到磁盘
}

二、技术优化策略

1. 分页查询与分批处理

数据库分页:通过LIMIT offset, size分页查询,避免一次性加载全量数据。
MyBatis流式查询:结合ResultHandler逐行处理数据,减少内存占用。

java">userMapper.export(new ResultHandler<User>() {@Overridepublic void handleResult(ResultContext<? extends User> context) {User user = context.getResultObject();// 每积累1000条写入Excelif (dataList.size() == 1000) {excelWriter.write(dataList, writeSheet);dataList.clear();}}
});

2. 内存管理优化

JVM参数调整:增大堆内存(如-Xmx4G),启用G1垃圾回收器。
关闭非必要功能:禁用EasyExcel的自动列宽计算、样式缓存等。

java">EasyExcel.write(fileName).registerWriteHandler(new SimpleWriteHandler()) // 禁用自动列宽.sheet("Sheet1").doWrite(dataList);

3. 异步与文件处理

异步导出:将导出任务提交到线程池,避免阻塞主线程。
临时文件与压缩:将中间结果写入临时文件,导出完成后压缩或上传OSS。

三、架构级解决方案

1. 分布式处理

将数据拆分到多个节点并行处理,通过MapReduce或Spark生成多个Excel分片,最终合并。

2. 内存映射文件(MappedByteBuffer)

适用于超大数据(如数亿行),通过直接操作文件内存映射减少JVM堆压力。

java">try (FileChannel channel = FileChannel.open(path, StandardOpenOption.WRITE)) {MappedByteBuffer buffer = channel.map(FileChannel.MapMode.READ_WRITE, 0, 1024 * 1024);// 直接操作buffer写入数据
}

四、代码设计规范

资源释放:确保ExcelWriter、SXSSFWorkbook等对象调用finish()或dispose()关闭。
对象复用:避免循环内频繁创建对象,使用对象池或静态对象。
数据简化:导出时仅包含必要字段,避免嵌套对象和复杂结构。

五、性能验证与监控

压力测试:使用JMeter模拟百万级数据导出,观察内存峰值和GC频率。
监控工具:通过VisualVM或Arthas分析内存泄漏点,优化高频对象创建。

总结

彻底解决内存溢出需综合工具选型(如EasyExcel/SXSSF)、分页处理、JVM调优及代码规范。对于超大数据场景,可结合异步导出、分布式处理或内存映射文件进一步优化。实际项目中需根据数据量级和硬件资源选择合适的组合方案。


http://www.ppmy.cn/news/1574735.html

相关文章

第三章 组件(8)- 控制 <head> 内容

Razor 组件可以修改页面的 HTML <head> 元素内容&#xff0c;包括页标题<title>元素、元数据<meta>元素、<base>和<link>等。 HeadOutlet组件 在Blazor中&#xff0c;可以通过HeadOutlet组件来控制HTML中的 <head> 内容。 HeadOutlet组…

AIGC-LLAMA模型介绍

LLAMA模型介绍 LLAMA模型介绍LLAMA模型架构模型特点 训练数据代码示例 LLAMA模型介绍 LLAMA&#xff08;LLaMA, Large Language Model Meta AI&#xff09;是Meta&#xff08;前Facebook&#xff09;开发的一系列大型语言模型。LLAMA模型家族旨在提供高效、灵活的语言处理能力…

从卡顿到丝滑:火山引擎DeepSeek-R1引领AI工具新体验

方舟大模型体验中心全新上线&#xff0c;免登录体验满血联网版Deep Seek R1 模型及豆包最新版模型:https://www.volcengine.com/experience/ark?utm_term202502dsinvite&acDSASUQY5&rcGO9H7M38 告别DeepSeek卡顿&#xff0c;探索火山引擎DeepSeek-R1的丝滑之旅 在A…

Python selenium 库

Selenium 是一个用于自动化 Web 浏览器操作的强大工具&#xff0c;广泛应用于 Web 应用程序测试、网页数据抓取和任务自动化等场景。 Selenium 为各种编程语言提供了 API&#xff0c;用作测试。 目前的官方 API 文档有 C#、JavaScript、Java、Python、Ruby。 安装 Selenium 和…

【个人开源】——从零开始在高通手机上部署sd(一)

代码:https://github.com/chenjun2hao/qualcomm.sd 从零基础开始&#xff0c;在自己的高通手机(骁龙8 gen1)上用NPU跑文生图stable diffusion模型。包含&#xff1a; 高通qnn下载安装sd模型浮点/量化导出在高通手机上用cpu跑浮点模型&#xff0c;htp跑量化模型 1. python依赖…

Qt/C++面试【速通笔记一】

Qt 信号与槽机制 什么是信号&#xff08;Signal&#xff09;和槽&#xff08;Slot&#xff09;&#xff1f; 在Qt中&#xff0c;信号&#xff08;Signal&#xff09;和槽&#xff08;Slot&#xff09;是实现对象之间通信的一种机制。信号是对象在某些事件发生时发出的通知&…

现代无线通信接收机架构:超外差、零中频与低中频的比较分析

写在前面&#xff1a;本博客是对三种接收机架构的学习笔记&#xff0c;仅供个人学习记录使用。内容主要是上网查阅的资料&#xff0c;以及个人的一些理解。如有错误的地方请指出&#xff01; 文章目录 一、通信机基本架构 1、射频发射级的基本组成及完成功能2、射频接收级的基…

微服务即时通信系统---(三)框架学习

目录 brpc RPC框架 核心概念 工作原理 介绍 安装 头文件包含和编译时指明库 类与接口介绍 日志输出类与接口 protobuf类与接口 Closure类 RpcController类 服务端类与接口 ServerOptions类 Server类 ClosureGuard类 HttpHeader类 Controller类 客户端类与…