从nas硬盘大量解压缩zip文件的性能问题

news/2024/10/18 6:12:00/

“计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决.”

一个名人说的,也是我们解决问题主要的一种方式。我们总是想设计做到“透明”。提供很高的服务给下一层服务,你不需要管中间的细节,你调用就好了。

不会存在只有一面的硬币。记得读书的时候,计算机历史中就有人想把API调用都设计成一样的,本地调用和网络调用看起来是一样的,但是这期间的时间差,如果不仔细考虑,那么上层的代码就无法使用。(如果是网络调用,你需要读取很大的内容来反复处理,如果是从内存读取内容,就可以把代码写的更好读,一次一次遍历。)

这次的任务是在Linux服务器上,有很多zip文件需要进行解压缩任务,然后再copy到另一台nas机器上。文件一共是几百万左右,最开始就没什么都没想,只把工程完成就好了。然后就交给机器去跑。

但是第二天发现,工作的很慢,然后没想太多,想提供多线程去优化。反正就是改写到10个线程同时处理。然后发现还是没有想象的快。一直认为是apache zip是不是有什么性能问题。不理解为什么他们这么菜。哈哈

其实这里面还是涉及到太多的底层,有自己无法理解的地方。问了一下人工智能。它给出的方案是先copy到本地,然后再加压缩到目标nas

我还是理解不了上诉方案,因为copy到本地在解压缩,就相当于。Nas硬盘->内存->网络->本机内存->本地硬盘。 然后再解压缩。

如果直接取数据不是相当于Nas硬盘->内存->网络->本机内存-> 然后直接处理了。减少了本机写硬盘的时间。(这个问题之前遇到过,也没想通。)

后来想看看nas的底层原理,使用mount看了一下是使用的什么协议。

xx.xxx.xxx.xxx:/ /SFTP on /xxxx type nfs4 (rw,relatime,vers=4.1,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,clientaddr=10.67.38.149,local_lock=none,addr=xx.xxx.xxx.xxx)

这是NFS协议的具体细节:

  • 协议版本: NFS v4.1(通过 vers=4.1 指定)。
  • 传输协议: 使用 TCP(通过 proto=tcp 指定)。
  • 其他选项:
    • /写大小: rsize=1048576, wsize=1048576(每次读写数据块大小为1MB)。
    • 超时和重传: timeo=600, retrans=2(传输超时时间和重传次数)。
    • 安全: sec=sys(表示基于系统的安全方式)。

总之,所有的挂载路径都使用了NFS v4.1协议来进行网络存储访问。

看了以后发现自己的代码

byte[] buffer = new byte[1024];
try (ZipFile zipFile = new ZipFile(file)) {

使用的是1k的缓冲,但是nas使用的是1M的缓冲,那么用脑子想想(还没有进行验证)应该是造成了nas缓冲的大量浪费。如果把代码里面的缓冲设置成大于或者等于nas的缓冲就大可以大幅度提高效率。回来有机会可以试一下这次猜想。

还有就是任何一层都无法做到完全透明,如果你想做好,那么你就需要了解底层原理。但是还是会减少了大量的编码成本。而且在不在意效率的情况下,普遍还是工作很好的。


http://www.ppmy.cn/news/1539915.html

相关文章

前端运行的底层逻辑

前端代码的底层运行逻辑和原理涉及多个层面,包括浏览器的工作机制、JavaScript 的执行环境、DOM 的操作和渲染过程等。以下是详细的分析和解释。 1. 浏览器的工作机制 浏览器作为前端代码的执行环境,主要负责以下几个方面: 解析 HTML&#…

【消息队列】Kafka从入门到面试学习总结

国科大学习生活(期末复习资料、课程大作业解析、大厂实习经验心得等): 文章专栏(点击跳转) 大数据开发学习文档(分布式文件系统的实现,大数据生态圈学习文档等): 文章专栏(点击跳转&…

023 elasticsearch查询数据 高亮 分页 中文分词器 field的数据类型

文章目录 1查询的语法2查询全部数据3termQuery 关键词查询4QueryString查询,根据查询字符串查询5match查询,功能和query_string相同6multi_match查询7bool查询8高亮处理9查询结果分页10中文分词器field的数据类型 1查询的语法 方法:post url…

西门子828d的plc一些信息记录

1、虽然是200的plc但是引入了DB的形式替代原来的V存储区。 2、用户自定义DB块范围,DB9000-DB9063,共64个DB块。 可用地址范围如上图 机床MCP483面板地址表,其它类型的面板地址自己在828d简明调试手册里查看。 如何上载828d的plc程序: 1.通…

幼儿和青少年编程学习路径

1. 引言 编程在现代教育中的重要性 随着信息时代的来临,编程不再是一个小众技能,而是成为未来社会各行业的重要基础能力。从计算机科学到人工智能,再到数据科学和软件工程,编程技能无疑是未来全球经济的核心驱动力之一。越来越多…

软考(网工)——网络互联与互联网

🕐网络互联设备 1️⃣网络互联设备总结(重点) 2️⃣中继器与集线器 🔴网络演进历史 ⬇️⬇️🟠集线器工作原理与问题 从一个接口进入的数据,进行信号放大后,从其他所有接口进行泛洪。 如下图…

10秒钟用Midjourney画出国风味的变形金刚

上魔咒 Optimus Prime comes from the movie Transformers, Chinese style, Wu ShanMing, Ink Painting Halo Dyeing, Conceptual of the Digita Art, MasterComposition, Romantic Ancient Style, Inspired by traditional patterns and symbols, Minimalism, do not con…

群晖前面加了雷池社区版,安装失败,然后无法识别出用户真实访问IP

有nas的相信对公网都不模式,在现在基础上传带宽能有100兆的时代,有公网代表着家里有一个小服务器,像百度网盘,优酷这种在线服务都能部署为私有化服务。但现在运营商几乎不可能提供公网ip,要么自己买个云服务器做内网穿…