HDFS小文件解决方案---archive归档文件命令

news/2025/1/15 19:56:24/

小文件解决方案

    • 背景
    • Archive概述
    • 创建archive
    • 查看归档文件
      • 查看归档之后的样子
      • 查看归档文件之前的样子
    • 提取archive
    • archive注意事项

背景

  • hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode占用内存,如果存在大量的小文件,它们会吃掉namenode大量内存。如下所示,模拟小文件场景:
    在这里插入图片描述

Archive概述

  • hadoop archive可以有效地处理以上的问题,它可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件
    在这里插入图片描述

创建archive

  • hdfs dfs -archive -archiveName archive.har /path/to/file.txt /path/to/archive.har
    • -archiveName archive.har: 指定生成的归档文件名为archive.har。扩展名是*.har
    • /path/to/directory/: 要归档的整个目录的路径
    • /path/to/archive/: 归档文件的存储位置。
    • 多个文件进行归档操作的时候可以用:hdfs dfs -archive -archiveName archive.har /path/to/file1.txt /path/to/file2.txt /path/to/archive/
  • 注意:archive归档是通过MapReduce程序完成的,需要启动yarn集群
    在这里插入图片描述

查看归档文件

查看归档之后的样子

hadoop fs -ls /outputdir /test.har

这里可以看到har文件包括:两个索引文件,多个part文件(本例只有一个)以及一个标识成功与否的文件。part文件是多个源文件的集合,通过index文件可以去找到源文件
例如上述的三个小文件1.txt,2.txt,3.txt内容分别是1,2,3.进行archive操作之后,三个小文件就归档到test.har里的part-0一个文件里。
在这里插入图片描述

查看归档文件之前的样子

  • 在查看har文件的时候,如果没有指定访问协议,默认使用hdfs://,此时所能看到的就是归档之后的样子。此外,archive还提供了自己的har uri访问协议。如果用har uri去访问的话,索引,标识等文件就会隐藏起来,只显示创建档案之前的原文件:
  • hadoop archives的uri是:
har://scheme-hostname:port/archivepath/fileinarchive
scheme-hostname格式为hdfs-域名:端口

在这里插入图片描述

提取archive

按顺序解压存档(串行):

hadoop fs -cp har:///outputdir/test.har/* /smallfile1
# 要并行解压存档,请使用DisCp,对应大的归档文件可以提高效率:
hadoop distcp har:///outputdir/test.har/* smallfile2

在这里插入图片描述

archive注意事项

在这里插入图片描述


http://www.ppmy.cn/news/1010080.html

相关文章

数据结构----结构--线性结构--递归

数据结构----结构–线性结构–递归 1.递归的概念 递归:将一个问题拆解成解决方案完全相同的子问题,并且有一个明确的终点 看如下递归代码理解一下递归 void fun(int n){if(n4){printf("%d",n);return;}fun(n1);printf("%d",n); …

C++笔记之从数组指针到函数数组指针(使用using name和std::function)

C笔记之从数组指针到函数数组指针(使用using name和std::function) 参考笔记: C之指针探究(三):指针数组和数组指针 C之指针探究(十三):函数指针数组 C之指针探究(二):一级指针和一维数组 C之指针探究(十一):函数名的…

Leetcode-每日一题【剑指 Offer 10- I. 斐波那契数列】

题目 写一个函数,输入 n ,求斐波那契(Fibonacci)数列的第 n 项(即 F(N))。斐波那契数列的定义如下: F(0) 0, F(1) 1 F(N) F(N - 1) F(N - 2), 其中 N > 1. 斐波那契数列由 0 和 1 开…

Kali中AWD靶机环境搭建

Kali中AWD靶机环境搭建 1、kali安装docker2、克隆项目(400多M,下载会有点久)3、进入项目4、下载镜像5、改镜像名6、比赛环境搭建6.1 启动靶机6.2 连接裁判机,启动check脚本6.3 关闭环境命令 7、 靶机访问方式7.1 web界面访问7.2 s…

idea:Web server failed to start. Port 8081 was already in use.

文章目录 Web server failed to start. Port 8081 was already in use.问题描述解决方案1解决方案2关闭占用端口 Web server failed to start. Port 8081 was already in use. 问题描述 8081端口被占用 解决方案1 查看配置信息 重启idea 解决方案2 关闭占用端口 1.使用c…

java并行流的介绍

什么是并行流? 在介绍并行流之前,我们首先需要了解Stream API是什么。Stream API允许我们以声明性的方式对数据进行操作,例如过滤、映射、排序等,而无需编写繁琐的迭代和循环代码。这不仅提高了代码的可读性,还可以帮…

codeup(云效)流水线部署主机离线的问题

我是通过 云助手Agent 来进行部署的,也就是codeup账号和ecs不是一个账号。 助手的安装等问题参考: 在ECS及自有主机上部署云效失败的常见问题_云效-阿里云帮助中心 如何启动、停止或卸载云助手客户端_云服务器 ECS-阿里云帮助中心 如何安装云助手客…

【C# 基础精讲】C# 数据类型概述

在C#中,数据类型可以分为以下三大类:值类型、引用类型和指针类型。每种类型都具有不同的特点和适用场景,了解这些类型对于编写高效和稳健的C#程序至关重要。下面将依次介绍这三大类数据类型,并列出C#中常见的每种类型。 值类型 值…