HDFS写数据流程

HDFS写数据流程

news/2024/11/25 18:21:04/

HDFS写数据流程，如图所示。

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2）NameNode返回是否可以上传。

3）客户端请求第一个 Block上传到哪几个DataNode服务器上。

4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。

5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。

6）dn1、dn2、dn3逐级应答客户端。

7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。

8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

Client是如何向Hadoop的HDFS中写数据的详解版本

第一步：客户端调用DistributedFileSystem的create()方法，开始创建新文件：DistributedFileSystem创建DFSOutputStream，产生一个RPC调用，让NameNode在文件系统的命名空间中创建这一新文件；

第二步：NameNode接收到用户的写文件的RPC请求后，首先要执行各种检查，如客户是否有相关的创佳权限和该文件是否已存在等，检查都通过后才会创建一个新文件，并将操作记录到编辑日志，然后DistributedFileSystem会将DFSOutputStream对象包装在FSDataOutStream实例中，返回客户端；否则文件创建失败并且给客户端抛IOException。

第三步：客户端开始写文件：DFSOutputStream会将文件分割成packets数据包，然后将这些packets写到其内部的一个叫做data queue(数据队列)。data queue会向NameNode节点请求适合存储数据副本的DataNode节点的列表，然后这些DataNode之前生成一个Pipeline数据流管道，我们假设副本集参数被设置为3，那么这个数据流管道中就有三个DataNode节点。

第四步:首先DFSOutputStream会将packets向Pipeline数据流管道中的第一个DataNode节点写数据，第一个DataNode接收packets然后把packets写向Pipeline中的第二个节点，同理，第二个节点保存接收到的数据然后将数据写向Pipeline中的第三个DataNode节点。

第五步：DFSOutputStream内部同样维护另外一个内部的写数据确认队列——ack queue。当Pipeline中的第三个DataNode节点将packets成功保存后，该节点会向第二个DataNode返回一个确认数据写成功的信息，第二个DataNode接收到该确认信息后在当前节点数据写成功后也会向Pipeline中第一个DataNode节点发送一个确认数据写成功的信息，然后第一个节点在收到该信息后如果该节点的数据也写成功后，会将packets从ack queue中将数据删除。

在写数据的过程中，如果Pipeline数据流管道中的一个DataNode节点写失败了会发生什问题、需要做哪些内部处理呢？如果这种情况发生，那么就会执行一些操作：

首先，Pipeline数据流管道会被关闭，ack queue中的packets会被添加到data queue的最前面以确保不会发生packets数据包的丢失；

接着，在正常的DataNode节点上的以保存好的block的ID版本会升级——这样发生故障的DataNode节点上的block数据会在节点恢复正常后被删除，失效节点也会被从Pipeline中删除；

最后，剩下的数据会被写入到Pipeline数据流管道中的其他两个节点中。

如果Pipeline中的多个节点在写数据是发生失败，那么只要写成功的block的数量达到dfs.replication.min(默认为1)，那么就任务是写成功的，然后NameNode后通过一步的方式将block复制到其他节点，最后使数据副本达到dfs.replication参数配置的个数。因此，我们不得不怀疑该机制是否会导致一定的数据重复呢？

第六步：完成写操作后，客户端调用close()关闭写操作，刷新数据；

第七步：在数据刷新完后NameNode后关闭写操作流。到此，整个写操作完成。

http://www.ppmy.cn/news/30847.html

相关文章

vue3的v-model指令

vue3的v-model指令

1. 普通input输入框双向绑定 <template><input type"text" v-model&qu…

阅读更多...

Java中对象的finalization机制

Java中对象的finalization机制

本篇文章我们详细介绍Java中对象的finalization机制，以及怎么使用finalize()方法，将即将被回收的对象，拉回来。1、finalization机制Java语言提供了对象终止（finalization）机制来允许开发人员提供对象被销毁之前的自定义…

阅读更多...

LSTM网络：一种强大的时序数据建模工具

LSTM网络：一种强大的时序数据建模工具

❤️觉得内容不错的话，欢迎点赞收藏加关注😊😊😊，后续会继续输入更多优质内容❤️👉有问题欢迎大家加关注私戳或者评论（包括但不限于NLP算法相关，linux学习相关，读研读博…

阅读更多...

【预告】ORACLE Unifier v22.12 虚拟机发布

【预告】ORACLE Unifier v22.12 虚拟机发布

引言离ORACLE Primavera Unifier 最新系统 v22.12已过去了3个多月，应盆友需要，也为方便大家体验，我近日将构建最新的Unifier的虚拟环境，届时将分享给大家，最终可通过VMWare vsphere (esxi) / workstation 或Oracle …

阅读更多...

文件预览kkFileView安装及使用

文件预览kkFileView安装及使用

1 前言网页端一般会遇到各种文件，比如：txt、doc、docx、pdf、xml、xls、xlsx、ppt、pptx、zip、png、jpg等等。有时候我们不想要把文件下载下来，而是想在线打开文件预览 ，这个时候如果每一种格式都需要我们去写代码造轮子去实现预…

阅读更多...

类和对象及其构造方法

类和对象及其构造方法

类和对象现实世界的事物由什么组成？ 属性行为类也可以包含属性和行为，所以使用类描述现实世界事物是非常合适的类和对象的关系是什么？ 类是程序中的“设计图纸” 对象是基于图纸生产的具体实体什么是面向对象编程？ 面向对象编…

阅读更多...

【C语言】详解静态变量static

【C语言】详解静态变量static

关键字static 在C语言中：static是用来修饰变量和函数的static主要作用为:1. 修饰局部变量-静态局部变量 2. 修饰全局变量-静态全局变量3. 修饰函数-静态函数在讲解静态变量之前，我们应该了解静态变量和其他变量的区别: 修饰局部变量 //代码1 #include &l…

阅读更多...

【打卡-Coggle竞赛学习2023年3月】对话意图识别

【打卡-Coggle竞赛学习2023年3月】对话意图识别

学习链接： https://coggle.club/blog/30days-of-ml-202303 ## Part1 内容介绍本月竞赛学习将以对话意图识别展开，意图识别是指分析用户的核心需求，错误的识别几乎可以确定找不到能满足用户需求的内容，导致产生非常差的用户体验…

阅读更多...

最新文章