Hadoop 面试题（九）

1. 简述下面关于Hadoop系统中使用CombineFileInputFormat解决小文件问题的描述错误的是（）？

A：CombineFileInputFormat是使用Hadoop API(抽象类CombineFileInputFormat)来解决小文件的问题
B：抽象类CombineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片或块中
C：要使用抽象类CombineFileInputFormat，需要实现3个定制类：CustomCFIF、PairOfStringLong、CustomRecordReader
D：PairOfStringLong要扩展CombineFileInputFormat，创建子类来支持定制格式的输入

描述错误的是：

D：PairOfStringLong要扩展CombineFileInputFormat，创建子类来支持定制格式的输入 - 这个描述是错误的。PairOfStringLong并不是一个类，而是Hadoop API中的一个泛型类，通常用作MapReduce作业中的键类型，用于存储字符串和长整型数据对。它不需要扩展CombineFileInputFormat，也不需要创建子类来支持定制格式的输入。

其他选项的说明：

A：CombineFileInputFormat是使用Hadoop API(抽象类CombineFileInputFormat)来解决小文件的问题 - 这个描述是正确的。CombineFileInputFormat是Hadoop API中的一个抽象类，用来解决小文件问题。

B：抽象类CombineFileInputFormat的基本思想是通过使用一个定制的InputFormat允许将小文件合并到Hadoop的分片或块中 - 这个描述是正确的。CombineFileInputFormat允许开发者将多个小文件作为一个大的逻辑输入分片处理，从而减少Map任务的数量。

C：要使用抽象类CombineFileInputFormat，需要实现3个定制类：CustomCFIF、PairOfStringLong、CustomRecordReader - 这个描述部分正确，但可能存在误解。使用CombineFileInputFormat时，通常需要实现一个自定义的InputFormat类（这里称为CustomCFIF），继承自CombineFileInputFormat。PairOfStringLong不是需要实现的类，而CustomRecordReader是需要实现的一个类，用于处理合并后输入分片的记录读取。

2. 简述有关Hadoop生态中各个角色对在高可用上的作用下列描述错误的是（）？

A：YARN集群：为主备切换控制器提供主备选举支持
B：共享存储系统：共享存储系统保存了NameNode在运行过程中所产生的HDFS的元数据，Active NameNode和Standby NameNode通过共享存储系统实现元数据同步
C：DataNode节点：DataNode节点的HDFS的Block和DataNode之间的映射关系，在故障主备切换时，DataNode会主动上报Block和DataNode的映射关系
D：NameNode节点：一台处于 Active 状态，为主 NameNode，另外一台处于 Standby 状态，为备 NameNode，只有主 NameNode 才能对外提供读写服务

描述错误的是：

A：YARN集群：为主备切换控制器提供主备选举支持 - 这个描述是错误的。在Hadoop高可用性（HA）配置中，YARN并不负责NameNode的主备选举。实际上，ZooKeeper用于NameNode的主备选举，而YARN主要负责集群的资源管理和作业调度。

其他选项的说明：

B：共享存储系统：共享存储系统保存了NameNode在运行过程中所产生的HDFS的元数据，Active NameNode和Standby NameNode通过共享存储系统实现元数据同步 - 这个描述是正确的。在HA配置中，共享存储系统（如NFS、QJM等）用于存储NameNode的元数据，确保Active NameNode和Standby NameNode之间的元数据同步。

C：DataNode节点：DataNode节点的HDFS的Block和DataNode之间的映射关系，在故障主备切换时，DataNode会主动上报Block和DataNode的映射关系 - 这个描述是正确的。DataNode负责存储HDFS的数据块（Block），并在NameNode发生故障切换时，向新的Active NameNode报告其存储的数据块信息。

D：NameNode节点：一台处于 Active 状态，为主 NameNode，另外一台处于 Standby 状态，为备 NameNode，只有主 NameNode 才能对外提供读写服务 - 这个描述是正确的。在HA配置中，确实有一台NameNode作为Active提供服务，另一台作为Standby等待接管，只有Active NameNode处理客户端的读写请求。

3. 简述关于Hadoop系统中添加节点的描述错误的是？

A：新加节点上不需要有Hadoop环境
B：在NameNode节点上修改HADOOP_HOME/conf/master文件，加入NameNode主机名
C：在NameNode节点上修改HADOOP_HOME/conf/slaves文件，加入新节点名
D：建立新加节点无密码的SSH连接，运行启动命令为：/usr/local/hadoop$bin/start-all.sh

描述错误的是：

A：新加节点上不需要有Hadoop环境 - 这个描述是错误的。在Hadoop集群中添加新节点时，新节点需要安装Hadoop环境并配置相应的Hadoop目录和配置文件。这样才能确保新节点能够作为集群的一部分正常工作。

其他选项的说明：

B：在NameNode节点上修改HADOOP_HOME/conf/master文件，加入NameNode主机名 - 这个描述是正确的。在Hadoop 1.x版本中，master文件用于配置NameNode的主机名。

C：在NameNode节点上修改HADOOP_HOME/conf/slaves文件，加入新节点名 - 这个描述是正确的。slaves文件用于列出所有DataNode的主机名，添加新节点时需要更新这个文件。

D：**建立新加节点无密码的SSH连接，运行启动命令为：/usr/local/hadoop $bin / s t a r t - a ll . s h * * - 这个描述部分正确，但需要澄清。通常，需要在 N am e N o d e （以及 R eso u rce M ana g er ，如果使用 Y A RN ）上配置无密码 SS H 到所有节点，包括新添加的节点。然而，启动命令 ‘/ u sr / l oc a l / ha d oo p$ bin/start-all.sh`是在NameNode上运行的，用于启动整个Hadoop集群的服务，而不是在新添加的节点上运行。新节点的Hadoop服务通常会自动启动，或者需要单独在该节点上运行相应的启动脚本。

4. 简述不参与Hadoop系统读过程的组件是？

A：flink
B：NameNode
C：DataNode
D：读流程中生成的临时文件

不参与Hadoop系统读过程的组件是：

A：flink - 这个描述是正确的。Flink是一个用于大规模数据流处理的框架，它并不是Hadoop生态系统的一部分，也不参与Hadoop的读过程。

其他选项的说明：

B：NameNode - 这个描述是错误的，因为NameNode是HDFS的元数据管理节点，它参与了Hadoop系统的读过程，负责定位文件数据块所在的DataNode。

C：DataNode - 这个描述是错误的，因为DataNode存储了HDFS中的实际数据块，并且在读过程中提供了数据的读取。

D：读流程中生成的临时文件 - 这个描述可能不准确，因为临时文件在Hadoop的读流程中可能会被使用，尤其是在MapReduce作业中，它们可能在Map和Reduce阶段作为中间输出存在。不过，如果问题指的是读操作完成后不保留的临时文件，那么它们在完成其作用后会被删除，不会长期“参与”系统读过程。但这个选项表述不够清晰，可能需要更多上下文来准确判断。

5. 简述关于 HDFS 安全模式说法正确的是（）？

A：在安全模式下只能写不能读
B：在安全模式下只能读不能写
C：在安全模式下读写都不允许
D：在安全模式下读写都可以

关于HDFS安全模式的正确说法是：

B：在安全模式下只能读不能写 - 在HDFS的安全模式下，集群处于只读状态，这意味着用户可以读取数据，但不能进行写操作或修改文件系统的命名空间。

其他选项的说明：

A：在安全模式下只能写不能读 - 这个描述是错误的，因为安全模式不允许写操作。

C：在安全模式下读写都不允许 - 这个描述是错误的，因为安全模式允许读操作。

D：在安全模式下读写都可以 - 这个描述是错误的，因为安全模式的目的是限制写操作，以保护数据的完整性，尤其是在启动过程中或在NameNode配置更改后。

6. 简述Hadoop生态圈中ZooKeeper的作用描述错误的选项是（）？

A：ZooKeeper是一个开源的分布式应用程序协调服务
B：基于ZooKeeper可以实现同步服务
C：ZooKeeper可以实现配置维护、命名服务
D：ZooKeeper负责文件系统底层读写

描述错误的选项是：

D：ZooKeeper负责文件系统底层读写 - 这个描述是错误的。ZooKeeper不负责文件系统的底层读写操作。它是一个分布式协调服务，用于管理集群中的节点状态和配置信息，提供同步服务、配置维护和命名服务等功能。文件系统的底层读写是由Hadoop的HDFS（Hadoop Distributed File System）组件负责的。

其他选项的说明：

A：ZooKeeper是一个开源的分布式应用程序协调服务 - 这个描述是正确的。ZooKeeper是一个开源的解决方案，用于维护配置信息、命名、提供分布式同步和提供组服务等。

B：基于ZooKeeper可以实现同步服务 - 这个描述是正确的。ZooKeeper提供了基于其数据节点的同步服务，可以用于实现分布式锁等同步机制。

C：ZooKeeper可以实现配置维护、命名服务 - 这个描述是正确的。ZooKeeper通常用于维护集群节点的配置信息和命名服务，允许不同节点在集群中相互发现和协调。