大数据处理技术:分布式文件系统HDFS

news/2024/9/19 3:56:28/ 标签: hdfs, hadoop, 大数据, HDFS-JAVA接口, 文件, 头歌, Java

目录

1 实验名称:

2 实验目的

3 实验内容

4 实验原理

5 实验过程或源代码

5.1 HDFS的基本操作

5.2 HDFS-JAVA接口之读取文件

5.3 HDFS-JAVA接口之上传文件

5.4 HDFS-JAVA接口之删除文件

6 实验结果

6.1 HDFS的基本操作

6.2 HDFS-JAVA接口之读取文件

6.3 HDFS-JAVA接口之上传文件

6.4 HDFS-JAVA接口之删除文件


1 实验名称:

       分布式文件系统HDFS

2 实验目的

       1.理解HDFS存在的优势,理解HDFS体系架构,学会在环境中部署HDFS学会HDFS基本命令。

       2.理解HDFS的读写操作原理,掌握HDFS的一些常用命令,理解实际操作HDFS读写时的流程。

3 实验内容

       (1)HDFS的基本操作

       (2)HDFS-JAVA接口之读取文件

       (3)HDFS-JAVA接口之上传文件

       (4)HDFS-JAVA接口之删除文件

4 实验原理

       HDFS(Hadoop Distributed File System)是一个分布式文件系统,是谷歌的GFS山寨版本。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。

      HDFS文件系统的角色分为三种(Master和Slave的结构,主从节点结构),分为NameNode、Secondary NameNode和DataNode三种角色。

       HDFS为分布式计算存储提供了底层支持,采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS 架构原理HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个DataNode。Namenode管理文件系统的元数据,而Datanode存储了实际的数据。

5 实验过程或源代码

5.1 HDFS的基本操作

       1.启动Hadoop,在HDFS中创建/usr/output/文件夹:

start-dfs.sh
hadoop fs -mkdir /usr
hadoop fs -mkdir /usr/output

       2.在本地创建hello.txt文件并添加内容:“HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。”:vim hello.txt

       3.将hello.txt上传至HDFS的/usr/output/目录下:hadoop fs -put hello.txt /usr/output

       4.删除HDFS的/user/hadoop目录:hadoop fs -rm -r /user/hadoop

       5.将Hadoop上的文件hello.txt从HDFS复制到本地/usr/local目录:hadoop fs -copyToLocal /usr/output/hello.txt /usr/local

5.2 HDFS-JAVA接口之读取文件

       1.使用FSDataInputStream获取HDFS的/user/hadoop/目录下的task.txt的文件内容,并输出。代码实现如下:

URI uri = URI.create("hdfs://localhost:9000/user/hadoop/task.txt");Configuration config = new Configuration();FileSystem fs = FileSystem.get(uri,config);InputStream in = null;try{in = fs.open(new Path(uri));IOUtils.copyBytes(in, System.out,2048,false);}catch (Exception e){IOUtils.closeStream(in);}

5.3 HDFS-JAVA接口之上传文件

       1.在/develop/input/目录下创建hello.txt文件,并输入如下数据:迢迢牵牛星,皎皎河汉女。纤纤擢素手,札札弄机杼。终日不成章,泣涕零如雨。河汉清且浅,相去复几许?盈盈一水间,脉脉不得语。《迢迢牵牛星》。命令行:

mkdir /develop
mkdir /develop/input
cd /develop/input
vim hello.txt
start-dfs.sh

       2.使用FSDataOutputStream对象将文件上传至HDFS的/user/tmp/目录下,并打印进度。代码实现如下:

File localPath = new File("/develop/input/hello.txt");String hdfsPath = "hdfs://localhost:9000/user/tmp/hello.txt";InputStream in = new BufferedInputStream(new FileInputStream(localPath));Configuration config = new Configuration();FileSystem fs = FileSystem.get(URI.create(hdfsPath), config);long fileSize = localPath.length() > 65536 ? localPath.length() / 65536 : 1; FSDataOutputStream out = fs.create(new Path(hdfsPath), new Progressable() {long fileCount = 0;public void progress() {System.out.println("总进度" + (fileCount / fileSize) * 100 + "%");fileCount++;}});IOUtils.copyBytes(in, out, 2048, true);

5.4 HDFS-JAVA接口之删除文件

       1.启动hadoop:start-dfs.sh

       2.实现如下功能:删除HDFS的/user/hadoop/目录(空目录);删除HDFS的/tmp/test/目录(非空目录);列出HDFS根目录下所有的文件文件夹;列出HDFS下/tmp/的所有文件文件夹。代码实现如下:

String root = "hdfs://localhost:9000/";String path = "hdfs://localhost:9000/tmp";String del1 = "hdfs://localhost:9000/user/hadoop";String del2 = "hdfs://localhost:9000/tmp/test";Configuration config = new Configuration();FileSystem fs = FileSystem.get(URI.create(root),config);fs.delete(new Path(del1),true);fs.delete(new Path(del2),true);Path[] paths = {new Path(root),new Path(path)};FileStatus[] status = fs.listStatus(paths);Path[] listPaths = FileUtil.stat2Paths(status);for (Path path1 : listPaths){
System.out.println(path1);
}

6 实验结果

6.1 HDFS的基本操作

       1.文件输出结果

6.2 HDFS-JAVA接口之读取文件

       1.获取HDFS的/user/hadoop/目录下的task.txt的文件内容

6.3 HDFS-JAVA接口之上传文件

       1.文件上传并打印进度

6.4 HDFS-JAVA接口之删除文件

       1.删除文件输出结果


http://www.ppmy.cn/news/1527514.html

相关文章

php变量赋值javascipt变量

javascript变量可以通过document.getElementById()获取html变量值php变量 可以在不同php脚本中使用&#xff0c;最后一次使用变量的初始值位为上一次使用变量的值 <!DOCTYPE html> <html> <body><?php $a "Hello World!"; echo $a; ?> …

Java入门程序-HelloWorld

Java程序开发的三个步骤 1.编写代码得到 .java 源代码文件 2.使用javac编译得到 .class 字节码文件 3.使用java运行 注意事项 建议代码文件名全英文&#xff0c;首字母大写&#xff0c;满足驼峰命名法&#xff0c;源代码文件的后缀必须是.java 开发HelloWorld程序 &…

网络基础,协议,OSI分层,TCP/IP模型

网络的产生是数据交流的必然趋势&#xff0c;计算机之间的独立的个体&#xff0c;想要进行数据交互&#xff0c;一开始是使用磁盘进行数据拷贝&#xff0c;可是这样的数据拷贝效率很低&#xff0c;于是网络交互便出现了&#xff1b; 1.网络是什么 网络&#xff0c;顾名思义是…

SQL Server数据库简单的事务日志备份恢复

模拟数据库备份恢复过程 1.基础操作 1.创建TestDB数据库&#xff0c;并添加数据 USE [master] GO CREATE DATABASE TestDB CONTAINMENT NONE ON PRIMARY ( NAME NTestDB, FILENAME ND:\TestDB.mdf , SIZE 8192KB , MAXSIZE UNLIMITED, FILEGROWTH 65536KB ) LOG ON ( …

【资料分析】刷题日记1

第一套 第二个是相比2019年的增长率&#xff0c;错找为同比增长率 延申&#xff1a; 当出口和进口相比2019年的增长率相同时&#xff0c;可以用盐水解决 √ 一个假设分配&#xff08;第二次是1.4取1&#xff09;加法对比选项 基期倍数&#xff1a; 求A是B的多少倍&#x…

【LLM text2sql】浅看大模型用于text2sql的综述

前言 之前笔者分享了text2sql & LLM & KG的有机结合实现KBQA的问答&#xff0c; 《【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践》、 《【开源分享】KBQA核心技术及结合大模型SPARQL查询生成问答实践》。 我们再来看看大模型在te…

SAP B1 Web Client MS Teams App集成连载二:安装Install/升级Upgrade/卸载Uninstall

一、安装/Install 过程/Procedure&#xff1a; 1.获取应用包并将其解压缩/Get the app package and unzip it。 导航到 SAP Business One 产品包的以下文件夹&#xff1a;Packages.x64\MS Teams Integration\ Navigate to the following folder in the SAP Business One prod…

传输层协议 —— UDP协议

目录 0.前言 1.UDP协议格式 16位源端口和目的端口 16位UDP长度 16位校验和 2.UDP协议特点 无连接 不可靠 面向数据报 3.UDP的缓冲区 0.前言 首先&#xff0c;我们得明确一点&#xff0c;网络模型是分层的。自底向上分别是物理层、数据链路层、网络层、传输层、应用层…

uniapp 端开发 echarts 树结构图

实现效果 &#xff1a; 1. 在uniapp 中写echarts 树结构图需要使用 <script module"echarts" lang"renderjs"> 否则会无法显示echarts 图形 rebderjs 代码 引入了 /static/echarts.min.js 是在 ECharts 在线构建 定制你的echarts <te…

GBase8c主备版500升级步骤

# 升级方式区别 就地升级&#xff1a;升级期间需停止业务进行&#xff0c;一次性升级所有节点。 灰度升级&#xff1a;灰度升级支持全业务操作&#xff0c;也是一次性升级所有节点。 指定节点升级&#xff1a;基于灰度升级&#xff0c;支持升级指定节点&#xff0c;支持部分…

【Transformer深入学习】之一:Sinusoidal位置编码的精妙

看苏神的文章提到&#xff1a;Transformer原论文使用Sinusoidal位置编码&#xff0c;作为位置编码的一个显式解&#xff0c;Google 在原论文中对它的描述寥寥无几&#xff0c;只是简单提及了它可以表达相对位置信息&#xff0c;并未提及这个编码的合理性。 看了几篇文章&#x…

python定时任务,定时爬取水质和天气

定时爬取水质和天气 代码 代码 from apscheduler.schedulers.background import BackgroundScheduler import requests import datetimeurlweather "http://localhost:8000/CrwalingViewWeather" # 天气接口 urlwater "http://localhost:8000/CrwalingViewW…

【LeetCode】每日一题 2024_9_15 与车相交的点(差分)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动&#xff01; 今天的题目曾经的我做过了 . . . 又是复习的一天 题目&#xff1a;与车相交的点 代码与解题思路 func numberOfPoints(nums [][]int) (ans int) { diff : [102]int{}for _, p : range nums {diff[p[0]]d…

Redhat 7,8系(复刻系列) 一键部署Oracle21c-xe rpm

Oracle21c-xe前言 无论您是开发人员、DBA、数据科学家、教育工作者,还是仅仅对数据库感兴趣,Oracle Database Express Edition (XE) 都是理想的入门方式。它是全球企业可依赖的强大的 Oracle Database,提供简单的下载、易于使用和功能齐全的体验。您可以在任何环境中使用该…

快手手撕 力扣2487 从链表中移除节点 单调栈 递归

Problem: 2487. 从链表中移除节点 &#x1f468;‍&#x1f3eb; 参考题解 &#x1f496; 递归解法 /*** Definition for singly-linked list.* public class ListNode {* int val;* ListNode next;* ListNode() {}* ListNode(int val) { this.val val; }* …

Qt中QGraphicsView窗口大小与视图大小的关系

在Qt框架中&#xff0c;QGraphicsView窗口和视图的大小之间存在一定的关系。为了更好地理解这种关系&#xff0c;我们可以从以下几个方面来阐述&#xff1a; 1. 窗口大小 定义&#xff1a;窗口大小指的是QGraphicsView部件在屏幕上占据的矩形区域的大小。它由宽度和高度两个维…

get_property --Cmakelist之中

get_property 是 CMake 中用于获取目标、目录、变量或文件等属性的命令。它可以提取某个特定属性的值&#xff0c;以便在构建脚本的其他地方使用。 语法 get_property(<variable> <TYPE> <name> PROPERTY <property-name> [SET | DEFINED | BRIEF_DO…

Spring Boot-API网关问题

****### Spring Boot API 网关问题分析与解决方案 在微服务架构中&#xff0c;API 网关扮演着非常重要的角色。它位于客户端和微服务之间&#xff0c;充当所有外部请求的入口&#xff0c;负责请求的路由、聚合、鉴权、限流等功能。Spring Boot 提供了多种方式实现 API 网关&am…

记录工作中遇到的问题(持续更新~)

跨域问题 2024-09-15 【前提】&#xff1a;前端配置了nignx转发&#xff0c;后端设置了跨域拦截&#xff0c;对http://xxxx做了允许跨域。但是访问http://xxx被拦截了&#xff0c;返回403 Forbidden。同样的配置放在另外一套部署的环境上就完全没问题&#xff0c;http://xxx可…

828华为云征文|华为Flexus云服务器搭建OnlyOffice私有化在线办公套件

一、引言 在当今数字化办公的时代&#xff0c;在线办公套件的需求日益增长。华为Flexus云服务器凭借其强大的性能和稳定性&#xff0c;为搭建OnlyOffice私有化在线办公套件提供了理想的平台。在2024年9月14日这个充满探索精神的日子里&#xff0c;我们开启利用华为Flexus云服务…