Flume入门

devtools/2024/10/19 6:16:57/

第1关:Flume 简介
 

1、一个agent包含哪些组件?ACD


A、source     B、event    C、channel     D、sink

2、每个组件必须要配置以下哪些内容  ABD


A、名称

B、类型
C、拦截器
D、属性集

3、以下哪些是flume的特点:B


A、可靠性


B、可恢复性


C、高可用性


D、唯一性

第2关:采集目录下所有新文件到Hdfs

代码文件


a1.sources = source1
a1.sinks = sink1
a1.channels = channel1# 配置source组件
a1.sources.source1.type = spooldir
a1.sources.source1.spoolDir = /opt/flume/data
##定义文件上传完后的后缀,默认是.COMPLETED
a1.sources.source1.fileSuffix=.FINISHED
##默认是2048,如果文件行数据量超过2048字节(1k),会被截断,导致数据丢失
a1.sources.source1.deserializer.maxLineLength=5120# 配置sink组件
a1.sinks.sink1.type = hdfs
a1.sinks.sink1.hdfs.path =hdfs://localhost:9000/flume
#上传文件的前缀
a1.sinks.sink1.hdfs.filePrefix = flume
#上传文件的后缀
a1.sinks.sink1.hdfs.fileSuffix = .log
#积攒多少个Event才flush到HDFS一次
a1.sinks.sink1.hdfs.batchSize= 100
a1.sinks.sink1.hdfs.fileType = DataStream
a1.sinks.sink1.hdfs.writeFormat =Text## roll:滚动切换:控制写文件的切换规则
## 按文件体积(字节)来切
a1.sinks.sink1.hdfs.rollSize = 512000
## 按event条数切   
a1.sinks.sink1.hdfs.rollCount = 1000000
## 按时间间隔切换文件,多久生成一个新的文件
a1.sinks.sink1.hdfs.rollInterval = 4## 控制生成目录的规则
a1.sinks.sink1.hdfs.round = true
##多少时间单位创建一个新的文件夹
a1.sinks.sink1.hdfs.roundValue = 10
a1.sinks.sink1.hdfs.roundUnit = minute#是否使用本地时间戳
a1.sinks.sink1.hdfs.useLocalTimeStamp = true# channel组件配置
a1.channels.channel1.type = memory
## event条数
a1.channels.channel1.capacity = 500000
##flume事务控制所需要的缓存容量600条event
a1.channels.channel1.transactionCapacity = 600# 绑定source、channel和sink之间的连接
a1.sources.source1.channels = channel1
a1.sinks.sink1.channel = channel1

命令行代码:


start-dfs.sh
hadoop dfs -mkdir /flume

http://www.ppmy.cn/devtools/37517.html

相关文章

【Apache POI】Apache POI-操作Excel表格-简易版

Catalog Apache POI-操作Excel表格1. 需求2. 优点3. 缺点4. 应用场景5. 使用方法6. SpringBoot工程中处理Excel表格7. Demo示例 Apache POI-操作Excel表格 1. 需求 大多数项目的在运营过程中,会产生运营数据,如外卖系统中需要统计每日的订单完成数、每…

2024爆火的AI设备Rabbit R1到底是什么?有人说它是AI的iPhone时刻,有人说它是套壳的安卓

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识…

【JavaEE初阶系列】——Servlet运行原理以及Servlet API详解

目录 🚩Servlet运行原理 🚩Servlet API 详解 🎓HttpServlet核心方法 🎓HttpServletRequest核心方法 🎈核心方法的使用 🔴获取请求中的参数 💻query string 💻直接通过form表…

【busybox记录】【shell指令】tsort

目录 内容来源: 【GUN】【tsort】指令介绍 【busybox】【tsort】指令介绍 【linux】【tsort】指令介绍 使用示例: 常用组合指令: 指令不常用/组合用法还需继续挖掘: 内容来源: GUN : Coreutils - GN…

【RabbitMQ 二】RabbitMQ基本组成、交换器类型、RabbitMQ生产消费消息流程、信道Channel、AMQP协议

RabbitMQ入门 1.RabbitMQ基本组成 RabbitMQ有一些基本的组成单元: Producer:消息的生产者Consumer:消息的消费者Broker:RabbitMQ的服务节点。形象一点说就是一个Broker等同于一台RabbitMQ服务器,可以接收Producer的…

理解Oracle闪回级别【Oracle闪回技术】(一)

Oracle闪回技术是数据恢复技术,具有恢复时间快,不适用备份文件。可以使数据库回到某个状态。 可以满足用户的逻辑处理的快速恢复。 但是闪回技术只是逻辑数据恢复,如果是数据文件损坏,必须依赖介质才能恢复。 闪回技术的特性&…

Android Studio之ImageView

ImageView是图像显示控件,与图形显示有关的属性说明如下: scaleType:指定图形的拉伸类型,默认是fitCenter。src:指定图形来源,src图形按照scaleType拉伸。 注意背景图不按scaleType指定的方式拉伸,背景默…

使用DependencyCheck工具检测JAR依赖包的安全漏洞

引言 Dependency-Check 是一个开源工具,用于检测软件项目中使用的第三方库和组件是否存在已知的安全漏洞。它可以帮助开发团队及时发现和解决项目中的潜在安全风险,从而提高软件的安全性。 该工具通过分析项目的依赖关系,识别其中使用的第三方库和组件,并与已知的漏洞数据…