OPPO自研DataFlow架构与实践

embedded/2025/2/2 3:17:23/

1. 背景

OPPO很多线上业务每天会产生海量数据,如日志数据、监控数据、调用链数据。我们需要把这些数据进行归类、聚合、过滤、存储。例如将不同的日志数据写入到不同的存储系统中。如果这些日志数据同步写入到数据库中,则会降低服务的性能。如果采用异步发送,先将数据写入本地缓存队列,然后再启动一个线程从队列中获取数据,写入到数据库中,这样处理不会将影响对外服务的性能,但是如果数据量过大时容易造成进程OOM,重启时则数据丢失。

DataFlow是由OPPO互联网自研的一款高性能的数据流采集、聚合和传输框架,它通过将日志写入问题件,同时利用文件系统的顺序写入、内存缓存和内存映射文件技术、预写日志WAL等方式来提高写入的效率。

2、架构

DataEvent

DataEvent是DataFlow端到端传输的基本单元,它由body和headers信息构成,由K-V构成的Map信息,主要用于数据信息的传递。

private Map<String, String> headers = new HashMap<>();private List<T> body = new ArrayList<>();

Source

它是数据源,从特定通道(如Http)接受数据,把消息路由分发到Channel中。开发者通过继承SourceBase实现Source的功能。

Channel

它保存接收到的DataEvent直到它们被所有Sink节点消费完成,Channel传输时需要序列化及反序列化,默认采用的是Kryo,开发者可以根据实际情况使用其它序列化方式,如protobuf。开发者通过继承ChannelBase实现Channel的功能以及序列化和反序列化。

Sink

它主要从Channel中获取数据,将数据传输到下一个目的地,如Elasticsearch、RocksDB。一个Sink有且只有一个Channel。开发者通过继承SinkBase实现Sink的功能。 

用户在使用DataFlow时,需要自己实现继承一个SourceBase的类,调用里面的put方法将DataEvent写入到Channel中。Channel默认采用系统自带的FileChannel,将用户调用的put方法写入的数据存储到本地磁盘中。然后用户只需要调用task方法就可以从Channel中获取数据,进行数据的分析、存储。

3、FileChannel

FileChannel写流程

FileChanel在运行之前,需要配置两个文件夹,一个是数据文件夹,用来存放用户写入的数据和数据的索引信息;另一个是checkpoint文件夹,用来定时持久化元数据信息。

用户写数据之前,需要开启一个事务,事务号由每一个channel来产生,类似于雪花算法。


http://www.ppmy.cn/embedded/158793.html

相关文章

【2025年最新版】Java JDK安装、环境配置教程 (图文非常详细)

文章目录 【2025年最新版】Java JDK安装、环境配置教程 &#xff08;图文非常详细&#xff09;1. JDK介绍2. 下载 JDK3. 安装 JDK4. 配置环境变量5. 验证安装6. 创建并测试简单的 Java 程序6.1 创建 Java 程序&#xff1a;6.2 编译和运行程序&#xff1a;6.3 在显示或更改文件的…

特权模式docker逃逸

目录 1.环境 2.上线哥斯拉 3.特权模式逃逸 1.判断是否为docker环境 2.判断是否为特权模式 3.挂载宿主机磁盘到docker 4.计划任务反弹shell 1.环境 ubuntu部署一个存在CVE-2017-12615的docker: (ip:192.168.117.147) kali(ip:192.168.117.128) 哥斯拉 2.上线哥斯拉…

「AI学习笔记」深度学习进化史:从神经网络到“黑箱技术”(三)

在这篇文章中&#xff0c;我们将探讨深度学习&#xff08;DL&#xff09;这一领域的最新发展&#xff0c;以及它如何从传统机器学习&#xff08;ML&#xff09;中独立出来&#xff0c;成为一个独立的生态系统。深度学习的核心思想与我们大脑中的神经网络高度相似&#xff0c;因…

【C++动态规划 离散化】1626. 无矛盾的最佳球队|2027

本文涉及知识点 C动态规划 离散化 LeetCode1626. 无矛盾的最佳球队 假设你是球队的经理。对于即将到来的锦标赛&#xff0c;你想组合一支总体得分最高的球队。球队的得分是球队中所有球员的分数 总和 。 然而&#xff0c;球队中的矛盾会限制球员的发挥&#xff0c;所以必须选…

二级C语言:二维数组每行最大值与首元素交换、删除结构体的重复项、取出单词首字母

目录 一、程序填空 --- 二维数组每行最大值与首元素交换 题目 分析 知识点 --- 交换语句 二、程序修改 --- 删除结构体的重复项 题目 分析 三、程序设计 --- 取出单词首字母 题目 分析 前言 本章讲解&#xff1a;二维数组每行最大值与首元素交换、删除结构体的重复项…

MaxCompute—阿里云原生大数据计算机服务——SQL概述与服务支持

MaxCompute&#xff08;原名ODPS&#xff0c;Oriented Data Processing Service&#xff09;是阿里云提供的一款云原生大数据计算服务。它是一种基于SQL的全托管式大数据处理平台&#xff0c;允许用户在云端快速、简便地处理和分析海量数据。 什么是MaxCompute MaxCompute是适…

directx12 3d+vs2022游戏开发第三章 笔记五 变换

一、变换实质 总结来说就是通过矩阵和向量计算控制点变换&#xff0c;变换的效果可以实现局内物体的平移&#xff0c;旋转&#xff0c;缩放等一系列操作。 具体实现为先使用线性变换&#xff0c;即向量矩阵控制物体对于自身坐标系的旋转&#xff0c;缩放。 再使用仿射变换&a…

P1158

题意 就是给你机器的工作半径&#xff0c;每次工作要花钱&#xff0c;就是工作半径的平方&#xff0c;问你怎么花最少的钱&#xff0c;拦截所有导弹。 思路 每次通过我们的公式计算距离&#xff0c;存入并排序&#xff0c;最后即可得出答案。 代码 #include <bits/stdc…