【重磅发布】AllData数据中台核心功能:湖仓一体化平台

ops/2025/3/1 15:05:08/

🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。

✨奥零数据科技官网:http://www.aolingdata.com
✨AllData开源项目:https://github.com/alldatacenter/alldata
✨AllData官方文档:https://alldata-document.readthedocs.io
✨AllData社区文档:https://docs.qq.com/doc/DVHlkSEtvVXVCdEFo
在这里插入图片描述
在这里插入图片描述
「 AllData数据中台 - 主页 」
在这里插入图片描述

「 湖仓一体化平台 - 功能描述 」

1、AllData数据同步平台基于开源项目kyuubi核心技术建设。

2、在数据同步与处理方面,湖仓一体化平台展现了其强大的实力。它能够实时捕获并同步各类数据源的变化,确保数据的及时性和准确性。同时,平台融合了Flink的流处理能力和Spark等计算引擎的批处理能力,实现了数据湖上的批流一体处理。这种处理方式不仅降低了数据处理的复杂性和成本,还提高了数据处理的效率和灵活性。

3、在生态集成方面,湖仓一体化平台与Hive、Trino、Presto等大数据主流计算引擎深度整合,为用户提供了统一的数据存储和访问接口。这种深度整合不仅简化了数据访问的复杂性,还提高了数据的可用性和共享性。此外,平台还支持多种数据源的无缝接入和统一管理,满足了企业多样化的数据需求。

4、在存储与查询性能方面,湖仓一体化平台采用了先进的存储架构和技术,如LSM树等,确保了高效的数据写入和查询性能。同时,平台还通过数据压缩和优化技术,进一步提升了存储效率和查询速度。

5、kyuubi湖仓一体化平台以其强大的功能、高效的处理能力、良好的生态集成以及卓越的存储与查询性能,成为了适用于各种大数据场景的存储解决方案。它不仅为企业提供了坚实可靠的数据基础,还为数据分析和实时计算提供了有力的支持。

「 湖仓一体化平台 - 模块功能汇总 」

在这里插入图片描述

「 湖仓一体化平台 - 功能点展示 」

「 湖仓查询 」统计概览
在这里插入图片描述

「 湖仓查询 」管理中心-会话中心
在这里插入图片描述
「 湖仓查询 」管理中心-操作中心
在这里插入图片描述

「 湖仓查询 」管理中心-引擎中心
在这里插入图片描述
在这里插入图片描述
「 湖仓查询 」管理中心-服务端
在这里插入图片描述

「 湖仓查询 」接口文档
在这里插入图片描述
「 湖仓查询 」查询中心
在这里插入图片描述
「 湖仓查询 」查询中心-SparkSQL

from pyspark.sql import SparkSession# 创建支持 HiveSparkSession 对象
spark = SparkSession.builder \.appName("SparkSQLHiveQuery") \.enableHiveSupport() \.getOrCreate()# 编写 Spark SQL 查询语句,假设存在一个名为 'your_hive_table' 的 Hive 表
query = "SELECT * FROM your_hive_table WHERE some_column = 'some_value'"# 执行 SQL 查询,结果存储在一个新的 DataFrame 中
result = spark.sql(query)# 显示查询结果
result.show()# 停止 SparkSession,释放资源
spark.stop()

在这里插入图片描述
「 湖仓查询 」查询中心-FlinkSQ

from pyflink.table import EnvironmentSettings, TableEnvironment# 创建基于 Blink 计划器的批处理环境设置
env_settings = EnvironmentSettings.new_instance() \.in_batch_mode() \.use_blink_planner() \.build()# 创建表环境
table_env = TableEnvironment.create(env_settings)# 配置 Hive 连接
hive_catalog_ddl = """
CREATE CATALOG my_hive_catalog WITH ('type' = 'hive','hive-conf-dir' = '/path/to/your/hive/conf'
)
"""
# 执行创建 Hive 目录的 SQL 语句
table_env.execute_sql(hive_catalog_ddl)# 使用 Hive 目录
table_env.execute_sql("USE CATALOG my_hive_catalog")# 编写 Flink SQL 查询语句,假设 Hive 中有一个名为 'your_hive_table' 的表
query = "SELECT * FROM your_hive_table WHERE some_column = 'some_value'"# 执行查询
result_table = table_env.sql_query(query)# 将结果转换为 Pandas DataFrame 并显示
result_pandas_df = result_table.to_pandas()
print(result_pandas_df)

在这里插入图片描述
「 湖仓查询 」查询中心-Trino

-- 首先使用 CTE(公共表表达式) subquery 计算每个客户的总订单金额
WITH subquery AS (SELECT c.customer_city,c.customer_name,SUM(o.order_amount) AS total_order_amountFROM hive.<your_database>.customers c-- 通过客户 ID 关联 customers 表和 orders 表JOIN hive.<your_database>.orders o ON c.customer_id = o.customer_id-- 按客户所在城市和客户姓名分组GROUP BY c.customer_city, c.customer_name
),
-- 接着使用 CTE rank_subquery 对每个城市的客户按总订单金额进行排名
rank_subquery AS (SELECT customer_city,customer_name,total_order_amount,-- 使用 RANK() 函数为每个城市内的客户按总订单金额降序排名RANK() OVER (PARTITION BY customer_city ORDER BY total_order_amount DESC) as rankingFROM subquery
)
-- 从 rank_subquery 中筛选出排名为 1 的记录,即每个城市中总订单金额最高的客户
SELECT customer_city,customer_name,total_order_amount
FROM rank_subquery
WHERE ranking = 1;

在这里插入图片描述
「 湖仓查询 」查询中心-HiveSQL

-- 使用 CTE 对员工按部门进行薪资排名
WITH ranked_employees AS (SELECT employee_id,employee_name,department_id,salary,-- 使用 ROW_NUMBER() 窗口函数为每个部门内的员工按薪资降序排名ROW_NUMBER() OVER (PARTITION BY department_id ORDER BY salary DESC) as rankingFROM employees
)
-- 从 ranked_employees 中筛选出排名在前三的员工信息
SELECT employee_id,employee_name,department_id,salary
FROM ranked_employees
WHERE ranking <= 3;

在这里插入图片描述
「 湖仓查询 」查询中心-JDBC

SELECT c.customer_name,SUM(o.quantity) AS total_quantity,SUM(o.quantity * p.price) AS total_amount
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN products p ON o.product_id = p.product_id
GROUP BY c.customer_name
HAVING SUM(o.quantity * p.price) > 1000;

在这里插入图片描述


http://www.ppmy.cn/ops/162257.html

相关文章

计算机毕业设计Python+DeepSeek-R1大模型考研院校推荐系统 考研分数线预测 考研推荐系统 考研(源码+文档+PPT+讲解)

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

活在AI原生时代的05后,开始用AI创业

大家好&#xff0c;我是Shelly&#xff0c;一个专注于输出AI工具和科技前沿内容的AI应用教练&#xff0c;体验过300款以上的AI应用工具。关注科技及大模型领域对社会的影响10年。关注我一起驾驭AI工具&#xff0c;拥抱AI时代的到来。 人工智能&AIGC术语100条 Shelly聊AI-重…

windows配置永久路由

前言 在实际应用场景中&#xff0c;遇到了这样一个需求&#xff0c;高斯数据库在生产内网中&#xff0c;我们使用nginx将高斯数据库服务代理出来&#xff0c;并且配置了ip限制&#xff0c;只能使用公司的外网ip进行访问&#xff0c;由于连接上公司VPN以后并不能成功访问数据库…

NIM平台开发基于提示工程的大语言模型(LLM)应用

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 1 课程介绍1.1 Goals1.2 content 2 提示词简介2.1 NVIDIA NIMs 用于提示工程2.2 OpenAI API 交互2.3 与 LangChain 交互实现聊天2.4 流式处理和批处理2.5 迭代式提示…

Spring也能接入Deepseek?

引言 最近DeepSeek可谓风光无限&#xff0c;AI可谓是目前互联网最火热的几个名词&#xff0c;我也一直在关注他的发展&#xff0c;从以前的人工智障&#xff0c;到chatGPT的高不可攀&#xff08;价格太贵&#xff09;&#xff0c;再到DeepSeek的横空出世&#xff0c;才看到了A…

2024年第十五届蓝桥杯大赛软件赛省赛Python大学A组真题解析

文章目录 试题A: 拼正方形(本题总分:5 分)解析答案试题B: 召唤数学精灵(本题总分:5 分)解析答案试题C: 数字诗意解析答案试题A: 拼正方形(本题总分:5 分) 【问题描述】 小蓝正在玩拼图游戏,他有7385137888721 个2 2 的方块和10470245 个1 1 的方块,他需要从中挑出一些…

结构化方法SASD

结构化方法是一种面向功能或者说面向数据流的方法&#xff0c;结构化方法包括针对需求分析的结构化分析方法&#xff08;SA&#xff09;、针对软件设计阶段的结构化设计方法&#xff08;SD&#xff09;、针对软件开发阶段的结构化编程方法&#xff08;SP&#xff09; 结构化分…

【Leetcode 每日一题】2353. 设计食物评分系统

问题背景 设计一个支持下述操作的食物评分系统&#xff1a; 修改 系统中列出的某种食物的评分。返回系统中某一类烹饪方式下评分最高的食物。 实现 FoodRatings 类&#xff1a;FoodRatings(String[] foods, String[] cuisines, int[] ratings) 初始化系统。食物由 f o o d s…