一文了解多云原生的现代化实时数仓 SelectDB Cloud

ops/2024/12/28 12:34:49/

随着数字化转型的加速,云计算已成为现代企业运营中的关键组成部分。云的重要性体现在多个方面:首先,它提供更好的灵活性与可扩展性,可根据实际需求动态调整计算和存储资源,以快速适应市场变化并支持业务增长。其次,其采用按需计费的模式,使企业能够有效控制成本,避免高昂的硬件投资和维护费用。

飞轮科技作为 Apache Doris 的商业化公司,基于其内核自主研发了现代多云原生实时数据仓库 SelectDB Cloud,充分利用云原生能力,为客户提供极致性价比、融合统一、简单易用、安全稳定的云上数据分析服务。自推出至今, SelectDB Cloud 已支持全球主流云平台,并通过不断创新,推出了更符合客户合规需求的 BYOC 部署模式。此外,为满足客户更广泛场景需求, SelectDB Cloud 在高并发实时报表、日志存储与分析、湖仓一体等场景不断深化,致力于提供更高效的数据分析体验。

云原生存算分离架构

云计算基础设施的成熟带来了许多独有的优势,例如可根据需要快速增加或减少资源,无需担心基础设施的限制,只需为实际使用付费;又如提供了灵活多样的存储介质,可针对实际需求配置不同性能、不同价格的存储。那么,SelectDB Cloud 如何充分利用云上特性,发挥云基础设施的优势呢?

SelectDB Cloud 采用存算分离模式,将计算资源和存储资源分开管理,从而更好地发挥云计算平台的强大功能。

在计算方面:

  • 支持多计算集群:多个计算集群共享同一份数据,用户可以通过多计算集群对不同业务或者离线负载隔离。

  • 计算集群弹性伸缩:支持计算集群弹性伸缩,根据工作负载的高低峰运行时段、作业执行规律,灵活配置不同规模的计算资源。

在存储方面:

  • 支持冷热存储分层:全量数据存储到成本更低且极其可靠的共享存储中,热数据仅在本地 Cache,相比存算一体三副本,存储成本最高下降至原先的 1/10;

<a class=云原生存算分离架构.png" height="678" src="https://i-blog.csdnimg.cn/img_convert/15dc97d70f9ea78384854742ac950228.png" width="1200" />

01 多计算集群,高效实现负载隔离

当计算层与存储层分离设计后,计算层没有数据状态,可支持极其灵活快速的弹性伸缩;而存储层可极为方便的供多个计算资源进行共享访问。因此,SelectDB Cloud 引入多计算集群能力,通过数据仓库架构上的创新,以更好地满足用户需求。

SelectDB Cloud 设计多计算集群架构初衷主要源于写入与读取隔离、在线业务和离线业务隔离这两类典型场景。

  • 写入与读取隔离: 传统数仓架构中,数据的写入和读取在同一个计算集群,当遇到业务写入高峰时,容易因资源相互抢占影响查询性能和稳定性。SelectDB Cloud 多计算集群可通过独立的计算集群分别进行写入、读取操作,即使写入压力非常高时,计算任务也能顺利执行,从而避免因写入高峰期影响查询服务的性能。

多计算集群,高效实现负载隔离.png

  • 在线业务与离线业务隔离: 通常情况下,大多数分析场景会使用相同的数据支撑多个业务场景,而这些场景对于服务的延时、可用性要求完全不同。传统架构通常会把数据冗余存储到不同系统中,但这会带来较高存储成本和系统维护成本。SelectDB Cloud 多计算集群可基于同一份数据拷贝,使用独立隔离的计算资源分别满足在线和离线业务需求,实现不同业务负载的隔离。同时运维和管理也相对独立,从而为用户带来显著的成本节省和简化的运维体验。

多计算集群,高效实现负载隔离-2.png

02 弹性伸缩,灵活应对高低峰工作负载

在实际业务场景中,经常面临不断变化的工作负载。如果计算资源是固定的,那么在业务高峰无法支撑、需要更多资源,然而在业务低谷时,这些资源又会被大量闲置、造成浪费。

为此,SelectDB Cloud 支持计算资源的弹性伸缩,可以根据工作负载的高低峰运行时段、作业执行规律,灵活配置不同规模的计算资源。 例如在业务高峰期进行快速扩容以应对大规模并发查询需求,在低负载时期快速缩容以节省资源开销。在集群空置时,还支持集群自动挂起,以进一步降低资源成本。

弹性伸缩,灵活应对高低峰工作负载.png

03 冷热分层技术,兼顾高性能及低成本

企业的数据规模从 TB 级别到 PB 级别已经变得十分普遍。在总体成本中,计算资源和数据存储占据了最大的比例。因此,对于企业来说,在保证计算性能的基础上控制存储成本变得尤为重要。

SelectDB Cloud 采用冷热分层技术,利用云上不同的存储介质特性,将冷、热数据分别存储在成本不同的存储介质上。 热数据存储在成本更高的 SSD 盘上,以确保数据的查询响应速度;冷数据则存储在成本低廉的对象存储上,以降低存储成本。通过冷热存储分层,既保证了查询性能,又有效降低了总体存储成本。

冷热分层技术,兼顾高性能及低成本-2.png

实时写入,极速分析

面对大规模数据,各企业面临的挑战之一是如何以更低的延迟进行数据写入和处理,从而提高数据的新鲜度。此外,对于数据应用而言,缩短查询时间并提供更高的查询性能也是企业亟需解决的另一个挑战。

在写入方面,SelectDB Cloud 支持大规模数据的实时导入与实时存储:

  • 秒级的数据实时更新(主键表)与追加:支持数据的秒级可见,在主键表和非主键表上实现了高效的实时更新和追加。相比之下,大多传统数据仓库往往只能支持批量更新且不支持主键表,难以实现高频率的实时更新。

  • 数据库 CDC / Kafka 流式数据同步:实时数据仓库的上游数据源通常来自 TP 数据库或 Kafka 消息队列 ,为此 SelectDB Cloud 内置了数据库的 CDC(变更数据捕获)功能以及 Kafka 的流式数据同步功能,能够实现秒级别数据同步。

  • 毫秒级轻量化表模式修改:除数据的实时写入和更新之外,表模式(Schema)也需要快速变更,以适应快速变化的业务环境。SelectDB Cloud 提供毫秒级 Schema 修改的功能,且 Schema 修改期间完全不影响在线业务运行。

  • 支持半结构化数据类型:随着业务的扩展,半结构化数据类型变得愈加普遍。SelectDB 支持 Array、Map、JSON、Variant 等半结构化数据,能够满足这些数据类型的存储及处理需求。

在查询方面,SelectDB Cloud 支持多种查询负载上的极速分析性能:

  • 高并发点查询:SelectDB 支持单节点 30000 QPS 的超高并发,真正实现一套架构同时满足高吞吐 OLAP 分析和高并发 Data Serving 在线服务,极大简化混合工作负载下的技术架构,为用户提供统一的多场景分析体验。

  • 大宽表查询 :2022 年 10 月,在 ClickHouse 发起的数据库性能排行榜 Clickbench 中,SelectDB 首次登顶榜单,足以证明 SelectDB 在大宽表查询方面出色的性能。2024 年 05 月,SelectDB 在未进行任何调优的情况下,以极为出色的性能表现登上 Hot Run 总榜单第一名,再次体现其卓越性能。

  • 多表 Join 查询:在 SSB 和 TPC-H 等多表 Join 的测试中,SelectDB 多表 Join 性能可甚至达到 ClickHouse 的 100 倍、Greenplum 的 5-10 倍。

湖仓一体,融合统一

在大多数企业中,湖和仓是并行的两套系统,两者并行处理数据、但各自保持独立。数据湖用于存储原始数据、支持多种类型的数据和灵活的数据访问,数据仓库则用于存储经过处理的结构化数据、支持复杂的数据分析。然而无论湖或仓在场景上都具备一定的局限性,因此如今我们正处于数据湖和数据仓库融合的阶段,要想充分利用数据仓库的高性能和数据湖的开放性,整合这两者变得至关重要。

湖仓一体,融合统一.png

SelectDB Cloud 作为现代化统一的数据仓库,可帮助企业快速完成湖仓一体建设。

  • 湖仓查询加速: 数据无需迁移至 SelectDB Cloud,可使用 SelectDB 直接查询 Iceberg、Hudi、Paimon 等数据湖和 Hive 等离线数仓中的数据,实现查询加速。

  • 联邦分析: SelectDB Cloud 通过扩展 Catalog 和存储插件,增强了联邦分析能力,无需将数据统一存储,即可实现多个异构数据源的统一分析。不仅支持直查外部表及存储文件,也支持内表和外表以及外表间的关联分析,提供全局一致性的数据洞察与分析。

  • 数据湖构建: 数据湖的构建,不仅要考虑已有数据的查询,还需要考虑对数据湖的数据持续更新。Select Cloud 支持 Hive、Iceberg 数据写回功能,支持通过 SelectDB 创建 Hive、Iceberg 表,并将数据写入到 Hive、Iceberg 表中。用户可以将 SelectDB Cloud 中的内表数据写回离线湖仓,或对离线湖仓中的数据加工后落地回离线湖仓,实现更简化和高效的数据湖构建。

  • 半结构化与非结构化数据增强: 数据湖中经常存在半结构化与非结构化数据,SelectDB Cloud 目前已支持 Array / Map / Struct / JSON / Variant 等半结构化数据类型,未来还会引入向量索引,这将大幅拓展适用范围,满足更广泛的数据湖场景需求。

BYOC 和 SaaS 两种部署形态

在建设实时数仓过程中,使用者对于数据仓库通常会有不同的要求:

  • 使用及运维简单:期望整个系统运维与使用尽可能简单,以便专注于业务,而无需关注底层基础设施的维护,所有基础设施运维工作交由供应商管理。

  • 要求合规可控:部分客户对数据合规性、可控制性有严格要求,即便牺牲一些系统的复杂度及功能,也要确保满足这些要求。

针对不同客户的要求,SelectDB Cloud 提供了两种部署形态:SaaS(Software as a Service)和 BYOC (Bring Your Own Cloud)

BYOC 和 SaaS 两种部署形态.png

01 SaaS

  • 简化运维管理:SaaS 部署提供了全托管服务,开箱即用,无需关注底层基础设施的维护,避免资源管理、权限控制等方面的过多投入。

  • 较低综合成本:如果云厂商提供折扣有限,直接使用 SaaS 模式的仓库可以实现更低的综合成本。SaaS 模式通过简化运维和减少基础设施投资,降低了总体拥有成本(TCO)。同时,SaaS 还提供灵活的订阅模式,客户可根据实际需求调整服务规模。

  • 已支持云平台: 阿里云、华为云、腾讯云、亚马逊云科技(AWS)、Azure

02 BYOC

  • 数据控制与合规性:在 BYOC 部署中,数据能够完全保留在客户自有的 VPC(虚拟私有云)中,增强了数据的安全性,有助于满足客户严格的数据合规要求。

  • 更低的使用成本: 基于 BYOC 部署方式,客户可以使用自有云服务账号购买云服务器和对象存储等资源,并可享受云服务商的优惠折扣,实现成本的优化和节约。

  • 网络环境的便捷性:BYOC 部署允许客户在内部 VPC 直接部署仓库,网络环境的打通更加便捷,简化了网络配置和管理流程,提高了网络效率和性能。

  • 已支持云平台: 阿里云、华为云、腾讯云、亚马逊云科技(AWS)、GCP

稳定、安全合规及专业服务

随着数据驱动决策的普及,企业对稳定、安全的数据管理平台的需求不断增强。在此背景下,SelectDB Cloud 积极满足国内外安全标准,已获得多项权威认证。同时,飞轮科技提供全面和长期的技术支持,确保客户获得稳定可靠的使用体验。

  • 卓越的稳定性与可靠性: 飞轮科技提供长周期支持服务,长达 12 至 36 个月的维护周期,为客户生产环境提供持续的稳定性保障。此外,SelectDB 与 Apache Doris 及其生态系统工具完全兼容,确保您的业务流程无缝对接和高效运行。

  • 全面的数据安全与合规性: SelectDB Cloud 积极对标国内外安全合规标准,目前已通过包含等保三级、可信数据库评估评测等多项权威认证。同时,SelectDB 提供私网和加密连接,有效确保数据传输的安全性。此外,数据加密和环境隔离部署也进一步提升了数据和计算的安全性。

  • 专业的团队支持与服务: SelectDB Cloud 提供全面的技术支持和服务,定期进行例行巡检,及时发现并消除系统可能存在的隐患。严格遵守服务 SLA,遇到的问题做出及时响应和解决。此外,安排定期的产品培训和优质案例分享,提升客户系统使用能力。

阿里云数据库 SelectDB 版

飞轮科技与阿里云已达成深度战略合作,双方共同打造阿里云一级产品——阿里云数据库 SelectDB 版,即开即用,无需额外使用跨账号网络产品(如 Private Link),即可在自身 VPC 内私网连接访问阿里云数据库 SelectDB 版,并支持便捷融入阿里云大数据生态,实现基于该数据库的联邦分析或湖仓一体分析。

阿里云用户可以继续享受阿里云的合同协议、折扣优惠和发票主体,这些均适用于阿里云数据库 SelectDB 版产品。用户无需在内部申请增加采购供应商名录,也无需与第三方(包括飞轮科技)签署合同或申请折扣优惠,避免了非阿里云主体开出的发票问题。

典型场景案例

01 观测云:日志存储分析场景

观测云是一家国内领先的具备可观测性实时数据检测平台的公司。面对早期架构 Elasticsearch 写入占用资源高、聚合查询性能差等问题,SelectDB Cloud 助力观测云完成日志数据存储和分析架构升级。

观测云:日志存储分析场景.png

观测云之前在云上某可用区使用 20 台 16C 64G 云主机组成的 Elasticsearch 集群提供查询服务,同时采用独立的索引写入服务(相当于使用 20 台云主机)。在替换成 SelectDB 之后,只需要 13 台同配置的云主机,总成本下降了 67%,主要得益于:

  • 更高写入性能: 在应对 1GB/s 的持续高吞吐写入时,SelectDB 所占用 CPU 保持在 20% 以下,折合约占 2.6 台云主机的成本,仅为 Elasticsearch 索引写入服务成本的 13%。

  • 更高压缩率: SelectDB 数据和索引采用列式存储和 ZSTD 压缩技术,使得线上集群整体压缩比可达 1:8 ,而 Elasticsearch 压缩比只有 1:1.5,使用 SelectDB 时,所占用存储空间仅是 Elasticsearch 的 20% 左右。

  • 更低存储成本: SelectDB 支持将热数据存储在本地盘,而冷数据自动上传至对象存储,大幅降低存储成本。它还可根据配置自动迁移冷热数据,确保数据生命周期管理透明且灵活。此外,SelectDB 通过 Cache 加速冷数据访问,提升用户查询体验。

引入 SelectDB 之后,减少机器数量情况下,SelectDB 的点查和列表查询速度比 Elasticsearch 快近 2 倍,在聚合查询不进行采样的情况下,SelectDB 相比 Elasticsearch 快将近 4 倍。综上,仅使用 Elasticsearch 的 1/3 成本、获得 2~4 倍的性能提升,整体性价比提升了近 10 倍。

02 同盾科技:实时报表场景

同盾科技是中国领先的人工智能科技企业,已在 TrustDecision 客户数据报表与分析平台中使用了 SelectDB Cloud 云服务。客户数据报表与分析平台主要对客户提供日常的数据报表与分析服务,方便客户了解风控决策效果,分析洞察风险情况。

同盾科技:实时报表场景.png

  • 实时写入及分析: 依托 SelectDB 实时导入与极速分析能力,在秒杀风控场景支持数千 TPS 的实时写入,数亿数据的实时分析。支持基于关键词的快速检索,且完全基于 SQL 查询,相比 ES 查询更易使用。

  • 3-5 倍性价比提升: SelectDB Cloud 是存算分离的云原生架构,提供了弹性计算和快速扩缩容能力,带来了 3-5 倍的性价比提升。

  • 融合统一: SelectDB Cloud 与业内主流云厂商深度整合,提供多云一致的使用体验,并利用 SelectDB 的湖仓融合能力与现有大数据平台更好融合。随着业务发展也将在更多云和更多地域开通 SelectDB Cloud 云服务。

结束语

SelectDB Cloud 深度适配云基础设施,兼顾高效与弹性需求。凭借强大的数据分析能力、存算分离的云原生架构以及多云一致的服务体验,SelectDB Cloud 助力企业在应对不断变化的业务需求与技术创新的同时,提供高效的数据处理与卓越的分析体验。


http://www.ppmy.cn/ops/144770.html

相关文章

【网络云计算】2024第51周-每日【2024/12/20】小测-理论-周测

文章目录 1、软件RAID的常用级别和硬件RAID的区别&#xff0c;制作RAID生产环境有哪些注意事项2、交换机常用的技术有哪些3、NFS服务器如何结合LVM4、写两个if语句&#xff0c;判断文件和目录是否存在5、链路聚合和VRRP有哪些区别&#xff1f; 【网络云计算】2024第51周-每日【…

Axure RP 8安装(内带安装包)

通过网盘分享的文件&#xff1a;Axure8.0.zip 链接: https://pan.baidu.com/s/195_qy2iiDIcYG4puAudScA 提取码: 6xt8 --来自百度网盘超级会员v1的分享 勾选I Agree 安装完成

《向量数据库指南》——Milvus Cloud 2.5:Sparse-BM25引领全文检索新时代

Milvus Cloud BM25:重塑全文检索的未来 在最新的Milvus Cloud 2.5版本中,我们自豪地引入了“全新”的全文检索能力,这一创新不仅巩固了Milvus Cloud在向量数据库领域的领先地位,更为用户提供了前所未有的灵活性和效率。作为大禹智库的向量数据库高级研究员,以及《向量数据…

可视化大屏编辑器, 开源!

hi, 大家好, 我是徐小夕. 5年前就开始着手设计和研发可视化大屏编辑器, 当时低代码在国内还没有现在那么火, 有人欢喜有人哀, 那个时候我就比较坚定的认为无码化搭建未来一定是个趋势, 能极大的帮助企业提高研发效率和降低研发成本, 所以 all in 做了2年, 上线了一个相对闭环的…

汽车IVI中控开发入门及进阶(41):视频播放器MPlayer

版本: MPlayer 1.5 2022年已发布。 MPlayer 1.5与最新FFmpeg版本(5.0)和当前FFmpeg开发版本(FFmpeg master)兼容。tarball已经包含一个FFmpeg快照,因此不需要单独获取它。如果想遵循MPlayer和FFmpeg的最新改进,强烈建议你使用开发版本。 MPlayer - The Movie Playerht…

DevEco Studio支持鸿蒙应用的全生命周期开发

DevEco Studio支持鸿蒙应用的全生命周期开发 一、引言 随着科技的发展&#xff0c;软件开发流程日益复杂&#xff0c;从最初的概念到最终的产品发布和后续维护&#xff0c;涉及多个阶段。对于移动操作系统而言&#xff0c;其应用开发工具链的支持尤为关键。HarmonyOS&#xf…

贪心算法求解加油站问题

代码随想录链接:代码随想录 思路: 首先构造一个差距数组diff&#xff0c;其中每个位置的值都是gas数组和cost数组对应位置的值的差 初始化一个变量start记录从哪个加油站出发&#xff0c;一个变量cursum记录从start出发时车内油量的总和&#xff0c;一个变量totsum表示整个差…

Textual Dataset Distillation via Language Model Embedding

Method 将数据集丢入embedding模型&#xff0c;丢入embedding前可以加入prompt加强效果&#xff0c;然后获取k-means聚类的中心向量来作为需要的蒸馏embeddings&#xff0c;然后使用vec2text模型还原成原始文本。 Result Q&#xff1a; 这里有一点不清楚&#xff1a; 聚类中…