冰山的崛起:数据架构的转变

embedded/2024/9/25 6:38:41/

像 Apache Iceberg、Apache Hudi 和 Delta Lake 这样的开放表格式已成为查询处理器的事实标准。然而,最近有消息称 Snowflake 和 Databricks 等查询引擎采用了 Iceberg 的 REST 目录 API,这改变了竞争环境,有利于 Iceberg。

Iceberg的成功不仅源于这些具有新闻价值的公告,还源于它能够解决困扰早期格式的关键问题。例如,Iceberg 为 ACID 事务、模式演变和高效的元数据管理提供了强大的支持,这些功能以前很难大规模实现。在众多令人钦佩的参赛者的竞争环境中,这种崛起类似于 Kubernetes 如何成为 Docker Swarm 的主导容器编排平台,突破了容器化应用程序的可能性界限。

存储的重要性

就像保龄球被扔到水床上一样,冰山的影响在市场的其他领域也产生了类似的变化。通过在开放式表格格式中确定一个明显的赢家,无论喜欢与否,市场也提升了存储的重要性。现在,如果存储解决方案无法支持这些开放表格式,那么在现代数据架构中,它就有可能过时。设备、不是为云构建的存储、性能不佳和操作复杂的存储在这种新的层次结构中没有立足之地。只有性能、规模和云原生存储才能跟上由越来越多地采用开放式现代数据湖所推动的创新。

查询引擎的商品化

在这个新时代,并不是说查询引擎变得不那么普遍,而是它们变得更加商品化。这种商品化将用户从局限于 SQL 或 Python 或任何特定查询引擎中解放出来,使用户能够根据其特性、性能和用例来选择查询引擎。也许最终会导致多个查询引擎出于不同的目的对相同的数据进行操作。因此,我们可以预期数据存储上的计算选项将激增,从而削弱昂贵的专有计算解决方案的主导地位。

为什么这种转变对用户有好处

将用户锁定在特定供应商生态系统中的昂贵专有计算解决方案的终结越来越有可能。用户将能够根据其组织的需求和要求从大量的查询引擎中进行选择。这反过来将迫使计算层进行创新,因为他们寻求与新的特性和能力竞争。

计算层中的更多选项意味着为用户提供更好的选择和更具竞争力的价格。主要供应商会发现保持高计算利润率具有挑战性,从而降低成本和更大的创新。分门别类往往会节省成本。

为什么这种转变对人工智能有好处

在人工智能不断增长的数据需求的推动下,随着数据湖的扩展,可扩展的存储变得至关重要。专注于 AI 的组织需要管理 PB 级的原始数据,因此需要强大且可扩展的存储系统。Iceberg 的架构支持这一需求,可以容纳高级 AI 应用程序所需的大量非结构化和结构化数据。随着资源增强生成(RAG)LLMs变得越来越普遍,交叉引用庞大、多样化的数据集的能力对于在人工智能驱动的问答系统中构建上下文和生成见解至关重要。

冰山的崛起意味着存储量的增加

在这种贪婪的数据吞噬过程中,将对高性能、可扩展和可用存储的需求。这就是冰山正在迎来的美丽新世界。在一个新世界里,对象存储是主要的,查询引擎被商品化了。一个为用户带来更多灵活性和成本效益的世界,并为人工智能应用开辟了新的可能性。


http://www.ppmy.cn/embedded/88781.html

相关文章

【leetcode详解】覆盖所有点的最少矩形数目(C++思路详解)

思路详解: 0. 题目情境并未限制矩形高度,故矩形数目的判断只和点的横坐标有关 1. 为了不重不漏地考虑到所有点,故笔者选择首先将二维数组中的点按横坐标的大小排序 //说明:本来笔者以为需要自定义sort排序,后来发现…

02 Golang面向对象编程_20240727 课程笔记

视频课程 最近发现越来越多的公司在用Golang了,所以精心整理了一套视频教程给大家,这个是其中的第二部,后续还会有很多。 视频已经录制完成,完整目录截图如下: 课程目录 01 结构体的声明.mp402 使用var根据结构体…

2024下半年,前端的技术风口来了

“ 你近期有体验过哪些大模型产品呢? 你有使用大模型API做过一些实际开发吗? 在你日常开发中,可以与大模型相关应用结合来完成工作吗? ” **最近,一直在和同事聊,关于前端可以用大模型干点啥&#xff…

算法强训day19

一、小易的升级之路 链接&#xff1a;小易的升级之路_牛客题霸_牛客网 简单题 #include<iostream> using namespace std; long long gcd(long long m, long long x) {long long n ;while(x>0){n m % x;m x;x n;}return m; } int main() {int n;long long m;cin &…

Zabbix 7.0 安装

在zabbix官网中有着比较完善的安装步骤&#xff0c;针对不同的系统都有。可以直接按照举例说明进行安装。本文只是针对其提供的安装步骤进行一些说明解释补充。 安装环境 操作系统版本&#xff1a;AlmaLinux 9.4&#xff08;10.10.20.200&#xff09;zabbix版本&#xff1a;7.…

com.aliyun:aliyun-java-vod-upload:1.4.11下载地址

Ehttps://docs-aliyun.cn-hangzhou.oss.aliyun-inc.com/assets/attach/106648/cn_zh/1563778063998/VODUploadDemo-java-1.4.11.zip?spma2c4g.11186623.0.0.34bc41502oflZR&fileVODUploadDemo-java-1.4.11.zipW

day 51 第十一章:图论part02 99.岛屿数量 深搜 99.岛屿数量 广搜 100.岛屿的最大面积

任务日期&#xff1a;8.2 题目一链接&#xff1a;99. 岛屿数量 (kamacoder.com) 思路&#xff1a;主函数&#xff1a;将题目里的数据放入一个矩阵graph里&#xff0c;然后遍历graph&#xff0c;遇见没有遍历过的陆地就result 1同时dfs当前节点。dfs函数&#xff1a;此题就一…

recv()函数返回值说明,用返回值确定不同的情况

recv() 函数是网络编程中常用的一个函数&#xff0c;特别是在使用 TCP 套接字时。它用于从连接的套接字接收数据。recv() 函数的原型在 POSIX 兼容系统中通常如下&#xff1a; #include <sys/socket.h>ssize_t recv(int sockfd, void *buf, size_t len, int flags);sock…