亚马逊云科技Serverless数据分析,助力猎豹移动构建更高性价比数据仓库

news/2024/11/8 20:34:16/

也许你也听过这样一句话:“21世纪什么最贵?人才!”当数字经济全面席卷而来,这个问题的答案不可置否地变为了“数据”。通过数据分析获取近乎实时的洞察,以驱动业务的全流程,是企业数字化转型的必经之路。借助亚马逊云科技Serverless数据分析服务构建的端到端实时数仓解决方案,猎豹移动旗下的App用户埋点分析负载上的成本节省相较于之前减少30%,成功构建实时数仓。

e568dccc257f4677abf51a5deaa9a778.png

 

机会:从数据中攫取机会

各类企业所管理的数据正在经历爆炸式增长。IDC研究表明,2022年到2024年三年间创建的数据量将超过过去30年创建的所有数据量,随着生成式AI技术的出现,更将进一步促进数据分析领域的高速发展。拥有数据对于企业来说是“双刃剑”,在积累大量数据的同时,通过聚合数据进行深入挖掘分析,用数据来驱动业务,用数据来支撑决策、用数据来推动业务和商业模式创新、推动业务流程优化,进而实现降本增效,才是重中之重。而猎豹移动就是这条路上的先行者。

猎豹移动(NYSE:CMCM)成立于2010年11月,公司致力于“在人机共存的世界里,用科技让生活更美好”。当前,猎豹移动正在从移动互联网向以AI驱动的产业互联网进行战略升级,以安全工具+AI机器人场景为核心,构建覆盖工具应用、移动娱乐、人工智能、机器人等行业企业在内的猎豹生态。

猎豹移动与亚马逊云科技的合作由来已久,早在2012年,猎豹移动就将海外推出的移动应用App Clean Master运行在亚马逊云科技上。2023年初,猎豹移动在海外发布了全新应用程序,并将其相关数据发送到猎豹移动的分析系统中,该系统基于一家云服务提供商的自有数据库产品和分析工具搭建,猎豹移动的运营团队可通过直接查询原有数据库进行业务分析。

但随着用户数据量的不断增加、数据复杂度的不断上升,原有云供应商的数据分析架构暴露出了以下问题:

● 第一,原数据库的计价模式是基于猎豹移动的运营团队和BI人员直接对数仓进行操作,而由于原有数据库的计价模式,该数据库产品是基于实际计算量和扫描量进行计费,而客户团队本身撰写查询语句的水平参差不齐,难以避免会出现浪费计算量和扫描量的查询语句,因此会造成成本不可控的风险。

● 第二,原数据库不能保证所有日志在一天内都会被摄取到数据库中,也无法保证实时摄入,当数据规模较大时,仅可以保证T+3,也就是说当天的数据内容,只有在摄入3天之后才能保证当天数据都可以在数据库中查询到,无法实现T+0或近实时工作负载。此外,原数据库行数每日超过2亿行时,还可能会出现丢失日志的问题,这为猎豹移动应用的推进带来了很大的压力。

因此,基于与亚马逊云科技建立的长久友好合作关系,猎豹移动将用户行为数据分析工作负载的迁移任务交到了亚马逊云科技手中。

 

解决方案:利用Amazon Redshift流式摄取构建实时数仓

亚马逊云科技根据客户特点和需求,迅速构建了基于Amazon Redshift的无服务器数据分析解决方案,客户采用此解决方案进行PoC验证测试,测试结果显示,该解决方案可以解决猎豹移动的所有问题。自此,客户决定将他们的整个用户行为分析工作负载迁移到亚马逊云科技上。

3734fdb6e1144abeb4d555b6453fbc2d.png

 

保障数据完整性,实现海量数据量级的近实时分析能力

该解决方案通过将Nginx日志推送到Vector然后发送至Amazon Kinesis Data Streams中,并通过Amazon Lambda函数从Amazon Kinesis Data Streams中消化流式数据,运行ETL进程,并将处理后的数据存储在Amazon S3中,并通过Amazon S3再次触发第二个Amazon Lambda函数将数据复制到Amazon Redshift云数据仓库中。流式摄取可以帮助用户以极低延迟,在几秒钟内将数百MB数据摄取到Amazon Redshift云数据仓库集群,丢失数据的可能性大大降低。此外,该解决方案提供了新的近实时数据分析能力,这种流式数据使用方式,查询速度从原有的“T+3”级别的按天计算的数据查询,到现在的分钟级别,实现了指数级的性能提升。

从容应对动态负载且成本可控,尽在Serverless

Amazon Redshift Serverless是Amazon Redshift Serverless的无服务器版,作为一种快速、可扩展、安全且完全托管的云数据仓库,可从容应对动态工作负载。Amazon Redshift可以帮助用户通过标准SQL语言简单、经济地分析各类数据,实现高达3倍的性能价格比,它不仅可以基于自身内部表进行数据分析,还可以查询Amazon S3中的数据,Amazon Redshift与Amazon S3可以无缝结合,实现部分智能湖仓架构。针对于客户担心的成本问题,Amazon Redshift Serverless版只需为数据仓库在活动时消耗的计算容量付费,并且客户可以根据RPU(Redshift处理单元)设置Base和Max指标,去控制数据仓库的性能和成本,从而实现高度成本可控。

数据分析师和数据工程师友好的查询编辑器

Amazon Redshift Query Editor v2.0是一款基于Web的SQL客户端应用程序,可以使用它在Amazon Redshift数据仓库上创作和运行查询。客户可以选择使用图表直观显示查询结果,并通过与团队成员共享查询来进行协作。该编辑器支持一次运行多条SQL语句,并允许在结果窗格的单独选项卡中查看每条语句的结果。不管是数据分析师或数据工程师,猎豹移动的团队成员都可以在查询中使用会话变量和临时表,此外,Amazon Redshift Query Editor v2.0支持运行长时间运行的查询,而不必让浏览器窗口保持打开状态,稍后在24小时内检索结果。

 

成果:迁移后的全栈无服务器数据分析实现30%成本降低

更灵活、更易用的数据分析

通过亚马逊云科技Serverless无服务器数据分析解决方案,猎豹移动将批处理分析能力进一步拓展为近实时分析能力,并以低延迟高吞吐量的方式访问自己存储在数据仓库中的流式数据。

成本可控下的极致性价比

无服务器架构下的数据分析工作负载真正做到了极致性价比,Amazon Redshift无服务器自动扩展功能便于我们利用Amazon Redshift的速度从容应对甚至是最为动态的工作负载,并且仅需按实际使用量付费。在客户预期未来将处理的每天20TB新日志时,数据摄取部分的成本比原有云供应商的解决方案更成本友好。“迁移到基于亚马逊云科技Serverless产品构建的实时数仓后,该App团队在用户分析负载上的成本节省相较于之前减少30%。”猎豹移动技术总监韩峰说。

坚持客户拥有和控制数据的理念,提供数据全生命周期加密保护

亚马逊云科技严格遵循客户拥有和控制数据的理念,因而,猎豹移动对自己的数据拥有完整控制权,可以用任何想用的方式管理私有数据。亚马逊云科技提供了复杂的技术和物理措施来防止未经授权的访问,并以超高的数据隐私和安全标准构建数据相关服务。此外,亚马逊云科技还提供数据全生命周期的加密服务,涵盖了数据的存储、传输以及使用各个环节。

 

此次Serverless数据库迁移只是猎豹移动和亚马逊云科技在该领域的初次尝试。未来,猎豹移动将对之前的应用做逐步迁移,并计划将更多新的应用负载直接原生构建在亚马逊云科技上。


http://www.ppmy.cn/news/258401.html

相关文章

NVR是什么设备?(Network Video Recorder,网络视频监控系统的存储转发部分)硬盘录像机DVR、视频编码器DVS、网络摄像机IPC

NVR,全称Network Video Recorder,即网络视频录像机,是网络视频监控系统的存储转发部分,NVR与视频编码器或网络摄像机协同工作,完成视频的录像、存储及转发功能。 三种形式: 第一种是基于PC服务器式的NVR软件…

服务器硬盘用在硬盘录像机,网络硬盘录像机是干什么用的

网络硬盘录像机是干什么用的?【雅观监控安装】比较鲜明的说法就是监控服务器. 首先,监视视频头以收集数据,并且在将其发送到视频记录器之后,录像机收集并编码数据以产生图像。 记录您自己的需求并使用串行(大多数)硬盘来保存您的视…

硬盘录像机NVR、DVR或者带存储的摄像头通过GB28181协议接入LiveGBS可以播放设备的录像

GB28181流媒体中设备录像 不同厂家的摄像头或NVR、DVR配置GB28181的地方参考:配置GB28181设备接入 数字硬盘录像机NVR/DVR或者带SD卡存储的摄像头通过GB28181协议接入LiveGBS后,通过GB28181信令可以实时的查看数字硬盘录像机里面的录像。 提供了完整的设…

用了7年的 source insight 3.5 背景色及字体配置(提升code效率)

文章目录 背景目的背景护眼色配置字体与编辑选项配置全局配置的保存与加载 背景 今天突然source insight3.5抽风,配置重置了,默认配置很难看。 找了一会儿才找到之前的备份配置,load后舒服了。 目的 在此记录并share用了7年的 source insi…

海康硬盘录像机报警输出配置设置

海康硬盘录像机报警输出配置设置 为实现海康设备报警远程通知的功能,需要对海康的设备进行配置,我们用以下设备进行设备配置的演示 海康摄像头 DS-2CD3T86FWDV2-15S 海康威视智脑 NVR Ids-7932NX-K4/FA 设备通过交换机连接并连接外部互联网络 将设备的…

海康硬盘录像机接入RTSP/onvif协议安防视频平台EasyNVR的注意事项

EasyNVR安防视频云服务平台可支持设备通过RTSP/Onvif协议接入平台,能提供视频监控直播、录像、云存储、检索与回看、国标级联等视频能力,可支持分发RTSP、RTMP、HTTP-FLV、WS-FLV、HLS、WebRTC等格式的视频流。 有用户咨询,将海康硬盘录像机接…

网络硬盘录像机和数字硬盘录像机区别(nvr dvr ipc区别)

DVR Digital Video Recorder 数字硬盘录像机 NVR Network Video Recorder 网络硬盘录像机 DVR(数字硬盘录像机)和NVR(网络硬盘录像机)在功能上大体相同,主要功能是储存和录像, 另外有些蛋疼的厂商也会添加一些分屏…

Vue中预览HIKVSION海康威视的NVR(网络硬盘录像机)中多个通道(摄像机)的视频

场景 SpringBootVueHIKVSION实现摄像头多选并多窗口预览(插件版): SpringBootVueHIKVSION实现摄像头多选并多窗口预览(插件版)_霸道流氓气质的博客-CSDN博客 上面实现的在Vue中直接通过单个摄像头的Ip、端口、用户名、密码来预览 摄像头的视频,这里将…