英特尔助力快手实现异构计算加速 显著提升性能,降低系统TCO

news/2025/2/22 1:22:17/

昨晚睡得好吗?睡不好可以刷快手的《11 点睡吧》。这部当代人睡眠困境的微综艺,总曝光量达到 107亿,不但科普睡眠知识,更深度探讨都市人的喜怒哀乐[1]。惊人的曝光量背后,是快手对用户画像数据的精准分析,离不开强大技术支持下的推荐系统,得以让优质的内容被更多喜欢它的人看到。

作为超 3 亿日活、日均千万级短视频上传、强调社区普惠的短视频 APP,快手推荐系统在大规模复杂业务中面临着巨大性能挑战。想要化解算力瓶颈,异构计算是一个重要选项,这种使用不同类型指令集和体系架构的计算单元组成系统的计算方式,能够针对不同任务选择最优的计算架构,从而充分挥各种计算机构的优势,协同完成复杂的工作任务。

 1异构计算助拳,缓解参数服务器瓶颈

快手作为短视频内容平台,内容生产、内容理解、内容分发、内容消费、用户互动这些环节,构成了大规模的复杂业务,对算力产生更多元的需求。举例来说:在推荐业务场景中,需要根据用户画像推荐感兴趣的内容,就要从海量信息中选择与用户特征相关的结果,再通过“排序”来划分内容的优先级别。在这一过程中,参数服务器的作用非常重要,它负责存储、处理海量数据特征以及排序模型参数,保证任务高效、准确地完成。

快手推荐系统采用计算与存储分离的架构模式

快手的推荐系统为了应对海量数据冲击,在架构上分离了计算与存储。参数服务器属于存储型服务,该服务要保存和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。受限于容量和带宽的参数服务器,还要支撑每秒数亿次的 KV 请求,耗费大量 CPU 资源。

要解决此类瓶颈,最佳方案是使用不同计算设备处理不同负载。快手的LaoFe NDP 近数据架构,在计算体系结构上实现创新,使用英特尔® 至强® 可扩展处理器英特尔® Agilex™ FPGA 英特尔® 傲腾™ 持久内存,借助软硬一体化、领域专用加速器设计,从而做到网络、存储、计算三重加速,为各个业务系统提供低延迟、高并发、高吞吐、低总体拥有成本的基础资源。

快手LaoFe NDP异构计算架构

2 持久内存+FPGA 专用硬件,确保三重加速创新

在网络层面,LaoFe NDP 架构将 CPU的网络数据处理转移到英特尔® Stratix 10 FPGA 上,同时基于该 FPGA 实现了“软件定义远程直接内存访问”协议(SD-RDMA),大幅降低了请求延时。

在存储层面,该架构打造了支持 SSD、英特尔® 傲腾™ 持久内存、以及 DRAM 的 Key-Value 存储引擎,将 CPU 层面的存储操作也转移到 FPGA 中,最大程度发挥 FPGA 的能力,相比 CPU 方案,将存储引擎的吞吐能力提升 5 倍以上。该引擎还利用英特尔® 傲腾™ 持久内存的特性,让基于异构存储的索引系统几乎达到纯 DRAM 相同的性能指标,成本降低 30%。同时相比之前小时级的故障恢复速度,异构存储的索引系统只需几分钟就能重新上线。

LaoFe NDP 的计算加速仰仗 FPGA 作为领域专用处理,可以更有效地并行处理数据,提供更高效的内存层次结构与定制化的执行单元,从而支持机器学习、深度学习和大数据等场景。英特尔® FPGA 具备富于弹性的可编程硬件能力,延时低且可精确控制,单位算力功耗低、片上内存大,适合于快手延时要求高、批处理比较小、并发性和重复性强的应用场景。

快手LaoFe NDP 架构在英特尔软硬件优化下,最终实现了如下优势:

■  系统吞吐显著提升,延时显著降低:参数服务器的吞吐性能提升了 5-6 倍,整体请求延时降低了 70%-80%,提供更好的用户体验。

■  更好地控制 TCO:FPGA 的强大性能提供远超传统方案的吞吐能力,仅需部署少量的服务器就能满足特性的性能指标要求,替代比可达到 1:5,有效降低 TCO。

■  降低性能抖动:基于CPU的软件方案常因需要进行高频率更新而出现性能抖动,而通过FPGA来处理负载,能大幅减少性能抖动。

通过快手的实践能够看出,以异构计算加速不同负载,能够显著提升在推荐等场景下的系统吞吐与延时表现。未来,英特尔还会和快手等合作伙伴一起,推进面向未来数据中心的异构参考架构,通过 CPU、IPU、XPU 的产品组合以及软件堆栈,以及智能网络结构,提供跨越整个数据管道的解决方案,高效挖掘海量数据中的智慧,让用户与用户、用户与内容、用户与商品可及时按需建立高效、有温度的连接互动。

点击链接:云计算的应用-英特尔® 官网 了解更多案例详情


http://www.ppmy.cn/news/455571.html

相关文章

深入理解CPU和异构计算芯片GPU/FPGA/ASIC

转自,http://www.cnblogs.com/qcloud1001/p/6617764.html 随着互联网用户的快速增长,数据体量的急剧膨胀,数据中心对计算的需求也在迅猛上涨。诸如深度学习在线预测、直播中的视频转码、图片压缩解压缩以及HTTPS加密等各类应用对计算的需求已…

异构计算(Heterogeneous Compute)

1. 异构计算接口 1) RenderScript(GPU计算): 它是官方异构计算的Android API&#xff0c;从Android ICS 4.2开始&#xff0c;它启用GPU来进行计算&#xff1b;它实现了20多个滤波器(filters)&#xff0c;支持CPU和GPU&#xff0c;且针对Mali-T600进行了优化。 (Nexus 10 <Ma…

异构计算技术分析

异构计算技术分析 参考文献链接 https://mp.weixin.qq.com/s/xW_Y0JBKK3d42IZvHA9CrQ https://mp.weixin.qq.com/s/amQj0DYvs9QwIuTpsGEFNg https://mp.weixin.qq.com/s/Y2cRAHnztWw5l0eeU_pDrg https://mp.weixin.qq.com/s/WyVgGB8-dPl9L68cppUNaw 什么是异构计算&#xff1f;…

再谈异构计算CPU+GPU

异构计算的英文名称是Heterogeneous computing&#xff0c;主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU等协处理器、DSP、ASIC、FPGA等。我们常说的并行计算正是异构计算中的重要组成部分异构计算近年来得到更多关注&a…

基于CPU+GPU的异构计算

GPU GPU是为了视频游戏而产生的&#xff08;至今其主要驱动力还是不断增长的视频游戏市场&#xff09;&#xff0c;在三维游戏中常常出现的一类操作是对海量数据进行相同的操作&#xff0c;如&#xff1a;对每一个顶点进行同样的坐标变换&#xff0c;对每一个顶点按照同样的光…

最新!OpenAI掌门人自曝GPU短缺,未来GPT-4会更快、更便宜

作者 | 金鹿 本文经授权转自公众号腾讯科技&#xff08;ID:qqtech&#xff09;&#xff0c;如需转载&#xff0c;请联系对方&#xff1a; 机器学习和人工智能初创公司Humanloop首席执行官拉扎哈比比&#xff08;Raza Habib&#xff09;&#xff0c;5月29日邀请OpenAI首席执…

面向异构众核超级计算机的大规模稀疏计算性能优化研究

点击上方蓝字关注我们 面向异构众核超级计算机的大规模稀疏计算性能优化研究 胡正丁, 薛巍 清华大学计算机科学与技术系&#xff0c;北京 100084 论文引用格式&#xff1a; 胡正丁, 薛巍.面向异构众核超级计算机的大规模稀疏计算性能优化研究[J].大数据, 2020, 6(4):40-55. HE …

再谈异构计算CPU+GPU(APU)

再谈异构计算CPUGPU 异构计算的英文名称是Heterogeneous computing&#xff0c;主要是指使用不同类型指令集和体系架构的计算单元组成系统的计算方式。常见的计算单元类别包括CPU、GPU等协处理器、DSP、ASIC、FPGA等。我们常说的并行计算正是异构计算中的重要组成部分异构计算近…