【FOSS】新一代绿色节能对象存储

news/2024/12/2 16:04:02/

01 背景概述

2020年9月中国明确了“碳达峰、碳中和”目标,2021年,碳达峰、碳中和被首次写入政府工作报告。该事件标志着中国对促进经济高质量发展,社会繁荣和生态环境保护的决心。

据IDC白皮书预测,中国将在2025年成为全球最大数据圈。据统计中国数据中心的用电量约占中国全社会用电量的2%,一年竟要用掉相当于两个半三峡水电站的年发电量。因此,在确保数据中心业务能力满足需求同时,对数据中心的绿色化提出更高要求成为了我国双碳道路上的关键任务,这一目标也成为今后引领数据中心技术和产业升级的全新方向。

大道云行全新分布式对象存储系统,是支持All Flash全闪的分布式对象存储系统,以绿色节能、超大规模数据长期可靠、高性能存取为目标。一个FOSS数据中心的数据量级可达数百P,百万IOPS。FOSS系统可跨zone进行数据复制、容灾。

在这里插入图片描述
因此本文主要阐述FOSS在绿色节能、大规模数据、高性能等方面的优势所在。

02 技术概况

软件架构
在这里插入图片描述

  • 服务层

支持S3标准对象存储接口,并兼容OSS,且通过兼容posix接口,从而支持NAS及HDFS相关文件协议。

不仅可以支撑视频监控、备份归档、广电媒资等传统对象存储使用场景,还可以支撑人工智能(AI)训练、大数据处理以及高性能计算(HPC)等场景。

  • 调度层

使用和管理存储层的资源,实现横向扩展和弹性伸缩;

调控资源分配,控制数据分配到指定的存储层节点;

进行数据聚合、流控、流量平衡、空间平衡;节能调度,降低功耗;

迁移调度,进行数据热度的智能调度,数据健康巡检,生命周期调度。

同时,提供元数据访问,包括调度资源的元数据和服务层的元数据。

  • 存储层

存储层每个控制器是最小单元,提供对象的存取。

存储层包括对象存储接口,VOLUME资源分配算法、EC冗余算法、SSD管理、元数据管理等模块。

  • 驱动层

实现对新型高密度廉价SSD的节能控制。

主要通过两种方式实现,一是SSD直连主机接口,SSD主控在主机端实现,使用简化的NVMe协议进行数据发送、接收和控制;二是通过jbod框连接主机,SSD在JBOD框内,RDMA方式访问SSD。

  • 物理层

支持X86通用服务器及国产鲲鹏、海光服务器为基础的硬件平台。

硬盘

支持各类NVMe SSD、SATA SSD、SAS以及SATA HDD硬盘,包括PCIe SSD;

网络

支持主流 ↓

1/10/25/40/50/100/200GbE网卡、交换机,以及IB设备。

主要指标

绿色网格组织TGG于2007年,制定了数据中心能效比指标PUE,其基本计算方法如下:

PUE = 数据中心总能耗/IT设备能耗

其中,数据中心总能耗包括IT设备能耗和制冷设备、配电设备以及其他设备的能耗,其值大于1,越接近1表明非IT设备耗能越少,即能效水平越好。

根据工信部印发的《新型数据中心发展三年行动计划(2021-2023年)》,至2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。北京作为数据中心的重要枢纽,管控则更为严格,最低值直逼1.15。

FOSS可通过降低机柜级能耗,助力数据中心提高PUE能效比。

  • 单机柜指标

在这里插入图片描述

  • 节能指标

节能/active模式可手动/智能设置;

节能模式的功耗比active降低一个数量级;

节能/active模式切换的时间<100毫秒。

03 技术特点与分析

绿色节能
在这里插入图片描述

FOSS通过加电组的设计,让系统在保证性能的前提下,尽量少唤醒disk. 让大多数disk都处于待机或深度休眠/下电状态,达成disk使用节能。

加电组=统一进行节能调度的纠删组(EC:erasure code)

  • 每个node(存储节点)包含多个加电组

加电组涉及磁盘数=EC组条块数=16(EC 12:4)

node加电组个数=磁盘数=36

同时只有一个加电组用于写入

  • node节能情况

EC12:4,36个disk有16个disk加电用于写入

所有节点参与写,节电比例:

1-16/36=55% SSD节电

1/3节点参与写,节电比例:

1/3 55%SSD节电,2/3全SSD节电

  • 加电组的意义

减少node同时加电的disk个数,在没有读请求的情况下,每个node只有16/36=45%的disk加电(写入);

整个机柜最多有26*36=936个数据SSD,放置密度很高,若长期全部加电,容易过热、信号干扰,降低SSD使用寿命;

节省node的用电,降低成本。

  • 调度算法实现节能

写入时,在一组node中进行,其他node不写入,过一段配置周期后,换一批node,实现空间均衡;

读取时,每个用户读取一批时间范围的数据,不会到所有node去读,node的加电组也不会全部加电。

  • 机柜用电、节能定量分析

功耗标准:

交换机 200w-按0.5最大功耗算

四子星 300w-按0.7最大功耗算

1U服务器120w-按0.5最大功耗算

插36个数据SSD,每SSD不节能6w,节能1w

单机柜用电分析

服务器功耗:

交换机2(2000.52)+四子星2(3000.72)+1U服务器26 (1200.5*26)=2180w

SSD功耗, 无节电:26366=5600w

SSD功耗, 1/3工作存储节点(55%SSD节能),2/3休眠存储节点(所有SSD节能):(参考前面阐述-工作节点节电SSD比例为55%, 全机柜2/3的节点休眠)

26*(3660.45+3610.55)*1/3+

26*(36*1)*2/3=1014+624=1638w

总功耗2180+5600=7780w

节约5600-1638=4000w, 节约比例51.4%

每天节约96度电,每月节约2900度电

  • 加电组智能节电

加电组提供智能模式,根据算法在节电/性能两种模式中智能切换,进而在保证集群性能的前提下,提高提高效率,减少人力物力投入。

高存储密度

采用大尺度存储介质(16-32T SSD)的存储框或控制器,按机柜集成:

  • 机柜空间划分

4U网络,2个2U万兆交换机

4U计算,2个2U四子星服务器,8个物理机

28U存储,26个1U存储节点,2个1U预留(用于node数据迁移)

余下6U间隙

  • 采用1U存储node,外插方式,disk容易查看和插拔,易于维护

36个16T数据SSD, 576T裸容量

EC(12+4)-432T交付容量,75%

EC(8+2)-460T交付容量,80%

  • 单机柜最大对象存储容量

26个1U存储节点

裸容量-26*576T=15P

EC(12+4)-交付容量15P*0.75=11P

EC(8+2)-交付容量15P*0.8=12P

线性扩展性

  • 跨域扩展

存储域之间数据的调度,由服务层软件进行

  • 域内扩展存储机柜

存储域,比如华南1,…n

存储域网络:

接入层网络-40-200Gb

机柜内网络-40Gb网络

机柜之间rdma不直通,通过接入层网络转发,因此机柜个数不受网络规模限制

每个机柜提供11-12P交付存储容量,冗余比12+4或8+2

假设一个域的最大支持100个机柜,则每存储域最大交付容量为1100-1200P

在这里插入图片描述

高可靠性

  • 元数据(3副本)

按文件平均>1M算,每个文件元数据最大1000字节*3=3k,元数据比例<3/1000;

按元数据存储介质成本为数据存储10倍算,元数据存储成本约为总成本的3%。

  • 数据高可靠性(纠删EC)

高可靠性 EC冗余(8+2), 一个EC组可同时坏2块盘不丢失数据;

极高可靠性 EC冗余(12+4), 一个EC组可同时坏4块盘不丢失数据;

降级情况下,不允许写入;

坏的SSD可通过返厂修复,做到影响的数据最小。

  • 快速rebuild

每个SSD disk读写吞吐大于1GB,整个EC组每秒读写吞吐大于8GB;

按每秒4GB的EC吞吐算:

当一个disk fail,要读出所有EC数据块,进行运算,总运算量为16T8,总时间为16T8/4G=32k秒,约9小时。

通过采用专用硬件计算、合并数据等优化方法,降低rebuild时间,优化EC能力,有望达成每秒8-12GB的EC吞吐量,总rebuild时间有望降低到3-4.5小时。

高可用性

  • 写数据

任意node可用,则可写。

  • 读数据

如果控制器物理故障不可恢复,可更换控制器,将已有的SSD重新插入重建。

可观测性

  • 系统状态监控

硬件状态(CPU,内存,网卡,disk,风扇…);

IO(流量,IOPS,QPS…);

空间(已用空间,剩余空间);

各级服务状态。

  • 存储资源监控

每个disk巡检情况;

volume的空间占用率,擦写次数;

已用空间的资源分布(空间均衡观测);

每个租户占用的volumes(聚合性观测)。

高级特性

  • QLC分层

QLC闪存颗粒拥有比TLC更高的存储密度,同时成本上相比TLC更低,优势就是可以将容量做的更大,成本上更低,但劣势就是P/E寿命更短,理论擦写次数低。

我们研发出特有的分层机制,同时支持高性能写数据层和(温/冷)读数据层,数据先写入到写缓存层,再根据算法定期将数据迁移到QLC磁盘组成数据层,保证数据能大块顺序写入到QLC介质中,大幅降低数据擦除的频率,且不会有无效的数据搬移,从而弥补了QLC介质的缺陷,让用户在拥有的高性能的同时,还实现了最优的成本。

全域范围SSD磨损平衡,最大程度降低SSD写放大,提高QLC使用寿命。

  • 大比例的EC纠删码机制

支持8+M,12+M,16+M的大比例纠删码,在保证一定的数据安全性前提下,提供更高的可用容量,从而节省整体投资并降低能源损耗。

未来还将通过宽条带化技术,支持36+4,146+4等大比例EC, 以达到更高的存储容量可用率。

  • 压缩/重删

根据数据类型智能适配压缩算法:

在视频分析等特定场景下,如果采取有损压缩不影响业务,选择有损压缩得到很高的压缩率。

基于全域的相似性去重:

散列算法设计为相似性哈希,可度量两个块之间的近似距离,从相似的数据块生成相同的散列。相似性哈希是一种语义标记,它们表明了不同的数据块之间的高度相关性。相似性去重,在图像存储等场景,依然能有较好的去重比例。

实现压缩/重删的同时保障性能以及稳定性是业界一直以来的难题,FOSS在自研架构层面就加入了压缩/重删层,通过不断优化,达成了压缩/重删对系统带来的性能影响非常小

04 发展展望

随着大数据、物联网、人工智能深度学习和数字化经济的爆炸式增长,个人和企业的数据比以往任何时候都多。使能这些数据,需要创新的高性能、大容量、低碳节能的存储产品和智能数据分析解决方案。高性能和绿色节能看似相斥,但通过存储分层方案,我们达成了完美的结合。


http://www.ppmy.cn/news/74156.html

相关文章

learn C++ NO.5 ——类和对象(3)

日期类的实现 在前面类和对象的学习中&#xff0c;由于知识多比较多和碎&#xff0c;需要一个能够将之前所学知识融会贯通的东西。下面就通过实现日期类来对类和对象已经所学的知识进行巩固。 日期类的基本功能&#xff08;.h文件&#xff09; //Date.h//头文件内容 #includ…

擎创动态 | 来自华为的深度认可,擎创再获华为鲲鹏技术认证

在数字中国的信息技术应用国产化进程中&#xff0c;擎创科技除持续投入自主产品研发外&#xff0c;还深度适配了涵盖芯片、服务器、操作系统、数据库、中间件、云服务、应用等领域的国产化产品&#xff0c;与华为的合作适配便是其中重要的一环。近期&#xff0c;擎创夏洛克智能…

五分钟学会Playwright录制脚本的方法以及语法难点

这篇文章系统地介绍了上手Playwright的方法&#xff0c;但是录制脚本部分讲解不够详尽&#xff0c;今天我在这里重点的介绍一下Playwright 录制脚本的方法来丰满我的Playwright系列技术文章。 Playwright可以使用codegen来录制脚本&#xff0c;使用方式非常简单&#xff0c;只…

torch、torch.nn、 torch.optim、torchvision、 torchvision.transforms 功能简介

1. torch 库 import torch 命令将 PyTorch 框架导入到 Python 程序中&#xff0c;这样我们就可以使用 PyTorch 提供的各种功能了。PyTorch 是一个用于科学计算的机器学习库&#xff0c;具有以下重要功能&#xff1a; 张量(Tensor)操作&#xff1a;PyTorch 引入了张量作为其核心…

Istio 微服务架构的演变

微服务架构的演变 单体模式下面一个应用通常会有一个app server&#xff0c;这个app server里面会有不同的子模块&#xff0c;每一个模块都写在同一个应用包里面&#xff0c;模块和模块之间的边界有些时候设计的不是特别清晰&#xff0c;特别早期代码混合在一起那么意味着互相的…

2023-05-19 题目

1、java的三大特性&#xff0c;亦或者四大特性 继承&#xff1a;继承是从已有类得到继承信息创建新类的过程。提供继承信息的类被称为父类&#xff08;超类、基类&#xff09;&#xff1b;得到继 承信息的类被称为子类&#xff08;派生类&#xff09;。继承让变化中的软件系统…

【微信小程序】富文本rich-text的图片预览效果的几种方法

前言 使用原生小程序开发&#xff0c;实现在富文本rich-text中的图片预览效果的几种方法对比。 update:因为方案3wxparser后续没有再维护&#xff0c;解析微信公众号文章时会出现排版错误的问题。作为插件也很难二次开发。换成mp-html了 1.正则wx.previewImage&#xff08;有…

【面试题】如何实现vue虚拟列表,纵享丝滑

大厂面试题分享 面试题库 前后端面试题库 &#xff08;面试必备&#xff09; 推荐&#xff1a;★★★★★ 地址&#xff1a;前端面试题库 web前端面试题库 VS java后端面试题库大全 前言 最近在工作中遇到了一个列表的需求&#xff0c;因为做的是C端&#xff0c;所以对性能…