作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据。
截至2024年第一季度末,Backblaze在其全球数据中心的云存储服务器中监测了283,851块硬盘和固态硬盘。在此分析中,我们剔除了4,279块系统盘,其中包括3,307块固态硬盘和972块硬盘,以便更专注于存储管理。这样,总计有279,572块硬盘的数据可供本报告分析。
在这组硬盘中,Backblaze识别出275块硬盘在其运行生命周期中的某个时刻超过了制造商规定的温度规格,因此这些硬盘未被计入AFR计算中。(这个值得商榷,因为某个时刻超温就不算有效故障?)
硬盘型号划分依据是硬盘数量(>100)和硬盘运行天数(>10,000),将剩余的279,297块硬盘被分为两组,分为主要组和次要组。
-
主要组:包括截至季度末至少有100块硬盘在运行,并在同一季度累计超过10,000块硬盘日的型号,共计278,656块硬盘,分属29种不同的驱动器型号。
-
次要组:包含了其余641块不符合上述条件的硬盘,主要由替换用硬盘或迁移候选硬盘组成。
先来主要组的数据:
2024年第一季度的年化故障率(AFR)为1.41%,相比2023年第四季度的1.53%有所下降,同时较一年前(即2023年第一季度)的1.54%亦有所减少。这一降低的主要原因是旧款4TB硬盘的逐步替换,特别是2024年第一季度4TB硬盘的AFR降至1.36%,远低于2023年第二季度的高点2.33%。
本季度有三款硬盘型号(ST16000NM002J、ST8000NM000A、ST6000DX000)实现了零故障。虽然这三款硬盘的累计AFR均低于1%,但8TB和16TB型号的置信区间仍然偏高(95%置信水平下),理想状态下应低于1%,最好是低于0.5%,才能更信任其累计AFR的稳定性。
希捷这款6TB硬盘在本季度再次实现零故障,其置信区间仅为0.3%。这些平均使用年限已达九年的硬盘继续展现出超越预期的耐用性,它们于2015年同期购买并安装,属于仍在运行的唯一一个6TB Backblaze Vault成员。
再来看次要组的数据:由于观察期间的观测值(硬盘运行天数)过低,对于计算得出的年化故障率(AFR)无法有充分的确定性。
在所有硬盘型号中,除了被特别标出的两款外,每个型号的平均故障年龄都有所上升。这意味着,相较于一年前,现役硬盘型号在故障时的平均年龄更大。这里需要注意的是,这里测试的是硬盘故障时的平均年龄,而非硬盘的平均使用寿命。
2024年第一季度的季度年化故障率(AFR)为1.41%,针对不同的HDD厂商AFR的趋势分析如下:
从图表中可以看出,所有硬盘的整体AFR在2023年第三季度达到峰值后开始下降。这一趋势主要是由于更早进入故障曲线“浴盆期”的老旧4TB硬盘逐步退役所致。有趣的是,目前仍在使用的4TB硬盘中,全部为希捷(Seagate)或日立HGST)的型号。因此,预计随着这两家制造商在未来一年内逐步替换其4TB硬盘型号,希捷和HGST的季度AFR很可能将继续下降。
这一预期下降的趋势,体现了数据中心硬件更新换代对提高系统整体稳定性和降低故障率的积极影响。随着技术进步和对更高存储密度及性能的需求,旧型号的退役伴随着更高效、更可靠的新型号引入,将进一步优化存储系统的健康状况。同时,这也强调了对硬件资产进行适时更新和维护策略的重要性,特别是在面对大数据和云计算日益增长的需求时,能够有效保障数据的安全性和服务的连续性。