冬瓜哥平时经常在服务器上调测HBA/Raid卡,难免需要一些硬盘来组建Raid。对于硬盘的选型是比较关键的,一款稳定可靠的硬盘,能够避免在Raid/HBA卡调测过程中出现误判。最终冬瓜哥选了希捷8TB的银河Exos系列企业级SATA硬盘。该硬盘还是传统PMR盘,非充氦。利用6块盘做成Raid5,实际可用空间40TB。
1
沧海桑田的硬盘容量
冬瓜哥不禁回想起硬盘这几十年来的发展变迁,又要感叹一番了。从上世纪50年代以IBM 350 3.75MB容量硬盘为开端,如今已经发展到单盘20+TB。
硬盘制造商也是后浪推前浪,从最早期的IT鼻祖IBM, Bryant Computer Products,Memorex,Burroughs,CDC定位大型机中型机市场的产品,到后来PC时代的DEC,Seagate,HP,Maxtor等玩家,将高高在上的高端技术下移到了消费类市场。
如今,机械硬盘市场已经是个非常成熟的,竞争淘汰充分的寡头市场了,玩家只剩下希捷,西数,东芝三家。其它的要么自生自灭,要么被收购。
希捷的第一款硬盘产品是5MB容量的 ST-506,于1980年发布。它是第一款符合5.25英寸“微型软盘”驱动器规格的硬盘。它使用修改的频率调制(MFM)编码,后来真正上市的产品是10MB的ST-412。希捷由此获得了IBM XT的主要OEM供应商的合同,IBM XT是IBM的第一台包含硬盘的个人计算机。出售给IBM的大量产品推动了希捷的早期增长。希捷在成立的第一年就实现了1000万美元的销售额。到1983年,公司的出货量超过20万部,收入为1.1亿美元。同年,希捷已在消费类市场中占据了45%的市场份额,IBM的PC机客户份额当时占了希捷全部销售额的60%。
如今,普通的磁性材料已经无法支持极其精细的磁畴产生足够稳定的磁场强度。随之而来的希捷HAMR(热辅助磁记录)技术可以使用新型的强磁力材料实现更小的磁畴面积,从而保持机械盘容量的持续增长。2021年初,希捷推出了20TB的HAMR硬盘,而到2026年,有希望推出单盘容量50TB的硬盘。HAMR的下一代技术则是Heated-Dot MagneticRecording (HDMR),这属于一种bit-pattern磁记录格式,能够将磁畴限制在一个点上,从而更精密的排列。
大家知道,PLC(每单元可记录5bit)眼看着就要推出了。冬瓜哥仔细思考了一下,NAND后续的发展速度还真是让人细思恐极。大家平时惯用的Wifi,已经发展到了千兆速率级,而且能够同时接入大量终端。在如此拥挤的信道上,是怎么实现如此高速率的?其实,靠的是高阶调制技术,目前常用的是QAM技术,可以商用产品可以达到1024QAM,也就是说,通过频率,幅度,相位三者的组合,可以组成1024个不同的码元(可以理解为波形),1024种码元可以表示Log2 1024个bit,所以,线路上传递少量码元就可以表示大量bit。比如我说“A”,就表示101011101010101010,“B“就表示1010100000010101001,详见《大话计算机》。同样,NAND也在经历这种恐怖的发展过程。机械硬盘2030年可能会达到单盘100TB的容量。而NAND Flash在容量提升上目前看来速度还没那么快,两个原因,第一是成本,单盘容量太大不划算。第二个是技术原因,目前单个Flash控制器可管理的Flash容量有个上限,因为每个Flash 单元都需要精确管理和记录,全局上各种诸如垃圾回收等的后台处理,控制器无论是在处理性能还是元数据管理上,都做不到太高。而机械硬盘的磁介质就没有这个问题。另外在数据长期保存方面,Flash的Data Retention问题是致命伤。所以机械硬盘和NAND Flash在容量/成本上的角逐,还会持续很长一段时间。
2
性能质的飞跃,关键的一步机械硬盘的性能问题,可以说是一个长久的痛。其核心限制,就在于机械臂的摆动寻道机制。物理摆动在物理学家眼中是很低效的运动方式,而更高效的则是依靠微观粒子的运动,比如NAND Flash里的chip enabler(片选电路),本质上是一堆Mux/De-mux组合交换电路。而在将来,物质的运动可能突破更底层的物理,深入到空间场波级别,那时就不可想象了。冬瓜哥十几年前就在想,为何硬盘里只有一组磁头臂呢?为何不在四个角上各放置一组,四只手同时忙活,性能肯定翻四倍。实际上,实验室里作这种产品其实完全没有问题。但是要将其商用化,考虑的问题起码要有:成本/需求,可靠性,寿命等等。可以这么说,如果没有固态硬盘倒逼,机械盘厂商恐怕迟迟不会在性能方面做本质上的提升。毕竟,Raid卡,软Raid,可以用多块盘并发方式实现高并发性能,而这反而可以促进硬盘销售,何乐而不为?说个题外话,冬瓜哥不禁又想起手头那两块2080Ti显卡,目前支持SLI的游戏越来越少,其实,Nvidia推出SLI技术本想用此促进显卡的销售,没想到有不少消费者反而去搞二手老一代显卡组SLI,性能比最新卡皇高,价格反而低不少,所以NV现在对SLI的支持可以说是没有支持了,全靠游戏厂商自己调试,于是大量厂商也就知难而退了。不过像R星这种良心大厂,在RDR2里支持的依然完美。有些时候,真的是靠一份情怀在做事情,往往能做到经典极致。
去年,希捷推出了MACH.2(多传动器)双磁头臂或者说Dual Actuator技术,两个独立寻道的磁头臂可以让硬盘的性能最高翻一倍。MACH.2双磁臂技术已经在许多应用中展现了优势,包括:内容分发网络(CDN)、视频流、备份/传输服务、大数据分析(Hadoop)以及云应用等等。
MACH.2技术得到了微软和腾讯云的力挺。MACH.2硬盘将被部署用以支持微软所有的云解决方案服务(CSP),包括Azure和Exchange——而这些程序已经充分共享了空间。而微软希望降低插槽成本,成本的降低依赖于占地空间、电力以及散热等各种因素的共同作用。随着客户发现所安装硬盘的IOPS持续走低,他们不得不另想办法,比如增加双磁臂硬盘。微软的合作伙伴架构师AaronOgus谈到,“随着希捷MACH.2技术的开发,我们和希捷合作以确保MACH.2满足我们的业务需求。我们的目标是MACH.2技术的吞吐量达到目前所配置的单磁臂硬盘的近两倍,而通过测试表明这个目标已经达成。”
在国内,腾讯云和希捷一直保持着深度合作,双方共同组建联合项目团队,进行产品测试。希捷很多产品都是在腾讯云数据中心率先导入,包括希捷HAMR(热辅助磁记录技术)20TB 硬盘、希捷银河(Exos)2X14企业级双磁臂硬盘以及希捷银河(Exos)18TB、16TB企业级硬盘等等。
果不其然,希捷还是出手了。机械盘想要继续活得好,除了容量/成本这个杀手锏之外,性能方面怎么也得做出一点质变吧。双磁臂,终于来了。不过,底子有了,如何控制好这一副双截棍,其实是挑战很大。默认你会认为这块硬盘相当于内部做了个Raid0,对外体现为单块硬盘,什么都没有变化。实际上,第一代双磁臂盘对外体现为2个设备。SCSI体系里有个Lun的概念,同一个SCSI设备上可以有多个逻辑单元,每一个都可以单独寻址单独控制。上层软件看到的实际上是两块独立的盘,只不过这两块盘被集成到一个壳子里面而已。用这个姿势看一下就很明白了。这么说的话,双磁臂盘解决的痛点,应该是性能/空间问题,用同样的空间,实现双倍的性能。之前需要吃两片,现在吃1片就够了。实际上你在内部消化的还是2片(上层还是看到2块盘)。为什么不做成完全对上层透明的设计呢?这个问题我也思考过,猜测,有几个原因。如果不做条带化Raid0,而只是Cascading模式,两个介质区域堆叠,那么比如我存一个文件,一开始只会存在第一个区域中,直到第一个区域满了才会继续下一个区域,此时只有第一个区域在忙活,后面的区域以及对应的磁头臂完全是摆设,不干活,意义不大。但是如果要做条带化Raid0,就需要硬盘主控记录很多元数据,在掉电管理控制方面,有需要引入很多复杂设计,硬盘厂商可能还没有充分准备好。不过,有理由相信,后续可能真的会这样去发展。
3
光做砖头,恐怕不行在房地产行业,你什么时候看到过砖窑子比建筑公司赚的多了?你什么时候见过建筑公司比地产商赚的多了?一个道理。虽然硬盘这块砖头技术含量非常高,但是车轮含量再高,毕竟也是个部件,缺乏对整个生态的话语权和掌控能力。企业若想长期生存,拥有庞大的生态惯性,是个很好的保障。尤其是在Flash介质爆破式发展的当下。IT硬件厂商的普遍晋级之路无疑就是:芯片->板卡->整机->系统->底层软件->上层软件->软硬垂直整合->IT巨人。
以希捷为例,作为老牌硬盘厂商,这些年逐渐开始积极拥抱和建设业界存储生态。早在几年前,希捷面对当时大数据云计算云存储的趋势,毅然决定收购Dot Hill,从部件级厂商一步跨入系统级厂商的行列。经过几年的酝酿,希捷逐步推出了一系列JBOD,存储系统,存储服务器以及全闪存阵列产品。
硬盘厂商做存储系统有个得天独厚的优势,那就是对硬盘的控制能力。市面上的一线存储系统大厂,无一例外也都是使用的这几家硬盘厂商的产品。对于存储系统而言,对硬盘的理解、控制、优化是根基。而硬盘厂商当然是对自己的东西了如指掌,加上原来Dot Hill的深厚功底(Dot Hill之前也是为很多一线存储大厂做准系统的老牌大厂),相信希捷这一系列的产品无论是在稳定性还是性能方面,都可以得到更好的发挥。
然而,希捷并没有止步于系统级硬件领域,相反,希捷积极拥抱大数据和云计算。为了让数据在云核心与边缘之间更高效的传输,希捷推出了Lyve系列软硬件和服务,包括Lyve Drive,Lyve Mobile Array,Lyve Mobile Shuttle和Lyve Drive Rack硬件,以及Lyve Data Transfer Services,Lyve Managed Migration Services等软件和解决方案。
为了让云存储更加高效,希捷还推出了S3对象存储软件平台Cortx。CORTX™ 是一款 100% 开源的对象存储,能有效地采集和整合海量非结构化数据,并维持最低的每 PB 成本。CORTX 由 希捷以及数据科学家和企业存储专家组成的社区共同设计、构建和维护,可为私有云提供 EB级的可扩展性。
目前已经有大量的对象存储软件,为何希捷偏偏要进入这个领域呢?CORTX必然有其核心竞争力。
首先,开源。希捷在 GitHub 上开源了基于软件定义存储(SDS)概念的对象存储CORTX软件代码,从根本上消除了数据中心堆栈中对象存储软件的许可费用。GitHub产品高级总监Jeff McAffer指出:“希捷提供了一个开放平台,所有功能和路线图都由开源社区驱动,并为开源社区服务。这样的环境有助于驱动创新。”希捷科技中国区资深解决方案工程师李蓁分析强调,在对象存储领域,CORTX全栈开源,利于用户增加新特性。这样避免了软件和硬件绑定,避免了走传统行业的商业模式,也不需要将对象存储软件预装在硬件平台中,落地交付上用户可以灵活选择。
其次,CORTX对象存储软件针对机器学习、AI做了调优,用户可以直接做高效的数据检索。实现了一个软硬件的垂直整合,行业用户采用大容量硬盘的挑战可以在CORTX平台下迎刃而解。
另外,生态合作伙伴积极支持。英特尔数据平台事业部副总裁Bryan Jorgensen表示,计划与希捷合作,将英特尔傲腾持久内存、英特尔QuickAssist加速器和DAOS文件系统的创新,逐步整合到针对大容量优化的Lyve Drive Rack参考架构中。
CORTX已经拥有业界早期的重要采用者,如法国原子能和替代能源委员会(CEA)、英国原子能机构(UKAEA)、洛斯阿拉莫斯国家实验室(Los Alamos NationalLaboratory)、DC BLOX公司、丰田汽车公司和富士通集团等企业。这些早期的用户,对于CORTX的测试和应用,认为CORTX对象存储平台功能强大架构灵活,可以有效使用CORTX来实现并行文件系统接口(pNFS)和分层存储管理,同时兼容TensorFlow等人工智能和深度学习 (AI/DL) 工具,对于降低EB级数据的存储成本上效果显著。
综上所述,希捷已经完全不是很多人心目中那个“做硬盘的希捷”了,而已经逐渐成为了一家拥有企业级和消费级机械盘、固态盘、全闪存阵列、JBOD、存储系统、存储软件平台、云数据解决方案的垂直整合厂商。冬瓜哥相信,再过几年,一定会再次看到一个不一样的希捷。
4
从希捷看整个存储行业其实不仅仅是希捷,其它硬盘厂商也在琢磨着同样的事情。只不过有些是默默无闻,有些是奋起直追。冬瓜哥相信,那些无力适应潮流的厂商,最终必然被董事会卖掉。
存储行业风云变幻,冬瓜哥从2005年开始进入这个行业,很多事情如同昨日一梦,一代更比一代强+狂+浪。同理,冬瓜哥在这个行业的知识领域也一样符合上面那个晋级路径,先从一个部件开始,比如存储,然后晋级到整个系统,比如计算机系统,所以先后写出了《大话存储》和《大话计算机》两部著作,算是给自己人生的一个交代。
至于后续怎么发展,真的不知道。同样,存储行业今后怎么发展,谁也不知道,只有那些敏锐的分析者,才能在事物发展初期就把握住机会。
扫码入当当直购《大话计算机》
扩展阅读
连书都得看国外写的才能做好芯片?这儿有人不服!
《大话计算机》同款T恤,我要了!!
《大话计算机》动图一则展示
《大话计算机》序言① by廖恒
《大话计算机》序言② by 包云岗老师
《大话计算机》序言③ by 何万青
《大话计算机》序言④ by 雷迎春
《大话计算机》序言⑤ by 汪利文
《大话计算机》序言⑥ by 张勇
《大话计算机》序言⑦ by @去流浪
博主简介:冬瓜哥,《大话计算机》与《大话存储 终极版》、《大话存储 后传》图书作者。多项专利发明人。
现任某半导体公司高级资深架构师。
大话计算机 大话存储
长按扫码可关注