从清华大学到贝尔实验室,再到中国移动,作为“IT老人”,钱岭的技术人生几乎覆盖了20世纪90年代至今的信息产业革命。2007年开始,钱岭在中国移动经历了基础科研到产品落地,再到团队孵化;也经历了云计算从无到有,从有到优;同时还经历了技术到政策,政策到产业的全生态链。《新程序员》特邀钱岭讲述他编程人生中鲜为人知的故事。
作者 | 杨阳
出品 | 《新程序员》编辑部
钱岭生于1972年,2022年是他的半百之年。按照中国传统,50岁本应“知天命,”但他并不相信宿命论,而是时常和自己说:“这个世界上本没有正确的选择,只有通过不懈努力,让当初的选择变得正确。”
钱岭,中国移动集团级首席专家,中国移动云能力中心技术部/创新中心总经理,软件工程领域知名专家,高级工程师,享受“国务院政府特殊津贴”。毕业于清华大学,获得工学博士学位,主修软件工程方向。毕业后加入贝尔实验室基础科学研究院,2007年加入中国移动通信研究院,负责中国移动“大云”项目。目前专注于移动云规划、架构和创新研究。
《新程序员》004期:在他的认知中,“正确”并非初始注定、一成不变,而是在时代和环境的变化中,伴随着主观能动性的层层推动,从而不断达到新的平衡状态。相较于从理念出发的固定价值衡量,他更相信从实践中萌生的动态理性力量。
当然,思维的塑造非一日之功,需要长久磨炼。对于钱岭来说,他的思维塑型期在清华大学,成长期在贝尔实验室,成熟期则在中国移动。
2001年,他从清华大学计算机科学与技术系毕业,主修软件工程方向,获得工学博士学位。同年,加入贝尔实验室基础科学研究院,开始从事通信软件的基础科学研究。
说起贝尔实验室。不仅诞生了15位诺贝尔奖得主,还孵化出了UNIX、C和C++等系统与编程语言。作为世界最大、最成功的私有实验室,它有太多世界之最。但因其母公司是AT&T,根基主要还是扎在信息通讯,不仅有天才科学家香农提出信息论,成为现代通信和信息科技的基础之一,而且第一颗商用通信卫星、第一条商用光缆都出自贝尔实验室。
1997年,实验室正式进入中国,并于三年后在北京成立“基础科学研究院”。“那时候毕业的主流选择是去外企,我是因为早两年毕业的师弟去了贝尔实验室,他介绍我,就选择了这里。”
在殿堂级的实验室进行通信基础科学研究,对钱岭来说是极大的锻炼。与此同时,每月八千元的高薪比北京当时的平均房价都要高。
在贝尔实验室的六年,钱岭可谓得心应手。他表示:“每年绩效考核都是A”。在宽松的科研环境下,他在包括网络传输、即时通信、手机通讯等不同领域中展开研究,花了几年时间把从IT到终端的网络技术几乎“扒”了一遍,就这样一直到2006年。
这一时期,通信业受到互联网的冲击,贝尔实验室在母公司经营不善的情况下开始走下坡路,最后随着朗讯和阿尔卡特的合并逐渐式微。经营问题很快影响到研究,此时的钱岭感觉到了危机:“已经没有新项目可做,非常闲,一个月的工作几天就能做完。”
不想浪费青春就要另寻出路,他在一年后去了中国移动通信研究院,并于2008年6月正式加入中国移动“大云(Big Cloud)”研发项目,从项目经理做到首席架构师,再到苏州研发中心首席科学家和现在的集团级首席专家。他前期聚焦科研攻关,中期做产品成果转化,后期负责技术和团队搭建,从第一批大数据和云计算科研工作者,成长为“云端之旅”的技术创业者。
《新程序员》004期:投身大数据和云的十四年,他先用三年时间实现“大云”云计算产品规模化商用部署(单集群1000台服务器),再用两年时间实现“大云”大数据产品商用规模化部署(单集群1000台服务器),实现了两大产品线从“0”到“1”的突破。在技术和研发管理方面,他创造性地提出了敏捷方法和瀑布模型的融合理论。与此同时,他也带领团队通过了CMMI五级和DevOps三级评定,让中国移动在“云数”领域实现领先。
一直以来,钱岭都在用实际行动践行着他“努力奋斗,让选择变得正确”的座右铭。
本文节选自《新程序员004》『纸质书+电子刊』已开启预售
1、当首席架构师转型管理者
去年年中,贝索斯卸任亚马逊CEO,接替他的是创办了亚马逊云业务的安迪 · 雅西。之所以能够接任,与安迪·雅西负责的AWS业务的高速增长和高额利润密不可分。
如今,云服务正在成为很多科技厂商的赚钱利器,但在发展的最早期并不如此。亚马逊云科技团队初创时只有8个人,2006年公司发布了各类服务,都没有太大反响。三年后,阿里云计算有限公司正式成立,也被产业界唱衰,公司团队内部也都异常辛酸。
事实上,中国移动在2007年就开启了云计算的关键技术研究,也是先行者。对于钱岭来说无疑是一大挑战:一方面,他对这一研究领域相对陌生;另一方面,要从基础研究的纯科学转型到应用技术,“产业落地”成为替代“研究成果”的衡量标准,不仅需要心态上的很大转变,也要在实践中身体力行。
在最初五年的产业孵化期,钱岭经历了基础研究的沉淀,进行了云计算的科研攻关,日常工作主要集中在研究和撰写论文,包括架构和标准化的研究,以及开源软件产品化改造等方面。从2010年开始,云计算概念开始流行。这一年“大云”发布了1.0版本,并在天津政府首先实现商用。
到了2013年,国内外云产业开始逐渐落地。随着AWS推出“ECS容器产品”和“智能网卡卸载技术”,CPU的利用率大幅提升,成为云计算超越传统IT的开始。与此同时,技术的利好也带来了利润突破。在国内,阿里开始尝试云化的互联网金融服务,将自家余额宝核心系统迁移到了阿里云上。
相较而言,通信业的云化业务没有互联网行业紧迫,但这场提升基础设施服务的“新风”吹来,钱岭选择加快脚步跟上去。当“拟成立专门从事云计算研发的苏州研发中心”消息传来,他积极响应,带领技术团队作为第一批筹建者,离开北京到苏州创业。
钱岭的第一项重要任务是组建并担任产品部总经理,他带领团队展开产品化业务。“2014年以北京研究院的云计算系统为班底成立了苏州研发中心,开展公司化运作,之后的目标是如何把技术真正落地。业务落地需要人才,就发出不少招聘,但那时还没有多少云计算的专业人才,我们只能在相关领域开展招聘。开始的时候都不能马上胜任,所以从2014年到2016年基本是团队孵化期,从基础能力开始构建、磨合和提升。”
对于此时的他而言,从架构师转型管理者,面临一个不得不解决的难题。
2、带领团队从“0”到“1”
“是先做技术研究,还是先产品化?”事实上,这个问题在科技圈普遍存在,也是科技行业里“鸡生蛋,还是蛋生鸡”的哲学。
通常我们会认为应该先研究,等技术成熟后再落地。但这种想法只在外界没有任何干扰的理想化状态下才可能实现。现实中,除了基础科学或早期的应用技术,研发几乎没有脱离市场独立存在的可能。
处于产业化阶段,钱岭自然知道产品落地和技术研究上的矛盾点。“公司发展需要生存,就会聚焦在工程化上,通过开发界面和管理平台满足客户的需求。但工程开发会消耗大量人力,在人员有限的情况下,创新、创造就会投入不足,而且研发人员投入在创造性工作上的时间总被日常生产打断,长期来看是很大的问题。”
这个矛盾带来的不良影响很快显现。早期的强工程能力在平台架构搭建好后,便因为创新能力不足而进入上升瓶颈期。为了解决这个问题,钱岭受命在2019年组建创新中心。和产品部门不同,创新中心的主要任务是攻坚克难,做原创技术,需要团队拆解项目底层需求,并从基础技术的实现逻辑开始逐步深入。“该研究的时候就研究,学习和发表论文,打好理论基础;该去调研产业也不能偷懒,真正深入企业生产当中。”
直至目前,创新中心已经在多个领域展开相关研究布局,如从论文开始做第一代的云原生数据库 — “凌霄”的孵化。国内很多互联网企业都在做云原生数据库,钱岭的团队基于工程化的架构能力做技术孵化,据他透露,目前已完成第一版本的研发,具备多项关键能力,性能达到预期水平。
量子计算和机器人云是创新中心另外两个专注研究的项目。其中,量子计算聚焦通用模拟器技术,已经完成单项算法研发,正在开展平台化工作。在钱岭看来,机器人未来的数量将大幅超过人类的数量,成为重要的云化应用终端,目前团队在机器人的云化应用上也在大力投入。
《新程序员》004:通过创新中心解决了产品落地和技术研究的矛盾,钱岭面前还有一个技术难题——“研发管理一体化”的体系构建。
“我们在2017年架构了针对软件研发的IPD-S体系,当时稳定使用了一段时间,也通过了CMMI五级评定,但到2019年云改之后就不适用了,必须‘研发一体化’。这涉及从管理体系、工具、架构、团队和文化的全面转向,特别是架构。经过两年改造,移动云架构实现了‘研发运营一体化’的目标。但因为没有时间停下研发做架构改造,只能边研发边改造,整个团队都非常辛苦。与此同时,我们也完成了管理体系和工具链等方面的建设。目前已经正式并网,开展蓝绿和灰度发布,但并不完美,还在优化中。”
除了钱岭自己带队进行内部的优化变革,公司也在分配和激励层面进行创新推动,分别在2019年和2021年开启了“云改”和“科改”。在他看来,“云改”最大的作用在于指明了公司短期和中长期的发展方向和目标,移动云成为公司基础性、关键性业务,技术和研发能力的重要性被充分提升。“科改”进一步落实了市场化、差异化的激励约束机制,加大向价值大、能力强、贡献高的人才倾斜力度,这对于高端技术人才、核心研发岗位来说是很大的利好。
通过优化研发管理体系、建立创新中心,以及激励制度改革,钱岭发现团队的创新和工程能力确实出现快速提升。体现在云化业务的落地方面,速度明显加快。以单集群1000台服务器作为规模化应用量:“早期做项目阶段,云计算和大数据分别用时三年和五年,而移动云在短短几年的部署量便超过了十万台服务器。同时因为在工程化和研发运营一体化上的积淀,我们的‘研发管理体系’进入了国内第一阵营,2021年第三季度移动云的收入在IDC上排名第七。”
最让钱岭欣慰的,是团队的稳定给他带来的信心:“我们的人员流失率不高,目前只有个位数,相较整个业界的30%是很低的。”钱岭带领大数据部拿到公司绩效考核第一,同事给钱岭画了素描(见图1)。
钱岭和素描的合影
3、应对“跑马圈地”后的常态问题
《新程序员》004:2008年开始做云计算,至今(2022年)已十四年,钱岭经历了中国这一产业的整个发展历程。从早期被怀疑,到2011年后逐渐被重视,再到2013年产业化的落地,直到2015年政策开始纷纷出台。
从技术应用来说,在公有云之后,私有云也开始发展:“经历了一段时间‘跑马圈地’的乱象到真正沉淀,从2017年起产业界开始真正认识到云的价值,有所共识,需求点开始锁定。”
但近年来,新的产业问题依然比较突出,钱岭认为表现在技术和生态两个方面。
首先是技术层。在他看来,无论是互联网还是通信行业在云计算的聚焦点都是算力网络。和之前云只提供算力不同,现在需要算力加网络。对于互联网企业来说,算力是强项,网络则是弱项,所以无论是阿里的企业网,还是亚马逊的直联业务,都存在不能一次性满足用户完整需求的问题。
然后是生态层,因为还在发展早期,整体来看问题比较多,核心在于以下几点:
-
行业发展不均,互联网“一马当先”,但更多传统行业改造明显不足。对云化技术使用不充分,用户体验、安全性都有很大提升空间;
-
“国家队”力量需要进一步提升,保障国计民生的产业技术不能拿来即用,云是基础设施,还是由央企或国有化企业来主导建设更好,但目前这方面力量明显不足;
-
存在资源浪费的现象。传统行业缺乏相应云上研发能力的企业会把公有云当成私有云来用,对优质资源没有充分利用;
-
硬件问题还没有很好地解决。软件可以做得很好,但核心硬件还需要国产替代,软硬件需要两手都抓。
在钱岭看来,他们推进的云网融合正在解决算力浪费、资源调度难、用户体验差等问题,移动云具备一次性开通云和网的双重能力,可以在全国范围内调度。事实上,不仅是中国移动,云网融合也是各家运营商主推的数字化转型战略。
对于云技术体系的构建,“大云架构”从2009年的内测0.5版直至2017年发布5.0版,再到2020年移动云新内核。移动云已经由原先结构不统一的多项产品,形成以云原生作为主体基础、软硬一体、灵活组网、大规模高可用、云网边和云数智融合的新型统一架构,同时还有三个通用底座,包括业务支撑系统、运营支撑系统、运维支撑系统。
“我们近年来一直在做的事情是通过云改把架构统一,目前实现了很多创新。在云计算各项关键技术领域,包括数据库、大数据、云智融合、虚拟化、存储等,都获得过省部级科技进步奖。”
此外,要想真正解决以上问题,还需从技术管理和经营管理的层面不断提升。自从2018年调任战略技术部,钱岭在战略架构方面的主要工作包括产品、研发和技术的三大管理体系构建。
“只有公司架构起最强的力量,才能真正推动产业界的发展。目前我们在做的事情不是学术上的方法论,而是真正与生产强相关的各种体系的建设,除了产品、研发和技术三大体系紧密关联,也包括财务和市场的拉通管理,同时包括人才体系的建设。人才和体系融合,才能真正高效运转起来。”
4、年轻人不要担心变老
《新程序员》004:从初为技术人到资深管理者,近三十载的技术人生让钱岭感悟颇多。浓缩成精华,他想给开发者传授的主要有两方面。
一方面是持续学习,从“单点技术”到“融合实践”。“只要选择了IT行业就要持续学习,这点是IT人,尤其是做云计算的人需要做好的思想准备。这一领域经常出现新概念,如果离开两年后再回来,也许就完全听不懂这些新概念了。”
在持续学习的基础上,要从单个技术,如“云计算、大数据、人工智能”扩展到“云网融合、软硬一体、云边协同、数智化”的组合能力。且不能只钻到书本里,需要在热爱的基础上动手生产实践。钱岭认为自己之所以动手能力强,主要因为热爱,需要把灵魂灌注其中。
另一方面是系统性思考,要多问五个“Why”。“现在很多开发者可能不爱看‘老头’总结的东西,但理性思维的东西是相通的,系统性思考是做好技术和技术管理的重要基础。”
五个“Why”由丰田公司最早提出,目的在于“打破砂锅问到底”。
例如,为什么产生了质量问题?——从制造环节找答案;为什么质量问题没有被发现?——是检验没有做好;为什么质量问题反复发生?——工艺流程,或者是制度体系没有架构得当……
钱岭认为,就和苏格拉底的“诘问法”一样,一层层问下去就会发现问题根源所在。至于该如何形成更系统化的思维方式,他给开发者推荐一本书:An Introduction to General Systems Thinking ,由著名软件专家杰拉尔德 · 温伯格撰写。
除此之外,他也希望做技术管理的“老人”,可以多给年轻人分享和指引:“在如何达成组织目标上,‘老人’还是需要给年轻人更多方向。如果没有足够的目标感和方法论,缺乏能力的新人往往不能按质保量的完成任务,他们或许会在黑暗中摸索很久,甚至出现负能量,如果做得不开心,可能就直接放弃了。”
对于时下科技圈流传的“45岁退休,35岁换人”,他认为这种现象不会存在太久,一是技术沉淀是循序渐进的,只要坚持做好,就能成为专家;二是从技术发展长河来看,DevOps、OpenFlow等优秀技术往往都是行业老司机提出来的。
“所以,年轻人不要担心自己变老,而是要变成‘老专家’。”
本文节选自《新程序员004》,从MySQL之父、MariaDB创始人 Michael "Monty" Widenius,到PostgreSQL全球开发组联合创始人Bruce Momjian、阿里巴巴副总裁贾扬清、指令集创始人兼 CEO潘爱民、著名科技作者吴军,再到 Vue.js 作者尤雨溪
《新程序员004》以「我们的技术时代,我的程序人生」为主题,与多位国内外知名的技术先锋和新生代程序员代表进行了深度对话,希望行业优秀人物的技术之路与人生感悟给大家带来启发。