(零)“我在马路边捡到一分钱”和“赛博柜员小姐姐”
“我在马路边捡到一分钱,把它交给警察叔叔手里边。”
这首歌,是中国小孩的必修曲目,不会唱就拿不到幼稚园文凭。
但是,我强烈怀疑以后的小朋友不用学这首歌了。
原因有两个:
第一,你得给孩子解释为啥有人要用一分钱,而不用微信支付;
第二,你还得给孩子解释警察叔叔为啥不用电子眼,要亲自上马路。
这听上去像个段子,但它背后却藏着一个有趣的真相——我们国家重要的两大支柱“金融”和“政务”,正在发生了不得的变化。
最近几年,你肉身跑银行的次数变少了,跑相关部门办事的次数也变少了,但你好像没有感到任何不方便。这是为啥呢?
很简单,因为很多业务都能在手机上办了呗!
好的,今天的浅黑科技就到这里,谢谢大家。
---
别急,刚才这个答案虽然正确,但却没给解题过程。
你懂的,浅友们从来不会满足于此。咱们不妨来看看,这些年到底哪些细节在发生变化。
就拿银行举例吧。
过去,你想给朋友转1000块钱,和银行发生关系的路径是酱的:
1、你到银行网点;
2、排队拿号;
3、对柜员说,我想给王富贵转1000块钱;
4、柜员小姐姐在她的电脑前面噼里啪啦打一通,最后让你输入密码;
5、在银行的数据库里,你账户上的1000块就划给了王富贵。
我画张图你瞅瞅。
现在,你想给朋友转1000块钱,上述路径依然可行,但有一种更简单的路径:
1、你打开手机 App;
2、输入王富贵的账号和转账金额,这组数据被发送给银行的服务器;
3、服务器返回指令,要你确认密码;
4、在银行的数据库里,你的1000块就划给了王富贵。
我再画张图你瞅瞅。
对比两张图,可以看出:
手机App相当于银行网点,
而银行的服务器相当于柜员姐姐。
事实上,对99%的人来说,有了手机之后,虽然你去银行网点的次数少了,但你使用银行服务的次数绝对变多了。
淘宝上买个9.9元的东西,你也能用信用卡付钱;微信里发个一块钱的红包,你也可以从银行卡里扣款。
这么多鸡零狗碎的小事儿,如果还像过去一样都跑到银行柜台办理,先别说你愿不愿意跑,反正银行有多少姐姐都不够用。
注意,解题过程来了:
对于互联网时代的银行发展来说,底层的计算力扮演了关键角色,简直就是可以随意克隆、还永远不用涨工资的“赛博柜员小姐姐”。
这里其实有一个技术难点:
你知道计算力是服务器提供的,但这么大量的工作,绝不是十台八台服务器能搞定的。
一家大银行需要把几千,甚至几万台服务器串在一起,形成一个“算力池”,才能应对全国人民每天的业务请求。
这种把无数台机器串在一起形成“算力池”的技术,就叫云计算。(注意这个算力池的概念,结尾我会重点说。)
细分的话,云计算其实有两种:
1、公有云
一般人熟悉的云计算,是和陌生人共享计算力。就像我们买票坐飞机,很多不认识的人共乘一架飞机,质优价廉,也不会有任何问题(虽然飞机餐通常不太好吃)。这种云最为普遍,叫做“公有云”。
2、专有云
鉴于银行、政府、大国企这个级别的团体要负责保障国计民生,对“数据安全性”和“业务稳定性”的要求贼拉高,所以,他们通常会按照最严格的标准,自己搞一个机房,然后专门建设一个私有的云计算系统,这就叫“专有云”。
有了专有云,就好比买了一架私人飞机,不仅想去哪就去哪,还不会航班延误,饿了还能叫空姐给你炒鱼香肉丝。
把《一分钱》这首歌彻底送走的种种技术中,专有云功不可没。
但是你懂的,没有一个科技进步是白白得来的。
“专有云”就像一个三棱锥,折射出背后五彩斑斓的时代涌动。与之相关的每一张面孔,都如同一朵行进的浪花,有各自辽远的使命和轨迹。某一刻,当它们恰好交汇一点,便成为浪潮。
今天,我就试着讲讲几张面孔的故事,为你描绘这个宏大技术基座的一点点侧颜。
(一)大机、小机、x86服务器
1969年7月21日,阿姆斯特朗在1.3光秒以外的月球遥望我们的家园:“这是我的一小步,却是人类的一大步。”
阿波罗11号像一颗子弹穿行在星际,哪怕偏航0.1度,都有可能像打水漂一样弹出大气层,永远无法回家。
于是,在休斯敦发射中心,一个庞大的计算集群炽热燃烧,在整个任务期间对轨道数据进行了400次修正计算。
这个支撑起人类荣光的计算集群,正是由五台 IBM System/360 “大型主机”组成。
就是这货
由此开始,企业级计算的历史长河奔涌,大型主机如同陆地霸主恐龙一样,成为主宰那个时代YYDS。
我们不妨把时间凝固:
当阿姆斯特朗在月球上溜达的时候,我们这个国度还一穷二白。唯有的几台苏联支援的和自研的计算机都用于支援两弹一星去了。
像银行、机关单位,虽然急需计算力,但没有也不会出人命,就只能纯靠算盘、账本来工作,唯一的“企业级”电器就是电报。
咱们要生活在那个时代,转一笔账到外地就要等21天,什么微信红包,什么秒级到账,你开玩笑呢。
80年代的银行柜台
直到 1979 年,改革春风终于拂来。
小平同志指示:“要把银行办成真正的银行”,人民银行总行才开始引进了第一批用于处理核心账目的 IBM System/360。
历史由此急踩油门:
一边是各大政企、银行的信息化水平高速发展;
一边是美国、日本的大型主机、小型主机像“基地水晶”一样填装进各个单位的机房C位。
这是后来 IBM 大型机和小型机的样子,是不是很猛?(2018年款 K1 Power)
就拿银行来说,搞金融的最讲安全、稳定。
大型机、小型机贵是贵了点,但那毕竟是支撑过登月的玩意儿,阿姆斯特朗代言的,而且,相比它们创造的经济价值,这点成本确实不算什么。
于是,很长一段时间内,银行架构就稳定在了“几台大型机带一群小型机的架构”。
听上去有点专业,是吧?
你可以把这种架构简单理解成“三国演义”:
1、刘关张就是大型机——处理核心账目;
2、赵云马超黄忠就是小型机——处理关键服务。
(ps:小型机和大型机一个大,一个更大;价格一个贵,一个更贵。)
这是经典银行IT架构,大型机带小型机。
本来刘关张带着众将搞得有声有色,但谁都没想到,传统的“主机架构”遭遇了互联网猝不及防的一闷棍。。。
正如我最开始讲的,互联网带来了“普惠金融”的新场景——“小而杂”的业务就像敌军的小兵一样蜂拥而来。
面对这个情况,银行突然发现自己没有与之抗衡的小兵,除了刘关张就是马超黄忠,都是主将。
兵围攻将,吃亏的肯定是将。
于是陷入两难:
如果不增加小型机,很多业务就处理不过来,不够普惠;
如果大量增加小型机,赚的钱还不够买机器,也划不来。
这张图左边的“蜀军”代表银行的IT架构,右边的“曹军”代表涌来的业务。两边要对等才行。
这种情况下,银行迫切需要找到皮实耐用却物美价廉的计算力。找来找去,能填补这个空白的只有技术路线接近民用电脑的“x86 服务器”。
于是,银行们开始把一些处理不过来的“大并发量”业务交给 x86 服务器组成的“赛博柜员小姐姐”来搞定。
以上这一切,就是轰轰烈烈的“主机、小型机下移”战争。
有了 x86 服务器,蜀军和曹军终于两边终于对等了。
这里请注意,技术细节来了!
刚才说过,千万台服务器买来之后,只是具备计算力的铁箱子,就像一盘散沙。
要把它们最终变成有组织有技能的“柜员”,首先需要有一个能把计算力组织起来的“云计算操作系统”。
(ps:就像银行柜员也需要组长、大堂经理一样。)
问题来了,到底要选哪个云计算操作系统呢?
各个银行、政企可就意见不一致了。
最开始,有人采购了不少服务优良的美国虚拟化系统 VMware,但一来功能有些老派,二来毕竟是美国公司你懂的;
后来,有人想尝试用当红的开源架构 OpenStack 自己搭建完全可控的云,功能倒是杠杠的,但技术太复杂出了问题又不好修。
绕了一圈之后,很多大银行、政府机构把目光放在了中国互联网大厂提供的“专有云”上。
在银行和政企面前,互联网公司一来技术强,二来姿态低,三来姓社不姓资,小伙子浑身腱子肉,一口气扛煤气罐上五楼,看上去就那么可爱。
历史浪潮之下,具体的面孔开始浮现。
这不,2017年,建行领导们就做出一个重要决定:为了更好地探索住房租赁和普惠金融,决定引入一家专有云服务商。
轰轰烈烈的招标开始了。
这一年,是王荔在建行的第七个年头,大家都叫她荔姐。
作为建行数据中心技术团队的负责人,荔姐这几年参与了 VMware 资源池的建设,主机下移等等工作。
这次引入云计算是个里程碑,她当然也是技术评审的评委之一。
王荔
在荔姐的回忆中,那次竞标就两个字:“激烈”。
这其实不难理解。
建行是国有四大行之一,江湖地位显赫。而且,在头部银行里,他们又是对技术变革动手最早,对新技术洞察最为深刻的。
说白了,建行会选哪家云,实际上是行业的风向标。
当时的效果是:一边是各大云厂商乙方挤破头去投标;一边是各大金融同行都在扒着窗户看热闹。
竞标就这样生生变成了大型选秀现场,还带不少观众。
“不过,行里提出了一个有点‘苛刻’的条件,我们希望审核源代码。”荔姐很严肃地对我说。
审核源代码,是个啥操作呢?
我们还拿飞机举例子。简单理解,就是我买你的飞机,你不仅要把飞机给我,还要把所有的设计图纸也拿给我看一眼。
“所有的代码都会有保密协议,我们当然不会给任何人看。建行是国有大行,对中国的金融安全和稳定都负有责任,所以审核源代码是一个必要的程序。”荔姐给我解释。
但这个要求一出,场面还是一度有点尴尬。
尴尬的原因分两种:第一种,不是每一个饭店都想给你看后厨;第二种,不是每一个饭店都敢给你看后厨。。。
总之,听到这个条件,很多云厂商就大手一挥,干脆。。。退赛了。
终于,经过层层筛选,决赛现场,拿下这一单的是——(此处导演喝水)——拿下这一单的是——腾讯云。
虽然各家都经过了严格的测试,但那么短的时间里,很难发现深层技术的实践优劣。
不过,腾讯云的答辩给我留下的印象很深,那个架构师很实在,能做到什么就说,做不到也直说。
我们不喜欢被人忽悠。
而且我们很清楚,2017年的时候各家专有云都在起步阶段,选一个未来几年能和我们坦诚相待一起进步的伙伴是很重要的。
荔姐说得很坦诚。
选秀最讲究悬念。当时荔姐只是评审之一,结果揭晓前,连她都不知道最终会花落谁家。
不过,在另一个人心里,却一早就胸有成竹地算定了这个结局。
这个人就是腾讯金融云的负责人——胡利明。
(二)卖飞机送机场
胡利明的故事非常精彩,值得从他幼稚园学唱《一分钱》的时候讲起。不过篇幅有限,我们直接跳到2014年吧。
那一年,老胡35岁。
对于一个久经沙场的码农来说,35是一个惊悚的数字。
养生的信念占领了他思想的高地,每天拿个保温杯泡茶,十点半必须睡觉。
胡利明
然而,命运总是在不经意间撞一下你的老腰。
那一天,腾讯云的领导跟大家宣布了一个惊悚的消息:
为了响应号召,腾讯投资了一家民营银行,刚刚拿到珍贵的牌照。
为了让大家看看腾讯的技术实力,也为了给银行的技术变革打个样,这家银行决定从创建的那天起,就不买任何小型机、大型机,用纯纯的云计算撑起所有的业务。
这不,现在任务落到了我们腾讯云,期限是6个月。
哦不,过了今天就是5个月零29天。
大家自告奋勇,谁想接这个任务啊?
你估计猜到了,这家银行就是微众银行。
当时听到这个决定,腾讯云这群技术宅都张大了嘴。
不上大型机小型机,那相当于刘关张、马超黄忠赵云全没有了,所有的活儿全让 x86 服务器干了。。。
这种神仙操作要6个月搞定?你是想开银行还是想开玩笑?!
就像这样的IT架构,什么刘关张都没了,从上到下全是x86服务器。
大伙儿还在错愕中,一只手已经举起来。大家看着胡利明淡定地说:我来吧。
其实,这活儿胡利明来干再合适不过。
他早先曾经供职于华为,企业级服务这一块有经验;2012年加入腾讯之后,他也参与了很多核心产品的策划。
老将就是有觉悟,关键时刻挺身而出!
虽然专有云大家都没啥经验,但好在当时腾讯公有云已经发展得如火如荼。
理论上来说,把公有云复制一份放到银行里就可以了——就像你已经会生产民用客机,再给人家生产私人飞机,照猫画虎就好了啊。
但是,事情远远没这么简单。
一架飞机看上去只是一架飞机,可它背后依赖的东西太多了。。。
先不说飞机里面要有驾驶员、空乘人员,就说飞机外面,机场、塔台、航空控制系统等等,缺少一样飞机都不敢飞。
就像这样,一架飞机要想载客,周边恨不得要有一万个辅助系统。
云计算也一样。
部署一套专有云,哪能只给人家安装一套核心云计算系统,你还要把各种监控系统、调度系统、灾备系统都给部署在周边。
粗略数数,这些支持系统得有上百个,一个都不能少。
问题来了:
在腾讯内部,这些辅助系统腾讯恨不得从QQ时代就开始积累,需要什么就加上什么,是一个十几年累加生长的生命进化过程。
各个器官之间的依赖关系盘根错节,不是说拆就拆的。
胡利明他们拆出系统A,发现背后依赖系统BCD;赶紧去看BCD,发现它们背后还依赖EFGHIJ。依赖来依赖去,子子孙孙无穷匮也。。。
那种感觉就像,看到一根牛尾巴,然后一拽发现里面还连着一头牛。。。
胡利明解释。
云计算系统的依赖关系,不比飞机简单。。。
牛尾巴有很多条,背后每只“牛”还分别由腾讯不同的部门开发——只有开发者团队自己才理解代码逻辑,知道怎么拆才能成功。
当时,要调动的团队不计其数,留给中国队的时间已经不多了。。。
胡利明虽然手里有“尚方宝剑”,但还是免不了拿着剑挨个去各个部门跪着求支援。。。
这段故事我写在了《腾讯偷塔》里,感兴趣的朋友可以去看,我就不赘述了。
总之,2014年底,赶在微众银行开业在即的 Deadline 之前,胡利明他们终于把主要依赖的“牛”给剥离出来,一股脑装进微众银行。
虽然还有很多细节的牛尾巴来不及拔出来,但由于不涉及安全和使用,就先让微众银行远程调用腾讯的接口。
像一牙披萨饼拿起来之后还连着奶酪丝,日后他们又用了大半年才把“奶酪丝”一点点剪断整理好。
实话实说,当时微众银行的技术挑战太大,技术宅们干得多少有点狼狈。但是,它对“腾讯专有云”这个产品来说却意义非凡。
经过微众银行生死一战,胡利明突然爱上了金融战场上的“血腥味”,那是机会的味道。
于是,他赶紧做了两件事:
第一,写了一宿PPT,向领导提出申请,自己带几个人成立了“金融云”小分队,专门去服务银行保险等金融客户;
第二,把给微众银行做的这一堆东西打包,定义成一个清晰的新产品“腾讯专有云”。
为了凸显“企业级”的光泽,后来胡利明还绞尽脑汁给专有云想了个洋气的英文名:TCE(Tencent Cloud Enterprise)。
“其实吧,产品名字的重要性远远超过你的想象。好名字朗朗上口,容易记住。你看我们的 TCE,Enterprise,听起来就很稳重,有企业范儿!你看看友商,那谁谁谁,英文名都叫啥啊?!”胡利明得意地给我科普他的“起名风水学”。
说远了。总之,服务微众银行这个版本的初代 TCE,就是 TCE 1.0。
一入金融深似海,从此睡眠是路人。
胡利明忙得脚不沾地,也顾不上泡枸杞了,每天就泡在各大银行里安利 TCE。
一开始,胡利明的战法还挺“佛系”的,三步走:从中小型金融机构开始,然后向区域性银行去摸,然后抓住一切机会拿下大型银行。
他也是这么做的,比如第一步先拿下了金谷银行、华通银行、富途证券、泰康保险等等。
然鹅,命运又开始朝他的老腰下手了。。。
就在2017年,他开始向区域性的中型银行进军的时候,战局突然急转直下。
你盯上的市场,别人怎么可能看不到?那一年,各大云计算厂商已经在专有云的战场上杀得血流成河。
胡利明记得很清楚,当时有一家华东的区域性银行,他本来都已经谈妥,就差签合同了,结果就在一错神的功夫,被一个友商“偷”掉了。。。
这样的趋势眼看愈演愈烈,胡利明惊了。
虽然友商也是在努力促进中国云计算的发展,但这也过于努力了。。。
这样凶狠地卷下去,自己可别彻底失去给中国云计算做贡献的机会呀。。。
当时,老胡做出了一个怎么看都很冒险的决定:
劫就劫皇纲——整肃兵马,油门漂移,直接冲击中国金融的最高地,国有大型银行。
说干就干。
2017年9月,胡利明推动拿下四大行之一中行的订单,但当时中行选择合作了一些大数据和人工智能业务。
虽然这些业务也很核心,但胡利明的心还悬在半空,他迫切期待国有大行能给一个更深入的“专有云”合作机会。
皇天不负有心人。2017年底,建行专有云招标,胡利明赶紧又派出了最精锐部队。
当对方提出要审核源代码时,腾讯上上下下讨论之后,机不可失,决定——给!
对于胡利明和腾讯金融云来说,后有追兵,前有断崖,建行一役,只能闭上眼睛纵身一跃——赢了不一定会所嫩模,但输了肯定得下海干活。
幸运的是,睁开眼睛,脚落在地上。
中标了。。。
然鹅,不中标一时苦,中了标一直苦。很快,金融云的同学们就开始压力上头:
当时,整个金融云团队负责技术的也只有几十人,还要同时服务好多客户。
可是,大型银行的要求非常严格,要想交出满意的答卷,必须拿出比现在厉害十倍的水平。千钧一发,以一敌十,时间不多了。。。
这个时候,管理团队作出了“卸担子”的决策:
让胡利明主抓金融云业务,TCE 技术团队则忍痛从金融云剥离出去,交回给人更多、技术实力更强的腾讯云基础产品团队。
由此,TCE 团队开始了属于自己的漫长远征。
等待他们的是雪山草地,还有敌人的枪炮。
(三)拆乐高,开飞机
2018年,沙开波压力山大。因为他就是接管 TCE 的那个人。
而且,就在他和胡利明交接的短短几个月时间里,已经不仅仅是建行的问题。
TCE 势如破竹,已经中了永辉超市、有赞商城等等一系列非金融大客户,每一个都是行业里响当当的龙头。
TCE 要是没办法让这些客户都满意,那所有人第一个就得拿老沙祭天。。。
沙开波
把老沙推到这个坑里的是他的领导——腾讯云基础产品负责人刘颖。
刘颖在腾讯云里被人称为“大师”,水平之高可想而知。
大师不仅搞技术有水平,做决定的理由也异于常人。
回忆起为啥选择老沙,大师说:
从战略意义上来说,专有云是最重要的产品,没有之一。所以我要选特别厉害的干部。这个干部一定要能吃苦耐劳,遇事死磕,所以不能找太聪明的人。我就选了沙开波。。。
当然这是个玩笑,仅仅靠“不太聪明”这个指标,那应该是中哥去当专有云的负责人。
选择老沙的重要原因,是因为他曾经参与了公有云诸多核心产品的开发。这个经历非常非常非常重要。
因为在刘颖心里,有一个“红线”必须要守住,那就是:腾讯的专有云和公有云要保持同一套架构。
这是啥意思呢?
正常人买票坐的普通飞机是什么样,你卖给人家的专机也要做成什么样。最多是细节有些区别,但绝不能正常人坐波音737,你搞出来的专机是阿帕奇直升机。
为啥大师要拼命守住这根红线呢?
因为他是个聪明人,聪明人从来不通过自己摔跟头来学会走路,而是要通过别人摔跟头学会走路。
现实就是血淋淋的教训。
彼时,各大友商已经或多或少都出现了专有云和公有云技术越走越远的情况。
这会使得专有云团队疲于奔命,效率越来越低:
今天客户要直升机,你就给做了直升机;明天客户说要滑翔机,你就给做了滑翔机;后天客户说要做战斗机,你。。。你已经加班加到吐血了。。。
客户的需求又不能不满足,自己又不能吐血——这在本质上是“功能”和“成本”的精妙平衡。
为了达到这个平衡,老沙只有一条路可走:把民航客机像乐高一样拆成小块。
用乐高块重新组合,做最小改动,装个螺旋桨就是直升机,翅膀加长是滑翔机,加上导弹就是战斗机。
这个和腾讯公有云长得最像孪生兄弟的 TCE,就是 TCE 3.0。
好了,问题现在就变成,应该怎么“拆乐高”了。
“拆乐高”这个活儿,要是只让老沙的团队自己完成,那还算便宜了他。
但是。。。你还记得吧,飞机背后还有好多“牛尾巴”,连着机场、塔台、调度那些系统呢。
要想实现统一架构,老沙团队不仅要把云计算系统拆成乐高,还得折磨各个部门,让他们把自己开发的存储系统、中间件、数据库等等等等,都按照TCE制定的“统一标准接口”拆成乐高。
高向冉,就是被老沙折磨的人之一。(在被老沙折磨之前,他被老胡折磨。)
看过《腾讯的硬盘里存着互联网的记忆》那篇文章的同学可能还记得,高向冉是腾讯 TEG 存储团队的运维负责人。
他们做的“COS云存储”,对于云计算来说,就相当于“硬盘”的角色。
你说说,哪个电脑能没硬盘?
所以,第一个要把自己的系统拆成乐高的,就是云存储团队。
怎么拆呢?
云存储系统除了自己的核心存储系统,也有一系列支持它的系统,例如数据监控、升级系统、计费系统。
这些偏运维的系统就是高向冉团队做的。
还记得我们刚才那张图吧,再复习一遍。(黄色的部分都是偏运维的系统)
高向冉要做的,就是把他所负责的黄色区域也给拆成乐高。
最初看到要搞这么多东西,我都蒙了。
每一个系统都要拆到最小的粒度本来就很难,关键我们是服务公有云产品的团队,没有太多把东西部署在私有环境里的经验,只能凭着对产品的理解和经验搞。
高向冉回忆。
高向冉
不仅高向冉所在的云存储团队吐血赶工,和他平行的还有无数个拆乐高的团队。
那几个月,简直在所有腾讯云的产品团队办公室墙上,都画着一个大红圈,里面写着:拆。
一边是腾讯云生死时速,一边是华夏大地上诸多客户嗷嗷待哺,我们还是把故事线集中到建行。
2018年6月,腾讯专有云终于布置到了建行数据中心。
崭新的机箱,崭新的开始,点亮开机,投入使用,一切顺利!
荔姐竖起大拇指:腾讯的小师傅们可真不是白给的。
可是随后几天,荔姐开始渐渐皱眉头。。。
她的团队发现:很多深入的后台管理动作都是靠命令行来进行的,也没有个管理界面。
仔细了解才知道,腾讯的老师傅日常就是这样管理云的,所有的架构在他们心里都一清二楚,出了问题也知道输入什么命令去检查。
可是,建行没有你这样的师傅啊,谁知道出了问题敲什么命令行。。。
荔姐要来专有云的白皮书一看,比她想象中简略得多,和外企那种事无巨细一万种可能性的应对方法都给你写清楚的水平简直是天壤之别。。。
讲真,过去半年腾讯的老师傅们都在拆乐高,哪有空写白皮书。
这种“失控感”和建行数据中心力求自主掌握的初衷可不太一致,荔姐赶紧找腾讯开会,准备三管齐下:
一来让腾讯云产品团队赶紧写白皮书;
二来让技术团队赶紧开发易用的管理系统;
三来派出自己的精锐同学,直接进驻腾讯,实地学习。
于是,出现了有趣的一幕:
在深圳腾讯大厦,突然冒出两个人,他们每天比腾讯员工上班还准时,就站在产品同学背后盯着,遇到不懂的问题随时可以提问,目标就是要把自己学成“人肉白皮书”。
如此一来,老沙他们才渐渐意识到企业服务的真谛:
卖飞机送机场是必须的,
把飞机拆成乐高重新部署是必须的,
教会人家开飞机更是必须的。
但,教会开飞机其实比造飞机需要下更大的功夫。
对于腾讯云来说,很多管理软件要从头写,白皮书很多内容要补齐;
对于客户来说,知识学习本身也是像剥洋葱一样循序渐进的。
我必须提醒你注意:这个过程可不只是建行学习开飞机,腾讯也在学习怎么教别人开飞机。(这个感觉很微妙,你体会一下)
从天空俯瞰,天天黏在一起的建行和腾讯的同学,一个想要用澎湃的计算力把共和国的金融业推向未来,一个想要用云计算改变华夏大地的千行百业。
他们有各自的梦想和使命,他们只是在此刻交汇,致意,未来还要各奔远方。
哎,醒一醒,别陶醉了。荔姐又来催开发进度了。。。
其实,荔姐也理解,腾讯的老司机不是不想干,是真的忙不过来。
然而,老沙心里也苦。荔姐要的,经常不是专有云团队自己能搞定的,而是涉及到周边系统的周边系统。
你还记得吗,在拆乐高的时候我讲过,这些系统是像高向冉这样的兄弟团队负责拆的“黄色乐高”。
但是,人家的主线任务是服务公有云,之前做了一波支线任务——配合专有云把它们拆成乐高。
已经累到不行了,现在还要持续继续配合开发功能,臣妾实在是没时间啊。。。
2019年,看着一直缓慢的开发流程,老沙痛定思痛,做出了一个冒险决定:
在保证公有云和专有云统一架构的基础上,把周边系统里偏管理的“黄色乐高块”拿回到自己团队手里重新开发。
说这个决定冒险一点都不过分。
原因还是那根“红线”。
专有云团队自己开发周边系统一时爽,时不时就会想多满足客户,多开发一点儿,稍不留神就又开发出了滑翔机、战斗机。
如此,就会和公有云的演进路线越走越远,回到定制开发的老路。
要真走回老路,那兄弟们这些年的苦可真是白受了。。。
这个时候,就显出刘颖选熟悉公有云的老沙来干这件事儿的深意所在了。
老沙了解公有云的每一个产品,所以他对于一个乐高块究竟应该放到公有云的蓝色乐高里去做,还是可以拉出来作为黄色乐高给专有云做,有天然的直觉。
仅仅靠直觉还不够。
每一个重大需求,刘颖和老沙都带着技术元老们逐一讨论,到底应该给公有云团队做还是专有云团队做。
仅仅靠讨论也不够。
还得有人带起一个水平过硬的敢死队,真正把这些功能给原汁原味不走形地实现出来。
那么,这个“敢死队长”在哪呢?
(四)敢死队
秦国安是个锋利的人。
在2019年加入腾讯云之前,他供职于友商阿里云,是个技术底子极好,思路很超前的技术专家。但在阿里,受于种种限制,他的很多想法没有空间施展。
冲冠一怒,他决定来鹅厂。
在面试腾讯的时候,刘颖问他:“愿不愿意做腾讯专有云?”
国安没走脑子,直觉地说:“专有云?挺坑的吧?”
空气霎时间静止了几秒。。。
国安想了想,赶紧说:“从发展的眼光看,机会一般出现在坑里!”
就这样,国安加入了腾讯专有云。他猜对了,真的挺坑。
秦国安
你想想,那么多功能都要拿回来重新做。
秦国安一边带着几位同学吭哧吭哧搞开发,每天都是12点以后回家;
人手极度短缺,赶上周末,还得一股脑面试十几个人为团队添砖加瓦;
他还有强迫症,问每个面试者的问题还不想重样,光想问题就绞尽脑汁。
这还不算完。开发到一半又赶上疫情,雪上加霜。
所有人都得远程办公,国安这个暴脾气,急得抓耳挠腮。
国安是个技术流,又是个铁血派,比起妥协改良,他更喜欢推翻重来。
为了一口气实现客户(主要是建行)要求的新功能,把“开发拖延”的帽子甩进太平洋,他把监控组件、日志组件、故障切换组件都规划了从头开发,而且开发这些组件的标准也都重新制定。
这样一来,就不免就要推翻很多过去已经存在的东西。
这样大刀阔斧,可想而知会招来其他同学的微词。
反对声音最大的是架构师团队和交付团队,因为他们日常和客户打交道,一旦这些新组件出问题,荔姐首先会剁了他们。
但秦国安不准备让步,摆出一张不破不立,长痛不如短痛的脸,跟反对的同学怼:
“你光觉得会出问题不行,你得给我从技术上讲出来,到底哪里会出问题,我们当面辩论!你说得对我就改,你说不出来就按我的来!”
果然,短痛来了。
2020年,疫情稍有缓和,荔姐就开始了夺命连环Call——赶紧把拖了很久的新功能上线。
新功能到底搞定没?已经搞定了,全部集成在了 TCE 3.5.0 这个版本里。
但是,但是,但是,这里有个大问题:升级。
由于很多组件都是国安团队推倒重写的,从旧版本升级到 3.5.0 是不兼容的,很多组件需要重装,相当于飞机场的供水站变电站都得推倒重盖。
这动静不是一般的大啊,但凡某个地方升级遇到错误,那。。。
腾讯的同学再次发扬了“实在”的精神,把这个情况也一早就告诉了荔姐。
荔姐咬牙表示理解,把升级的时间特意安排在了端午节,有三天假期时间,够他们折腾了。
而且,荔姐还留了个心眼儿,把升级影响的范围限定在了一个很小的区域,也就是说即便升级失败了,也不会影响建行的任何业务。
升级当天,荔姐故意摆出一副凶狠的脸,告诉腾讯的小朋友:“今天升级,要是超过20个bug,就不要升了!直接给我回退上个版本!”
交付同学颤抖着点头。
升级开始后,bug果然不是20个,直接突破了100个。
意想不到的故障发生,本来应该完美对接的系统之间出现了很多点位的错位。
关键是,这样的情况下,退回去的难度并不比继续往前走小。。。
骑虎难下。
身处全国各地的胡利明、刘颖、老沙、架构师QC,还有秦国安,全都瞬间进入了一级戒备。
管不了那么多了。
秦国安远程手写代码,QC现场改进迁移方案,一些监控数据受到 Bug 影响无法同步,同学们就在现场口头报数。
老司机们使出毕生的经验和 Bug 拼命,一片昏天黑地。
“那三天,全都搞了通宵,我也几乎没睡觉,每天晚上都盯着解决问题。”胡利明回忆。
幸好,在 Bug 面前,老师傅们还是道高一丈,成功实现了火力压制。
三天将尽,主力系统升级压线完成,剩下一点小尾巴不影响系统运行,可以睡一觉继续搞。
大家都长舒一口气。。。
对秦国安的惊险操作,虽然大家还是颇有微词,但不得不对他的作品竖大拇指。。。
当然,对于 TCE 3.5.0 最竖大拇指的是高向冉,因为他的团队再也不用每天琢磨为专有云做开发了,从此可以一心一意支持腾讯公有云存储。
不过,升级这件事儿,从来不是一劳永逸的。。。
2020年10月,建行又要对专有云进行一次升级,这次的主要目标是支持 IPV6 网络。TCE 需要从3.5.0 升级到 3.6.0。
鉴于上次升级伤亡惨重,这次升级,腾讯决定研发部门也要派人亲自去盯着。
派谁去呢?
大家你看看我,我看看你,齐刷刷看向秦国安。
秦国安一拍桌子,我去就我去!
这次升级准备时间很短,满打满算只有45天。
荔姐有了上次教训,在工作群里跟腾讯云的负责人们千叮咛万嘱咐,一定要保证升级成功。
秦国安立了军令状。
他把三个月的迁移预案准备时间压缩到一个月搞定,每周二周五开两次会,直接跟建行对进度。
迁移正式开始之前,秦国安进驻机房,荔姐揪住他:“这次升级要有闪失,你得负责啊!”
秦国安一脸谭嗣同的慷慨大义:“虽说我能负的责任虽然还不大,但我一定负责到底。。。”
“我反正就是有点蜜汁自信,因为这么多年还真没有什么技术上的点卡得住我。”秦国安对我挑挑眉毛。
升级开始,大家严阵以待。
不过,他们很快就发现这次的升级的进度完全在计划之内,有一些零星的小问题也都按部就班解决了。
一天一夜,秦国安一直盯着屏幕,到了晚上熬夜实在困,还躺在椅子上睡了一会儿。
醒来一看,荔姐还给我披了一件衣服!
秦国安激动地说。感觉披的不是衣服,而是黄袍马褂。
这次升级顺利,秦国安凯旋归来,又被他给装到了。(当然,这也是集体的成果)
自从升级到 3.5.0 之后,TCE 的功能越来越完善,连建行这样要求极其严格的客户提的意见也比以前少了。
而从腾讯的角度看,自2020年开始,TCE 以排山倒海的态势进驻了几百家客户,除了银行还有证券保险,除了金融行业还有交通、能源、政府部门。
每一家单位使用 TCE 的姿势都略有不同,但 TCE 总能想办法用用“乐高”组合满足客户的需求,没有大量增加定制开发,也没有大量增加团队人员。
几年的惊险和严酷,在客户的吐槽和团队的挣扎中,TCE 从一个蹒跚学步的孩子被拉扯成一个能帮家里扛煤气罐的壮小伙。
如今回望,来路坎坷,但大家都觉得这件事儿挺牛X的。
在一开始我就说,“专有云”就像一个三棱锥,这些面孔背后折射出的,是五彩斑斓的时代涌动。
而随着时间的推进,时代背后的真相也越来越清晰。
(五)两个梦想和我们的转身
云的本质,是资源的池化。
刘颖特别强调。
他为什么这么说呢?
之前在“赛博柜员小姐姐”的比喻中,我没来得及展开讲,这里我多解释一句:
在云计算里,并不是一台“服务器”变成一个“赛博柜员小姐姐”,而是一台服务器变成几十甚至上百个“赛博柜员小姐姐”。
这种一对多的变化关系,本质上要依赖云计算的两个核心技术——“虚拟化”和“容器”。
通过这两个技术,可以在一台服务器上虚拟出几十台虚拟服务器或者上百个容器环境。而每一个虚拟机和容器都可以独立提供服务。
如此一来:
从宏观上看,云计算是上千台服务器的联合;
从微观上看,它们是一个个“计算力原子”,可随时转变功能,也可随时调配,可以独立工作,也可以联合工作,就像原子可以排列成碳,也可以排列成铁那样。
这些玻璃瓶就是容器
于是,这些原子上一秒还在执行任务A,下一秒就可以执行任务B,再下一秒可以执行任务C。
这样的结果就是——任务A、B、C就可以在时间上对同一份计算力实现共享,从而使得原来要3台服务器才能支撑的业务,现在用1台服务器就能支撑。(有关虚拟化的详细技术科普,可以参考《我遇到一群造梦师》。)
了解了这些,你再去回味刘颖的话。他在说的是“效率”。
把一堆服务器连起来本身,并不能创造额外的效益;而把一堆服务器连起来,形成资源池,让不同时刻需要计算力的业务和部门来共享池里的资源,才是效率的根本来源。
而不断精进云计算的技术,就可以不断增加资源共享的程度,从而提高计算生产的效率。
这才是所有云计算技术人不眠不休追寻的究极奥义。
腾讯云众将穿过那么多荆棘,也正是要把“效率”这个最珍贵的东西带给各行各业。
有意思的是,同样一波浪潮,背后还有另一个真相。
对于使用专有云进行“主机下移”的金融和政府机构来说,他们当然关心效率,但他们也关心另一个词:“责任”。
首先,主机下移的目标不仅仅是用云计算承载高并发业务,还要具备对大型机小型机的替代能力。
其次,很多金融和政府机构不仅在搭建专有云,还在搭建专有云里的一个细分品类,“信创云”。
有的浅友可能还不知道什么是信创云。简单来说,信创云就是由信创服务器组成的云。
啥是信创服务器呢?就是核心的计算芯片都是中国设计的。
虽说现在中国芯片的设计已经很领先,但是在精密芯片生产方面,确实要借助海外流片和海外代工,所以信创云本身还在快速迭代的过程中。(这部分内容可以参考《14亿中国人和计算力》。)
这种快速迭代过程中的云,从纯商业角度来说,性价比是很低的。
因为国产芯片目前价格偏高,性能偏低,还有很多技术路线的相互竞争还没见分晓,可能今天买了明天就不兼容了,从各种方面来说都不太合算。
但是,越没人用,我们和国际先进水平的技术差距就越大,这是所有中国人都不愿看到的情形。于是,总要有人率先支持信创云。
这是一块搭载海光芯片的主板。
政府部门和金融业,扛起了这个责任。
他们要率先应用信创云,而且不能只是买来装装样子,要把业务跑在信创云上,这样才能一点点发现从信创芯片到信创服务器到信创云各个层级的问题,促进它们的发展。
由此,“主机下移”这条脉络的全貌浮现:
轰轰烈烈的主机下移,不仅仅是为了支持爆发的互联网业务,同时也是为了给信创领域的芯片、服务器和云计算劈开一条向前冲的道路。
刚才提到,信创云还有很多技术路线的竞争,特别集中在处理器的领域。比如海光的 x86 架构,飞腾和鲲鹏的 ARM 架构。
这些处理器虽然购买了国外授权,沿用了国际标准,但适配起来还是会有这样那样的坑。
比如,在 x86 平台上跑得很好地一个组件,换到 ARM 架构上,由于平台时序和指令集不同,就会引发整数溢出,把整个程序都拉挂了。。。
再比如,A厂和B厂都用飞腾芯片,分别生产了两个服务器,其中一个安装系统就会死机。把两家服务器的技术人员找来定位了很久,最后发现是 BIOS 的固件版本不同。。。
老沙吐槽。
但即使有这么多坑,这帮技术宅却加班加点搞适配,因为目前使用信创云的单位毕竟没有那么多,大量使用信创云的单位就更少了,腾讯不能错过建行这个来之不易的战场。
在专有云的浪潮中,国企和民企的配合,成为了一个范例,也成为我们这个国家转身的一个注脚。
我们的故事就要在这里结束了,但我们的主人公还要继续为梦想奋斗。
最近秦国安意气风发,又领到了新的任务,带着大家开发了一整套部署工具,相当于给机场施工提供了塔吊和重卡。
这下,他们再去千行百业安装专有云的过程,就能从过去的几个星期变成一两天。
他还开心地告诉我,腾讯的公有云也准备专门开辟一个区,用私有云上磨炼出来的技术来为公有云客户服务。
老胡自从2015年干了金融云,彻底告别了枸杞。跟我见面的时候,他正在北京出差,已经连续一周没有一点前睡觉了。
这还带来一个副作用,每天晚上开车回家的时候已经没有车位了,他只好停在别人的车前头,早晨六点就有人给他打电话让他挪车。。。
荔姐,我把她形容成了一个“狠角色”,不过真相不是这样的。
坐在我对面的荔姐,是一个很和蔼的人。她呈现给腾讯的,更多的是作为金融技术人的职业精神,还有作为国有大行不容打折的社会责任感。
而老沙,跟我聊完天之后已经晚上七点,他顾不上吃饭又去开会,继续在“功能”和“成本”的那根红线上走钢丝。
但他们的眼里都闪着光。
就像刘颖说的那样:我们已经做了十年寂寞的布道者,未来,将是中国云计算的黄金时代。
我高兴地说了声
叔叔,再见!
再自我介绍一下吧。我叫史中,是一个倾心故事的科技记者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax。也可以关注微信公众号浅黑科技:qinaheikeji