“天猫双11”技术队长:双11是场奥运会,我就是修建场馆的“包工头”兼现场指挥

记者金斌 卖家 2019-09-01

/ 金斌

编辑 / 屠雁飞


2009年春节上班第一天,在北京上地的汇众大厦203这间连暖气都没有的办公室里,工程师敲下了阿里云的第一行代码。前一年,微软亚洲研究院常务副院长王坚被马云挖来,以“首席架构师”的身份,从零开始建设阿里巴巴云计算系统。


几亿用户无论是在淘宝剁手,还是支付宝上转账,这一切都要靠巨大的计算力来思考、记忆,海量数据需要处理,阿里巴巴的计算力开始捉襟见肘。

 

此时,在十几公里外的北京工业大学通信工程专业,跃元获得了一份大唐通信的OFFER,比他的100多个同学都要早得多。

 

事实上,中关村的那些门户网站也投出了橄榄枝,比如新浪、搜狐和百度,只是因为专业不太对口,至于远在南方的阿里巴巴,他说当时还没听说过,通信领域的“巨大中华”才是他们的不二之选。

 

5年后,3G、4G来了,跃元则嗅到了云计算的未来,像当初王坚一样,以“系统架构师”的身份来到了阿里云,天猫双11的洪峰冲击、IOT、AI的异军突起,ALL IN CLOUD的震撼人心……他说,自己终于赶上了好时代。

 


 

稳健的右边锋

 

跃元是个土生土长的北京人,老房子拆迁前,一直居住在北京天坛公园隔壁。他的父母都是北京一家国营化工厂的职工,端着搞后勤的铁饭碗,不过十多年前厂里搞内退,老两口都下来了。不过心态好,老头子平时就在家里养养鱼,种些花草,跃元母亲喜欢唱歌,总是往天坛公园跑,那儿有一群志同道合的老姐妹等着她,日子过得也算安逸。

 

上小学时,学校要报兴趣班,其他同学都去了书法、绘画甚至奥数班,跃元父母却给他报了个足球,没想这个爱好一直保留到了现在。



他一般司职右边锋,以速度闻名,只要有他在场上,球队的右路就有保障,进能攻,退可守,稳健的作风令人印象深刻。大二时,跃元参加学院之间的一场球赛,对手一位球员遇到他,拍着他的肩膀说,哥儿们,你去年有一场比赛上的那次过人牛逼啊。跃元绞尽脑汁都没想到是哪场比赛,但人家说得有模有样,又不像是假的。

 

稳健的作风源自他的性格。

 

大唐是中国4G网络标准的提出者,跃元常年奔走在4G网络的建设一线,当时出差只能坐火车,有一次从西安回来,甚至连普通火车的票都没赶上,只能在绿皮火车上熬了一宿。遇到这种情况,很多员工都会去抱怨,但他却习以为常。

 

所以,当他两年后从大唐跳槽到了华为之后,便被派往墨西哥,协助当地的工程师进行系统建设。

 

墨西哥人工作清闲,上午根本见不到人影,午后才出现,喝个茶聊两句又该下班了,相处中很让人抓狂。

 

跃元发现,当地人虽然有些慵懒,但是对细节却比较较真,“有些代码中出现细微的疏忽,他们都会问你,其实那些问题根本不会带来什么大的影响。”每当这个时候,跃元都会仔细地与对方交流,几次下来,大伙儿便打成了一片,“他们觉得你是有能力的,合作就顺畅了很多。”



“协作的事,你得沉得住气,不能自己先乱了阵脚。”

 


为什么12306总是崩溃?

 

2014年初,传统通讯设备商爱立信向他发出邀请,动摇了跃元的“军心”,他没有第一时间给地方回复,此前在通讯商已经工作了5年,他内心深处希望有一些改变。

 

跃元朋友的朋友极力说服他加入阿里云,因为此时的阿里云,已经成为中国第一家拥有完整云计算能力的企业。

 

有意思的是,他入职阿里云的职位与王坚一样,也是系统架构师。

 

他很快参与了一个与线上购票网站12306合作的case。在此之前,12306广为诟病的便是在关键节点的网站崩溃,一到购票高峰网站就登录不了或者登录失败,“这个采购系统太大了,人一多就崩溃。”

 

2015年春运期间,12306将车票查询业务部署在阿里云上,跃元肩负了短时的驻场服务,提供现场技术护航。

 

因为刚刚上云,12306预期的容量评估有些问题,跃元意识到,流量高峰时,实际需要的容量比预期的要高2倍左右。“他们自己也提前准备了很多资源,但实际需要的容量不是那么好估计,我们就给他们扩容资源,应付春运购票的峰值。”

 

事实证明,跃元的判断是对的,那一年春运,阿里云为春运高峰分流了75%的流量,如果没有这部分的弹性扩容,12306估计又要崩溃。

 

“有过那一次经验之后,12306后来基本上就很少崩了。”跃元说。

 


2017年的那个天猫双11

 

在阿里巴巴,双11对于任何一个人而言,都是一次大考,“对于阿里云来说,双11是一次技术大考,这一年做了什么东西,那一天就是检验甚至是考验。”

 

入职五年,跃元经历了五次双11,五年中,他的心态也在逐渐转变,2015年负责线上系统调测与监控时,一整天都是诚惶诚恐,生怕哪里出了问题,2016年则坚信系统肯定没问题,到了17、18年,虽然考验依然在,但更像是一个年终的练兵场了。

 

外界的关注点,是双11的成交额从2014年的571亿元,一路飙升到2018年的2135亿元,但跃元和他的同事们,更关注这一天的交易峰值,那才是对他们的实际考验。



双11就像一个脉冲型的流量洪峰,对瞬时容量的要求非常高,他记得很清楚,2015年,双11当天系统交易创建峰值达到每秒钟14万笔,支付宝最高峰值每秒8.59万笔交易,到了2017年,天猫双11开场5分22秒,新的支付峰值达到每秒25.6万笔,而2018年天猫“双11”每秒订单创建峰值达到49.1万笔。

 

虽然每年都能把可能迎来的流量洪峰计算得特别好,但也会出现超出预计的事情。

 

2017年双11当天的下午,凌晨的洪峰早已经过去,按照跃元的话说,这时候,一线工程师的理想状态是,“盯着监控喝喝茶,看着整个交易平缓而符合预期地进行着。”

 

但是,突然有同事发现了问题。

 

跃元的团队事先准备了ABCD四套机器,以应对当天的流量,在事先模拟过程中,只需要动用AB两套机器就OK了,CD是用不上的,但突然间,巨大的流量毫无征兆地全打到了B上, “正常状态下,AB上的流量基本是平的,不是谁特别高,都是平的,都在负载以内,一般负载到了50%以上就很危险了,瞬时就可能到70%、80%,技术层面就会介入做一些处理。”

 

他的第一反应,是不是淘宝、天猫推了促销或者热点,结果对方回复说没有。

 

那一刻,他瞬间就紧张了,“心想一定是拜关公没有拜到位啊”,不过下一秒钟就投入到了紧急应对中,毕竟任何迟疑,对系统负载来说都是很危险。


 

阿里云技术队长

 

双11是一个大规模多团队协同的事情,惊险其实无时不在。

 

2018年, 在双11的零点洪峰之前,在“猫晚”活动进行过程中,聚划算做了一个导购活动,导致了一部分系统的服务器资源,被压挂了,虽然不会对大局产生影响,但是如果处理不好,还是可能导致部分省市访问天猫、淘宝系统失败。

 

作为幕后的技术支持,阿里云始终默默无闻,询问跃元,哪一年自己印象最深,他说是2016年,理由是那一年所有的事情都非常顺利,没有遇到什么大问题。

 

技术容不得半点失误。

 

“你去看,其实15、16年的洪峰已经是17、18年日常的量了,现在阿里巴巴的业务量越来越大,对计算力的考验时刻都存在,每年的5、6月份新的系统要去构思、设立,到了年中618在场景上试一下,8、9月份系统将集中交付,10月份就该进行全链路的压测了,在整个场景中对系统进行测试完成,正式准备双11大考。”

 

不断重复循环做着同样的事情,却见证了不一样的奇迹。在阿里巴巴之前,没有一家公司把云作为业务和技术的未来在看待。现在,中国有84%的企业有意愿要上云。

 

今年,跃元担任了天猫双11的阿里云技术队长,他形容双11就像一个奥运会,自己则是场馆建设的“包工头”和活动期间的“技术总指挥”,“我们得把各种场馆修建起来,能容纳那么多的人去看比赛,这个场馆你还得负责维护,入口、门禁、设计、看台的数量和承重,个一套设施都得建设和维护。”

 

他说今年压力特别大,虽然双11每年都会有新特性,但是今年阿里巴巴集团最大的变化就是整体上云,“都在云上了,ALL IN CLOUD了,你就没有任何退路。”



他提到了今年5月份在阿里五年授戒时的场景,“一刹那,让你回想来的时候是什么样的,五年里你经历了什么,你得到了什么,失去了什么,以及将来可能面临的是什么,我突然觉得,自己站到了“云”的风口上。”





    已同步到看一看

    发送中

    本站仅按申请收录文章,版权归原作者所有
    如若侵权,请联系本站删除
    觉得不错,分享给更多人看到