最惊心动魄的上线是怎样的?
2016-10-07 21:03:34

题图为 SpaceX CRS-1 火箭发射,就是发出去又被回收的那个。

初入阿里时,听前辈讲某年双十一开始前几分钟需要紧急上线(要知道为了保证双十一的稳定基本上国庆时就不允许做发布了),这时候以振飞为首的技术保障部老大们围着一个女 PE,盯着上线。上线完成后一切正常,那个 PE 就昏过去了。

从技术角度讲,这次上线可能技术难度并不大,操作步骤可能和平时也类似,但压力之大绝对是难以想象的。甚至那个时候技术都是次要的了,能抗住压力抖着手把熟悉的步骤完成才是最重要的。据说完成上线的那个 PE 后来被表彰了。

这两天看《硅谷钢铁侠-埃隆马斯克的冒险人生》,又发现了他所创建的两个公司中发生的两起惊心动魄的上线。

一个是特斯拉刚出 Model S 时,经常会出现些小问题把手不能弹出,雨刷速率异常等,这种问题通常都是需要送修的,但是特斯拉的做法是趁车主睡觉的时候通过网络连接到问题车辆进行软件更新。车主第一天还在抱怨有问题,睡一觉起来发现没了,就是这么神奇。但是这种做法其实是风险很大的,可以对比一下之前阿里云误删文件的风波,安全的 agent 升级把用户文件删除了,那还只是个机器,这可是辆可以载人的车啊,里面万一有人怎么办?不知道特斯拉的工程师在更新的时候会不会手抖?不过看书上的介绍他们似乎很乐于这种事情,一开始还是修复 bug,后来牵引力控制功能、更快的充电速度、智能语音也通过这种方式开始推送了,用户似乎也很喜欢这种车不断进化的魔法。这种做法恐怕是传统汽车企业想都不敢想的事把?

另一个是 SpaceX 的一次发射,给空间站运送补给。由于意外的强光干扰,导致激光探测器无法正确识别距离,工程师折腾了两个半小时飞船依然无法和空间站对接。尽管 SpaceX
以低价闻名,但一次发射依然需要千万美元,而且当时这家初创公司的资金也不多,每次失败都是极其致命的损失,而且这是 SpaceX
第一次执行空间站对接任务,会关系到之后的订单。情急之下,工程师决定向飞船上传新的软件,减少视觉传感器使用的帧数,以此来消除太阳光对机器的影响。前面两个案例我觉得还在理解之中,这次在线升级飞船就完全超乎想象了。我都想不出来这种东西该怎么测试,难道飞船也是可以找个流量低峰期改一下试试不行就再改一下试试这么玩么?最终结果当然是皆大欢喜,飞船和空间站成功对接,SpaceX 也得到了 NASA 4.4 亿美元的拨款来设计载人的飞船。

特斯拉和 SpaceX 这种线上调试,偷偷更新的风格很像不断试错,小步迭代的互联网风格。一般的传统企业说到互联网思维大多是做个网站把产品放到网上,然后在网上做 marketing 和 sale,而这两家企业是把互联网的方法论融合到产品的设计,发布,上线和售后。想想汽车和飞船有个厂商可以上传更新的后门,有就罢了还真在用,是一种怎样的体验?或许这种互联网的方法论真的可以带我们驶向星辰大海。