跳转至

09 故障:故障不可避免,但追责机制很重要

你好,我是晓蕾。

阿里绩效考核的3.25分咱们或多或少都了解过。道哥也有过两次3.25的绩效经历,因为出现过严重的安全故障。

现在说起故障管理,好像已经成了一个体系,有这样那样的方法论,但其实真的发生了故障,特别是有严重后果的故障,怎么解决、怎么面对都不是件容易的事儿。有一种教育叫“优雅失败”,这确实是一门重要的人生功课。

极客时间:你被打了两次3.25的绩效?

道哥:对,其实都是自己打的。901是2015年9月1号,当时把所有的服务器搞挂了。除了901,还有一次仅次于901的大故障。那一年我们在做整个网络的升级改造,我们团队把整个阿里云网络搞挂了,中断了好久,可能至少影响了40%的网络流量,我都是要承担主要责任的。

极客时间:901的时候是什么感觉?

道哥:当时蛮复杂的,肯定着急嘛。但是也顾不上着急,因为我知道在那个时刻必须在一线顶住所有的压力,去把问题处理好、解决掉。等到事后要杀要剐,就是公司决定了。

极客时间:当时团队里的同学是怎么想的?

道哥:团队同学,我觉得他们压力是挺大的,但是他们没有表现出来。

极客时间:为什么没有表现出来?你们团队平常的风格也是这样吗?

道哥:这个可能是人的正常反应。举个例子,比如说你在海上面航行,那艘船快沉了,请问你是什么表现?如果你是个乘客,估计就在那慌了。但如果你是船员,你肯定在想办法补救,所有的注意力必须集中在解决问题上,其他情绪都必须靠边站的,否则这个船就真的沉了,哪还顾得上别人。

极客时间:你是怎么看故障这个事的?现在是不是不太会出大的故障了?

道哥:其实现在也还会再出大故障的,比如说阿里云在2022年香港机房的故障。或者说基本上可能每周会有些小故障,但是大故障的话要好很多了。故障不可避免,但是这里面的追责机制就很重要。

极客时间:你怎么理解追责机制?

道哥:振飞在这点上做得特别好,我从他身上学到很多。当年他负责整个AIS,他有一个规则,凡是出故障,其他部门扯皮的话,一律算AIS的故障,他先背了这个责任。还有一个规则,就是凡是涉及外部第三方的,内部一定要定一个人,所有的故障必须追责到人。如果是大故障,管理者要承担连带管理责任,这是最基本的。

这些东西已经变成我的世界观的一部分了。相反地,如果反过来往外推责任,这个就是胡搞了。或者说内部追责经常也追不到人,没那么认真追责,这件事情我觉得很危险。

极客时间:事情有唯一的责任人,除了故障处理,在日常工作的管理中也可以是这样吗?

道哥:没有,我觉得这件事情是个效率的问题,其实就是老板顶上去就行了。大老板就是要一捅到底,在这个事上不要含糊。同时还要奖罚分明,如果出问题,该怎么着怎么着。

极客时间:这个真的很难,需要很强的贯彻力,要不然中间一两次出问题大家就会看,觉得你为什么这么处理,为什么那么处理。

道哥:领导力非常强才行。

极客时间:这种强势领导力是适用于公司的所有阶段吗?还是分情况。

道哥:一方面是不同领导的风格。另一方面和公司的规模、阶段有关系,公司追求效率的时候,肯定是要用这种管理方式,公司追求创新的时候,可能就要松散一点。

极客时间:到了一定阶段,其实都会有一些冗余去做创新?

道哥:对,有一定的关系。也有不同公司性质的因素,都是有一定的关系的。

极客时间:901的时候有一个处理环节是“手写道歉信”,我觉得这个事很真诚。你是怎么想出来的?

道哥:就是直觉。没有别的,当时真的觉得业务做到这个份上不容易,这艘船不要沉,希望它能继续好下去,而且希望用户能够再给我们一次机会,选择相信我们。我就发自内心地想去做这个事情。

当然可能也会有人说我们是做秀,不管别人是怎么看的,我们只需要专注在我们的客户是不是愿意再相信我们就好了。

极客时间:团队里的同学跟你一起手写了道歉信?

道哥:对,我发动了。

极客时间:所有人都愿意去写吗?

道哥:愿意,团队所有人都愿意,这就是要找同路人。

极客时间:很难得。关于找同路人这件事情,你在公众号里提到过闻味官这个词。你现在招人的时候,还会有这个环节或者动作吗?

道哥:我觉得我的同事现在做得比我好。我现在的合伙人招人的时候,有些人我都觉得可以过了,他说不行,他说自己在跟面试者聊的时候,在面试者的眼睛里看不到光。他还会跟我说那谁谁谁,我们招他,在和他谈到我们使命愿景的时候,能感受到他的眼睛是在发光的。我认为这就是闻味道。

极客时间:闻味这个动作具体来说,就是跟他去聊你们的使命愿景,去看他是不是认同,对吗?

道哥:对。如果一个人对我们的使命愿景都不感到兴奋,那我估计也很难一起走很远。我觉得现阶段,尤其是创业公司,应该是优先找同路人,能力反倒在其次。

极客时间:说回到901故障处理,这件事情过后团队有什么变化吗?比如大家的心气等等这些方面?

道哥:这是让我比较感动的地方,大家没有任何变化,还是该干嘛干嘛。我认为大家的士气并没有受太多影响。

极客时间:为什么会没有受太大的影响?还是跟你说的找同路人是一个原因吗?

道哥:应该不完全是。如果是找同路人,我相信大家的士气会更加高昂。因为这是在阿里,所以大家可能觉得垮是公司垮了,自己还有饭吃。大多数人可能是这个心态,当然这也是我揣测的,我也没跟大家深入地去一个个聊。

我相信在这么大的团队里肯定有好人、有坏人。好人肯定觉得挺难过的,就想好好把事情再做一做,这个时候他会专心地去做事情。还有一些人就是很职业的人,他们肯定觉得出了这个故障,公司该怎么处理怎么处理,自然有公司的方法。他们的结论就是你只要做好本职工作就行了,我相信在公司里的大多数人应该是这个心态。

但如果是安全宝出了这种事情就不是这样的,或者说在初创公司会有两种极端情况。第一种就是想公司估计快不行了,该脚底抹油了,该写简历了,可能就要开始看机会了。还有一种就是反正也跟公司绑死了,也没什么后路,那就是跟公司共命运,如果需要做更多的话他们会主动做。

极客时间:那会儿你会做一些心理建设,比如说万一同事来找我,我会跟大家怎么去聊吗?

道哥:其实我觉得也不用聊什么,还有什么要聊的呢?我们所有的事情做是在明面上的。也没做什么心理建设,该怎么聊怎么聊。如果大家有困惑可以来找我,但是也没有人来找我,当然也可能是我脾气不好,没人敢找我。

极客时间:所以你觉得处理安全事故应该怎么做?

道哥:先尊重行业惯例,连行业惯例都没搞清楚,那就是胡搞了。

极客时间:你在PR方面会有自己的一些想法吗?

道哥:有一些想法。有的PR我觉得像是一个风控团队,风控的事情他们确实专业,他会告诉你这个稿子里这句话写得有问题,应该改成什么样。再就是他们有一些资源和渠道可以联系一些媒体。真正的大PR,比如说王坚博士自己会做PR,如果我要搞什么事情我也会自己做PR。

极客时间:你有意识地思考“如果是自己在这个位置,会怎么做PR”,有这种想法是从什么时候开始的?

道哥:感觉我做PR由来已久了。其实从我做幻影的时候就已经具备意见领袖的能力了,后来开始写博客,再往后才有了公众号。

公众号写完之后影响更大了一点。但是我也没有把公众号当成一个正经事,后来就不搞了,因为我的志向不是做一个专栏作家,我觉得我有更重要的事情。虽然大家觉得它很成功,但是对我来说这根本就不是一个重要的事情。

我到了安全宝之后为什么继续写公众号呢?是因为我需要一个阵地来为自己的产品和业务发声。

极客时间:如果用一句话总结一下,你觉得PR的本质是什么?

道哥:要为公司业务负责。PR实际上是要制造热点事件的。

我举个例子,比如前一段时间我看到路虎有一辆车,逆着天门山那个大洞口的台阶就这样开上去了,那个台阶有999级,我觉得这就是相当棒的PR。包括AlphaGo,也是一个非常好的PR。让机器跟李世石做一个对战,机器第一次在一个人们从来没想象过的领域打败人类。我觉得这些就是标志性的PR,我心目中的PR是这种的,要制造这样有影响力的事件。

互动小茶桌

故障处理有机制很重要,更重要的是怎么落地机制。很多事情的处理方式之所以让人印象深刻,是因为其中饱含真诚,真诚永远是必杀技。俗话说患难见真情,从某种意义上来说,对于一个团队,一起扛过事儿会让团队赤诚相见,更有凝聚力。

这一节我们还提到了闻味道,怎么通过使命愿景的认同感找到同路人呢?下一节我们就邀请道哥聊一聊他在管理方面的洞见。

最后留一个互动话题,你在工作中出现过什么重大故障吗?你是怎么处理的?有哪些心得和体会?欢迎分享你的故事。我们下一节见!

戳此加入访谈交流群,和道哥一起探索工程师精神。

精选留言(3)
  • 苏果果 👍(1) 💬(0)

    🎉喜大普奔🎉 道哥将于9月20日做客「极客时间」直播间。 关于道哥,关于自己的成长,你还有什么想问的问题吗? 欢迎在任意一节课下方【留言评论】! 我们会在【赞数较高】的问题中挑选3个,在直播间给出【比留言回复更更更详细】的解答! 还等什么!快来提问吧!😉

    2023-09-15

  • 种个大西瓜 👍(1) 💬(2)

    请问 PR 是什么意思?

    2023-09-22

  • 二师兄 👍(0) 💬(0)

    23年12月,今年到目前为止已经有语雀,阿里云,滴滴先后出p0级故障了

    2023-12-08