iThome
突然发现Gmail用户能看到他人信件内容,若你是Gmail维运人员,会怎么做?通知团队负责人?立刻打电话询问公司副总裁?订披萨准备找问题?还是立刻关掉这个全球10亿人使用的邮件服务?Google储存服务SRE部门总监Melissa Binde说:“正确答案是立刻关掉Gmail。”
在Google负责服务维运工作的这类工程师通通称为SRE(Site Reliability Engineer,网站可靠性工程师),Melissa Binde表示,不论担任SRE这类职务的人是实习生,或是刚拿到第一份薪水的新进,只要为了保护Google,SRE维运人员“可以做任何决定的权力,甚至必须关闭整个Google.com网站,公司高层都会支持。”她说,这句话反映出Google对SRE一职的重视和倚赖。
Melissa Binde率领的储存SRE团队,负责维运Google云端平台中与储存相关的服务,例如GCS、Bigtable服务、SQL服务等,也包括了Google内部使用的Bigtable、分散式高扩充档案系统Colossus等多项Google全球性分散式储存系统。换句话说,SRE团队正是维持Google每天正常提供各项服务的幕后功臣。
SRE团队需支援Google全球的云端业务
但究竟Google所创立的SRE是个什么样的职务?Melissa Binde解释,其实SRE就像是近来火热的DevOps,但两者仍然略有不同。
DevOps工程师是为了解决开发团队和维运团队的矛盾而出现的新角色,不过,目前各界对DevOps内涵仍众说纷纭,出现了各式各样的诠释或定义,而Melissa Binde表示:“对Google来说,SRE就是由软件工程师来负责维运工作的设计和执行。”
由熟悉软件的软件工程师来负责系统维运,更能掌握软件、系统间的交互运作关系,更重要的是,Google的SRE团队,不是照本宣科地执行维运,更要同时负责“设计和优化维运工作。”
Google赋予SRE团队三大工作目标,包括了确保正式环境的可靠性、水平扩展性及效能表现。为了实现这些目标,SRE得想办法让负责系统的运作更自动化与视觉化,也得打造仪表板以时时监控这些系统的效能表现。例如SRE可以更换Google服务底层的数据库,来改善服务的延迟,或开发许多自动化程式加速系统部署,或是设计软件机器人(Software robot),来进行跨系统资料传递、自动关闭特定机器,甚至是关闭整座资料中心。Google的SRE团队不会集中在一处,Google全球各地据点都有分配SRE团队,来支援云端业务。
找出合适人才,是Google建立SRE团队的第一步
如何打造出这样的SRE团队?Melissa Binde透露,有4件事很重要。
第一是人员组成。她说,所有SRE成员,人人都得通过软件面试才能加入,尤其必须通过非抽象大型系统(Non-abstract large system)设计的测验,甚至“SRE要比开发人员还更了解开发。”
擅长开发的SRE参与维运机制的设计后,更能改善维运工作,举例来说,许多软件在开发阶段常有些过于理想的假设,像是系统呼叫必定不会失败,但是一旦在正式环境中大规模部署时则几乎是一定会发生系统呼叫失败的情况,后者就是SRE要负责解决的问题。
分配固定开发团队配额给SRE团队
第二是组织层级。为了让开发团队也能对SRE有贡献,当开发团队打造出来的服务大受欢迎,导致维运工作超量时, Google的开发团队可以将自己的人力配额(Headcount)贡献给SRE团队,让SRE团队可以招募更多人力,来确保服务维运的品质,才能让开发团队继续推出更多新功能。不过,SRE也有权拒绝这样的配额转移。
不过,SRE团队的直属主管必须和开发团队分开,SRE团队的直属副总和开发团队直属副总是两个人,如此一来,“当线上环境还未备妥前,SRE团队也能有权拒绝开发团队的要求。”Melissa Binde表示,因为“SRE不是群随传随到的猴子。”
减少维运人员杂事干扰,专注于手上专案任务
第三是好的工作环境。为了避免SRE受到杂事干扰,Melissa Binde表示,必须让SRE过半数时间能专注于负责的专案工作,减少SRE受到会议、工单、待命任务等工作的干扰。如果SRE团队手中有太多的专案要处理,除了可以请求开发团队提供更多配额外,也可以将手上专案转给开发团队接手。
另外,Google也采取12小时的待命(On-Call)轮班制度,而非更长的18小时或24小时待命制度。
另一方面,尽管SRE团队成员的加入颇有难度,也需经过主管同意,但所有SRE成员都是自愿加入而非受指派而成为SRE,SRE团队成员如果厌倦了从事维运工作,也可随时转入开发团队。正因此,“SRE团队也一直处在人来人往的状态,随时会有新成员加入,旧成员离开。”Melissa Binde表示,这些新血也能带给SRE团队新的思维。
守住系统高可靠性,开发团队也能尽情推新功能
Dev和Ops常见的冲突是,开发团队想尽可能尝试新功能,但Ops担心新功能影响既有服务的稳定性而力阻,双方经常各执一词而争执不下。Melissa Binde表示:“我们用数学来解决这个问题。”Google明确地建立了一个可以兼顾推新功能和服务稳定性的规则,称为“犯错预算”(error budget)的概念。
Melissa Binde举例,若某项服务承诺的SLA可用性是99.9%,那么开发团队就等于拥有0.1%的尝试错误空间,“这个0.1%就是开发团队在这项服务上可用的犯错预算。”只要整体影响服务中断的时间没有超过0.1%,开发团队可以尽情尝试新功能。当然,“若开发团队在开发过程常常失败,得不断重启服务,也会更快地用光这个预算。”Melissa Binde说。
不过,犯错预算用完了,Google仍提供开发团队一个缓冲机制,称为银色子弹(Silver Bullet)。如果开发团队耗尽了错误预算,但非常希望推出某项新功能,则可以使用银色子弹来说服VP,放手让开发团队进行。Melissa Binde笑说,虽然这样的仪式看起来很笨,“但其实威力强大。”
出错后撰写事后报告,避免错误一再重复
明确界定出开发团队可犯错的空间,让开发与维运的争执点有法可循之外,Google也非常重视出错后的事后检讨,但不是为了究责,而是为了避免错误再度发生。例如若有新人上传的程式码导致一项服务中断时,Melissa Binde认为,更应该检讨的是开发流程的程式码审核(code review)、测试及快速回复(rollback)工具的问题。她解释,这些程序应该要有能力阻止开发者上传错误的程式码,不该让人为疏失蔓延到正式环境中。
而Google也会要求开发者在事后检讨报告中,除了详细交待事故原因,更必须提出预防方法,以及发生类似事件时该如何缓和来降低受影响人数的对策。
Melissa Binde表示,这样的思维正是Google企业文化中的不究责事后检讨(blameless post mortems)。她认为,解决意外最好的方式,就是了解事情始末,如果随便找人背黑锅,只会让情况越来越恶化。
Google SRE团队维运心法大全
|
相关文章
- YouTube更新违反规定政策,提升惩处透明度和一致性
2023-12-31 14:00:52
- 传苹果将把中国iCloud正式交给本地化经营 苹果手机icloud换区存储操作
2023-12-27 18:34:43
- 刘德华代言什么手机?刘德华成华为Mate 60 RS非凡大师华为5G新手机代言人
2023-09-26 21:55:08
- WebOS新系统:Palm Pre手机最新款高价登港
2023-06-23 15:39:14
- 帮助企业组织对抗勒索软件,资安通报机构设立防护专区,可协助事前、事中与事后因应
2023-06-22 09:36:10
- 蔚来全系产品降价3万 取消免费换电 换一次电池180元
2023-06-12 17:27:49
- 电商平台三巨头开打最大规模折扣 价格战再次打响
2023-03-05 18:58:40
- 爱立信节省成本裁员四千人 爱立信全球员工总数五分之一
2023-02-24 22:27:29
- 蜜芽关停近况,八位数重金买三字顶级新域名mia.com也关闭
2023-02-23 16:18:14
- 联想CEO杨元庆:联想集团需要裁员32%削减部分业务支出
2023-02-18 12:45:25
- 蓝色光标2022营收亏损18亿 客户预算减少明显
2023-02-18 12:40:08
- 三星工厂或将80%生产转至越南 因本地劳动力成本上升
2023-02-17 23:09:16
- 香港八达通卡如何激活?没用失效过期余额怎么办
2023-02-17 18:34:51
- 中兴通讯被曝将裁员20% 称只裁国外的
2023-02-17 18:33:26
- 苹果新iPhone15Pro手机终于改用USB-C(火牛)数据线??Lightning充电接口退出
2023-02-17 16:57:22
- 突发!蓝色光标曾为中国民企500强龙头 如今业绩亏损断崖下跌
2023-02-16 14:31:19
- 三星发布自家carplay车载中控系统 Car Mode for Galaxy 可以连接carplay吗?
2023-02-14 00:53:17
- Opera浏览器宣布集成ChatGPT 一键生成网页内容摘要
2023-02-14 00:32:08
- 谷歌google计划重返进入中国市场?但结果可能令你失望
2023-02-13 16:57:15
- Zoom紧急裁员1300人 佔员工总数15%
2023-02-08 14:59:11
最新资讯
- YouTube更新违反规定政策,提升惩处透明度和一致性2023-12-31 14:00:52
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
- 吉利飙逾6% 电动车品牌极氪新车款极氪007昨上市 预售价格22.99万元2023-12-28 19:30:28
- 日本丰田汽车厂11月全球产量创新高2023-12-28 19:26:02
手机
- 中国11月手机出货量增34% 5G手机出货量2709.2万部2023-12-28 19:27:57
- 荣耀发布新一代旗舰荣耀Magic5系列,新款上市价格分期0首付3999元起2023-03-06 16:12:32
- 美国商务部指违禁,长江存储被美国拜登制裁名单面临停工裁员2023-02-17 18:41:53
- 苹果Apple iOS车载系统CarPlay支持哪些更多汽车品牌2023-02-02 17:33:27
- 香港去哪买三星手机回来吗? 买香港便宜售价手机市场地点和网站2023-02-02 11:03:11
数码
- 华为5G芯片正式亮相:预示华为将发首款5G手机2023-08-31 13:22:33
- 腾讯传计划放弃虚拟现实VR硬件计划2023-02-17 23:32:30
- 三星手机份额大跌!三星手机中国市场份额变化国内仅剩3%2023-02-01 17:06:15
- 三星手机份额大跌在中国没市场了!国内市场占有率仅剩1%国外比苹果销量高2023-02-01 16:59:53
- vivo发布2022 vivoNEX手机极简易浏览器下载:简洁流畅无广告!2022-12-02 17:29:30
科技
- 中兴受美国制裁事件 被罚了20亿美元过程事件始末 中兴被制裁后公司现状2023-11-02 22:12:46
- B站怎么炸崩了哔哩哔哩服务器今日怎么又炸挂了?技术团队公开早先原因2023-03-06 19:05:55
- 苹果iPhoneXS/XR手机电池容量续航最强?答案揭晓2023-02-19 15:09:54
- 华为荣耀两款机型起内讧:荣耀Play官方价格同价同配该如何选?2023-02-17 23:21:27
- google谷歌原生系统Pixel3 XL/4/5/6 pro手机价格:刘海屏设计顶配版曾卖6900元2023-02-17 18:58:09