APP下载

【硬件故障、设计错误、市场公平性的三难】东证十一大当机教训的3堂课

消息来源:baojiabao.com 作者: 发布时间:2024-05-10

报价宝综合消息【硬件故障、设计错误、市场公平性的三难】东证十一大当机教训的3堂课

图片来源/Wpcpey CC BY 4.0

东京证交所在10月19日公布了十一大当机事件的调查报告,每一个看到报告的人,第一时间都会问,为什么东京证券交易系统的NAS,没有预设开启备援自动切换?就算无法自动切换,改成手动就好,为何竟然关闭了一整天的交易?而且这个5年前的错误配置,中间经过两次系统大升级,最近一次是去年底,历年演练、测试,难道都没有办法提前发现吗?

要回答这些问题,得了解东证在10月1日大当机所面临的挑战,不是NAS硬件当机的技术故障问题而已,还要加上因为错误资讯而导致的作业设计错误,以及如何顾及全日本各券商、交易参与者的交易公平性问题,才造成了这次东证1999年改为电子化交易以来,首度全日中止交易的大灾情。这三大困难也是造成东证全日交易中止的三场灾难。

 东证第一难:不可预期的内存模组硬件故障 

东证事故发生后,在当天下午记者会中,由负责维运交易系统的日本交易所集团资讯长横山隆介亲自解释,故障设备是NAS系统中1号主机的内存模组。

这个设备是去年11月,东证证券交易系统升级到第三代Arrowhead系统时所换新的NAS主机,从上线使用至今,还不到一年的新品。东证当天就换掉问题主机上的主板(内建CPU和损坏的内存模组),送到原厂鉴定。

过几天,东证排除其他系统可能问题后,确定这次当机事件的主因就是用来储存共用资料,例如用户资料的NAS系统故障所致。后来,原厂鉴定后更判断,内存模组所发生的是不可预期的物理问题,无法预料也难以事先避免。这是东证第一个无法事先避免的难题。

但是,就算遇到硬件故障,还是可以透过备援架构、冗余设计,来避免对系统运作造成影响。这正是东证遇到的第二难。

 东证第二难:手册资讯没勘误,导致系统设计错误 

东证打造证券交易系统时,为了追求更高频的交易速度,即时交易资料大多储存在内存中,而储存在NAS系统上的共用资料,例如用户资料,则提供给不同用途的服务器使用,包括股市行情发布系统、交易监控系统都会存取NAS上的共用资料。

但是,后来在10月19日揭露更详细的故障原因调查结果,东证这套NAS系统原本旧有高可用性的HA架构设计,就算遇到其中一台主机的硬件故障,也能够快速切换到备用主机来接手提供存取服务。但是,NAS系统的自动切换功能没有发挥作用,才导致整座NAS系统无法存取。

但是,自动切换功能无效的原因,不是因为NAS产品功能出错,而是自动切换的设定出错。

调查发现,NAS自动切换的参数设定为OFF,这个设定对NAS系统的效果就是,遇到类似内存模组故障时,不会自动切换到备用主机。而且原本NAS的预设参数是ON,是东证自己在2015年升级第二代系统时,改成了OFF值。

原来关键是,在2010的第一代NAS机种中,自动切换参数的预设值是OFF值设定,而且OFF下仍具有15秒自动切换能力,但是到了2015年所用的第二代NAS机种,已经改变了对OFF值的功能,不再提供自动切换能力。也因此,第二代NAS机种的自动切换参数预设值改为ON值,而不是第一代机种的OFF预设值。

但是,富士通交付给东证的第二代系统NAS手册中,对于自动切换参数的描述,只提到预设值从OFF变更为ON,但是对于OFF值的功能的描述,仍是旧版的“15秒后可自动切换”,而不是“不会提供自动切换”。这个文件资讯错误,导致了东证有错误的认知,误以为就算是采用OFF值,也可以有自动切换的能力。因为东证原本对于自动切换的要求标准是要做到30秒内自动切换,所以,15秒后切换足以符合要求。

虽然东证知道,采用ON值可以做到立即自动切换,但是他们担心,第一代系统采用的是OFF值设定,若在第二代改成原厂预设的ON值,可能会造成不可预期的影响,例如影响了交易效能。所以,因为手册上错误的OFF值描述,东证而采取了错误的决定,将预设ON值,改成了自订的OFF值。

东证没有发现OFF值无法提供自动切换,而富士通在出货时,原本有一套针对产品预设值状态的验证测试机制,但因为东证自订了NAS的这个自动切换参数,出货验证人员只有比对文件上的出货规格是否符要求,而没有实际测试实机功能是否能提供15秒自动切换的能力。

一个错误资讯,造成错误决策,再加上出货验证的疏漏,才导致了这个系统设计的错误。从2015年第二代系统就采取了这个错误设计,到了2019年升级第三代系统时,NAS手册对自动切换参数的描述,仍旧沿用前一版的错误内容,没有勘误,而东证也继续根据错误资讯,套用错误的设定,而富士通出货时也仍旧没有发现实机上的问题。

因为不论是东证或富士通都没有意识到,这些判断都来自错误的产品规格资讯,而且前一代系统的运作都一切如常,也没有发生过问题,因此在2019年第三代系统升级时,就继续沿用,直到10月1日真的发生了硬件故障,需要自动切换时,才意识到设定出错。

也因为误判NAS系统内的HA架构会自动切换,再加上要实测内存故障的自动切换难度颇高,东证坦言,只有测试过网络断线时的自动切换机制,而没有测试内存故障的自动切换。

东证在调校设计,误信了手册上没同步勘误的错误资讯,而选择了错误的设计,而且不只是自动切换参数的设定错误,还有一项错误设计,更是导致东证必须中止全日交易的另一个关键。

因为误以为NAS发生故障,可以在15后自动切换到备用主机,来恢复NAS正常运作。东证所设计的交易系统关机程序,必须在交易监控系统上操作,而这个系统必须读取NAS上的共用资料才能运作。

但在10月1日,虽然东证在9点开市前就发现,NAS自动切换参数错误,决定改用人工手动切换来作业,但东证无法确保手动切换NAS的完成时间,导致NAS迟迟无法恢复,也连带影响了交易系统关机程序无法执行,但是,东证又想要赶在上午9点开市前关闭交易系统,这样可能有机会,在下午重新开放交易。

这时候,东证做了另一个非正常的替代作法,就是直接断网,所以,东证在8:56,直接关闭接受委托单的交易参与者闸道器的对外网络,来阻止券商继续上传委托单,达到交易中止的效果。这非标准作业的断网决定,带来了东证的第三难,也就是市场公平性的考验。

 东证第三难:券商技术能力不一,系统要当日重开难以确保交易公平性和价格正确性 

因为发生错误的系统是股市行情发布系统,而东证核心交易系统一切正常,也从8点开始接收券商的委托单,甚至完成了撮合,执行指令都累积在交易系统中等待9点开盘后实际执行。

即使东证在8:56顺利断网停止收单,但是没有循正常关机程序作业的证券交易系统,仍旧正常运作,到了9点就自动展开撮合。

若要重新开机作废这一波委托单,东证表示,问过国内外相关券商和参与者,能否重新补上传8:56之前的委托单,重新进行撮合。后来,发现只有少数券商有能力重新上传。有人可以做到,有人不行,为了避免影响公平性,东证才依法决定中止全日交易,全日交易都视为没有完成而无效。

在这次大当机事件中,让东证发现,关闭交易后的相关作业流程不够完善,与市场资讯的沟通也不够快,导致券商无法更早展开后续作业。

他们在10月19日的检讨报告中坦言,过去为了迈向永不停机的目标,不断追求更快的交易速度,也只兼顾发展更好的复原程序,但这次当机让东证体会到,还需要考虑第三件事,就是韧性,在当机后交易重开时也能顺利恢复运作的能力,而且不只是自己的韧性,还要考量市场,如券商在交易中止后的恢复能力,这将是他们接下来的新课题。

2020-10-30 13:49:00

相关文章