APP下载

【一个手册参数异动资讯没勘误,竟让日本股市交易空白一整天】东证大当机事件过程追追追

消息来源:baojiabao.com 作者: 发布时间:2024-05-10

报价宝综合消息【一个手册参数异动资讯没勘误,竟让日本股市交易空白一整天】东证大当机事件过程追追追

东证交易系统大当机过程示意图:2020年10月1日早上7:04,东京证交所Arrowhead证券交易系统中,用来储存共用资料(例如用户资讯)的NAS系统1号主机发生内存模组故障①,预设的NAS备援自动切换无效②,得存取NAS系统的股市行情发布系统无法送出资讯,交易监视系统屏幕异常③,东证在8:36展开人工切换作业④,因为无法预期复原时间,东证决定中止全部交易,在8:39正式对外公告早上交易全面中止。因为交易监视系统无法执行交易系统关机程序⑤,改在8:56直接切断交易系统对外网络⑥,最后顺利在9:26完成切换到2号主机恢复NAS,但只有少数券商,有能力重新发送在8:56前上传的委托单,东证在11:45决定一整天的交易都全面中止。(iThome整理制表)

全球第三大规模的东京证券交易所(简称东证),突然在10月1日早上开市前发生系统大当机,甚至紧急宣布中止了一整天东证所有股票的交易服务,3,700多家公司的股票买卖都全部停止,向来一天平均高达3兆日元的股票买卖也都全泡汤了,甚至有3家预计当天上市挂牌的企业也因此而延期。

不只是东证交易服务停摆,连带采用东证交易资讯的札幌证券交易所、名古屋证券交易所、福冈证券交易所都因此同步停止了当日股票交易。只有以衍生性金融商品市场为主的大阪交易所依旧正常。

突如其来的全日服务中止宣布,不只冲击日本股市,各国证券交易市场也大受影响,打乱了不少投资者的计划。

这起十一大当机事件,不只是东证20年来,最严重的交易系统事故,甚至是东证有史以来第一次,全天停止交易的重大事故。

东证上一次重大交易系统事故,是2005年11月的系统交易出错事故,导致东证全面停止交易长达四个半小时,但也在当天下午13:30后恢复。

当时东证的交易系统误将一股61万日元的售价,错误标记为61万股只卖1日元,东证发现异常爆量交易后,才惊觉出错而紧急停止交易,后来,东证总裁还因此400亿日元规模的错误交易而辞职下台。另一起全面停止交易的重大事故是,2006年1月日本Livedoor公司因丑闻而出现巨量交易,几乎塞爆交易系统,但东证也只是宣布,停止当天下午的全面交易而已。

过去这两起事故,都促成了东证后来重新改造核心证券交易系统,在2010年启用了第一代证券交易系统Arrowhead,并在2015年进行了一次大改版,升级到第二代,去年11月再次完成一波软硬件大升级,就是目前使用的第三代Arrowhead证券交易核心系统。

最新版的Arrowhead证券交易系统,采用了超过350台2U双路服务器组成丛集,不只大幅强化了效能,还在核心交易系统上,采取了三重冗余、持续镜射的备用服务器设计,来保护在内存中处理的大量高频交易资料。

东证过去那2次重大IT事故,都是开市后才发现出状况,紧急宣布关市,然而,在今年10月1日这一天,早在9点开市之前,东证就发现交易系统出状况,但最后,仍旧不得不宣布全日取消交易。2周后,10月19日,东证更详细的事故调查报告出炉,造成大当机的导火线,竟是Arrowhead产品文件上的参数功能描述错误。为什么?这个错误资讯,竟造成日本股市电子化交易20年来,第一次全日交易停摆的事故,这得从当天早上七点发生的事,开始说起。

 2020年10月1日 

 07:04 

东证发现大量系统错误通报,显示NAS共享储存系统中的1号主机故障。东证发现出错,开始调查出错原因。东证也发现内部交易监控系统屏幕无法显示,定期发布的股市行情资讯也无法顺利送出,例如证券公司没有收到原订7:00发布的行情资讯。证券公司也开始意识到股市行情资讯显示异常。

 07:55 

向Arrowhead开发商富士通确认情况后,东证发现,问题出自NAS的1号主机中的内存模组故障,导致1号主机的控制机制失效,无法自动切换(SwitchOver)到备用的2号主机来接手,导致该座NAS系统无法运作,进而导致股市行情发布系统出状况。

 08:00 

证券公司可以开始上传委托买卖单。尽管股市行情发布系统故障,但处理买卖撮合的交易系统一切正常,也如常可以接收券商上传的委托单。

 08:01 

东证发现许多券商没有收到定期的股市行情资讯。也有不少券商发现自家行情资讯显示异常。

 08:20 

ToSTneT盘外交易系统如常开始进行交易(例如,个别投资人可用前一天收盘价买卖)

 08:36 

诊断出问题后,东证开始进行人工切换到2号主机的作业,但是,因为无法确定何时可以完成2号主机的切换作业,因此依旧无法发布正确的行情资讯,8:36时,东证决定从9:00开市后全面停止交易,也开始向证券公司通知停止交易的讯息。

 08:39 

第一次公告,正式在东证网站宣布交易停止公告,也停止收单,先前上传的买卖单则暂停。

 08:54 

依照东证的系统设计,正常作业时,需要透过内部交易控制屏幕,才能正常关闭交易系统。

但是,东证发现,这项作业需要存取NAS上的资料才能运作。因此,东证在8:54时决定,采取非正常流程的替代作法,直接关闭Arrowhead证券交易系统对外与交易参与者(如券商)间的网络,来阻断委托单的传输,达到关闭交易的目的。

 08:56 

中断证券交易系统对外网络,包括券商上传委托单系统的网络和行情发布系统的网络都中断。

 09:01 

第二次公告,ToSTNeT盘外交易系统也宣布停止交易。

 09:08 

第三次公告,宣布当日已发布的行情资讯无效。

 09:26 

东证成功完成手动切换作业,顺利将NAS切换到2号主机,让所有功能恢复正常。东证开始讨论,是否要将核心系统重新开机,来恢复当天后续的交易作业。不过,对外网络虽然关闭了,但在8:54之前仍接收到大量委托单。因为负责撮合的核心交易系统正常,在9点之后,这些委托单已经完成撮合,每一张单的执行通知都累积在Arrowhead系统中,只是还没有发送给那些送出委托的交易对象。东证判断,从撮合处理角度来看,为了维持价格连续性,也能处理掉已经累积的执行动作,将证券系统重新开机是一个适当的作法。

所以,东证开始联系国内外的券商、交易参与者或相关业者,确定对方是否能重新上传委托单,以及重新作业需要多少时间。但是,询问后发现,只有少数交易参与者有能力重新上传委托单。这个结果意味着,重新开机后,东证无法保证市场上的公平性和价格资讯的可靠性。

还有另外一个问题,重新启动交易可能会造成一些混乱情况,例如券商已经接受的大量委托买卖单该如何处理?

 11:45 

东证决定整天交易全面中止,也发布第四次公告,宣布股市交易和ToSTNeT盘外交易都全天停止交易。东证也将故障的NAS系统1号主机的主板(内建CPU和内存),整组换新,来确保隔天交易能够正常运作,并将故障设备和相关日志记录,送到厂商端鉴定原因。东证也重新开机测试,确定1号主机和2号主机可以正常运作。

 14:30 

第五次公告首度揭露硬件当机,备援切换失败导致行情资讯无法发布,将更换硬件确保隔日作业正常。也解释为何决定全日停止交易,是担心系统重开后,交易参与者难以顺畅执行交易。

 15:01 

说明当日交易有效的买卖,如8:56前上传至ToSTNeT盘外交易的委托单成交者有效。

 16:30 

召开事故说明记者会。东京证交所社长宫原幸一郎和负责核心系统的日本交易所集团(JPX)资讯长等人,出面说明事故过程和全天停止交易的理由。东证也在记者会上澄清,发生故障的NAS位于内部网络环境,没有对外连线,东证系统也没有遭遇到DDoS攻击。宫原幸一郎也宣布,东证将负起市场影响的全部责任,不会对厂商求偿。

 16:58 

说明隔日交易恢复后的作业基准值,例如前日价格计算基础。

 19:25 

正式公告隔天恢复正常交易。

 10月2日 

 07:00 

确认系统重新开机后正常运作,在官网宣布当天交易正常进行。日本金融厅也要求东证提出检讨报告。

 10月4日 

东证调查事故原因后发现,Arrowhead所用的NAS系统1号主机的内存模组故障,维运团队预期会自动切换到备用的2号主机,但没有如预期发挥作用。原因是原有NAS主机所用的自动切换设定参数,在内存出错不会自动切换。东证在10月4日,改导入自动切换的新参数设定,测试后发现,遇到类似故障时,自动切换功能可以正常运作。

 10月5日 

东证母公司日本交易所集团JPX宣布成立内部事故调查委员会(全部由外部董事组成),也公布第一份NSA故障调查结果,坦言NAS自动切换的参数设定出错。JPX表示,将调查参数设定错误的原因。东证也已经在10月4日变更Arrowhead的NAS系统的参数,改为可自动切换的设定参数。

 10月16日 

东证向日本金融厅提交出事故检讨报告书。

 10月19日 

东证与系统开发商富士通,共同公布系统当机原因,解释自动切换参数为何设定错误。东证也宣布要成立一个“再发防止策检讨协议会”组织,涵盖交易参与者、投资者和系统厂商的组织,来提出防范类似事故再发生的对策。

东证报告指出,Arrowhead系统所用NAS产品,是富士通OEM自NetApp的全快闪储存阵列。

在第一代Arrowhead系统所用的NAS机种中,自动切换采用的预设参数值是OFF,遇到故障会在15秒后切换到备用设备。

但是到了2015年升级为第二代Arrowhead时,第二代NAS机种的自动切换预设参数的功能已经变更,不像是第一代的OFF设定可以15秒后自动切换,第二代的OFF参数的功能则不会自动切换,得采用ON值才可以提供即时自动切换功能,因此,第二代NAS机种的预设参数也改为ON,而非第一代所用的OFF值。

可是,这个OFF参数值的功能异动资讯,富士通没有同步更新到提供给东证的NAS操作手册上。

东证坦言,虽然第二代Arrowhead所用的NAS机种自动切换的预设值是ON,但东证对NAS备援自动切换的要求标准是30秒内完成切换,为了怕影响Arrowhead证券交易系统,所以,东证继续沿用第一代NAS的设定值,也就是OFF值。

因为当时,东证参考了没有更新的手册资讯,误以为第二代NAS的这个“OFF值”,也可以提供15秒后自动切换的能力,当时就放心改用OFF值来作为NAS自动切换的参数。

到了2019年11月升级第三代Arrowhead时,第三代NAS的自动切换参数预设值和功能都和第二代一样,也都是预设值是ON,而且OFF值没有提供自动切换功能。而新版NAS操作手册,也没有修正,继续套用前一版的错误资讯。所以,东证再度沿用的第二代NAS的参数,也就是OFF值,也仍旧误以为可以做到15秒自动切换。

今年10月1日当天发生的内存故障事件,根据厂商事后查验过事故主机的设备后,确定这是一起不可预期的硬件故障,但是,NAS系统在OFF参数设定下,不会自动进行切换,所以,才导致了Arrowhead的股市行情发布系统出错的事故。

东证强调,第三代系统上线测试时,也有进行NAS备援测试,但只针对网络环境断网时的NAS自动切换进行测试,他们坦言,要实测NAS设备内部内存硬件故障的自动切换不易,也相信富士通会做好产品出货测试。

但是为何第三代NAS系统,改用手动切换时,手册上说明可以在15秒内完成,但东证实际上花了近50分钟才完成切换,甚至一开始还无法预估,何时可以完成切换,这是后来东证高层决定全面停止交易的主因之一。

因为,东证坦言,他们这个对于OFF值的错误认知,衍生了一个考量不足的作业设计。因为东证预期OFF值的设定可以做到自动切换,所以,在设计证券交易系统的中断作业程序时,也是以NAS自动切换成功为前提,来设计所有的流程。

这就导致,在这次事件中,当NAS自动切换失败时,也无法使用正常的中断程序,得改用非预期的断网措施,这带来了其他的衍生问题,例如断网前上传的买卖单,已经完成撮合而回复困难的挑战。

简单来说,去年升级第三代系统时,NAS手册资讯对Off值的说明仍旧是错误内容,没有修正,导致东证继续沿用第二代的参数,才在这次事故中酿灾。

东证调查,负责开发Arrowhead系统的富士通,针对采用预设值参数的产品,有一套标准的出货验证机制,但是东证修改了预设参数值,厂商出货人员只在文件上查验产品规格是否符合东证的设计要求,而没有针对这款NAS实机的实际参数来验证,才没有发现这个错误。富士通社长也公开道歉,并宣布严惩相关人员,修正错误手册资讯,会检讨出货验证程序和文件内容异动的维护作业,也通知了所有使用这款NAS机种(型号ETERNUS NR1000 series,操作系统ONTAP 8.0以后版本)的顾客,彻查实际的参数设定。

 10月23日 

东证发布了“再发防止策检讨协议会”的第一次报告,除了针对这起事故,提出系统面检讨修正、针对股市交易停止相关作业的强化,也承诺会针对股市交易中断后重起交易的相关作业,建立更明确的作业流程和相关资讯发布、沟通方式。

东证系统面未来对策

10月底完成所用NAS的系统参数设定的彻底检查。11月底前重新确认所有自动切换机制的可用性。2021年1月前,完成NAS自动切换的相关实测,并持续进行其他自动切换备援测试。

东证作业面未来对策

10月底前重新检讨历年遭成交易中断的事故原因。11月底前建立必要的作业程序和规范,并且要开发一套不需要NAS的交易系统关机程序。2021年3月前,讨论发生类似交易事故时该有那些必要规范,包括当天交易恢复的规范、交易恢复的作业流程、决定交易中断或恢复的判断标准、更理想的股市行情资讯发布方式等。

东京证交所十一大当机事故过程:2020年10月1日早上7:04,东京证交所Arrowhead证券交易系统中,用来储存共用资料(例如用户资讯)的NAS系统1号主机发生内存模组故障,预设的NAS备援自动切换无效,得存取NAS系统的股市行情发布系统无法送出资讯,交易监视系统屏幕异常,东证在8:36展开人工切换作业,因为无法预期复原时间,东证决定中止全部交易,在8:39正式对外公告早上交易全面中止。因为交易监视系统无法执行交易系统关机程序,改在8:56直接切断交易系统对外网络,最后顺利在9:26完成切换到2号主机恢复NAS,但只有少数券商,有能力重新发送在8:56前上传的委托单,东证在11:45决定一整天的交易都全面中止。(iThome整理制表)

2020-10-30 13:49:00

相关文章