东京证交所宕机调查结果出炉,数据安全警钟需长鸣

数据安全决定着一家企业的生死与未来。

这绝对不是危言耸听。近几年来,现实中惨痛教训不断上演:天津某医院数据中心因持续大雨被淹,由于未做灾备,导致医院无法开展业务;某云服务商因为底层磁盘静默错误以及数据迁移操作不规范,导致某用户平台级数据全部丢失,业务从此难以为继;某互联网技术服务商数据被恶意删除,恢复耗时七天七夜,赔偿客户损失1.5亿元……

最近一个鲜活的例子是,东京证券交易所在十一期间因为存储故障导致业务大瘫痪,暂停交易一天,损失和影响不可估量。哪怕贵为全球第三大证券交易所的东京证券交易所,其IT建设经验如此丰富、IT基础设施如此强大的情况下,当故障发生时,依然无法从容应对。此刻,不谈灾备,何来以后的数据安全。

正所谓“后人哀之而不鉴之,亦使后人复哀后人也!”这一切不禁让人思考:过去的灾备建设体系是否真的适合如今快速变化的数字化时代?未来容灾的趋势又会朝着哪些方向发展?

东京证券交易所事件引发的思考

今年十月一号,东京证券交易所因为存储设备故障导致暂停交易一天。当时笔者就猜测,此次事故可能并不是简单的设备故障而引起的。

果不其然,东京证券交易所宕机事故处理结果近日出炉。日本金融服务管理局(FSA)调查显示,故障的根本原因是“故障设备出现了缺陷”;但由于“为故障设备制定的故障自动切换机制不够到位,加上TSE没有为交易恢复制定合适的规定”,最终导致了十月一号的混乱局面。

东京证交所宕机调查结果出炉,数据安全警钟需长鸣
东京证券交易所经历大宕机

调查报告指出,当故障发生时,备用设备并没有自动接管,之后只能通过人工方式,手动切换到备用设备。该报告甚至还发现,该交易所并没有制定恢复交易的程序,以防发生此类故障,而且缺乏明确的规定。

任何事件都不能孤立地去看待,如果脱离其所处的时代背景去分析则缺乏真正的借鉴意义。正如东京证券交易所宕机事件中,我们不能简单将此次故障归咎于富士通存储设备的问题,因为硬件故障出现无可厚非,任何硬件都达不到100%的绝对安全可靠;我们亦不能简单怪罪于恢复机制的缺陷,因为过去制定的规则与规范,随着岁月的推移,无法适应新时代的变化。

我们需要真正深刻思考的是:在数字化浪潮滚滚而来的时代下,数据爆炸性增长、数据价值加速凸显、数据使能日趋迫切,保障业务连续性已成头等大事,灾备建设的重要性是否引起大家足够的重视、灾备架构设计是否符合未来业务发展的需求、灾备一系列流程规范是否真正具有可执行性?

你是否真的了解数据灾备需求

“过去会区分核心数据和非核心数据。现在是所有数据都重要,所有数据都不能丢失。”一家三甲医院信息中心主任今年接受大数据在线采访时如是说。

这恰恰反映出数据的重要性今非昔比。数据正在成为最重要的生产要素之一,更是一切应用运转的基础。然而,数据保护的难度也不可同日而语。这些年,随着云计算、大数据、人工智能等技术的不断应用,直接驱动着新应用不断涌现,应用类型不仅走向复杂化和多元化,也带动了数据类型走向多元化,给灾备建设带来了前所未有的挑战。

以银行为例,2019年银行业共处理电子支付业务2233亿笔,业务规模是2009年的40倍,小额、高频支付场景正在迅速成为常态,使得银行的交易、清算等业务带来了前所未有的交易频次、数据规模以及对业务连续性的强需求。

“数字化转型加速了企业业务走向线上化和数字化,对业务连续性要求变得极高。”华为存储技术专家告诉大数据在线。事实上的确如此,面对如此丰富的应用以及所产生的海量多元数据,过去传统一刀切、只聚焦所谓核心数据的容灾策略已经不合时宜了。如今,业界普遍认为针对数据属性、使能需求需要采用“分而治之”的策略,通过有针对性的策略实现数据的有效保护与合理利用。

东京证交所宕机调查结果出炉,数据安全警钟需长鸣

首先,针对生产业务的热数据需要进行全容灾。通过免网关双活、两地三中心等技术手段,实现生产级数据的全容灾,一旦出现故障或者灾难,可以很快实现切换,保障业务连续在线运行。

比如,《银行业信息系统灾难恢复规划》最新规定,AB类业务灾难恢复等级要求在5级以上,业务中断需要低于15分钟。考虑到金融机构业务一旦中断就会对用户体验和经济日常活动造成严重影响,像银行等机构实际部署的容灾业务系统RPO和RTO指标要求会比行业规定更加苛刻。

其次,针对备份数据既需要有效保护,又能实现合理利用,即温数据实现热备份。备份数据是包含了不同历史时间点的生产数据副本,一旦出现逻辑错误或者人为误操作,可以通过备份数据来实现数据的可恢复性。

如今,随着数字化转型的不断深入,数据的规模与量级正在呈现指数级的增长,这也要求用户在相对固定的备份时间窗口中尽快完成数据的备份,对于数据备份的性能和效率要求正在越来越高;与此同时,为避免对生产系统运行的影响,开发测试、数据挖掘等应用会尽量使用备份数据,从而增加了备份副本的使用用途和价值。

最后则是冷数据逐渐走向温归档。众所周知,不仅银行、保险等这些传统行业对于数据有着严格的监管要求,哪怕是互联网行业对于生产数据、日志数据等都需要长期保留,以用于追溯故障和各种问题,以备后续的审计。

以国内一家直播巨头为例,其每月直播所产生的数据就高达数PB,这些海量数据因为法规要求,需要做长达三个月的保留,并且在归档期间还会经常因为法规和审计的要求而被调用,对于归档数据的长期保持和数据完整性有着极高要求。一位存储技术专家就直言:“因为审计和归档法规,现在几乎所有行业都对数据归档有要求,金融等行业甚至要求数据存放时间达十年以上,需要确保数据不丢失。”

因此,应用的多样化、数据属性的差异化以及法规遵从的硬性要求,驱动着数据保护的走向精细化,也让越来越多用户重新审视灾备,并着手做出改变。

现在是时候重新审视灾备

事实上,近年来随着一系列宕机、故障事件的发生,以及用户自身数字化转型中遇到的各种挑战,用户在灾备建设上呈现出一些新的趋势。

首先,随着用户业务加速走向数字化,数据中心规模、设备数量也随之快速增加,某种程度也加大了设备故障发生的概率。因此,用户在进行灾备建设过程中依然会看重单点设备的可靠性。因为无论是分布式架构产品,还是集中式架构产品,单点设备的高可靠性的确可以降低故障发生的概率。

东京证交所宕机调查结果出炉,数据安全警钟需长鸣

比如,我们现在看到一些高端存储产品,可以实现八个控制器坏七个依然能够运行,将数据中心存储可靠性提升到一个新高度。另外,集合分布式和集中式架构各自优势的存储产品被认为未来数据中心存储重要的发展方向,有望进一步提升整个数据数据中心存储层面的可靠性。

其次,完整的灾备架构设计和合适的解决方案实施将会成为用户灾备建设的必需。比如两地三中心,甚至两地四中心的方案会被更多用户所接受与采纳,而像免网关双活这种方案不仅可以大幅降低故障切换的步骤与难度,还能有效让RPO和RTO等关键指标趋于零,必然会受到更多用户所采用。

最后,过去灾备“中看不中用”的想法将会被彻底抛弃,用户在理念层面将大幅重视灾备的建设,进一步推动灾备建设走向落地,除了会继续完善严格的流程规范之外,日常演练等工作也会被用户所重视,真正让灾备建设做到“中看又中用”。

总体来看,东京证券交易所的宕机事件犹如在数字化浪潮中给我们敲响了一次警钟。对于所有用户,现在时候重新审视灾备,并且着手改变现状,为数字化转型保驾护航。

分享到: 更多

为您推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注