突破存储墙用容量换效率!瑞金医院炼就冲击IO-500顶尖大数据平台

亲,你听过转化医学么?

所谓转化医学(Translational Medicine),顾名思义,核心就在于“转化”。它不是单一的学科或技术,而是突出一种多学科、多技术融合和转化的状态,即从实验室到临床(bench to bedside)、从临床到实验室(bedside to bench)的应用拓展。转化医学运用现代分子生物学等技术将实验室研究成果转化为临床应用的产品与技术,同时通过临床观察与分析帮助实验室更好地认识人体与疾病,并通过优化实验设计来促进基础研究。目前,像新药研发、医疗器械、医疗APP、分子诊断等都属于转化医学的范畴。

转化医学也是当下最热门的医疗方向之一。毕竟在大众的认知中,能看好病的医生才是好医生,而转化医学就是将科研实验室中的研究成果转换为实际的临床成绩——比如由上海瑞金医院陈竺、陈赛娟院士研究推动的采用全反式维甲酸+三氧化二砷诱导疗法治疗M3型急性白血病,就是转化医学的经典成功案例。

为了把这些成功案例复刻、普及,以及创造更多经典案例,转化医学中心的日常工作,就是围绕基因组测序、转录组测序、药物筛选等各种先进组学等研究形成多维度的数据流,之后再对这些数据流进行综合分析和挖掘,提供与疾病诊断和治疗相关的遗传和临床信息,待形成特征数据后再通过机器学习、深度学习和人工智能等方法整合特征数据与临床诊疗方案,成就真正意义上的精准分析、辅助诊断和个性化医疗。

这是一项步骤繁琐、流程漫长、体量庞大的数据网络,其中仅单个人类全基因组测序分析涉及的数据就可能高达870 GB,所以对于这些数据的快速处理并最终快速形成结论,就显得至关重要。因此,转化医学对于高性能计算平台性能的需求较以往或者其他学科更高、也更严苛。

与病魔赛跑,转化医学更看重时效性

谈到转化医学在中国的具体落地和实践,就不得不提到转化医学国家重大科技基础设施(上海)(以下简称“国家转化医学中心”),它是中国首个也是目前国内唯一建成的国家级综合性转化医学中心,其重点研究方向聚焦肿瘤(包括白血病)、代谢性疾病和心脑血管疾病等领域。作为一家现代化、数字化特色显著的医疗科研单位,该中心瑞金基地设有300张病床,这些病床可通过智能设备及信息化技术组成多功能智慧临床研究集群,每个床单元都具备自动感知以及临床研究数据自主集采功能。每天,这些病床采集的数据都通过后端的高性能计算平台得到分析,以便相关团队有针对性地制定治疗方案,而这也正是转化医学的主要应用方式。

由此看来,转化医学可谓一种新型、数字化医疗方式,它不同于传统医学的望闻问切和常规的影像检测手段,而更强调智能化以及算力的价值。同时,由于医疗行业的特殊性,许多疾病的治疗过程都可谓是“与病魔赛跑”,所以提前一天、一小时甚至一分钟,都有可能增加患者存活和治愈的概率。在这种情况下,转化医学所用的计算平台自然需要更快更强,无论是在数据的处理,还是数据的存储和应用等方面,都对性能有着严苛的要求。

“因为每个患者的情况不一样,相应地,临床研究及手术治疗的手段也不一样。国家转化医学中心的建立就是希望能够在一个整体的地方,让数据和信息得到快速流转和共享。比如临床数据进来后马上可以在我们的超算平台上进行计算,这些计算结果又会及时反馈给医生,为其制定诊疗方案提供有用信息”,在谈到利用IT与时间赛跑的重要性时,ASTRA高性能计算平台共同负责人吕纲如是说。他所负责的ASTRA高性能计算平台就是整个国家转化医学中心的“大脑”,负责分析和处理所有的临床数据,因此容不得半点迟缓。该平台为此在通用计算上选配了英特尔至强可扩展处理器,并导入了GPGPU来为特定应用加速,这种异构的平台设计,可以更好地保障充足算力的输出。

但打造这样一套快速响应的IT系统可并非易事。要满足转化医学科研团队和临床医生团队对海量数据进行高速频繁读写和分析的需求,ASTRA不仅需要具备强劲的算力,还要拥有优异的I/O和吞吐能力。在算法和算力突飞猛进的今天,存储架构很容易成为高性能计算平台拉胯的主要因素。目前流行的无论是SAN还是NAS存储,大多沿用的还是之前的架构,尤其是机械硬盘的大量使用对于高带宽的支持并不友好;虽然目前业内也有不少闪存甚至全闪存产品,但即便是在互联网领域大行其道的Ceph存储,也难以满足这样的要求,同时考虑到未来的持续升级和快速扩容,Ceph架构也并非理想选择。存储难题就这样,像一堵墙一样拦在了平台构建的道路上,难道就真的没有更合理的破解之道了吗?

DAOS借力傲腾持久内存,为“破墙”提供新思路

开源分布式异步对象存储(Distributed Asynchronous Object Storage, DAOS)的出现,就是产业界对用户上述焦虑与困境的回应,它能为业界打破高性能计算的存储瓶颈或存储墙提供全新思路。这是一种由英特尔开发和开源的软件定义的横向扩展对象存储,与主要针对旋转介质设计的传统存储堆栈不同,DAOS围绕英特尔主流非易失性存储器(NVM)技术(包括英特尔傲腾持久内存和英特尔傲腾固态盘)的使用进行了充分的优化(详见下图)。

DAOS 架构与传统存储系统的对比

那么DAOS的实战性能到底如何呢?刚刚结束的德国ISC22世界超算大会公布了新一期的IO-500榜单。在这份榜单的前十名中,有一半都采用了DAOS存储架构,这足以证明DAOS在高性能、低时延存储应用中的出色表现。

是什么让DAOS架构能够得到这么多顶尖HPC系统的青睐,并能帮助它们跻身榜单前列呢?这就需要从它的设计理念说起。

首先,相较其他分布式存储系统多使用高时延的点对点通信的设计,DAOS采用的是能够绕过操作系统的低时延、高消息速率用户空间通信。而且当下大多数存储系统都是针对块I/O设计的,这种情况下所有I/O操作都需要通过块接口在Linux内核中进行,从而会产生大量的开销。DAOS则优化了对傲腾持久内存及固态盘的访问来规避了这些不必要的开销。更具体一点说,DAOS会使用持久内存开发套件(PMDK)提供对于持久内存的事务访问,并使用存储性能开发套件(SPDK)为NVMe设备提供I/O。

其次,就架构设计理念来说,DAOS是专为大规模分布式非易失性内存而设计,并以包括傲腾持久内存在内的SCM(存储级内存)和NVMe存储为核心介质,可提供细粒度数据原生支持的I/O模型,这也是当下以及未来热数据应用的先进技术。DAOS还是独立的高性能容错存储层,无需依赖其它层便可进行元数据及数据恢复能力管理;而在实际的应用中,元数据可以保存在傲腾持久内存,更多的批量数据则会存储在NVMe固态盘中。

看到这里你应该明白了,英特尔NVM技术或者更确切地说英特尔傲腾持久内存可以说是DAOS的骨骼或基石。DAOS的架构设计可充分发挥这款持久内存自身,以及它与至强可扩展处理器组合后的优势,特别是凭借接近DRAM的性能和数倍于DRAM的容量,从而将更多数据存放在距算力、距处理器更近的地方,也就是让更多数据的读写和处理处于高速、大带宽和低时延的状态下。这也解释了为什么在IO-500排名中DAOS架构能够一枝独秀的原因。

瑞金医院国家转化医学中心借DAOS打破存储瓶颈,加速转化医学实践

鉴于DAOS诸多优势,瑞金医院转化医学中心将其引入了ASTRA平台来攻克存储瓶颈。用吕纲的话说:“英特尔傲腾持久内存的低时延、高带宽、大容量、长寿命、非易失等特性,再搭配专为高性能存储硬件设计的DAOS开源并行文件系统,是我们成功构建适用于转化医学应用场景的高性能生信数据挖掘平台ASTRA的关键,让我们在实现更优存储和计算能效的同时,推进我们在转化医学领域的探索和实践。”

值得一提的是ASTRA于2021年11月打入了全球IO-500榜单,位列10节点榜单第8名、总榜单第14名;而在今年最新一期的IO-500榜单上,ASTRA位列10节点榜单第12名、总榜单第19名。排名的小小变化足以证明高性能计算产业界在冲击存储性能方面的热衷,但也证明了该平台的领先地位——凭借读写性能达到102.35GiB/s和97.88GiB/s,极端场景下读写性能达到81.57GiB/s和71.71GiB/s的成绩,它不但远远超过了传统存储架构的表现,也是中国乃至全球范围内生信领域中存储性能的佼佼者。

在实际业务中,该平台自投入以来,也使国家转化医学中心数据处理效率得到了显著提升。以基因组测序为例,以往做面对超高深度肿瘤的全基因组测序这种超大数据的处理时,可能需要7天左右,但现在已被压缩到了8小时以内,是以往效率的21倍。“计算耗时大幅缩短,让医生可以更早得到检测信息、分析结果,从而更早提供更有针对性的诊疗方案和挽救更多生命,这就是我们为实现个性化医疗及精准医学而做出的努力”,吕纲表示。

随着科技的发展,越来越多的医学诊断都需要高性能计算的支持,需要对于数据的密集处理和高效分析,由此也引发了跨界融合的数字化医疗应用新趋势。对于国家转化医学中心来说,急需将强劲算力、海量数据与自身专业医疗经验相结合,更好地服务于患者。

就像吕纲说的:“英特尔的技术实力和我们生信领域专家的专业能力可以比较好地整合在一起,使我们这个平台成为生信领域第一个能够在存储上有所突破的平台。”

分享到: 更多

为您推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注