UCloud 彭晶鑫:RSSD云盘的极致性能之道

近日,UCloud上线了最新的RSSD云盘产品,相比于普通云盘产品,RSSD云盘在性能上得到大幅提升,其IOPS性能提升达到了惊人的120万,延迟降低至0.1毫秒,成为名副其实的“性能怪兽”。在2019UCloud用户大会期间,笔者与UCloud 块存储研发总监彭晶鑫进行了沟通,就RSSD云盘如何实现性能的突破以及如何保障数据安全做了深入交流。

UCloud 彭晶鑫:RSSD云盘的极致性能之道

UCloud 块存储研发总监彭晶鑫

RSSD如何将性能发挥到极致

众所周知,在私有云的环境中,传统存储阵列更多基于专有硬件的专有堆栈进行性能优化。而在公有云环境中,像UCloud 云盘这样的云存储服务,更多是基于普通工业标准硬件,采用分布式的方式进行数据存储服务,但随着集群节点数增加、容量增加,在性能、稳定性和可靠性等方面有着巨大的挑战。

事实上,作为国内领先的中立云服务提供商,UCloud自成立以来积累了丰富的用户群和产品经验。块存储作为云计算的基础服务之一,可以为云服务器提供可随机读写能力,且具备持久化存储、高可靠和低时延特性;同时采用多副本冗余,能避免网络硬件故障而导致的数据不可用,因此其性能、稳定性、可靠性以及数据安全等影响着云上千万用户的业务,是云计算公司底层实力的真实写照之一。

据悉,UCloud RSSD云盘是UCloud着力打造的一款云计算基础设施基础服务。此前,UCloud提供两种类型的云盘:基于HDD普通云盘和基于SSD的云盘。本次上线的RSSD云盘无论是在性能、时延等方面都较上一代产品有着质的飞越,也成为了目前市场上极具竞争力的云服务产品。

据UCloud 块存储研发总监彭晶鑫介绍,虽然基于SSD的云盘在性能上有很大提升,但是SSD硬件发展迅速的趋势下,各种环境因素造成依然不能充分压榨出SSD 性能。为此,UCloud 希望通过打造RSSD云盘,将网络时延控制的更低、充分发挥出NVMe SSD的时延和IOPS,并让整体IO上有更低的软件能耗。

为此, UCloud块存储团队通过整体的软硬件协同设计机制,减少用户态内核态切换,优化IO整体路径,让RSSD云硬盘性能获得极大的提升,延时得到很大程度的降低。主要通过通过Client、网络、存储读写以及用户态轮询四大组件来实现。

1. 在Client侧采用vhost user技术,通过vring实现虚拟机到存储客户端之间的数据零拷贝;

2. 网络层,用RoCE(RDMA over Converged Ethernet)协议代替TCP,利用RoCE清晰简单的消息机制让应用程序直接访问两端内存,让4K读写的网络包收发时延降低到10微秒;

3. 存储方面,采用SPDK代替libaio,SPDK提供用户态IO读写,高并发下依然能保持较低的时延。

4. 整体的IO路径都工作在用户态,RSSD还使用了线程轮询的模式,减少用户态内核态切换,也就减少中断带来的损耗。

众所周知,NVMe协议让SSD的性能再迈上了一个台阶。虽然,当前NVMe协议和产品都在快速发展,不过NVMe依然需要进一步完善。彭晶鑫认为,NVMe未来一定会有广阔前景,但相对于我们的私有协议,NVMe协议依然太过复杂了,UCloud在RSSD云盘中采用了私有协议,在一些业务场景中可以实现更快的性能;对于像SCM这样的新存储介质,UCloud也在积极考虑中,进一步来降低延迟和提升IO性能。

此外,彭晶鑫还表示,虽然当前闪存的价格下降很快,但是未来2-3年之内,基于HDD的普通云盘依然会有很多适合的应用场景,比如像备份场景、离线数据处理场景等等。

数据安全:云服务的重中之重

众所周知,企业上云是大势所趋。但是近年来频发的公有云数据丢失事件,让企业上云蒙上了一层阴影。究其原因有多层次的,既有因为公有云的技术原因造成的用户数据丢失;也有用户对于新技术的不熟悉造成的误操作。因此,对于云计算服务提供商而言,提供出色的数据保护机制和产品,可以降低企业上云的风险,并为用户提供强有力的保障。

事实上,像UCloud 云盘也充分考虑了数据可靠性和安全性。UCloud提供的数据保护产品数据方舟,采用异构解耦的实现方式,运维过程依赖小,通过分布式计算和分布式存储技术来保证1TB数据盘的恢复时间(RTO)在10-30分钟内完成,而以前需要7-8小时。

“在现实中,我们可能会遇到各种各种引发数据丢失的问题。比如像硬盘的故障,这种情况根本无法避免。我们需要做的就是从机制上去不断的完善,并且利用技术让问题提前发现或是出现之后及时恢复数据,从而不影响业务。”彭晶鑫如是说。事实上,UCloud在数据存储设计上颇下功夫,充分考虑到数据破坏带来的影响,对三副本数据进行巡检,“很多情况下的数据丢失并不是在IO很多的情况下发生,因此UCloud会留下一些空间去做IO探测,通过这种方式去发现可能存在的问题。”

据介绍,数据方舟是UCloud提供的磁盘级连续数据保护解决方案,能够最大限度防止用户由于误操作、黑客攻击等带来的数据删除或丢失。数据方舟的RTO能够达到最短5分钟内恢复,即使是TB级别的数据量,也可以做到半小时内恢复。

“像用户的一些误操作、勒索病毒等情况,非常容易造成数据丢失,通过数据方舟产品,可以很好地实现回滚操作,恢复数据,确保数据的安全。”彭晶鑫补充道。

观察

UCloud近年来一直强调自身的中立云计算服务商的定位,强调做“不与用户竞争的云”,并且获得了高速的成长和优秀的市场表现。目前,UCloud已经在全球拥有30个可用区,500+CDN节点、104个维护节点,并且长期服务于各大行业不同类型的客户,使得UCloud的云计算基础服务积累了丰富的经验和过硬的产品。

云盘作为UCloud基础服务之一,近年来一直没有停止底层技术上的创新和投入。随着UCloud RSSD云盘的上线,UCloud在云存储服务领域布局日趋完善,从普通的基于HDD的云盘,到基于SSD的云盘,以及性能强悍的RSSD云盘,UCloud的产品布局日趋精细化,未来市场表现值得期待!

分享到: 更多

为您推荐

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注