数据爆炸时代,云存储在“破圈”

受访者 | 陈靓

作者 | 朱雪研

责编 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

我们每时每刻无不在产生数据:据 IDC 发布《数据时代 2025》的报告显示,全球每年产生的数据将从 2018 年的 33ZB 增长到 2025 年的 175ZB,平均每天约产生 491EB 的数据。其中,中国数据圈以 48.6ZB 成为最大的数据圈,占全球 27.8%。

传统的存储方式早已无法适用爆发式增长的数据,如何存储更快、效率更高处理数据对企业来说至关重要。数据洪流时代,云存储应运而生。

与传统的存储设备相比,云存储不仅仅是一个硬件,更是集网络、存储、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分为一体的复杂系统。从严格意义上讲,云存储不是存储,而是服务。

如今,云存储成为存储发展的重要技术趋势,云计算和云存储技术将会掀起创新技术革命。与传统存储相比,云存储如何“破圈”,其发展现状是如何?在商业应用上遇到了哪些瓶颈?企业应该如何选择云服务商?

为更清晰地了解云存储技术,CSDN(ID:CSDNnews)专访南京鹏云网络科技有限公司(下文简称“鹏云网络”)创始人兼CEO陈靓博士,为我们深度解析关于云存储发展趋势、云存储技术等话题。

鹏云网络创始人兼CEO陈靓博士

云存储技术的尴与尬

谈及国内云存储普遍的实现方式,陈靓介绍道,当下国内云存储产品普遍存在对开源产品的依赖,通过对其研究分析、重新包装、界面设计,从而形成自己的产品。主要有三种方式:

一是对国外的开源产品进行架构分析,再重新实现;二是在目前的架构基础上,对开源产品做局部优化;三是对国外的开源产品进行包装,再叠加其它的开源产品。

为何会是如此?

陈靓表示,一方面,企业级分布式存储的商业实现需要研发人员具有资深的开发经验,且产品需要经历较为长久的研发周期。同时,由于分布式存储落地实施难度大,短时间内很难产生商业效益。这令很多公司期望可以采用现有的开源技术,尽快实现市场占有。这种研发方式的大致相同局面,也导致了市场上客户在选创新选择上的缺乏自主性。

鹏云网络从创立伊始坚持自主创新的路径,即从架构到代码实现均采用自主研发创新:拥有国内最早从事大规模分布式存储研发的团队,鹏云网络早在2012年推出自研的分布式软件定义存储(SDS,Software-Defined-Storage)产品ZettaStor,可让用户构建大规模、高弹性、高可用、高可靠的存储资源池,满足用户对海量数据存储需求。

云存储商业应用的三大瓶颈

陈靓谈到,用户在不同的发展阶段,表现出了对分布式存储不同的重点诉求。

例如,客户发展早期业务量尚不具规模,关心的重点是存储系统的稳定运行,这是早期SDS技术发展注重的实现能力。随着大数据时代的到来,电信运营商、金融等行业,受业务流量呈爆发态势的影响,存储的可扩展性、容量等问题凸显,尤其是一些行业的发展需要超大规模数据中心支持。此时,传统存储架构及一些开源产品在扩展性、容量支持方面显现出瓶颈,例如扩展只能支持 PB规模的数据扩展。此时,海量数据存储就变成了企业的刚性需求。

如何破解这些瓶颈?

针对客户当下在应用云存储在系统稳定性、系统扩展性、性能方面的要求,陈靓分享了鹏云网络解决方案:

1、系统稳定性:架构创新降低业务IO波动影响

目前,开源的分布式产品主要依靠分布式哈希算法来管理数据分布。在这种架构情况下,如果底层硬件发生了变化,数据管理需要依赖算法重构,此时势必会导致大量的数据做没有必要的迁移,使真正的业务IO在进入系统时受到阻碍,整个业务系统可能变得不稳定。

鹏云网络从架构上做了创新突破:

从架构层面,依靠元数据来实现数据分布管理,元数据记录用户数据存储的位置,同时通过分布式的方式来管理元数据节点,确保元数据节点系统的稳定性。

在架构之外,如何在硬件出错的情况下,通过软件确保系统不崩掉、上面的业务不出现影响。在实现代码时,鹏云网络会把80%的精力放在错误路径上的处理。采用智能容错技术来确保运维成本的有效降低,故障恢复无需驻场人员,从而实现智能运维。

2、系统扩展性:单一集群可做上万节点

分布式存储依赖监控节点确定存储节点的健康状态,辅助存储节点形成稳定集群。但市场上的分布式存储实现情况是,很多产品只依赖若干个监控节点,相对于存储节点数量来说就监控节点是一个小集群。为此市场上谈分布式,就有了小集群对大集群监控的概念,这势必成为一个瓶颈。

陈靓表示,这并非是纯粹的分布式架构,其系统可扩展性方面势必受到不少牵制。为此,鹏云网络的产品实现了将监控节点分布到所有存储节点上。同时采用打造起分布式SDS系统来实现上万存储节点打造为单一存储资源池的扩展能力,帮助用户有效应对5G、远程医疗、视频监控、物联网等新技术助推海量存储需求。

3、性能:采用数据日志关系管理降低数据访问延迟

传统阵列系统业务访问后端存储路径大致是:网络Fabric+控制器+RAID卡+磁盘。换成SDS分布式存储以后,IO路径变长了:应用数据发给系统空间,系统空间需写若干份副本提交到多个节点缓存,节点缓存flush下盘,依据下盘响应成功应答访问需求。

SDS这个问题严重性,导致SDS向下沉企业核心应用空间成为核心障碍,为此进一步成熟的SDS技术正在需求这一突破。鹏云网络通过自研技术确保业务连续的多副本和纠删码技术,依靠数据日志的关系管理手段确保数据访问延迟进一步降低。

如何选择云存储厂商?

现实中的应用场景种类繁多,不同行业如何选择合适的云存储技术路线?

陈靓认为,随着SDS技术的愈发成熟和在契合场景应用方面产品化的丰富,用户可以有更多选择。

第一,从企业规模来看,对于中小型企业的应用,用户期望快速上云但并不具备较强的IT技术和实施能力,会倾向于选择计算、存储、网络已经融合部署的超融合产品。但对于医疗、运营商、金融等行业,这些相对具有规模的行业,会倾向于选择分离部署。

第二,从承载业务方面看,当需要存储产品承载较关键的业务时,更需要关注应用本身的大小、IO量、业务量、对系统的稳定性要求等。

使用云存储通常是大多数公司处理海量数据的不二选择。面对市场上推出的各种云存储产品,企业应该如何筛选出适合自己的云服务商,在这个过程中有哪些点是企业可以自己把握的?

陈靓认为,企业的云服务选择关系着企业的业务模式、发展理念以及实际的应用场景,企业在选择云服务商时不要盲目跟风追捧:

1、企业可以更多接触不同厂商的思想和理念,和厂商多做交流。

2、在有条件的情况下,选择合适的测试方案,对乙方的产品进行全方面的测试。

因此,在选型时,企业应多请一些不同的厂商分享,在前期多做技术交流、POC测试,寻找适合的测试方案,体现产品在应用环境下真正的需求特点。

云存储的未来

随着新基建和5G大潮的来临,传统的存储方式完全不能满足客户的需求,行业客户已到了不得不用分布式存储或云存储的方式去存储数据的地步。对此,陈靓坚信,未来几年,国内的云存储将会是一个巨大的市场,整个行业和市场将会迎来爆发性的增长

其次,用户对存储产品的要求会越来越高。用户在快速地成长,云存储的使用经验上也比之前丰富。“他们被练成了一双火眼金睛,能够看到目前市场上很多分布式存储本身存在的问题。”

陈靓认为,随着市场规模的扩大,企业的业务架构的变化、丰富,对系统稳定、性能较高、扩展性强的存储产品的需求会越来越多。企业也不会仅仅停留在单纯的通过提升硬件的方式,或简单的POC方式去选择一个产品,他们在选择层面上也变得越来越丰富。

最后,除了对存储产品本身特性的要求外,用户会对存储产品及其应用层面的支持有较大的需求。比如在处理大数据时,他们会要求它的可拓展性、稳定性、架构的搭建等等。

陈靓介绍到,接下来鹏云网络将从这两个方向深耕:

1、鹏云网络产品的定位是打造服务客户数字化转型的分布式存储产品,产品会继续走以激发客户数据价值为中心的创新路线,并会进一步深化在ZettaStor在关键业务场景里的落地应用。

2、在海量数据管理上,会下沉到更多细分业务场景。例如,提供一些便捷处理上层业务的接口,让上层应用方便地处理这些数据。

祝福CSDN

陈靓表示,他发现在 CSDN 上能发现很多很好的原创文章和译文。有时,鹏云网络的研发人员会通过CSDN平台来分享自己的研究成果或是同业界的深入交流。感谢CSDN 20年来一直为整个中国的研发社区提供的大量帮助,仅代表鹏云网络的研发人员向CSDN表示衷心的感谢。

嘉宾简介:鹏云网络创始人兼CEO陈靓博士

  • 江苏省双创人才,江苏省产业教授,南京321人才。
  • 2006-2013年曾在美国亚马逊公司的云计算核心组工作7年,担任系统架构师和团队带头人。2008-2010曾为多个高性能计算国际会议委员和期刊审稿专家。
  • 多项美国专利和中国专利拥有者(云存储方面)。

发表评论

邮箱地址不会被公开。 必填项已用*标注

This site uses Akismet to reduce spam. Learn how your comment data is processed.