采访嘉宾|王海涛
想从巨头林立的存储行业破局,面对的可不仅仅是技术挑战
数字化时代,各行业的数据量呈爆炸式增长,信息存储形态日趋多样,存储市场也随之发生了翻天覆地的变化。VMware 提出 SDDC 和 SDS、戴尔收购 EMC、IBM 收购 Cleversafe、微软收购 Avere Systems、谷歌收购 Elastifile 等等事情都在表明,全球存储行业正向着分布式、云化、闪存化的方向发展。存储作为云计算的三驾马车之一,已成为未来数据行业的重要载体。
虽然存储作为未来数据行业的重要载体,有着不可替代的地位。但从大环境来看,存储行业内有华为、浪潮;外有 IBM、EMC,可以说是巨头林立,不但业务壁垒高,竞争也很激烈。涉足这种近乎封闭的存储市场,需要很大的勇气。
为了深入了解创业公司为何冲入巨头林立竞争激励的存储行业?探索中间遇到了哪些挑战?又是如何一步步开辟出来一条新赛道?存储又如何面对未来的多云时代等问题。InfoQ 专访了焱融科技创始人兼 CEO 王海涛,深入剖析焱融科技在存储行业的多年思考、实践和应对方式等。同时也希望此文能为正在探索存储领域的企业和用户带来更多的参考和启发。
存储行业巨头林立,初创公司想突破困局,开辟一条新赛道势必会面临诸多挑战,首当其冲的就是信任挑战。存储作为每个公司的数据支撑,其重要性不言而喻,再加上存储偏封闭的环境,这些因素使得众多企业在选择或替换存储产品的时候都会慎之又慎,对于一个初创型公司来说更是困难。要想破局,突破这些困境,建立企业信任基石,王海涛认为做好以下几件事是关键。
首先,持续深耕存储领域是建立信任的基础。以焱融科技为例,目前公司内部大多数员工在云计算和存储领域都有很深的积累,这使得焱融科技成立早期,比较容易获取到企业客户的好感和认同,其中就有一些种子客户愿意尝试焱融科技的产品。
有了前期的积累,焱融科技后续更大的目标之一就是对早期客户做到足够的技术支持和快速的产品迭代支撑,通过持续不断地打磨产品,让客户对产品和服务满意。虽然焱融科技在知名度上比不上大厂,但得益于产品的自主可靠,焱融科技可以在任何代码级别问题上进行查找、FIX,实现快速应对客户需求,同时利用产品的先进性,帮助客户更好的适应企业内部面对存储的挑战。正因为焱融科技持续专注和深耕存储行业,在近日 Gartner 发布的中国首个《2021 中国软件定义存储竞争格局报告》(Competitive Landscape:Chinese Infrastructure Software-Defined Storage Vendors) 中,焱融科技是唯一入选专注于文件存储方向的厂商。
其次,满足企业场景需求是存储企业迈向下一步发展的关键。王海涛表示,由于每个行业的业务模型、IO 模型不一样,针对同一文件可能就会有顺序读取、大文件读取、海量小文件读取、随机写入等等不同的 IO 逻辑。如何满足不同行业客户的需求,是存储企业需要重点关注的方向。
为此,焱融科技时常会花大量的时间研究每个行业的技术逻辑,并基于研究结果对产品进行持续优化和迭代,自此,慢慢形成行业的技术壁垒和优势。目前,焱融科技已经在 AI、自动驾驶和 GIS(地理信息系统)领域取得了不错的效果。
2019 年,焱融科技服务了一家国内知名语音训练 AI 公司,这家公司主要有两个业务场景,一是以读写为主的机器学习训练场景,二是满足随机读取上亿级别的小文件时,存储性能不下滑的需求。为了满足上述两个需求,焱融科技在 AI 场景下做了许多优化,包括 SSD 智能 Cache、客户端预读机制、NR 替换算法等。通过针对行业持续优化的逻辑,焱融科技逐渐形成了自身在 AI 行业的技术优势。
在 GIS、影视渲染行业,行业特点会更鲜明。以某 3D 影视渲染企业用户为例,该客户的需求是在 Windows 场景下,使用上千台 Maya(开源模型动画设计软件)并行访问同一个存储集群。为了更进一步了解客户需求,焱融科技团队研究了传统 Windows 解决方案。他们从中发现,该方案是基于开源的 SMB 协议开发,中间存在一个较大的问题--难扩展。
对此,王海涛介绍到,“SMB 协议就像高速公路的出口,出口道路宽度有限,当车辆达到一定程度时,很容易出现拥堵的情况,导致底层性能再好也无法发挥实力”。鉴于此情况,焱融科技决定做独立的 Windows 客户端,以此来适配 Windows 场景。
为了测试大规模 Windows 客户端并发访问的场景,焱融科技与 AWS 针对实际渲染应用进行了联合测试。在 8 台 EC2 服务器组成的 YRCloudFile 集群中,焱融科技分别使用 500、600、700、850、1000 台 Windows 客户端,运行 Maya 渲染程序,对原始素材进行了渲染测试。在渲染测试过程中,网络输出的总流量随着客户端数量的增加平稳上升并持续保持稳定,客户端加载渲染素材的平均时间控制在 160 秒左右,满足了企业大规模渲染场景下并发访问对共享文件系统的性能需求。
AWS 8 Server 存储集群 +1000 个 Windows 客户端并发
王海涛表示,焱融科技在 AI 和 GIS 行业投入了很多的努力去做特定的优化。通过长时间的积累,焱融科技已经在这两个行业里具备国内领先性的水平,让其形成了能与国际竞品一较高下的技术壁垒。
在提到为什么选择 AI、自动驾驶和 GIS 这几个看起来不太相近的行业时,王海涛说到,“在选择投入的行业时,我们并不是拍脑袋决定的,每个领域都有经过深思熟虑。虽然表面看起来只有 AI 和自动驾驶比较接近一些,但是它们都有一个相同点--变化无常。这是一个很有意思的地方,无论是新兴行业,还是传统行业,它们的发展都需要依赖计算机以及计算机处理过的信息。因此,我们在早年创业的时候,就希望利用这些行业发展的特质,在不同领域找到属于焱融科技的位置,发挥其最大的优势,帮助企业在行业内迅速站稳脚跟。”
近年来存储形态的变化日趋多样,存储行业的发展也是日新月异。对于这些改变,王海涛认为存储行业的发展是偏被动的。这里的“被动”并不具备消极的含义,所谓“被动”发展,指存储需要根据外界的变化去做相对应的更新适配,这里王海涛从硬件介质变化、业务端平台和云的兴起三个角度,分析了不同诱因下存储技术和行业的发展变化。
首先是硬件介质的变化,也就是半导体方式的变迁。存储设备从传统的 SATA 盘、SSD 盘到 NVMe SSD,再到现在的持久化内存;网络从标准的以太网 10GE 到 25GE 再到 40GE,再到基于 IB(InfiniBand 无限带宽) 的 RDMA(Remote Direct Memory Access)网络,这些改变都是通过不断追求硬件介质的提升,以带来更好的效能支持。其中,介质升级带来的最大变化就是,存储需要根据硬件的变化,推出基于不同介质的存储产品。
以读写 IO 为例,由于传统介质性能有限,操作通常会采用分时复用的方式。即一个读写 IO 对应一个磁盘,在等待磁盘 IO 返回的过程中,可以利用分时复用做其他任务。然而,现在存储介质的性能很高,IO 读写返回速度很快,这时就需要软件层作出改变,适应快速性能带来的变化。像通过绑定 CPU 核心提升性能,利用磁盘 IO 实现持续读写等等就是存储针对介质性能提升作出的优化。
网络也是同样的道理,基于 IB(InfiniBand 无限带宽) 的 RDMA(Remote Direct Memory Access)网络的普及,使用户可以在软件层面做到面对不同网络环境,不同封装协议的数据包时,都能实现更好地传输,进而优化整个传输链路。这对于软件层面和存储层面来说,都具备着很大的挑战。
焱融科技也一直将追求更高介质、网络技术上的产品性能,作为持续追求的目标之一。
其次是整个业务端平台的变化。从以前传统的物理应用部署,到 VMware 虚拟化部署,再到 KVM 虚拟化的兴起,以及现在基于谷歌 Kubernetes 容器平台的兴起。上层业务载体不停地迭代变化,造就存储的变化。
以容器化平台的变化为例,过去三台物理服务器上只能做到 20-30 个左右的应用虚拟化,但是现在三台物理服务器就能实现几百个容器化实例。王海涛提到,当量变达到一定规模时,存储需求就会产生质的改变。同样的容器颗粒度的变化也是一大因素,当前存储需要应用于颗粒度更细致的应用场景,以前是一个虚拟机里有多项服务,现在是一个容器对应一项服务,因此,每个服务的细粒程度都需要存储做更细腻的支撑。这两点简单说明了业务端平台的变化对存储带来的改变。
最后就是云的兴起。云已经有十几年的发展历史了,随着谷歌、微软、亚马逊、阿里、腾讯等企业相继推出云平台,云上产品也越来越成熟。目前,全球对于业务上云已经基本形成了一个明确的认知。那就是,未来无论业务、应用还是整个底层载体都会在云上。存储作为中间重要的载体,如果底层架构已经变成云化的资源,那么传统基于硬件的存储方案,就完全无法适应虚拟化的形态,这时软件定义就必须提升出来。而且只有软件定义还不够,还需要定义到云端的逻辑资源里面去。
举例来说,2018 年 Gartner 定义了 Cloud-Native Storage,推动了云原生存储的发展;另外 Qumulo 也推出了面向混合云场景的新一代文件存储;今天,焱融科技也发布了自己在公有云上的 SaaS 服务——焱融 SaaS 平台,为众多云厂商提供了完善的用户整体解决方案等等。
云的兴起与变迁改变了整个存储架构的设计,过往大家看到的存储后端是一个磁盘,如今存储后端全在云架构上,已经没有物理磁盘的概念了,更多的是云存储、对象存储、块存储、EBS 云盘等形态。而如何通过软件架构把上述形态设计成一个更好的通用型产品,无缝适配不同的虚拟资源,则需要从软件架构上进行改造或重构。
在整个技术发展过程中,介质的变化、业务端平台的变化、云的变化等多种诱因都在促使存储技术做出改变。可以说,存储是以一种“偏被动”的形式在发展。虽是被动发展,却也是企业破局的灵丹妙药。
随着融合公有云和私有云形式的混合云越来越受重视,企业上云已成为大趋势。这里王海涛举了一个 NetApp 的例子。NetApp 很早之前是一家传统的一体机硬件存储厂商,现在已经发展到具备面向云端的服务能力,达到 200 亿美金的市值,实现在云端的营收保持每年 70% 的增长。其实不止这一个例子说明,未来企业上云或者往云的趋势上走,是一个既定事实。回过头来再看国内,虽然有一些特色的情况存在,但是企业上云的节奏是不会变的,只是比例多少的问题。
既然企业上云是既定事实,存储公司如何应对也成了重中之重。王海涛提到,目前公有云厂商在存储维度产品细化较多,仅从文件存储产品来说,就有很多款,对客户来说,他们最大的问题是如何选择存储产品。客户一方面追求极致简单化,又要满足业务的诉求;另一方面又担心数据从云端迁移回到企业内部,或者业务从云端绑定到另一个云的过程是否复杂。这些都是存储厂商在云时代需要解决的问题。
在王海涛看来,未来存储的形态,一定要适应企业业务变化的趋势。同时,存储还需要理解业务,支撑业务,洞察未来业务的发展形态,摸索未来场景,并预先做出相应变化。以焱融科技为例,面向混合云场景提供解决方案就是一种变化,所谓混合云,就是根据业务发展,混合使用公有云、私有云,甚至于多个公有云,进而全面满足企业客户在实际业务场景的存储需求。
存储其实是一个载体,要去服务的是业务平台。
最后王海涛透露,接下来焱融科技将推出社区版,向用户提供免费、不限时的产品。希望可以让更多用户通过更方便的方式了解和使用焱融科技的高性能存储产品,享受云上存储的快感。同时,也期望企业用户通过使用焱融科技的产品,了解到如何在保证当下业务流畅运行的同时,更好地适应新的业务场景并做到无缝切换。打消企业用户对云和容器存储的部分疑虑,满足其上云业务趋势的需求,解决企业选择困难的问题。后续,焱融科技还会重点针对数据迁移提供解决方案,帮助客户实现平滑迁移,不影响客户当前业务。
王海涛,焱融科技创始人兼 CEO,2005 年毕业于清华大学软件学院,2010 年加入 IBM 从事企业私有云的研发、管理工作,曾作为 IBM 全球私有云产品 ICM(IBM Cloud Manage with OpenStack)overall technical lead,金山云私有云技术、产品负责人,有近 10 年的企业级私有云建设经验,是中国最早从事云计算的成员之一。