即便是湖仓一体本身,其构建也有着不同的路径选择。对于一些大厂而言,他们在数据湖和数据仓库方面有着很大的历史包袱,因此在湖仓一体的过程中会将两种产品结合起来打造一体化解决方案。而成立于2016年的偶数科技却不必背上这一包袱。他们打造的湖仓一体架构更贴近于技术发展潮流。
偶数科技的湖仓一体架构利用数据仓库的特性实现了数据湖的特性,能够支持结构化数据和非结构化数据的海量存储,保持存算分离,对海量数据节点能够实现弹性扩展。同时,偶数科技还通过可插拔存储实现了对于S3、HDFS及自研高性能表存储Magma的支持,以此实现了对于结构化、非结构化和半结构化数据的兼容。这就意味着避免了多份数据、多个集群与多个接口的问题,只需存一份数据,即可解决数据处理问题。
在业界来看,数据湖技术已经成熟,但数据仓库依然有各自的解决方案。因此在湖和仓之间如何更好地共享数据,如何支持用户的业务才是湖仓一体架构关注的核心问题。
偶数科技认为湖仓一体化的本质是一个平台,其湖仓一体具备六大关键特性,这成为了其湖仓一体产品的关键要素。
湖仓一体平台应该具备的特点
1. 低成本的全量数据的单一存储;
2. 高性能的数据引擎,其相比Hadoop引擎快30余倍;
3. 良好的可扩展性与敏捷性,这里主要是采用了存算分离的架构,进一步提升了高集群扩展性,可插拔存储框架能够支持不同存储系统或者格式;
4. 事务的一致性保证,支持事务一致性保证ACID,其能够简化程序应用负担的,让用户不再需要考虑事务问题;
5. 多样化工作负载,支持所有工作场景与负载场景,包括各类数据仓库的BI传统报表以及数据湖的AI应用等,均可在同一平台上实现支持;
6. 易于实现的数据治理,能够通过数据治理保障数据质量,更好的支持应用。