2月15日,数仓软件巨头Teradata宣布根据其对中国当前和未来商业环境的慎重评估,将逐步结束在中国的直接运营,后续进入中国公司的关闭程序。
一石激起千层浪,这一消息,在国内的To B市场引起了广泛关注。Teradata这家进入中国市场26年,为国内数仓发展带来重要启蒙,奠定数据服务人才基础,被业界称之为 “数仓人才黄埔军校”的数据软件巨头如今在华落幕,令人感叹。
近些年来,国产大数据基础建设百花齐放、发展蓬勃,中国软件企业在信创产业政策的助攻下,迎来了发展的黄金期,技术和产品能力快速提升,凭借自主可控、创新安全等优势,已经逐步实现对Teradata等国外主流软件的成功替换。
其中包括以Hadoop体系为主的CDH、星环,袋鼠云等公司,以国产化数据库为主的阿里云ADB、华为GussDB、南大通用GBase等数据库厂商,都纷纷在国产化领域交出了不错的成绩单。
袋鼠云从2016年开始一直深耕于大数据领域,以卓越的技术能力服务3000+客户,涉及行业解决方案、大数据产品、数仓交建模交付、数据分析等多个领域。在产品和国际同行之间差距不断缩小的同时,这次Teradata的离开,我们也在思考在这块市场上袋鼠云可以为客户提供什么样的服务。
Teradata无缝迁移至数栈-EasyMR
Teradata是一个MPP数据库,采用share nothing架构,每个节点拥有自己的资源,如CPU、内存、磁盘等,每个APM管理自己的数据协同工作,通过BYNET进行网络互联。在业务场景上,主要应用于数据建模与分析。
Teradate架构图
该类数据库SQL兼容性好,支持事物处理、PB级别结构化数据处理速度快,但集群规模调整要求多,增加节点麻烦,单节点缓慢会拖累整体性能,在大数据量的处理任务上,有支持能力严重不足的问题。
如果客户数据量大,存储和计算成本较高,建议采用Hadoop大数据计算引擎生态,其兼容能力强、扩展性高,基于HDFS进行结构化、非结构化数据存储,Spark、Flink、Trino多类计算引擎可以满足不同分析场景。
袋鼠云数栈自研的大数据基础平台「EasyMR」,是基于Hadoop、Hive、Spark、Flink、HBase、Kafka、Trino等开源组件,构建的弹性计算引擎,提供安全可靠、弹性伸缩、低成本的大数据存储与计算服务。
于2017年投入商业化使用以来,交付过500+商业化客户,覆盖金融、政务、制造、教育等多个行业,期间开源ChunJun、Taier、ChengYing等项目,贡献给开源社区。并于2022年推出EasyMR数据湖版本,在业务场景驱动下,不断完善技术体系,服务大数据市场。
EasyMR可提供的场景解决方案
· ChunJun数据同步插件:双向异构数据源、批流一体的数据同步插件,实现业务数据库向大数据数仓的数据同步,可进行数据整库同步、批同步、实时同步;
· Spark+Hive:分布式离线数据仓库建设,进行数据批处理;
· Spark+Hive+Iceberg/Hudi:离线数仓批处理+数据即时更新;
· Kafka+Flink:实时数据仓库建设;
· Flink+Kafka+Iceberg/Hudi:批流一体化;
· Trino+Hive:OLAP引擎进行亿级数据关联的秒级查询;
· ClickHouse:OLAP引擎进行宽表的毫秒级查询;
· HBase:大数据量存储,高并发快速查询。
Teradata数据库迁移至EasyMR,数栈可提供的服务
· 历史数据的整库迁移;
· Teradata SQL任务的平滑迁移。
袋鼠云大数据基础平台「EasyMR」秉承“信创、开源、轻量、专业”的理念提供安全可靠的大数据存储与计算服务,为企业数字化转型提供基石。
数栈兼容Teradata Vantage数据分析
Teradata Vantage 是一个云计算数据分析平台,提供数据汇聚与建模、数据服务与分析、机器学习建模等能力,同时预置行业数据模型,如FS-LDM涵盖银行、证券、保险的10大主题模型,为客户提供数据分析服务。
袋鼠云数栈提供一站式大数据开发与治理、数据智能分析与洞察、机器与深度学习建模等产品化应用,涵盖离线开发、实时开发、数据资产、数据服务、指标管理分析、客户数据洞察等平台。
提供大数据汇聚、数仓建模、数据治理、数据服务、数据分析的全生命周期能力,并基于Dataops理念构建数据生产流程,加快数据分析链路,为企业数据治理提供易用、稳定的数据平台,达到降本增效的目的。
袋鼠云数栈产品矩阵
· 离线开发平台BatchWorks:一站式大数据批处理平台,涵盖全链路数据集成、数据开发、任务运维、监控告警等功能,具备灵活的多集群、多引擎对接能力,加速释放数据价值;
· 实时开发平台Streamworks:基于Apache Flink 构建的云原生一站式大数据实时平台,覆盖从实时数据采集到实时数据开发全链路流程,提供亚秒级的数据计算处理;
· 数据资产平台DataAssets:采集全量资产数据,打通数据关系网络,实现数据的标准化和资产化管理,提供全域数据治理能力;
· 数据服务平台EasyAPI:可视化生成与注册 API 的数据服务管理平台,快速构建 OneService 数据共享服务;
· 指标管理分析平台EasyIndex:通过指标的规范化定义、标准化开发,搭建企业数据指标体系与自助取数服务,实现指标数据的可视、可用、可管;
· 客户数据洞察平台DataTag:通过标签萃取、标签管理、标签圈群、群组分析、全面画像,构建以业务价值为导向的标签体系和多样化群组,应用于企业智能化运营与营销;
· 数据湖平台EasyLake:提供面向湖仓一体的数据湖管理分析服务,基于统一的元数据抽象构建一致性的数据访问,提供海量数据的存储管理和实时分析处理能力,帮助企业快速构建湖仓一体化平台。
同时,数栈基于在金融、政府、制造、教育等各个行业的客户场景沉淀,产品内置多种行业的数据标准、数仓模型、指标体系、标签体系,为企业数据建设提供参考与赋能,以及提供全国性、本地化的行业咨询与数据交付实施服务。下面简单举几个例子:
● 数据标准行业模板
● 指标体系行业模版
● 标签体系行业模版
不止于此,数栈提供全生命周期的数据建模与服务能力,并预置多种行业模型,为企业数字化转型提供框架与动能。
国产信创,数栈在路上
2月22日,习近平总书记在政治局集体学习会议上强调:“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究平台、仪器设备来解决重大基础研究问题。“
近些年来,在国家政策指导下,企业数字化基础设施逐步国产化。袋鼠云作为国内领先的数字化技术与服务提供商,始终坚持自主研发和国产化路线,高度重视技术创新,公司研发费用逐年提升,研发费用占比高达20%以上,高于行业研发投入的平均水平。
目前,袋鼠云已与麒麟软件、中科方德、浪潮云、华为云、阿里云、瀚高、龙芯科技、中兴通讯等16家国内主流操作系统、服务器、数据库、芯片厂商完成产品兼容性互认证。这大大提升了袋鼠云旗下产品在国内企业应用环境中的兼容性和扩展性,在软硬件层面全面兼容X86、ARM、MIPS架构体系,支持市面所有公有云、私有云、混合云厂商平台,支持CDH、TDH、Libra、Fushionlnsight等存储引擎。
未来,袋鼠云将继续秉承“让数据创造价值”的使命,在大数据道路上持续深耕,为企业的数字化转型贡献自己的一份力量。
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack