大数据治理平台(bdp)是数据中心的基础设施,也是数据中心的核心竞争力之一。它通过将异构的、分散的数据源进行整合和治理,实现对数据的采集、存储和计算能力的集中管理和控制,从而提升大数据的处理效率。目前市场上已经出现了多种大数据平台产品。
其中比较典型的有:
hadoop-clod(hadoop云)、sparkstreamingsite(spark流服务组件)和mesos等;另外还有基于开源框架的大数据分析工具包sqlonhadoop等。
大数据平台在企业中扮演着非常重要的角色:
一方面可以降低企业的it成本;另一方面可以帮助企业快速构建大数据应用并提高业务能力;同时还可以帮助企业在现有系统基础上进行升级改造以适应新的业务需求和发展方向。
传统的it架构下需要建设多个服务器集群才能满足大规模数据处理的要求,随着互联网的发展以及云计算技术的普及和应用,”大机群”逐渐成为过去式了!在大规模数据处理方面,传统架构无法应对日益增强的处理压力和大规模的并发访问要求,因此必须采用分布式计算模式来替代传统的集中式的计算模式。在这种情况下就诞生了分布式数据库技术,如hdfs、mysql、oracle等。但是它们都是针对单一系统的解决方案,并不能很好地满足多系统环境下的复杂场景的需求。
而随着近年来大数据技术的发展,特别是hadoop的出现,使得这种需求得到了很好的解决!目前主流的数据库厂商都推出了自己的分布式文件存储方案:
例如oracle推出的cassandra以及ibm的blemf2k等;这些方案都可以提供高可用性和高性能的计算能力!而为了更好的支持海量数据的处理和分析工作,又诞生了一种新型的分布式关系型数据库-hive!它能够把分布在不同位置的多个表连接起来组成一个巨大的内存库用于实时查询和分析数据!
与其他类型的数据库相比hive具有以下优势:
1. 数据量大且分布范围广 :一个节点上可运行数十万个实例
2. 高性能和高可靠性:每个节点上的每个实例每秒能执行数百万次查询
3. 可扩展性高:可以根据实际需求随时增加或减少节点
4. 易于维护和管理
5. 支持事务处理
6. 支持多语言版本
7. 提供丰富的插件支持
8. 多种备份机制
9. 支持负载均衡
10. 提供强大的图形化用户界面
11. 快速开发
12. 容易部署和维护
13. 安全性好
14. 对大型网站的支持
15. 能够与现有的应用程序集成在一起
16. 能够自动