大数据管理与应用系统(hadoop)是当今大数据时代最重要的基础平台。hadoop是一个分布式文件系统,它由一组并行运行的节点组成,这些节点通过共享内存的方式协同工作。在集群中每个节点的存储空间都很大,而且数据都是经过压缩的,因此对数据的处理速度很快;另外由于各个节点之间没有直接的数据交换,所以不存在主从关系问题。目前hadoo已经成为世界上最大的大数据计算平台之一。
一、hadoop的主要特点如下:
1、高可靠性:分布式结构、多副本、故障切换等特性保证系统的稳定可靠运行
2、高性能:大规模并行计算保证了系统的性能
3、易扩展性 :高效的容错机制和高效的复制技术保证了系统的可伸缩性
4、低功耗 :集群内各节点的硬件资源可以动态分配
5、高性价比:低廉的价格和大容量的存储使成本大大降低
6、易于管理:通过简单的配置即可实现大规模集群的管理
7、安全性强 :完善的权限控制体系以及加密算法保证了数据的安全
8、支持多种编程语言及数据库类型
9、丰富的api接口: hdfs作为hadoop的一个子集也具有以上特点并且更加丰富和完善.
二、mapred ce mapred ce是由谷歌公司开发的一种开源软件框架(framework),它使用java编写而成。mapred ce提供了一套简单高效的处理大量数据集的解决方案-将一个大型作业分解成多个较小的部分并分别进行处理和管理以完成整个任务。其核心思想就是利用批处理的原理来处理海量数据集的问题.
mapreduce主要包含以下几方面内容:
1、mapper类 用于创建和操作表结构
2、pool类 用于保存和处理集合对象
3、decoder类 用于执行解码操作
4、batchnode用于存放大量的并发线程
三 、spark spring boot spark是一个轻量级的j2ee容器引擎(containerengine)。
spark的核心功能包括以下几个方面:
1.快速查询和分析。
2.流式数据处理与机器学习。
3.持久化存储层
4.消息队列
5.实时通信
6.负载均衡
7.监控分析
8.其他组件如日志收集器等等
springboot是专门为spring应用设计的微服务架构下的企业级微服务框架(enterprise small services framework),主要用于简化构建基于spring的企业级应用的开发流程并提供更灵活的部署选项