博客 一文详解大数据处理都分为哪几步?

一文详解大数据处理都分为哪几步?

   数栈君   发表于 2023-07-25 16:32  353  0
数据的处理过程一般包括采集、传输、清洗、存储、计算、数据运用等环节。大体流程如下:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/article/b7d59bafdfe6cda9871cfacb8826cf73..jpg


这是最基本的流程,当然实际项目中会根据不同项目情况下中间的一些顺序可能会有些调整。
数据采集:
这是第一步,主要是对各种类型的数据通过各种方法进行采集,比如日志数据、文本文件、音视频、传统的关系型数据库等。对于日志文件可以用Flume组件,对于传统的关系型数据库如Mysql,可以用Sqoop,它能够通过简单的命令将关系型数据库中的数据导入到 HDFS 、Hive 或 HBase 中

数据存储:
这里分两种情况,一是实时性要求不高的数据,可以先存储起来,由于大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),所以不适合用传统的MySQL、Oracle等关系型数据库,而要用HBase、MongoDB这类非关系型数据库(即NoSQL数据库)。为什么呢?之前讲过了,掀起NoSQL数据库的盖头来。同时要用到HDFS这类分布式文件系统,便于通过增加机器进行横向扩展。二是实时性要求高的数据可以暂时不存储直接进行计算分析处理系统。

计算分析:
计算分析分离线计算和流式计算。离线即就是数据已经在那放了一段时间,不急着处理,等需要的时候再处理,就是对实时性要求不高。比如家里买了一堆土豆,因为不急着吃,就放那儿,现在准备炒酸辣土豆丝,开始拿来切了,这就是离线处理。这种场景可以用Hadoop MapReduce、Tez、Spark这类组件。流式计算,顾名思义,就是跟流水一样,必须马上处理,不能停。打个不太恰当的比喻,有点像夏天大排档从桶里接啤酒喝,必须马上喝掉。处理这种应用如股票价格预测、金融风险控制,可以用Storm、Spark Streaming、Flink(目前非常流行)等这类组件。

数据运用
数据计算分析完了,就是运用了,说的专业点,叫数据消费。比如数据交互式查询、数据可视化展示、业务决策、个性化推荐等。数据查询可以用Hive、Presto、Impala等组件。数据展示可以用kabina或者Grafana等组件。

其他“幕后”组件
要让上面那些具体“干活”的组件愉快的工作,还有一些在后台充当“服务”角色的组件。
比如怎么快速部署这一堆组件呢?衍生了 Ambari、Cloudera Manager 等集群管理工具,可以更方便地进行集群的部署、监控和管理。
任务很多的时候怎么进行协调呢?产生了 Azkaban 和 Oozie 等工作流调度框架。
怎么保证集群高可用,需要用到 ZooKeeper 提供分布式协调服务,它能够解决大多数集群问题,包括首领选举、失败恢复、元数据存储及其一致性保证。
家都要用资源,怎么针对集群资源管理的需求进行管理,又衍生了 Hadoop YARN。
一大堆流式数据过来实在处理不过来怎么办?Kafka来了,它可以来做缓冲区(蓄水池),用于消峰,避免在秒杀等场景下并发数据对流处理程序造成冲击。
 
所以,你说大数据那些家伙能愉快地玩耍吗?当然可以!至于玩得high不high,看你喽!正所谓,没有他做不到,只有你想不到。

比如:
Flume数据采集—>MapReduce计算---->存入Hbase或者HDFS---->Hive统计分析---->存入Hive表中—>Sqoop导入导出—>Mysql等关系型数据库—>Web展示
又比如:
Flume数据采集—>Kafka消息队列>Storm/Spark streaming/Flink清洗计算---->存入Hbase或者HDFS---->Hive统计分析---->存入Hive表中—>Sqoop导入导出—>Mysql等关系型数据库—>Web展示

免责申明:

本文系转载,版权归原作者所有,如若侵权请联系我们进行删除!

《数据治理行业实践白皮书》下载地址:https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址:https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:

https://github.com/DTStack


0条评论
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群