写给入门者,长文阐述大数据学习与面试
发布时间:2021-10-29 14:14:48 所属栏目:大数据 来源:互联网
导读:大数据怎么学,该学哪些东西,不需要学哪些东西,是大家问的最多的一个问题,也有不少同学问培训机构讲的框架太多了,是否都要掌握,接下来我们逐个解析。 从 2008 年 Hadoop 成为 Apache 顶级项目开始,大数据迎来了体系化的快速发展,到如今已经走过十几个
大数据怎么学,该学哪些东西,不需要学哪些东西,是大家问的最多的一个问题,也有不少同学问培训机构讲的框架太多了,是否都要掌握,接下来我们逐个解析。
从 2008 年 Hadoop 成为 Apache 顶级项目开始,大数据迎来了体系化的快速发展,到如今已经走过十几个年头,这些年里大数据框架层出不穷,可以用“乱花渐欲迷人眼”形容,框架这么多,应该怎么学?
我们可以思考下整个大数据的流程是什么,从数据采集->数据存储->数据处理->数据应用,再加一个任务调度。每个流程都有很多对应的大数据框架,我们学习其中一两个比较重要,也就是企业用的较多的框架即可。
数据采集:就是把数据从其他平台采集到我们大数据平台,只是负责采集数据,所以对这个流程的框架要求是会用即可,日志采集工具如Flume,大数据平台与传统的数据库(mysql、postgresql...)间进行数据的传递工具如Sqoop,我们会用即可,这种工具上手也很快,没有太复杂的功能。
数据存储:数据存储就比较重要了,大数据如此流行,和大规模分布式数据存储快速发展有很大关系,当然数据存储的框架也比较多,不同的框架,功能不太一样,首先第一个:Hadoop HDFS,分布式文件系统,HDFS的诞生,解决了海量数据的存储问题, 但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了 HBase、MongoDB等。
(编辑:站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐