Hadoop精华问答|非大数据的项目能否用Hadoop?

   技术的日新月异,让我们见证了Hadoop十年从无到有,再到称王。2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFSMapReduce。到现在的10个年头,这个单词代表的是核心以及与之相关的一个不断成长的生态系统。

一、能不能给点Hadoop的学习方法以及学习规划,Hadoop系统有点庞大,感觉无从学起。

A:首先搞清楚什么是Hadoop以及Hadoop可以用来做什么?然后,可以从最经典的词频统计程序开始,初步了解MapReduce的基本思路和处理数据的方式。接着,就可以正式学习Hadoop的基本原理,包括HDFSMapReduce,先从整体,宏观核心原理看,先别看源码级别。进一步,就可以深入HDFSMapReduce和模块细节,这个时候可以结合源码深入理解,以及实现机制。最后就是需要实战了,可以结合自己的项目或者相关需求来完成一些Hadoop相关应用。

二、以后想从事大数据方面工作,算法要掌握到什么程度,算法占主要部分吗?

A:首先,如果要从事大数据相关领域的话,Hadoop是作为工具来使用的,首先需要掌握使用方法。可以不用深入到Hadoop源码级别细节。然后就是对算法的理解,往往需要设计到数据挖掘算法的分布式实现,而算法本身你还是需要理解的,例如常用的k-means聚类等。

三、大数据处理都是服务器上安装相关软件吗,对程序有什么影响呢,集群、大数据是属于运维的工作内容还是工程师的呢?

A:传统的程序只能运行在单机上,而大数据处理这往往使用分布式编程框架编写,例如Hadoop MapReduce,只能运行在Hadoop集群平台上。

运维的责任:保证集群,机器的稳定性和可靠性

Hadoop系统本身研发:提高Hadoop集群的性能,增加新功能。

大数据应用:把Hadoop作为工具,去实现海量数据处理或者相关需求。

四、Hadoop适不适用于电子政务?为什么?

A:电子政务是利用互联网技术实现政府组织结构和工作流程的重组优化,建成一个精简、高效、廉洁、公平的政府运作信息服务平台。因此电子政务肯定会产生相关的大量数据以及相应的计算需求,而这两种需求涉及的数据和计算达到一定规模时传统的系统架构将不能满足,就需要借助海量数据处理平台,例如Hadoop技术,因此可以利用Hadoop技术来构建电子政务云平台。

总结一下,任何系统没有绝对的适合和不适合,只有当需求出现时才可以决定,在一个非常小的电子政务系统上如果没有打数据处理以及计算分析需求时就不需要hadoop这样的技术,而实际上,商用的电子政务平台往往涉及到大规模的数据和大量的计算分析处理需求,因此就需要Hadoop这样的技术来解决。

五、非大数据的项目能否用Hadoop

A:非大数据项目是否可以用Hadoop的关键问题在于是否有海量数据的存储,计算,以及分析挖掘等需求,如果现有系统已经很好满足当前需求那么就没有必要使用Hadoop,没有必要使用并不意味这不能使用Hadoop,很多传统系统能做的Hadoop也是可以做的,例如使用HDFS来代替LINUX NFS,使用MapReduce来代替单服务器的统计分析相关任务,使用Hbase代替MySQL等关系数据库等,在数据量不大的情况下通常Hadoop集群肯定比传统系统消耗更多的资源。