如果是掌握hadoop的使用,java基础好就可以,看看hadoop权威指南。
想深入学习源码的话,就需要些网络编程的知识了。具体步骤:1.选择一个Hadoop的版本,然后阅读文档了解Hadoop:What's Hadoop, Why Hadoop exists;2.安装Hadoop,三种方式都试下;3.在Hadoop文档里面有Hadoop Command的资料,I.hdfs command,尽量试试这两方面的命令;4.Hadoop Files,看看Hadoop文件的概念,关注它的分布式特点,然后看Reduce函数输出文件;5.自己写WordCount与Advanced WordCount;6.写Sort程序;7.使用RandomTextWriter;8.模仿、、写自己的;9.yahoo有一个Hadoop的教程,英文版的,里面的内容很好;10.《hadoop权威指南》当参考书,自己就可以实战了。
如果是掌握hadoop的使用,java基础好就可以,看看hadoop权威指南。
想深入学习源码的话,就需要些网络编程的知识了。
具体步骤:
1.选择一个Hadoop的版本,然后阅读文档了解Hadoop:What's Hadoop, Why Hadoop exists;
2.安装Hadoop,三种方式都试下;
3.在Hadoop文档里面有Hadoop Command的资料,I.hdfs command,尽量试试这两方面的命令;
4.Hadoop Files,看看Hadoop文件的概念,关注它的分布式特点,然后看Reduce函数输出文件;
5.自己写WordCount与Advanced WordCount;
6.写Sort程序;
7.使用RandomTextWriter;
8.模仿、、写自己的;
9.yahoo有一个Hadoop的教程,英文版的,里面的内容很好;
10.《hadoop权威指南》当参考书,自己就可以实战了!
在平台方面,hadoop环境需要搭建在linux服务器上,首先需要了解Linux的基础知识与命令;
开发方面,hadoop首先是个提供大数据存储的平台,因此我们要使用其存储功能,因此需要掌握其数据操作的api(scala api 或者 java api);其次是hadoop是大数据分析的数据源,熟悉对大数据的 分析/使用 方法(spark/map-reduce技术,都有scala 和 java两种api)。
因此,学习hadoop必须掌握scala或者java中的一门开发语言,然后在学习hadoop数据操作命令,api,spark/map-reduce分析技术。
另外,还可以学习hbase这种基于hdfs的结构化大数据存储技术,和flume大数据采集技术。
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby作为协同服务,HBase利用Zookeeper作为对应。 [1] 上图描述了Hadoop EcoSystem中的各层系统,其中HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。
此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。 Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。
在平台方面,hadoop环境需要搭建在linux服务器上,首先需要了解Linux的基础知识与命令;开发方面,hadoop首先是个提供大数据存储的平台,因此我们要使用其存储功能,因此需要掌握其数据操作的api(scala api 或者 java api);其次是hadoop是大数据分析的数据源,熟悉对大数据的 分析/使用 方法(spark/map-reduce技术,都有scala 和 java两种api)。
因此,学习hadoop必须掌握scala或者java中的一门开发语言,然后在学习hadoop数据操作命令,api,spark/map-reduce分析技术。另外,还可以学习hbase这种基于hdfs的结构化大数据存储技术,和flume大数据采集技术。
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:3.888秒