统计学:《赤裸裸的统计学》、《深入浅出统计学》数学:《高等数学》、《概率论及其应用》、《线性代数及其应用》等Linux操作系统:《Linux 新手终极指南》、《Linux 基础》、《Linux 命令行》Java:《Effective Java》、《Java8实战》、《Java高并发编程实战》大数据Hadoop体系:《Big Data》、《Hadoop权威指南》、《Hive编程指南》Scala黄金语言和Spark:《Learning Spark》、《Spark机器学习:核心技术与实践》。
1.《大数据分析:点“数”成金》
该书向读者介绍怎样将大数据分析应用于各行各业。在中,你将了解到如何对数据进行挖掘,怎样从数据中揭示趋势并转化为竞争策略及攫取价值的方法。这些更有意思也更有效的方法能够提升企业的智能化水平,将有助于企业解决实际问题,提升利润空间,提高生产率并发现更多的商业机会。
2、《大数据时代 》
《大数据时代》是国外大数据系统研究的先河之作,本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。《大数据时代》认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、IBM、苹果、facebook、twitter、VISA等大数据先锋们具价值的应用案例。
3、《云端时代杀手级应用:大数据分析》
《云端时代杀手级应用:大数据分析》分什么是大数据、大数据大商机、技术与前瞻3个部分。第一部分介绍大数据分析的概念,以及企业、政府部门可应用的范畴。什么是大数据分析?与个人与企业有什么关系?将对全球产业造成怎样的冲击?第二部分完整介绍大数据在各产业的应用实况,为企业及政府部门提供应用的方向。提供了全球各地的实际应用案例,涵盖零售、金融、政府部门、能源、制造、娱乐、医疗、电信等各个行业,充分展现大数据分析产生的效益。第三部分则简单介绍了大数据分析所需技术及未来发展趋势,为读者提供了应用与研究的方向。
4、《大数据互联网大规模数据挖掘与分布式处理》
《大数据:互联网大规模数据挖掘与分布式处理》源自作者在斯坦福大学教授多年的“Web挖掘”课程材料,主要关注大数据环境下数据挖掘的实际算法。书中分析了海量数据集数据挖掘常用的算法,介绍了目前Web应用的许多重要话题。主要内容包括:分布式文件系统以及Map-Reduce工具;相似性搜索;数据流处理以及针对易丢失数据等特殊情况的专用处理算法;搜索引擎技术,如谷歌的PageRank;频繁项集挖掘;大规模高维数据集的聚类算法;Web应用中的关键问题:广告管理和推荐系统。
大数据技术学习前的准备知识
(1)英语基础
对于大数据技术文章,比较先进的是外文较多,必须要有一定的英语能力。
(2)统计学
主要是大数据分析、数据挖掘方向的工作需要。可以重点学习:
基本的统计量:均值、中位数、众数、方差、标准差、百分位数等
概率分布:几何分布、二项分布、泊松分布、正态分布等
总体和样本:了解基本概念,抽样的概念
置信区间与假设检验:如何进行验证分析
相关性与回归分析:一般数据分析的基本模型等等。
推荐书籍:
《赤裸裸的统计学》、《深入浅出统计学》
(3)数学
和数据打交道,数学知识是有很大帮助的,尤其是数据分析这个方向。需要的数学知识如下:
概率论与数理统计
线性代数
优化理论:线性优化、最优化、凸优化等
离散数学等
推荐学习资源:
《高等数学》、《概率论及其应用》、《线性代数及其应用》等
(4)计算机知识
网络体系结构
网络协议
数据传输过程
网络安全
多媒体数据传输等
推荐书籍:
《计算机基础知识入门》、《计算机组成原理》、《计算机系统》、《编译原理》、《语言与计算机》
2、Linux操作系统
要了解操作系统体系结构、任务调度、内存管理、存储管理、命令解释、界面管理、文件管理等基本内容。
Linux基础
Linux系统管理
基础网络服务
系统管理进阶及运维自动化工具
推荐学习资源:
Linux 基金会关于 Linux 的介绍、《Linux 介绍》、《Linux 新手终极指南》、《Linux 基础》、《Linux 命令行》
3、JavaSE
Java经过二十多年的发展,目前应用十分广泛,具有健全的生态体系,网络上的学习资源很多,且相当一部分系统清楚。Java和大数据有直接的关系,学习大数据之前,需要先学习这门编程语言,尤其是大数据开发方向。
变量、循环、if等等;面向对象;I/O输入和输出(HDFS会用到);反射、泛型,MR查询等
JavaSE书籍推荐:
《Java编程思想》、《Java核心技术卷一》、《Effective Java》、《深入理解Java虚拟机》、《Java8实战》、《Java高并发编程实战》
近两年,大数据火了,所以跟风了解了一下
给你推荐《大数据时代——生活、工作与思维的大变革》,这一本算是大数据领域入门的不二选择,从思维变革、商业变革、管理变革三个部分阐述大数据对生活、工作、思维的改变。
里面有很多案例,可读性很强,重点是要了解大数据,需要先了解大数据思维,它是一种很颠覆的思维方式,这本书里面讲得比较清晰。
值得一提的是译者周涛,有“最年轻的教授”之称,是我国年轻有为的大数据专家,电子科技大学互联网科学中心主任、教授、博士生导师。也是商业大数据服务公司数联铭品的首席科学家。
两本: 《大数据:正在到来的数据革命》 涂子沛 《大数据时代:生活、工作与思维的大变革》 维克托?迈尔-舍恩伯格 (Viktor Mayer-Sch?nberger) (作者),肯尼思?库克耶 (Kenneth Cukier) (作者),盛杨燕 (译者),周涛 (译者) 嫌少再加两本: 《删除:大数据取舍之道》 维克托?迈尔-舍恩伯格 (Viktor Mayer-Sch?nberger) (作者),袁杰 (译者) 《爆发:大数据时代预见未来的新思维》 艾伯特?拉斯洛?巴拉巴西(Albert László Barabási) (作者),马慧 (译者)。
1、《Hadoop权威指南》
现在3.1版本刚刚发布,但官方并不推荐在生产环境使用。作为hadoop的入门书籍,从2.x版本开始也不失为良策。
本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。刚刚更新的版本中,相比之前的版本增加了介绍YARN , Parquet , Flume, Crunch , Spark的章节,非常适合于Hadoop 初学者。
2、《Learning Spark》
《Spark 快速大数据分析》是一本为Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark 的用法,它对Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。
3、《Spark机器学习:核心技术与实践》
以实践方式助你掌握Spark机器学习技术。本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。
初级阶段:《大数据时代》
读完这本书,要求你形成大数据的概念,对大数据有个全面的认识和了解。
中级阶段:《失控》
用统计的方法,而不是因果的方法,预测未来,用统计的方法来对某些东西进行预测.
高级阶段:《复杂性》
指明了一个无穷叠代,即 “关系的关系的……关系”,而智能将在这里涌现,解决复杂性问题预测的关键很可能就在这里,这句话打开了一个非常广阔的前景,将象宇宙一样没有穷尽。
高级阶段(2):《量子物理史话》
停止争论吧,上帝真的掷骰子!随机性是世界的基石,当电子出现在这里时,它是一个随机的过程,并不需要有谁给它加上难以忍受的条条框框。……而统计规律则把微观上的无法无天抹平成为宏观上的井井有条。——摘自《量子物理史话》
声明:本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
蜀ICP备2020033479号-4 Copyright © 2016 学习鸟. 页面生成时间:2.703秒