随着大数据技术的发展成熟以及国家对大数据产业发展的支持,搭建大数据平台也不在限与BAT级别的大型互联网企业,越来越多企业或个人参与到大数据行业中,并且已经尝到了大数据和大数据技术带来的甜头。
一、认识大数据
大数据本质其实也是数据,不过也包括了些新的特征:
数据来源广;
数据格式多样化(结构化数据、非结构化数据、Excel文件等);
数据量大(少也是TB级别的、甚至可能是PB级别);
数据增长速度快。
而针对以上新的特征需要考虑很多问题:
例如,数据来源广,该如何采集汇总?采集汇总之后,又该存储呢?数据存储之后,该如何通过运算转化成自己想要的结果呢?
对于这些问题,我们需要有相对应的知识解决。
二、大数据所需技能要求
Python语言:编写一些脚本时会用到。
Scala语言:编写Spark程序的佳语言,当然也可以选择用Python。
Ozzie,azkaban:定时任务调度的工具。
Hue,Zepplin:图形化任务执行管理,结果查看工具。
Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。
必须掌握的技能:
Java高级(虚拟机、并发)、Linux 基本操作、Hadoop(HDFS+MapReduce+Yarn )、 HBase(JavaAPI操作+Phoenix )、Hive(Hql基本操作和原理理解)、 Kafka、Storm/JStorm、Scala、Python、Spark (Core+sparksql+Spark streaming ) 、辅助小工具(Sqoop/Flume/Oozie/Hue等)
高阶技能6条:
机器学习算法以及mahout库加MLlib、 R语言、Lambda 架构、Kappa架构、Kylin、Alluxio
三、学习规划
第一阶段
Linux学习:Linux操作系统介绍与安装、Linux常用命令、Linux常用软件安装、Linux网络、 防火墙、Shell编程等。
Java 高级学习:掌握多线程、掌握并发包下的队列、掌握JVM技术、掌握反射和动态代理、了解JMS。
Zookeeper学习:Zookeeper分布式协调服务介绍、Zookeeper集群的安装部署、Zookeeper数据结构、命令。
第二阶段
Hadoop 、Hive、HBase、Scala、Spark 、Python
第三阶段
Sqoop、Flume、Oozie、Hue这些工具的学习主要在CSDN,51CTO以及官网都可以学习。
四学习资源推荐
Apache 官网(http://apache.org/)
Stackoverflow(https://stackoverflow.com/)
Github(https://github.com/)
About 云 :http://www.aboutyun.com/
CSDN(http://www.csdn.net/)
51CTO (http://www.51cto.com/)
总结
在技术行业里面,每天都会有新的东西出现,需要关注新技术动态,不断学习。任何一般技术都是先学习理论,然后在实践中不断完善理论的过程。
如果你觉得自己看书效率太慢,你可以网上搜集一些课程。
快速学习的能力、解决问题的能力、沟通能力在这个行业是真的非常重要的指标。
要善于使用StackOverFlow和Google来帮助你学习过程遇到的问题。
以上是对大数据学习的总结,当然也提到了,并不是说一点没接触过的就可以直接学习,需要有编程的基础,我们需要先掌握扎实的编程基础。成为一名工程师的时候,有一定编程经验,自学起来也相对比开始要简单一点,然后对大数据有兴趣或者想要进入这个行业的就可以去学习了。(相关推荐:为什么java培训入职后被辞退)
还在担心web前端好就业吗?看了这么多前端的优势和发展前景,相信心里也有数了,所以别在犹豫了,你在犹豫的时候,别人已经迈进了学习脚步了,别总落后别人,赶快加紧脚步来北大青鸟学习web前端吧!好工作好就业等着你!