从事大数据需要学入门知识、Java 基础、 Scala 基础、Hadoop 技术模块 、Hadoop 项目实战 、Spark 技术模块、大数据项目实战,因为大数据不是某个专业或一门编程语言,实际上它是一系列技术的组合运用。
入门知识主要针对的是新手,在学习之前需要先掌握基本的数据库知识。Java 语言具有功能强大和简单易用两个特征,跨平台应用能力比 C、C++ 更易用,更容易上手。同时还具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点。要的一点是 Hadoop 是用 Java 编写的。
Scala 是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。由于 Scala 运行于 Java 平台(Java 虚拟机),并兼容现有的Java 程序,所以 Scala 可以和大数据相关的基于 JVM 的系统很好的集成。
Hadoop能搭建大型数据仓库,PB 级别数据的存储、处理、分析、统计等业务。学完理论就要进行动手实战了,Hadoop 项目实战可以帮助加深对内容的理解,并锻炼动手能力。Spark 和 Hadoop 都是大数据框架。Hadoop 提供了 Spark 所没有的功能特性,比如分布式文件系统,而 Spark 为需要它的那些数据集提供了实时内存处理。所以学习 Spark 也非常必要。
当然企业级的实战项目也是很重要的,这是对常用技能的系统运用,例如使用常用的机器学习进行建模、分析和运算,可以帮我积累到一定的经验。