欢迎光临若泽数据,专注于数据领域的高薪人才培养!

零基础大数据集训营

一、 课程概述

随着互联网技术的快速发展,海量数据现在已经进入全球经济、互联网、科学计算等诸多领域。与此同时人们对海量数据离线分析处理的需求也越来越强烈。对于海量数据的离线分析已为企业与用户创造很多的价值。本课程致力于解决目前基于Hadoop生态的海量数据离线分析的各方面在大数据场景的使用。

二、 课程目标

  • 全方位掌握Hadoop/Hive架构原理以及在生产中如何使用Hadoop/Hive进行业务分析处理
  • 掌握使用Hadoop和Hive在处理大数据业务分析过程中遇到的各种问题的解决和优化方案
  • 掌握离线批处理通用的系统架构及处理流程,进而达到举一反三的效果,而不是为了学习知识点而学习知识点
  • 掌握以Hadoop为基础的生态系统其他框架的使用;

三、 适合人群

  • 打算毕业后从事找大数据工作的零基础的高校学生
  • 欲转换从事大数据工作的在职人员

四、 课程大纲

1. Linux

  • Linux系统版本介绍
  • VMware虚拟机安装
  • CentOS系统安装
  • 常用工具的安装及使用:SecureCRT、FileZilla、NotePad++/UE等
  • 文件管理
  • 用户组管理
  • 软件安装:JDK、MySQL、Eclipse、IDEA等

2. Hadoop基础

  • 大数据概述
  • Hadoop产生背景
  • Hadoop与Hadoop生态圈
  • Hadoop2.x三大组件详解
  • Hadoop生态系统版本选型
  • Hadoop源码编译
  • Hadoop伪分布式安装
  • Hadoop在企业中的使用

3. 分布式文件系统HDFS

  • HDFS架构设计
  • HDFS副本放置策略
  • HDFS读写流程
  • Shell命令操作HDFS
  • Java API操作HDFS

4. MapReduce

  • MapReduce2架构设计(与MapReduce1对比)
  • WordCount原理和案例编程详解
  • MapReduce Join原理和案例编程详解(多表)

5. YARN

  • YARN架构设计、常用命令和进程
  • YARN工作流程(mr提交应用程序)
  • YARN资源管理与调度、常见参数配置
  • YARN三种调度器详解

6. Hive基础

  • Hive概述、架构、环境部署
  • Hive DDL&DML
  • Join在大数据中的使用详解
  • 函数(Build-in&UDF)在Hive中的使用及整合自定义UDF函数到Hive源码

7. 数据导入导出框架Sqoop

  • Sqoop产生背景、架构、环境部署
  • RDBMS与HDFS的导入导出操作
  • RDBMS与Hive的导入导出操作
  • Sqoop在生产中使用的注意事项

8. 离线项目实战

9. 拓展

  • Apache Beam
  • Hadoop3.0
  • Kudu

五、 开课说明

  • 讲师:若泽团队
  • 授课方式:首期课程将采用实时在线直播(每周三次,每次两小时)+视频录制+在线答疑+群沟通。
  • 软件使用版本:操作系统CentOS6.4+,Hadoop生态软件版本CDH5.7.0
  • 官方课程咨询QQ:1952249535, 交流群QQ:707635769

六、 为什么选择我们

  • 我们的讲师均来自于一线互联网公司架构师、高级工程师,不同于其他机构的全职老师买本书或者买其他机构的视频来讲给学生听,自己都没实战经验如何才能高质量的课程内容;
  • 以实战驱动教学,课程中的项目均为讲师在公司中的真实项目/产品中抽取而来,全程代码驱动,拒绝纯理论;
  • 将晦涩难懂的理论以通俗易懂的方式,并辅以案例并结合源码分析的方式讲解,让学员能够知其然并知其所以然;
  • 除了大纲内容外,还有很多讲师工作经验分享不便一一列出,会在上课过程中讲解;
  • 定期开展学员线下交流,扩展知识面、扩大人际圈;定期开展在线答疑;定期更新课程内容;
  • 所有课程支持离线下载到本地,不受网络限制;可无限次数反复学习。